Crawlee Python : Le Guide Complet du Web Scraping et de l'Automatisation de Navigateur

Le web scraping en Python a toujours signifié choisir entre vitesse (HTTP brut + parseur) et capacité (navigateur headless). Crawlee élimine ce compromis avec une interface unifiée qui gère les deux — tout en paraissant humain aux systèmes de détection de bots.
Développé par Apify, Crawlee pour Python apporte une infrastructure de crawling de niveau production à vos scripts Python. Avec 8 400+ étoiles sur GitHub, il devient rapidement l'alternative moderne à Scrapy.
Statistiques Clés
| Métrique | Valeur |
|---|---|
| Étoiles GitHub | 8 400+ |
| Forks | 662 |
| Créé | Janvier 2024 |
| Langage | Python |
| Licence | Apache 2.0 |
| Releases | 58 |
| Créé par | Apify |
| Site Web | crawlee.dev/python |
Qu'est-ce que Crawlee ?
Crawlee est une bibliothèque de web scraping et d'automatisation de navigateur pour Python :
- Extraction de données pour l'IA, les LLM, les pipelines RAG ou les GPT
- Téléchargement de fichiers — HTML, PDF, JPG, PNG
- Crawling de sites avec découverte automatique de liens
- Contournement des protections anti-bot avec un comportement humain par défaut
Fonctionne avec Parsel, BeautifulSoup, Playwright et HTTP brut.
Deux Types de Crawlers
BeautifulSoupCrawler
Pour le scraping HTML rapide sans exécution JavaScript.
PlaywrightCrawler
Pour les sites JavaScript lourds nécessitant un rendu navigateur.
Fonctionnalités Clés
- Interface unifiée — Même API pour HTTP et navigateur headless
- Crawling parallèle automatique — S'adapte aux ressources système
- Retries automatiques — Gère les erreurs et blocages gracieusement
- Rotation de proxy — Gestion intégrée des proxys et sessions
- File d'attente persistante — Reprise des crawls après interruption
- Stockage flexible — Datasets tabulaires et key-value stores
- Type hints complets — Autocomplétion IDE et vérification statique
- Basé sur Asyncio — Python async moderne
Pourquoi Crawlee Plutôt que Scrapy ?
| Aspect | Crawlee | Scrapy |
|---|---|---|
| Async | ✅ Asyncio natif | Twisted |
| Type hints | ✅ Complets | Partiels |
| Intégration | ✅ Script Python simple | Framework requis |
| Persistance d'état | ✅ Intégrée | DIY |
| Support navigateur | ✅ Playwright intégré | Splash/plugin |
| Anti-bot | ✅ Par défaut | Middleware nécessaire |
Installation
# CLI (recommandé)
uvx 'crawlee[cli]' create my-crawler
# Manuel
pip install 'crawlee[beautifulsoup]'
pip install 'crawlee[playwright]'
Conclusion
Crawlee Python est ce que le web scraping aurait dû être depuis le début : une seule bibliothèque qui gère HTTP, automatisation navigateur, rotation de proxy, erreurs et stockage — le tout avec une API propre, typée et asyncio. Avec 8 400+ étoiles et le soutien d'Apify, Crawlee offre une infrastructure de crawling de niveau production sans la courbe d'apprentissage de Scrapy.