firecrawl-crawl

par firecrawl

firecrawl-crawl aide les agents à extraire en masse le contenu d’un site web ou d’une section de documentation grâce à des filtres de chemin, des limites de profondeur, des plafonds de pages, un mode d’attente et des vérifications de statut de tâche.

Étoiles234

Favoris0

Commentaires0

Ajouté31 mars 2026

CatégorieWeb Scraping

Commande d’installation

npx skills add firecrawl/cli --skill firecrawl-crawl

Score éditorial

Cette compétence obtient un score de 74/100, ce qui signifie qu’elle peut figurer dans le répertoire et qu’elle sera probablement utile aux agents qui doivent extraire du contenu à l’échelle d’un site entier ou d’une section. En revanche, les utilisateurs du répertoire doivent s’attendre à un guide assez centré sur les commandes plutôt qu’à un workflow complet et très encadré. Les éléments visibles dans le dépôt montrent de bons signaux de déclenchement et des exemples CLI concrets pour le crawling avec limites, profondeur et filtres de chemin, ce qui donne aux agents des consignes d’exécution plus fiables qu’un prompt générique.

74/100

Points forts

Déclenchement solide : la description mentionne explicitement des intentions de type crawl comme "get all the pages", "/docs" et "bulk extract".
Exploitable en conditions réelles : SKILL.md inclut des exemples concrets de `firecrawl crawl` pour crawler une section, limiter la profondeur et vérifier une tâche de crawl en cours.
Bon levier pour les agents sur un workflow courant : la compétence documente des contrôles clés comme `--include-paths`, `--limit`, `--max-depth`, `--wait` et `--progress` pour les tâches d’extraction en masse.

Points de vigilance

Contexte limité pour décider de l’installation : aucune commande d’installation n’apparaît dans SKILL.md, et il n’y a ni fichiers de support, ni références, ni métadonnées pour aider les utilisateurs à évaluer les prérequis de configuration.
La profondeur du workflow semble modeste : les signaux structurels montrent des exemples de workflow, mais peu d’éléments sur les contraintes, la gestion des cas limites ou le dépannage.

Scraping Websites Website Cli Firecrawl Workflow

Vue d’ensemble

Présentation de la skill firecrawl-crawl

À quoi sert firecrawl-crawl

La skill firecrawl-crawl est conçue pour l’extraction de sites web en volume, pas pour le scraping d’une seule page. Elle aide un agent à parcourir un site ou une section précise, à suivre les liens et à récupérer le contenu de nombreuses pages en une seule opération. Si votre objectif est de « récupérer toutes les pages de documentation », « extraire tout ce qui se trouve sous /docs » ou « crawler ce centre d’aide jusqu’à une profondeur de 3 », c’est l’outil adapté.

À qui s’adresse firecrawl-crawl

firecrawl-crawl convient particulièrement à celles et ceux qui doivent collecter du contenu sur plusieurs pages pour de l’analyse documentaire, une migration, de l’indexation, de la QA, de la recherche ou de l’ingestion de connaissances. C’est particulièrement utile lorsqu’un simple prompt serait trop manuel, parce que le contenu ciblé s’étend sur des dizaines de pages liées entre elles au sein du même domaine.

Le vrai besoin couvert

On adopte firecrawl-crawl quand on a besoin de couverture, et pas seulement de précision sur une URL unique. Le vrai enjeu consiste à définir un périmètre de crawl suffisamment clair pour que l’outil collecte les bonnes pages sans perdre de temps sur des sections non pertinentes, des doublons ou l’ensemble du site public.

Ce qui distingue cette skill

Ses principaux points différenciants sont des contrôles de crawl réellement opérationnels : filtrage par chemin, limites de profondeur, limites de pages, gestion asynchrone des jobs, et comportement optionnel d’attente/progression. C’est ce qui rend firecrawl-crawl for Web Scraping plus concret et exploitable qu’une simple consigne générique du type « scrape ce site ».

Quand cette skill est un bon choix

Utilisez la firecrawl-crawl skill lorsque :

vous avez besoin de nombreuses pages d’un même site
les pages sont accessibles via des liens internes
vous souhaitez limiter le périmètre avec /docs, /blog ou des chemins similaires
vous avez besoin d’une commande de crawl réutilisable plutôt que d’un prompting ad hoc

Quand il ne faut pas l’utiliser

Ne commencez pas avec firecrawl-crawl si vous n’avez besoin que d’une seule page, si vous devez d’abord obtenir un inventaire d’URL, ou si vous ne savez pas encore quelle section est pertinente. Dans ces cas-là, des étapes plus simples de search, scrape ou map sont généralement préférables avant de passer à un crawl.

Comment utiliser la skill firecrawl-crawl

Contexte d’installation de firecrawl-crawl

Cette skill fait partie du jeu de skills firecrawl/cli et est pensée pour être invoquée via les outils Firecrawl CLI. Si votre environnement prend en charge les Skills, le schéma d’installation pratique est :

npx skills add https://github.com/firecrawl/cli --skill firecrawl-crawl

Vous devez aussi disposer de la Firecrawl CLI pour que l’agent puisse exécuter des commandes comme firecrawl crawl ou npx firecrawl crawl.

Le premier fichier à lire

Commencez par skills/firecrawl-crawl/SKILL.md. Pour cette skill, ce fichier concentre l’essentiel de la valeur opérationnelle : quand l’utiliser, les commandes de démarrage rapide et les options clés qui pilotent le périmètre du crawl et son comportement à l’exécution.

Modèles de commandes essentiels

Le dépôt présente trois grands schémas de firecrawl-crawl usage :

# Crawl a docs section
firecrawl crawl "<url>" --include-paths /docs --limit 50 --wait -o .firecrawl/crawl.json

# Full crawl with depth limit
firecrawl crawl "<url>" --max-depth 3 --wait --progress -o .firecrawl/crawl.json

# Check status of a running crawl
firecrawl crawl <job-id>

Ils couvrent la plupart des workflows réels : crawl ciblé sur une section, crawl plus large d’un site avec contrôle de profondeur, et interrogation d’un job déjà lancé.

Les entrées qui comptent le plus

Pour obtenir de bons résultats avec firecrawl-crawl, fournissez :

une URL de départ propre
la section du site visée, s’il y en a une
une limite de pages raisonnable avec --limit
une limite de profondeur avec --max-depth si le site est vaste
si vous voulez une exécution synchrone via --wait
un chemin de sortie pour pouvoir inspecter facilement les résultats ensuite

Le plus grand levier de qualité, c’est le périmètre du crawl. Une bonne délimitation compte généralement plus que n’importe quel traitement en aval.

Transformer une demande vague en prompt solide

Demande faible :

« Crawl ce site web et récupère tout. »

Demande plus solide :

« Utilise firecrawl-crawl sur https://example.com, limite-toi à /docs, plafonne à 50 pages, attends la fin de l’exécution, enregistre la sortie dans .firecrawl/crawl.json, puis résume les principales pages de configuration du produit après l’extraction. »

Pourquoi cela fonctionne :

la skill est explicitement nommée
une URL de départ est fournie
le chemin est restreint
le coût et le temps d’exécution sont maîtrisés
l’action attendue après la fin du crawl est précisée

Le meilleur workflow pour une première exécution

Un firecrawl-crawl guide pratique pour démarrer :

Choisissez l’URL de départ la plus étroite qui reste utile.
Ajoutez --include-paths si vous n’avez besoin que d’une section.
Réglez --limit de manière prudente pour le premier passage.
Ajoutez --max-depth si le site comporte beaucoup de branches.
Utilisez --wait pour les exécutions simples, ou soumettez le job puis vérifiez-le plus tard pour les crawls plus volumineux.
Enregistrez la sortie avec -o pour pouvoir vérifier ce qui a réellement été collecté.

Cette séquence réduit les crawls inutiles et facilite l’ajustement du périmètre après un premier résultat.

Les contrôles de périmètre qui évitent les mauvais crawls

Les options les plus importantes mises en avant par la skill sont :

--include-paths pour maintenir le crawl dans la bonne section
--limit <n> pour éviter une explosion du nombre de pages
--max-depth <n> pour empêcher une exploration trop profonde
--wait pour bloquer jusqu’à la fin
--progress pour suivre l’avancement pendant l’attente

Si vous les ignorez, un crawl peut devenir beaucoup trop large plus vite qu’on ne l’imagine, surtout sur des sites de documentation avec changelogs, liens de blog ou navigation fortement interconnectée.

Mode asynchrone ou mode attente

Utilisez --wait si vous voulez une étape unique dans le workflow et que le crawl doit se terminer tout de suite. Ne l’utilisez pas si le crawl risque d’être plus long et que vous préférez un workflow piloté par job. Le dépôt indique clairement qu’il est possible de vérifier l’état plus tard avec firecrawl crawl <job-id>, ce qui est utile pour les traitements plus lourds ou les workflows d’agent qui séparent la soumission de l’analyse.

Gestion de la sortie et relecture

Sur les exécutions sérieuses, écrivez toujours le résultat dans un fichier, par exemple :

firecrawl crawl "https://example.com" --include-paths /docs --limit 50 --wait -o .firecrawl/crawl.json

Cela simplifie la vérification après exécution. Avant de demander à l’agent de résumer ou transformer les résultats, vérifiez que la sortie contient bien la section visée et le volume de pages attendu. Un mauvais périmètre de crawl produit presque toujours une mauvaise synthèse en aval.

Bons cas d’usage de firecrawl-crawl

Parmi les usages à forte valeur :

collecter toutes les pages de documentation pour une comparaison de produits
récupérer une section de centre d’aide pour la recherche interne ou la préparation RAG
extraire un ensemble de guides de migration avant une réécriture documentaire
faire du bulk scraping sur une section connue d’un site, lorsque les liens relient déjà les pages pertinentes

Ces scénarios sont bien mieux adaptés que « trouve tout ce qui peut être intéressant sur ce domaine ».

FAQ sur la skill firecrawl-crawl

firecrawl-crawl est-il accessible aux débutants ?

Oui, à condition de bien comprendre la différence entre le scraping d’une page unique et le crawl multi-pages. La surface de commande reste réduite, mais les débutants devraient commencer par un chemin étroit et une petite limite de pages pour éviter des exécutions trop volumineuses.

Quelle différence entre firecrawl-crawl et un prompt classique ?

Un prompt simple peut décrire l’objectif, mais firecrawl-crawl donne à l’agent un chemin opérationnel explicite : soumettre un job de crawl, contrôler la profondeur et les limites, attendre éventuellement la fin, puis enregistrer une sortie structurée. Cela réduit les approximations et rend les exécutions répétées plus cohérentes.

Quand utiliser firecrawl-crawl plutôt que scrape ?

Utilisez firecrawl-crawl lorsque le contenu cible s’étend sur de nombreuses pages liées entre elles. Utilisez scrape si vous n’avez besoin que d’une URL connue. Si vous ne savez pas encore quelles pages sont importantes, une étape de map ou de search peut être plus adaptée avant de lancer un crawl.

firecrawl-crawl est-il adapté à une extraction de site complet ?

Parfois, mais seulement si vous pouvez accepter une couverture large et que vous avez défini de bonnes limites. Pour les grands sites, « site complet » est souvent un mauvais premier essai. Un crawl d’une sous-section de documentation est généralement bien plus pratique qu’un départ depuis la page d’accueil avec des contrôles trop lâches.

firecrawl-crawl fonctionne-t-il bien pour les sections de documentation ?

Oui. Les exemples du dépôt mettent explicitement en avant l’extraction par section, comme /docs, ce qui en fait l’un des meilleurs cas d’usage de firecrawl-crawl for Web Scraping.

Qu’est-ce qui peut bloquer de bons résultats ?

Les blocages les plus courants sont un périmètre flou, l’absence de filtres de chemin, l’absence de plafond de pages, et un mauvais choix d’URL de départ. Ce ne sont pas des détails secondaires : ce sont eux qui déterminent directement si la sortie sera utile ou surtout bruitée.

Comment améliorer la skill firecrawl-crawl

Définissez des limites de crawl plus strictes avec firecrawl-crawl

La manière la plus rapide d’améliorer la sortie de firecrawl-crawl consiste à définir précisément le périmètre du crawl. Indiquez l’URL de départ, le chemin de section, le plafond de pages et la profondeur souhaitée. « Crawl la documentation sous /docs jusqu’à 2 niveaux de profondeur » est bien meilleur que « crawl le site ».

Commencez petit, puis élargissez

Pour une meilleure adoption et moins d’exécutions perdues, commencez par un petit crawl de validation :

--limit faible
--include-paths étroit
--max-depth modéré

Si la sortie semble correcte, augmentez ensuite la limite. Cela permet d’attraper les erreurs de périmètre avant qu’elles ne deviennent coûteuses ou lentes.

Rédigez des prompts qui incluent la tâche après le crawl

firecrawl-crawl install ne suffit pas à garantir le succès. Indiquez aussi à l’agent ce qu’il doit faire après l’extraction. Exemple :

« Utilise firecrawl-crawl pour extraire /docs jusqu’à 50 pages, enregistre dans .firecrawl/crawl.json, puis identifie les pages d’onboarding, d’authentification et de référence API. »

Cela améliore l’utilité de bout en bout, car le crawl et l’analyse sont alignés dès le départ.

Évitez les modes d’échec fréquents

Problèmes courants avec la firecrawl-crawl skill :

démarrer depuis la page d’accueil alors qu’une seule section est nécessaire
omettre --limit sur un grand site
omettre --max-depth quand la navigation est dense
oublier -o et perdre un point de contrôle simple
demander « tout » sans définir la pertinence métier

Itérez à partir de la sortie, pas d’hypothèses

Après la première exécution, inspectez ce qui a réellement été collecté. Si les pages non pertinentes dominent, resserrez --include-paths ou réduisez la profondeur. Si des pages importantes manquent, augmentez la profondeur ou partez d’un point d’entrée plus pertinent. Le meilleur firecrawl-crawl guide est itératif : crawler, inspecter, ajuster, relancer.

Gardez firecrawl-crawl dans le bon rôle

Utilisez firecrawl-crawl pour la collecte, puis passez à des étapes de synthèse, de classification, de comparaison ou d’indexation. Essayer de faire porter à l’étape de crawl toutes les tâches aval en une seule fois réduit généralement la clarté. La skill est la plus efficace lorsqu’elle constitue d’abord le bon corpus.

Notes et avis

Aucune note pour le moment

Partagez votre avis

Connectez-vous pour laisser une note et un commentaire sur cet outil.

0/10000

Derniers avis

Enregistrement...

Autres outils de cette catégorie

huggingface-datasets

par huggingface

Utilisez le skill huggingface-datasets pour les workflows de l’API Hugging Face Dataset Viewer afin de valider des datasets, résoudre les splits, prévisualiser et paginer les lignes, rechercher du texte, appliquer des filtres, et récupérer des liens Parquet ou des statistiques. C’est un guide pratique huggingface-datasets pour explorer des datasets en lecture seule.

Web Scraping

Favoris 0GitHub 10.4k

data-scraper-agent

par affaan-m

data-scraper-agent aide à mettre en place un pipeline de données publiques reproductible pour le web scraping, l’enrichissement et le stockage. Il est conçu pour suivre des jobs, des prix, des actualités, des repos, des résultats sportifs et des annonces selon un planning, via GitHub Actions, avec des sorties vers Notion, Sheets ou Supabase. Idéal pour un suivi continu, pas pour des extractions ponctuelles.

Web Scraping

Favoris 0GitHub 156.1k

baoyu-url-to-markdown

par JimLiu

baoyu-url-to-markdown convertit des URL en direct en Markdown via le CLI embarqué baoyu-fetch, avec Chrome CDP, des adaptateurs par site et un mode de repli générique. Vérifiez les exigences d’exécution avec Bun, la configuration initiale de `EXTEND.md`, ainsi que l’usage pour X, YouTube, Hacker News et les pages rendues.

Format Conversion

Favoris 0GitHub 13.2k

x-twitter-scraper

par Xquik-dev

Utilisez x-twitter-scraper pour récupérer des données X (Twitter) et exécuter des actions soumises à confirmation via Xquik. L’outil prend en charge la recherche de tweets, la consultation d’utilisateurs, l’extraction de followers, le téléchargement de médias, les monitors, les webhooks, MCP et les actions d’écriture. Idéal pour des recherches de type web scraping avec une clé API, sans avoir à utiliser des identifiants de connexion X.

Web Scraping

Favoris 0GitHub 71

exa-search

par K-Dense-AI

exa-search est un skill de recherche web propulsé par Exa, conçu pour trouver des informations à jour et extraire du contenu depuis des URLs. Utilisez-le pour la recherche web, la découverte de sources, l’extraction d’articles et de PDF, ainsi que pour des recherches techniques ou scientifiques grâce à une récupération sémantique, un filtrage de type académique et des indications claires d’installation et d’utilisation.

Web Research

Favoris 0GitHub 0

browser-use

par browser-use

browser-use est une skill d’automatisation de navigateur qui permet d’ouvrir des pages, d’inspecter l’état, de cliquer sur des éléments indexés, de saisir du texte dans des champs, de prendre des captures d’écran et de réutiliser une session de navigateur persistante. Utilisez-la pour le remplissage fiable de formulaires, la navigation et les workflows en mode connecté avec la CLI browser-use.

Browser Automation

Favoris 0GitHub 84.9k

remote-browser

par browser-use

remote-browser aide les agents isolés en sandbox à piloter un navigateur headless pour l’automatisation du navigateur. Utilisez-le pour ouvrir des pages, inspecter l’état, cliquer sur des éléments indexés, saisir du texte, prendre des captures d’écran et se connecter à des applications locales ou à des sessions de navigateur compatibles CDP.

Browser Automation

Favoris 0GitHub 84.9k

firecrawl

par firecrawl

Skill firecrawl pour installer, authentifier et utiliser le CLI officiel Firecrawl pour le scraping web, la recherche, le crawl et l’interaction avec les pages. Découvrez la configuration, `firecrawl --status`, la connexion, l’écriture sécurisée des fichiers dans `.firecrawl/` et des usages concrets appuyés par le repo.

Web Scraping

Favoris 0GitHub 234

firecrawl-search

par firecrawl

firecrawl-search est une skill de recherche web conçue pour trouver des sources, effectuer des recherches structurées et, si besoin, extraire le contenu complet de pages au format JSON avec Firecrawl CLI.

Web Research

Favoris 0GitHub 234

parallel-web

par K-Dense-AI

parallel-web est une skill de recherche et d’extraction web propulsée par parallel-cli. Elle vous aide à rechercher sur le web, extraire le contenu d’URL, enrichir des données à partir de sources et mener des recherches approfondies en privilégiant les sources académiques et scientifiques. Utilisez-la pour l’usage de parallel-web, la recherche web, les citations et les workflows fondés sur les preuves.

Web Research

Favoris 0GitHub 0

geomaster

par K-Dense-AI

geomaster est une compétence de science géospatiale pour les workflows GIS, de télédétection, d’analyse spatiale et d’observation de la Terre. Utilisez-la pour des tâches d’analyse de données comme les opérations raster et vectorielles, le traitement d’imagerie satellite, les métriques spatiales et la planification de workflows. Le guide geomaster vous aide à installer, inspecter et appliquer la compétence avec moins d’hésitation.

Data Analysis

Favoris 0GitHub 0

asc-aso-audit

par rudrankriyam

asc-aso-audit vous aide à réaliser un audit ASO hors ligne sur les métadonnées App Store canoniques dans `./metadata`, puis à faire ressortir les écarts de mots-clés avec Astro MCP. Utilisez la compétence asc-aso-audit après `asc metadata pull` pour passer en revue `subtitle`, `keywords`, `description` et `whatsNew` avec moins de suppositions.

Data Analysis

Favoris 0GitHub 0

ffuf-web-fuzzing

par jthack

ffuf-web-fuzzing est une compétence pratique pour découvrir du contenu web caché, tester des routes et des paramètres, et fuzzifier des cibles authentifiées avec des requêtes brutes, un auto-calibrage et l’analyse des résultats. Elle convient aux testeurs en sécurité qui ont besoin d’un guide ffuf-web-fuzzing reproductible pour les tests d’intrusion et les workflows d’audit de sécurité.

Security Audit

Favoris 0GitHub 0

web-to-markdown

par softaworks

web-to-markdown est un skill de conversion de format qui transforme des pages web en direct en Markdown propre via le CLI local `web2md`, en s’appuyant sur un navigateur de la famille Chromium pour les pages rendues en JS, les parcours interactifs et la conversion par lots d’URL. Il ne s’exécute que lorsqu’il est explicitement invoqué par son nom.

Format Conversion

Favoris 0GitHub 1.3k

firecrawl-agent

par firecrawl

firecrawl-agent aide à extraire du JSON structuré depuis des sites web complexes à plusieurs pages. Découvrez dans quels cas l’utiliser, comment lancer l’agent Firecrawl CLI, ajouter des schémas, définir des URL de départ et enregistrer les résultats pour l’extraction de tarifs, de catalogues produits et de données de type annuaire.

Web Scraping

Favoris 0GitHub 234

firecrawl-map

par firecrawl

firecrawl-map aide les agents à découvrir et lister les URL d’un site, avec des options de filtrage par recherche, de limitation, de sortie JSON, de modes sitemap et de contrôle des sous-domaines avant un scraping ou un crawl plus approfondi.

Web Scraping

Favoris 0GitHub 234