firecrawl-download
par firecrawlfirecrawl-download permet de télécharger un site ou une section de documentation dans des fichiers locaux bien organisés sous `.firecrawl/`. Il combine cartographie du site et scraping, prend en charge le markdown, les liens et les captures d’écran, et convient bien aux copies hors ligne de documentation, à la capture en masse de pages et à des workflows Web Scraping concrets.
Cette skill obtient un score de 73/100, ce qui signifie qu’elle peut figurer dans l’annuaire pour les utilisateurs : le déclencheur est clair et le workflow est réel, mais son adoption demande encore une part d’interprétation, car le dépôt ne fournit qu’un unique `SKILL.md` avec peu de détails opérationnels au-delà d’exemples de commandes.
- Déclenchement solide : la description mentionne des intentions utilisateur concrètes comme "download the site", "offline copy" et "download all the docs".
- Véritable effet de levier pour l’agent : la skill combine cartographie du site et scraping en une seule commande, et documente des options utiles comme les formats, les captures d’écran, les include-paths et les limites.
- Exemples assez actionnables : le `SKILL.md` inclut des commandes de démarrage rapide et précise explicitement l’usage de `-y` pour ignorer les demandes de confirmation.
- La profondeur opérationnelle reste limitée : il n’y a ni fichiers de support, ni références, ni instructions d’installation, ni règles de décision pour gérer les échecs, les limites d’échelle ou la gestion des sorties.
- La skill est explicitement indiquée comme expérimentale, ce qui augmente le risque côté confiance et stabilité pour des workflows d’agent de type production.
Présentation de la skill firecrawl-download
Ce que fait firecrawl-download
La skill firecrawl-download sert à une tâche très précise : télécharger un site web ou une section de documentation dans des fichiers locaux bien organisés. Elle combine la découverte du site et le scraping des pages, puis enregistre chaque page dans .firecrawl/ au format markdown, en captures d’écran, ou dans plusieurs formats de sortie par page.
Elle est particulièrement utile si vous voulez une copie hors ligne d’une doc, un corpus de recherche local, ou une méthode reproductible pour sauvegarder en masse des pages en vue d’une analyse ultérieure. Par rapport à un prompt de scraping générique, firecrawl-download offre un chemin beaucoup plus clair pour capturer un site entier, sans devoir concevoir vous-même tout le workflow de crawl.
À qui s’adresse la skill firecrawl-download
Les profils les plus concernés sont :
- les développeurs qui veulent enregistrer une documentation en local
- les chercheurs qui collectent du contenu web pour l’analyser
- les équipes qui construisent une archive de contenu légère
- les agents qui ont besoin d’un workflow pratique de type « télécharger ce site » avec moins d’incertitudes
Si votre objectif réel est « enregistrer ce site dans des fichiers locaux exploitables », cette skill convient mieux qu’un prompt large de web scraping.
Ce que les utilisateurs veulent savoir avant d’installer
Dans la plupart des cas, la décision d’installer firecrawl-download se joue sur quatre questions :
- Peut-il gérer un site entier ou une section de documentation, et pas seulement une page ?
- Enregistre-t-il la sortie dans une structure locale réellement exploitable ?
- Permet-il de filtrer le périmètre pour éviter de télécharger les mauvaises pages ?
- Prend-il en charge plusieurs types de sortie comme le markdown et les captures d’écran ?
D’après la source de la skill, la réponse est oui aux quatre. Le principal point de vigilance est qu’elle est marquée experimental : il faut donc la voir comme un workflow pratique, pas comme un système d’archivage ultra-robuste.
Différenciateur clé pour les workflows de Web Scraping
Ce qui distingue firecrawl-download for Web Scraping, ce n’est pas seulement sa puissance de scraping brute. C’est le fait que la commande regroupe :
- la cartographie du site d’abord
- le scraping ensuite
- une sortie fichier par page
- des répertoires locaux imbriqués
- la réutilisation des options de scrape pendant le téléchargement
C’est ce qui rend son installation plus pertinente pour des usages de type « télécharger une documentation » qu’une simple commande de scrape qui ne renvoie que le contenu des pages.
Comment utiliser la skill firecrawl-download
Contexte d’installation de firecrawl-download
Les éléments du dépôt indiquent que cette skill se trouve dans firecrawl/cli, sous skills/firecrawl-download. Une méthode d’installation pratique est :
npx skills add https://github.com/firecrawl/cli --skill firecrawl-download
Après l’ajout, consultez :
skills/firecrawl-download/SKILL.md
Cette skill dispose de très peu de fichiers de support ; SKILL.md est donc la source principale à consulter.
Commencez par lire ce fichier
Commencez par :
skills/firecrawl-download/SKILL.md
Ce fichier permet de comprendre rapidement le vrai périmètre : firecrawl download est une commande pratique, expérimentale, qui combine map et scrape, enregistre les résultats dans .firecrawl/, et accepte les options de scrape pendant le téléchargement.
Utilisation de base de firecrawl-download
La façon la plus rapide d’utiliser la firecrawl-download skill consiste à la pointer vers une racine de documentation ou de contenu :
firecrawl download https://docs.example.com
Pour des exécutions sans intervention, la skill recommande explicitement :
firecrawl download https://docs.example.com -y
Utilisez -y dès que vous souhaitez éviter les invites de confirmation dans des workflows agentiques ou scriptés.
Les entrées dont la skill a besoin pour bien fonctionner
Un prompt vague comme « télécharge ce site » est souvent trop faible. De meilleures entrées incluent :
- l’URL racine
- les limites de section réellement souhaitées
- le nombre maximal de pages
- les formats de sortie nécessaires
- la nécessité ou non de captures d’écran
- ce qu’il faut exclure
Une demande plus solide ressemble à ceci :
« Utilise firecrawl-download pour enregistrer https://docs.example.com en local au format markdown avec captures d’écran, inclure uniquement /guides et /api, limiter à 50 pages, et ignorer les pages traduites. »
Cela donne à la skill suffisamment d’informations pour cartographier le bon périmètre avant de scraper.
Les commandes les plus importantes en pratique
La source montre quelques modèles à forte valeur :
# With screenshots
firecrawl download https://docs.example.com --screenshot --limit 20 -y
# Multiple formats per page
firecrawl download https://docs.example.com --format markdown,links --screenshot --limit 20 -y
# Filter by section
firecrawl download https://docs.example.com --include-paths "/features,/sdks"
Ces exemples comptent parce qu’ils répondent à de vrais freins à l’adoption : trop de contenu, les mauvaises sections, ou un niveau de fidélité de sortie insuffisant.
Ce qui est écrit en local
La skill enregistre la sortie dans des répertoires imbriqués sous .firecrawl/. Lorsque vous demandez plusieurs formats, chaque page peut produire des fichiers distincts comme :
index.mdlinks.txtscreenshot.png
Cette organisation locale des fichiers est l’une des principales raisons de choisir firecrawl-download install plutôt qu’un prompt de scrape ponctuel.
Comment transformer un objectif vague en prompt exploitable
Si votre première idée est :
- « télécharge ce site de documentation »
réécrivez-la plutôt avec :
- l’URL cible
- les filtres de section souhaités
- les formats de fichier
- captures d’écran oui/non
- la limite de pages
- les exclusions éventuelles
Exemple de prompt pour un agent :
« Utilise la skill firecrawl-download pour télécharger https://docs.example.com afin d’en faire une copie hors ligne. Enregistre en markdown plus captures d’écran, inclure uniquement /getting-started,/api, limiter à 30 pages, et utiliser -y pour que l’exécution soit non interactive. »
Cela fonctionne mieux parce que l’ambiguïté sur le périmètre et la sortie disparaît.
Workflow conseillé pour des résultats fiables
Un workflow pratique de firecrawl-download guide ressemble à ceci :
- Commencez par la plus petite section de documentation réellement utile.
- Ajoutez
--include-pathsavant d’augmenter le nombre de pages. - Lancez un premier passage avec
--limit. - Vérifiez la structure de sortie dans
.firecrawl/. - Ajoutez
--screenshotou plusieurs formats seulement si vous en avez réellement besoin. - Élargissez le crawl une fois que le premier échantillon paraît correct.
Cela évite le mode d’échec classique : télécharger trop, trop tôt.
Quand utiliser firecrawl-download plutôt qu’un scrape classique
Utilisez firecrawl-download usage si vous avez besoin de :
- nombreuses pages, pas une seule
- fichiers locaux, pas seulement du texte renvoyé
- une copie hors ligne navigable
- un instantané rapide d’une documentation pour relecture ou référence
Préférez un scrape classique si vous n’avez besoin que d’une seule page ou d’une logique d’extraction très personnalisée. La valeur de firecrawl-download tient à la rapidité du workflow pour enregistrer un site à l’échelle.
Contraintes et compromis à connaître dès le départ
Les principales limites pratiques visibles dans la source de la skill sont les suivantes :
- elle est marquée comme expérimentale
- elle est optimisée comme commande de confort
- la qualité de sortie dépend toujours de la structure du site cible et de vos filtres de périmètre
- les exécutions larges sans limites peuvent être bruyantes ou excessives
C’est donc une très bonne option pour des téléchargements contrôlés de documentation, mais pas une garantie d’archivage parfait et complet.
FAQ sur la skill firecrawl-download
firecrawl-download convient-il aux débutants ?
Oui, surtout si votre besoin est simplement « enregistrer une documentation en local ». Les exemples de commande sont simples, et l’assistant interactif aide au démarrage. Les débutants ont toutefois intérêt à commencer avec un petit --limit et des --include-paths resserrés pour éviter des téléchargements trop volumineux.
Quelle est la vraie différence avec un prompt générique de scraping IA ?
Un prompt générique peut décrire la tâche, mais firecrawl-download intègre déjà le modèle utile : cartographier le site, scraper chaque page, puis enregistrer les fichiers dans des répertoires. Cela réduit le travail de préparation et rend le workflow plus répétable.
firecrawl-download est-il réservé aux sites de documentation ?
Non, mais la documentation reste le cas d’usage le plus évident. Il fonctionne mieux sur des sites dont la structure de pages et les chemins sont raisonnablement prévisibles. Les sites très dynamiques ou mal délimités peuvent demander davantage de filtrage, voire une autre approche.
firecrawl-download peut-il enregistrer autre chose que du markdown ?
Oui. La source de la skill montre explicitement plusieurs formats par page ainsi que des captures d’écran optionnelles. C’est important si vous avez besoin à la fois d’un texte lisible et d’une capture visuelle de support.
Quand ne faut-il pas utiliser firecrawl-download ?
Évitez firecrawl-download si vous n’avez besoin que de :
- une seule page
- un schéma d’extraction personnalisé
- un post-traitement poussé pendant le scraping
- un pipeline d’archivage entièrement robuste avec des garanties plus strictes
Dans ces cas, une commande de scrape plus ciblée ou un workflow plus sur mesure sera souvent plus adapté.
Comment améliorer la skill firecrawl-download
Donnez d’abord un périmètre plus strict à firecrawl-download
La manière la plus simple d’améliorer les résultats de firecrawl-download est de réduire l’ambiguïté. Utilisez :
--include-paths--limit- une URL racine de documentation claire
Une exécution cadrée sur 20 pages est généralement plus utile qu’un téléchargement incontrôlé de tout le site.
Choisissez les sorties en fonction du vrai usage en aval
Ne demandez pas tous les formats par défaut. Sélectionnez ceux qui correspondent à l’étape suivante :
markdownpour la lecture, la recherche et l’ingestion par un LLMlinksquand la structure compte--screenshotquand la mise en page ou des preuves visuelles d’interface sont importantes
Les exécutions restent ainsi plus légères, et la sortie plus facile à relire.
Faites un essai avant le téléchargement complet
Un bon schéma d’itération est :
firecrawl download https://docs.example.com --include-paths "/api" --limit 10 -y
Relisez les fichiers enregistrés, puis élargissez à plus de sections ou à des limites plus hautes. Cela permet de repérer tôt les erreurs de périmètre.
Modes d’échec fréquents et comment les éviter
Les problèmes typiques sont :
- télécharger les mauvaises sections
- récupérer trop de pages
- oublier
-ydans des exécutions automatisées - demander des sorties dont vous n’avez en réalité pas besoin
La correction est simple : précisez le périmètre, limitez le premier passage, et choisissez les sorties de manière intentionnelle.
Améliorer la qualité des prompts pour un usage piloté par agent
Si un agent appelle la skill, demandez-lui :
- l’URL de départ exacte
- l’objectif de la sortie locale
- les sections à inclure
- les sections à éviter
- les formats de sortie
- la limite de taille de l’exécution
Bon prompt :
« Utilise firecrawl-download pour créer une copie hors ligne en markdown de https://docs.example.com, uniquement pour /guides et /reference, avec des captures d’écran pour chaque page, limitée à 40 pages, et enregistrement non interactif. »
Cela donne de meilleurs résultats que « télécharge la doc ».
Comment itérer après la première sortie
Après le premier passage, évaluez :
- Est-ce que
.firecrawl/contenait bien les pages attendues ? - Y avait-il trop de pages non pertinentes ?
- Aviez-vous besoin de captures d’écran ou seulement de texte ?
- Faut-il élargir ou resserrer les chemins inclus au passage suivant ?
La meilleure façon d’améliorer la firecrawl-download skill n’est pas de relancer à l’aveugle, mais d’ajuster le périmètre et les choix de sortie à partir de ce que le premier lot a réellement produit.
