firecrawl-download

par firecrawl

firecrawl-download permet de télécharger un site ou une section de documentation dans des fichiers locaux bien organisés sous `.firecrawl/`. Il combine cartographie du site et scraping, prend en charge le markdown, les liens et les captures d’écran, et convient bien aux copies hors ligne de documentation, à la capture en masse de pages et à des workflows Web Scraping concrets.

Étoiles234

Favoris0

Commentaires0

Ajouté31 mars 2026

CatégorieWeb Scraping

Commande d’installation

npx skills add firecrawl/cli --skill firecrawl-download

Score éditorial

Cette skill obtient un score de 73/100, ce qui signifie qu’elle peut figurer dans l’annuaire pour les utilisateurs : le déclencheur est clair et le workflow est réel, mais son adoption demande encore une part d’interprétation, car le dépôt ne fournit qu’un unique `SKILL.md` avec peu de détails opérationnels au-delà d’exemples de commandes.

73/100

Points forts

Déclenchement solide : la description mentionne des intentions utilisateur concrètes comme "download the site", "offline copy" et "download all the docs".
Véritable effet de levier pour l’agent : la skill combine cartographie du site et scraping en une seule commande, et documente des options utiles comme les formats, les captures d’écran, les include-paths et les limites.
Exemples assez actionnables : le `SKILL.md` inclut des commandes de démarrage rapide et précise explicitement l’usage de `-y` pour ignorer les demandes de confirmation.

Points de vigilance

La profondeur opérationnelle reste limitée : il n’y a ni fichiers de support, ni références, ni instructions d’installation, ni règles de décision pour gérer les échecs, les limites d’échelle ou la gestion des sorties.
La skill est explicitement indiquée comme expérimentale, ce qui augmente le risque côté confiance et stabilité pour des workflows d’agent de type production.

Firecrawl Cli Scraping Websites Offline Markdown

Vue d’ensemble

Présentation de la skill firecrawl-download

Ce que fait firecrawl-download

La skill firecrawl-download sert à une tâche très précise : télécharger un site web ou une section de documentation dans des fichiers locaux bien organisés. Elle combine la découverte du site et le scraping des pages, puis enregistre chaque page dans .firecrawl/ au format markdown, en captures d’écran, ou dans plusieurs formats de sortie par page.

Elle est particulièrement utile si vous voulez une copie hors ligne d’une doc, un corpus de recherche local, ou une méthode reproductible pour sauvegarder en masse des pages en vue d’une analyse ultérieure. Par rapport à un prompt de scraping générique, firecrawl-download offre un chemin beaucoup plus clair pour capturer un site entier, sans devoir concevoir vous-même tout le workflow de crawl.

À qui s’adresse la skill firecrawl-download

Les profils les plus concernés sont :

les développeurs qui veulent enregistrer une documentation en local
les chercheurs qui collectent du contenu web pour l’analyser
les équipes qui construisent une archive de contenu légère
les agents qui ont besoin d’un workflow pratique de type « télécharger ce site » avec moins d’incertitudes

Si votre objectif réel est « enregistrer ce site dans des fichiers locaux exploitables », cette skill convient mieux qu’un prompt large de web scraping.

Ce que les utilisateurs veulent savoir avant d’installer

Dans la plupart des cas, la décision d’installer firecrawl-download se joue sur quatre questions :

Peut-il gérer un site entier ou une section de documentation, et pas seulement une page ?
Enregistre-t-il la sortie dans une structure locale réellement exploitable ?
Permet-il de filtrer le périmètre pour éviter de télécharger les mauvaises pages ?
Prend-il en charge plusieurs types de sortie comme le markdown et les captures d’écran ?

D’après la source de la skill, la réponse est oui aux quatre. Le principal point de vigilance est qu’elle est marquée experimental : il faut donc la voir comme un workflow pratique, pas comme un système d’archivage ultra-robuste.

Différenciateur clé pour les workflows de Web Scraping

Ce qui distingue firecrawl-download for Web Scraping, ce n’est pas seulement sa puissance de scraping brute. C’est le fait que la commande regroupe :

la cartographie du site d’abord
le scraping ensuite
une sortie fichier par page
des répertoires locaux imbriqués
la réutilisation des options de scrape pendant le téléchargement

C’est ce qui rend son installation plus pertinente pour des usages de type « télécharger une documentation » qu’une simple commande de scrape qui ne renvoie que le contenu des pages.

Comment utiliser la skill firecrawl-download

Contexte d’installation de firecrawl-download

Les éléments du dépôt indiquent que cette skill se trouve dans firecrawl/cli, sous skills/firecrawl-download. Une méthode d’installation pratique est :

npx skills add https://github.com/firecrawl/cli --skill firecrawl-download

Après l’ajout, consultez :

skills/firecrawl-download/SKILL.md

Cette skill dispose de très peu de fichiers de support ; SKILL.md est donc la source principale à consulter.

Commencez par lire ce fichier

Commencez par :

skills/firecrawl-download/SKILL.md

Ce fichier permet de comprendre rapidement le vrai périmètre : firecrawl download est une commande pratique, expérimentale, qui combine map et scrape, enregistre les résultats dans .firecrawl/, et accepte les options de scrape pendant le téléchargement.

Utilisation de base de firecrawl-download

La façon la plus rapide d’utiliser la firecrawl-download skill consiste à la pointer vers une racine de documentation ou de contenu :

firecrawl download https://docs.example.com

Pour des exécutions sans intervention, la skill recommande explicitement :

firecrawl download https://docs.example.com -y

Utilisez -y dès que vous souhaitez éviter les invites de confirmation dans des workflows agentiques ou scriptés.

Les entrées dont la skill a besoin pour bien fonctionner

Un prompt vague comme « télécharge ce site » est souvent trop faible. De meilleures entrées incluent :

l’URL racine
les limites de section réellement souhaitées
le nombre maximal de pages
les formats de sortie nécessaires
la nécessité ou non de captures d’écran
ce qu’il faut exclure

Une demande plus solide ressemble à ceci :

« Utilise firecrawl-download pour enregistrer https://docs.example.com en local au format markdown avec captures d’écran, inclure uniquement /guides et /api, limiter à 50 pages, et ignorer les pages traduites. »

Cela donne à la skill suffisamment d’informations pour cartographier le bon périmètre avant de scraper.

Les commandes les plus importantes en pratique

La source montre quelques modèles à forte valeur :

# With screenshots
firecrawl download https://docs.example.com --screenshot --limit 20 -y

# Multiple formats per page
firecrawl download https://docs.example.com --format markdown,links --screenshot --limit 20 -y

# Filter by section
firecrawl download https://docs.example.com --include-paths "/features,/sdks"

Ces exemples comptent parce qu’ils répondent à de vrais freins à l’adoption : trop de contenu, les mauvaises sections, ou un niveau de fidélité de sortie insuffisant.

Ce qui est écrit en local

La skill enregistre la sortie dans des répertoires imbriqués sous .firecrawl/. Lorsque vous demandez plusieurs formats, chaque page peut produire des fichiers distincts comme :

index.md
links.txt
screenshot.png

Cette organisation locale des fichiers est l’une des principales raisons de choisir firecrawl-download install plutôt qu’un prompt de scrape ponctuel.

Comment transformer un objectif vague en prompt exploitable

Si votre première idée est :

« télécharge ce site de documentation »

réécrivez-la plutôt avec :

l’URL cible
les filtres de section souhaités
les formats de fichier
captures d’écran oui/non
la limite de pages
les exclusions éventuelles

Exemple de prompt pour un agent :

« Utilise la skill firecrawl-download pour télécharger https://docs.example.com afin d’en faire une copie hors ligne. Enregistre en markdown plus captures d’écran, inclure uniquement /getting-started,/api, limiter à 30 pages, et utiliser -y pour que l’exécution soit non interactive. »

Cela fonctionne mieux parce que l’ambiguïté sur le périmètre et la sortie disparaît.

Workflow conseillé pour des résultats fiables

Un workflow pratique de firecrawl-download guide ressemble à ceci :

Commencez par la plus petite section de documentation réellement utile.
Ajoutez --include-paths avant d’augmenter le nombre de pages.
Lancez un premier passage avec --limit.
Vérifiez la structure de sortie dans .firecrawl/.
Ajoutez --screenshot ou plusieurs formats seulement si vous en avez réellement besoin.
Élargissez le crawl une fois que le premier échantillon paraît correct.

Cela évite le mode d’échec classique : télécharger trop, trop tôt.

Quand utiliser firecrawl-download plutôt qu’un scrape classique

Utilisez firecrawl-download usage si vous avez besoin de :

nombreuses pages, pas une seule
fichiers locaux, pas seulement du texte renvoyé
une copie hors ligne navigable
un instantané rapide d’une documentation pour relecture ou référence

Préférez un scrape classique si vous n’avez besoin que d’une seule page ou d’une logique d’extraction très personnalisée. La valeur de firecrawl-download tient à la rapidité du workflow pour enregistrer un site à l’échelle.

Contraintes et compromis à connaître dès le départ

Les principales limites pratiques visibles dans la source de la skill sont les suivantes :

elle est marquée comme expérimentale
elle est optimisée comme commande de confort
la qualité de sortie dépend toujours de la structure du site cible et de vos filtres de périmètre
les exécutions larges sans limites peuvent être bruyantes ou excessives

C’est donc une très bonne option pour des téléchargements contrôlés de documentation, mais pas une garantie d’archivage parfait et complet.

FAQ sur la skill firecrawl-download

firecrawl-download convient-il aux débutants ?

Oui, surtout si votre besoin est simplement « enregistrer une documentation en local ». Les exemples de commande sont simples, et l’assistant interactif aide au démarrage. Les débutants ont toutefois intérêt à commencer avec un petit --limit et des --include-paths resserrés pour éviter des téléchargements trop volumineux.

Quelle est la vraie différence avec un prompt générique de scraping IA ?

Un prompt générique peut décrire la tâche, mais firecrawl-download intègre déjà le modèle utile : cartographier le site, scraper chaque page, puis enregistrer les fichiers dans des répertoires. Cela réduit le travail de préparation et rend le workflow plus répétable.

firecrawl-download est-il réservé aux sites de documentation ?

Non, mais la documentation reste le cas d’usage le plus évident. Il fonctionne mieux sur des sites dont la structure de pages et les chemins sont raisonnablement prévisibles. Les sites très dynamiques ou mal délimités peuvent demander davantage de filtrage, voire une autre approche.

firecrawl-download peut-il enregistrer autre chose que du markdown ?

Oui. La source de la skill montre explicitement plusieurs formats par page ainsi que des captures d’écran optionnelles. C’est important si vous avez besoin à la fois d’un texte lisible et d’une capture visuelle de support.

Quand ne faut-il pas utiliser firecrawl-download ?

Évitez firecrawl-download si vous n’avez besoin que de :

une seule page
un schéma d’extraction personnalisé
un post-traitement poussé pendant le scraping
un pipeline d’archivage entièrement robuste avec des garanties plus strictes

Dans ces cas, une commande de scrape plus ciblée ou un workflow plus sur mesure sera souvent plus adapté.

Comment améliorer la skill firecrawl-download

Donnez d’abord un périmètre plus strict à firecrawl-download

La manière la plus simple d’améliorer les résultats de firecrawl-download est de réduire l’ambiguïté. Utilisez :

--include-paths
--limit
une URL racine de documentation claire

Une exécution cadrée sur 20 pages est généralement plus utile qu’un téléchargement incontrôlé de tout le site.

Choisissez les sorties en fonction du vrai usage en aval

Ne demandez pas tous les formats par défaut. Sélectionnez ceux qui correspondent à l’étape suivante :

markdown pour la lecture, la recherche et l’ingestion par un LLM
links quand la structure compte
--screenshot quand la mise en page ou des preuves visuelles d’interface sont importantes

Les exécutions restent ainsi plus légères, et la sortie plus facile à relire.

Faites un essai avant le téléchargement complet

Un bon schéma d’itération est :

firecrawl download https://docs.example.com --include-paths "/api" --limit 10 -y

Relisez les fichiers enregistrés, puis élargissez à plus de sections ou à des limites plus hautes. Cela permet de repérer tôt les erreurs de périmètre.

Modes d’échec fréquents et comment les éviter

Les problèmes typiques sont :

télécharger les mauvaises sections
récupérer trop de pages
oublier -y dans des exécutions automatisées
demander des sorties dont vous n’avez en réalité pas besoin

La correction est simple : précisez le périmètre, limitez le premier passage, et choisissez les sorties de manière intentionnelle.

Améliorer la qualité des prompts pour un usage piloté par agent

Si un agent appelle la skill, demandez-lui :

l’URL de départ exacte
l’objectif de la sortie locale
les sections à inclure
les sections à éviter
les formats de sortie
la limite de taille de l’exécution

Bon prompt :

« Utilise firecrawl-download pour créer une copie hors ligne en markdown de https://docs.example.com, uniquement pour /guides et /reference, avec des captures d’écran pour chaque page, limitée à 40 pages, et enregistrement non interactif. »

Cela donne de meilleurs résultats que « télécharge la doc ».

Comment itérer après la première sortie

Après le premier passage, évaluez :

Est-ce que .firecrawl/ contenait bien les pages attendues ?
Y avait-il trop de pages non pertinentes ?
Aviez-vous besoin de captures d’écran ou seulement de texte ?
Faut-il élargir ou resserrer les chemins inclus au passage suivant ?

La meilleure façon d’améliorer la firecrawl-download skill n’est pas de relancer à l’aveugle, mais d’ajuster le périmètre et les choix de sortie à partir de ce que le premier lot a réellement produit.

Notes et avis

Aucune note pour le moment

Partagez votre avis

Connectez-vous pour laisser une note et un commentaire sur cet outil.

0/10000

Derniers avis

Enregistrement...

Autres outils de cette catégorie

huggingface-datasets

par huggingface

Utilisez le skill huggingface-datasets pour les workflows de l’API Hugging Face Dataset Viewer afin de valider des datasets, résoudre les splits, prévisualiser et paginer les lignes, rechercher du texte, appliquer des filtres, et récupérer des liens Parquet ou des statistiques. C’est un guide pratique huggingface-datasets pour explorer des datasets en lecture seule.

Web Scraping

Favoris 0GitHub 10.4k

data-scraper-agent

par affaan-m

data-scraper-agent aide à mettre en place un pipeline de données publiques reproductible pour le web scraping, l’enrichissement et le stockage. Il est conçu pour suivre des jobs, des prix, des actualités, des repos, des résultats sportifs et des annonces selon un planning, via GitHub Actions, avec des sorties vers Notion, Sheets ou Supabase. Idéal pour un suivi continu, pas pour des extractions ponctuelles.

Web Scraping

Favoris 0GitHub 156.1k

baoyu-url-to-markdown

par JimLiu

baoyu-url-to-markdown convertit des URL en direct en Markdown via le CLI embarqué baoyu-fetch, avec Chrome CDP, des adaptateurs par site et un mode de repli générique. Vérifiez les exigences d’exécution avec Bun, la configuration initiale de `EXTEND.md`, ainsi que l’usage pour X, YouTube, Hacker News et les pages rendues.

Format Conversion

Favoris 0GitHub 13.2k

x-twitter-scraper

par Xquik-dev

Utilisez x-twitter-scraper pour récupérer des données X (Twitter) et exécuter des actions soumises à confirmation via Xquik. L’outil prend en charge la recherche de tweets, la consultation d’utilisateurs, l’extraction de followers, le téléchargement de médias, les monitors, les webhooks, MCP et les actions d’écriture. Idéal pour des recherches de type web scraping avec une clé API, sans avoir à utiliser des identifiants de connexion X.

Web Scraping

Favoris 0GitHub 71

exa-search

par K-Dense-AI

exa-search est un skill de recherche web propulsé par Exa, conçu pour trouver des informations à jour et extraire du contenu depuis des URLs. Utilisez-le pour la recherche web, la découverte de sources, l’extraction d’articles et de PDF, ainsi que pour des recherches techniques ou scientifiques grâce à une récupération sémantique, un filtrage de type académique et des indications claires d’installation et d’utilisation.

Web Research

Favoris 0GitHub 0

browser-use

par browser-use

browser-use est une skill d’automatisation de navigateur qui permet d’ouvrir des pages, d’inspecter l’état, de cliquer sur des éléments indexés, de saisir du texte dans des champs, de prendre des captures d’écran et de réutiliser une session de navigateur persistante. Utilisez-la pour le remplissage fiable de formulaires, la navigation et les workflows en mode connecté avec la CLI browser-use.

Browser Automation

Favoris 0GitHub 84.9k

remote-browser

par browser-use

remote-browser aide les agents isolés en sandbox à piloter un navigateur headless pour l’automatisation du navigateur. Utilisez-le pour ouvrir des pages, inspecter l’état, cliquer sur des éléments indexés, saisir du texte, prendre des captures d’écran et se connecter à des applications locales ou à des sessions de navigateur compatibles CDP.

Browser Automation

Favoris 0GitHub 84.9k

firecrawl

par firecrawl

Skill firecrawl pour installer, authentifier et utiliser le CLI officiel Firecrawl pour le scraping web, la recherche, le crawl et l’interaction avec les pages. Découvrez la configuration, `firecrawl --status`, la connexion, l’écriture sécurisée des fichiers dans `.firecrawl/` et des usages concrets appuyés par le repo.

Web Scraping

Favoris 0GitHub 234

firecrawl-search

par firecrawl

firecrawl-search est une skill de recherche web conçue pour trouver des sources, effectuer des recherches structurées et, si besoin, extraire le contenu complet de pages au format JSON avec Firecrawl CLI.

Web Research

Favoris 0GitHub 234

parallel-web

par K-Dense-AI

parallel-web est une skill de recherche et d’extraction web propulsée par parallel-cli. Elle vous aide à rechercher sur le web, extraire le contenu d’URL, enrichir des données à partir de sources et mener des recherches approfondies en privilégiant les sources académiques et scientifiques. Utilisez-la pour l’usage de parallel-web, la recherche web, les citations et les workflows fondés sur les preuves.

Web Research

Favoris 0GitHub 0

geomaster

par K-Dense-AI

geomaster est une compétence de science géospatiale pour les workflows GIS, de télédétection, d’analyse spatiale et d’observation de la Terre. Utilisez-la pour des tâches d’analyse de données comme les opérations raster et vectorielles, le traitement d’imagerie satellite, les métriques spatiales et la planification de workflows. Le guide geomaster vous aide à installer, inspecter et appliquer la compétence avec moins d’hésitation.

Data Analysis

Favoris 0GitHub 0

asc-aso-audit

par rudrankriyam

asc-aso-audit vous aide à réaliser un audit ASO hors ligne sur les métadonnées App Store canoniques dans `./metadata`, puis à faire ressortir les écarts de mots-clés avec Astro MCP. Utilisez la compétence asc-aso-audit après `asc metadata pull` pour passer en revue `subtitle`, `keywords`, `description` et `whatsNew` avec moins de suppositions.

Data Analysis

Favoris 0GitHub 0

ffuf-web-fuzzing

par jthack

ffuf-web-fuzzing est une compétence pratique pour découvrir du contenu web caché, tester des routes et des paramètres, et fuzzifier des cibles authentifiées avec des requêtes brutes, un auto-calibrage et l’analyse des résultats. Elle convient aux testeurs en sécurité qui ont besoin d’un guide ffuf-web-fuzzing reproductible pour les tests d’intrusion et les workflows d’audit de sécurité.

Security Audit

Favoris 0GitHub 0

web-to-markdown

par softaworks

web-to-markdown est un skill de conversion de format qui transforme des pages web en direct en Markdown propre via le CLI local `web2md`, en s’appuyant sur un navigateur de la famille Chromium pour les pages rendues en JS, les parcours interactifs et la conversion par lots d’URL. Il ne s’exécute que lorsqu’il est explicitement invoqué par son nom.

Format Conversion

Favoris 0GitHub 1.3k

firecrawl-agent

par firecrawl

firecrawl-agent aide à extraire du JSON structuré depuis des sites web complexes à plusieurs pages. Découvrez dans quels cas l’utiliser, comment lancer l’agent Firecrawl CLI, ajouter des schémas, définir des URL de départ et enregistrer les résultats pour l’extraction de tarifs, de catalogues produits et de données de type annuaire.

Web Scraping

Favoris 0GitHub 234

firecrawl-map

par firecrawl

firecrawl-map aide les agents à découvrir et lister les URL d’un site, avec des options de filtrage par recherche, de limitation, de sortie JSON, de modes sitemap et de contrôle des sous-domaines avant un scraping ou un crawl plus approfondi.

Web Scraping

Favoris 0GitHub 234