firecrawl-crawl

von firecrawl

firecrawl-crawl unterstützt Agenten dabei, Inhalte einer Website oder eines Docs-Bereichs in großem Umfang zu extrahieren – mit Pfadfiltern, Tiefenlimits, Seitenobergrenzen, Wait-Modus und Prüfungen des Job-Status.

Stars234

Favoriten0

Kommentare0

Hinzugefügt31. März 2026

KategorieWeb Scraping

Installationsbefehl

npx skills add firecrawl/cli --skill firecrawl-crawl

Kurationswert

Diese Skill-Bewertung liegt bei 74/100. Das bedeutet: grundsätzlich listbar und voraussichtlich nützlich für Agenten, die websiteweite oder bereichsweite Inhalte extrahieren müssen. Verzeichnisnutzer sollten jedoch eher einen deutlich befehlsorientierten Leitfaden als ein umfassend ausgearbeitetes Workflow-Paket erwarten. Die Repository-Hinweise zeigen starke Trigger-Signale und praxisnahe CLI-Beispiele für Crawling mit Limits, Tiefe und Pfadfiltern. Das gibt Agenten verlässlichere Ausführungshinweise als ein generischer Prompt.

74/100

Stärken

Hohe Triggerbarkeit: Die Beschreibung nennt Crawl-bezogene Intents wie „get all the pages“, „/docs“ und „bulk extract“ ausdrücklich.
Praktisch direkt nutzbar: SKILL.md enthält konkrete `firecrawl crawl`-Beispiele für Bereichs-Crawling, Crawling mit Tiefenlimit und das Prüfen eines laufenden Crawl-Jobs.
Guter Hebel für einen häufigen Workflow: Dokumentiert werden zentrale Steuerungen wie `--include-paths`, `--limit`, `--max-depth`, `--wait` und `--progress` für Bulk-Extraction-Aufgaben.

Hinweise

Begrenzter Kontext für die Installationsentscheidung: In SKILL.md gibt es keinen Installationsbefehl und keine Support-Dateien, Referenzen oder Metadaten, die bei der Einschätzung der Setup-Anforderungen helfen.
Die Workflow-Tiefe wirkt eher begrenzt: Strukturelle Signale zeigen Workflow-Beispiele, aber nur wenig Hinweise auf Einschränkungen, Edge-Case-Behandlung oder Troubleshooting.

Scraping Websites Website Cli Firecrawl Workflow

Überblick

Überblick über die firecrawl-crawl Skill

Was firecrawl-crawl macht

Die firecrawl-crawl Skill ist für die Extraktion großer Website-Bereiche gedacht, nicht für das Scraping einzelner Seiten. Sie hilft einem Agenten dabei, eine Website oder einen bestimmten Abschnitt zu crawlen, Links zu folgen und Inhalte vieler Seiten in einem einzigen Job zurückzugeben. Wenn dein Ziel etwa „alle Docs-Seiten erfassen“, „alles unter /docs extrahieren“ oder „dieses Help Center bis Tiefe 3 crawlen“ ist, ist das das passende Tool.

Für wen sich firecrawl-crawl eignet

firecrawl-crawl passt am besten für alle, die Inhalte über mehrere Seiten hinweg sammeln wollen – etwa für Dokumentationsanalyse, Migration, Indexierung, QA, Recherche oder die Übernahme von Wissen in ein Wissenssystem. Besonders nützlich ist die Skill, wenn ein normaler Prompt zu manuell wäre, weil sich die Zielinhalte über Dutzende verlinkte Seiten innerhalb derselben Domain erstrecken.

Die eigentliche Aufgabe hinter dem Einsatz

Nutzer setzen firecrawl-crawl ein, wenn sie Abdeckung brauchen – nicht nur Genauigkeit für eine einzelne URL. Die Hauptaufgabe besteht darin, den Crawl-Bereich klar genug zu definieren, damit das Tool die richtigen Seiten einsammelt, ohne Zeit mit irrelevanten Bereichen, Duplikaten oder gleich der gesamten öffentlichen Website zu verschwenden.

Was diese Skill unterscheidet

Die wichtigsten Unterscheidungsmerkmale sind praxistaugliche Crawl-Kontrollen: Pfadfilter, Tiefenlimits, Seitenlimits, asynchrone Job-Verarbeitung sowie optionales Warten und Fortschrittsanzeige. Dadurch ist firecrawl-crawl for Web Scraping deutlich operativer als eine generische Anweisung wie „scrape diese Website“.

Wann diese Skill besonders gut passt

Nutze die firecrawl-crawl skill, wenn:

du viele Seiten von einer einzelnen Website brauchst
die Seiten über interne Links auffindbar sind
du den Umfang über Pfade wie /docs, /blog oder ähnliche Bereiche eingrenzen willst
du einen wiederholbaren Crawl-Befehl statt ad hoc formulierter Prompts brauchst

Wann du sie nicht verwenden solltest

Beginne nicht mit firecrawl-crawl, wenn du nur eine einzelne Seite brauchst, zuerst ein URL-Inventar erstellen musst oder noch nicht sicher bist, welcher Bereich relevant ist. In solchen Fällen sind einfachere Schritte wie Search, Scrape oder Map meist sinnvoller, bevor du zu einem Crawl eskalierst.

So verwendest du die firecrawl-crawl Skill

Installationskontext für firecrawl-crawl

Diese Skill gehört zum firecrawl/cli-Skill-Set und ist für die Nutzung über die Firecrawl CLI vorgesehen. Wenn deine Umgebung Skills unterstützt, ist das praktische Installationsmuster:

npx skills add https://github.com/firecrawl/cli --skill firecrawl-crawl

Außerdem muss die Firecrawl CLI verfügbar sein, damit der Agent Befehle wie firecrawl crawl oder npx firecrawl crawl ausführen kann.

Diese Datei solltest du zuerst lesen

Starte mit skills/firecrawl-crawl/SKILL.md. Bei dieser Skill steckt dort der Großteil des operativen Nutzens: wann du sie einsetzen solltest, Quickstart-Befehle und die wichtigsten Optionen, die Crawl-Umfang und Laufzeitverhalten steuern.

Zentrale Befehlsmuster

Das Repository zeigt drei zentrale firecrawl-crawl usage-Muster:

# Crawl a docs section
firecrawl crawl "<url>" --include-paths /docs --limit 50 --wait -o .firecrawl/crawl.json

# Full crawl with depth limit
firecrawl crawl "<url>" --max-depth 3 --wait --progress -o .firecrawl/crawl.json

# Check status of a running crawl
firecrawl crawl <job-id>

Damit deckst du die meisten realen Workflows ab: einen eingegrenzten Abschnitts-Crawl, einen breiteren Site-Crawl mit Tiefenkontrolle und das Abfragen eines bereits laufenden Jobs.

Welche Eingaben am wichtigsten sind

Um mit firecrawl-crawl gute Ergebnisse zu bekommen, solltest du Folgendes angeben:

eine saubere Start-URL
den gewünschten Website-Bereich, falls vorhanden
ein sinnvolles Seitenlimit mit --limit
ein Tiefenlimit mit --max-depth, wenn die Website viele Verzweigungen hat
ob du mit --wait auf eine synchrone Fertigstellung warten willst
einen Ausgabepfad, damit sich die Ergebnisse später leicht prüfen lassen

Der größte Hebel für Qualität ist der Crawl-Umfang. Eine gute Abgrenzung ist meist wichtiger als jede nachgelagerte Verarbeitung.

Aus einer vagen Anfrage einen starken Prompt machen

Schwache Anfrage:

„Crawl diese Website und hol alles.“

Stärkere Anfrage:

„Use firecrawl-crawl on https://example.com, restrict to /docs, cap at 50 pages, wait for completion, save output to .firecrawl/crawl.json, and summarize the main product setup pages after extraction.”

Warum das funktioniert:

die Skill wird ausdrücklich genannt
es gibt eine Start-URL
der Pfad wird eingegrenzt
Kosten und Laufzeit werden begrenzt
es ist klar, was nach Abschluss des Crawls passieren soll

Bester Workflow für den ersten Lauf

Ein praxistauglicher firecrawl-crawl guide für den Einstieg:

Wähle die engste sinnvolle Start-URL.
Füge --include-paths hinzu, wenn du nur einen Abschnitt brauchst.
Setze --limit im ersten Durchlauf eher konservativ.
Ergänze --max-depth, wenn die Website viele Verzweigungen hat.
Nutze --wait für einfache Läufe, oder starte den Job und prüfe ihn später bei größeren Crawls.
Speichere die Ausgabe mit -o, damit du kontrollieren kannst, was tatsächlich eingesammelt wurde.

Diese Reihenfolge reduziert unnötige Crawls und macht es leichter, die Grenzen nach dem ersten Ergebnis gezielt nachzuschärfen.

Scope-Kontrollen, die schlechte Crawls verhindern

Die wichtigsten Optionen, die in der Skill hervorgehoben werden, sind:

--include-paths, um den Crawl im richtigen Bereich zu halten
--limit <n>, um ausufernde Seitenzahlen zu verhindern
--max-depth <n>, um zu tiefe Traversierung zu stoppen
--wait, um bis zum Abschluss zu blockieren
--progress, um während des Wartens den Fortschritt zu sehen

Wenn du diese Optionen weglässt, kann ein Crawl schneller als erwartet zu breit werden – besonders auf Docs-Seiten mit Changelogs, Blog-Links oder stark querverlinkter Navigation.

Async-Modus vs. Wait-Modus

Verwende --wait, wenn du einen einzigen Workflow-Schritt willst und der Crawl sofort fertig werden soll. Lass die Option weg, wenn der Crawl länger dauern könnte und du lieber jobbasiert arbeitest. Das Repository unterstützt ausdrücklich das spätere Prüfen des Status mit firecrawl crawl <job-id>, was für größere Jobs oder Agent-Workflows nützlich ist, die Einreichung und Analyse trennen.

Umgang mit Output und Review

Schreibe bei ernsthaften Läufen die Ergebnisse immer in eine Datei, zum Beispiel:

firecrawl crawl "https://example.com" --include-paths /docs --limit 50 --wait -o .firecrawl/crawl.json

Das erleichtert die Prüfung nach dem Lauf deutlich. Bevor du den Agenten bittest, die Ergebnisse zusammenzufassen oder weiterzuverarbeiten, solltest du verifizieren, dass die Ausgabe tatsächlich den gewünschten Bereich und die erwartete Seitenanzahl enthält. Schlechte Crawl-Grenzen führen zu schlechter nachgelagerter Synthese.

Gute firecrawl-crawl-Einsatzmuster

Besonders wertvolle Einsatzfälle sind:

alle Docs-Seiten für einen Produktvergleich einsammeln
einen Help-Center-Bereich für interne Suche oder RAG-Vorbereitung ziehen
einen Cluster aus Migrationsleitfäden extrahieren, bevor Dokumentation neu geschrieben wird
einen bekannten Website-Bereich per Bulk-Scraping erfassen, wenn die relevanten Seiten bereits über Links verbunden sind

Das sind deutlich bessere Anwendungsfälle als „finde irgendetwas Interessantes auf dieser Domain“.

firecrawl-crawl Skill FAQ

Ist firecrawl-crawl einsteigerfreundlich?

Ja, sofern du den Unterschied zwischen Single-Page-Scraping und Multi-Page-Crawling bereits verstehst. Die Befehlsoberfläche ist klein, aber Einsteiger sollten mit einem engen Pfad und einem niedrigen Seitenlimit beginnen, um übergroße Läufe zu vermeiden.

Worin unterscheidet sich firecrawl-crawl von einem normalen Prompt?

Ein normaler Prompt kann das Ziel beschreiben, aber firecrawl-crawl gibt dem Agenten einen klaren operativen Pfad: einen Crawl-Job starten, Tiefe und Limits steuern, optional warten und strukturierten Output speichern. Das reduziert Rätselraten und macht wiederholte Läufe konsistenter.

Wann sollte ich firecrawl-crawl statt scrape verwenden?

Verwende firecrawl-crawl, wenn sich die Zielinhalte über viele verlinkte Seiten erstrecken. Nutze scrape, wenn du nur eine bekannte URL brauchst. Wenn du noch nicht sicher bist, welche Seiten relevant sind, kann map oder search ein besserer früher Schritt sein als crawl.

Eignet sich firecrawl-crawl für die Extraktion kompletter Websites?

Manchmal, aber nur dann, wenn du mit breiter Abdeckung leben kannst und gute Limits setzt. Für große Websites ist „komplette Website“ oft ein schlechter erster Lauf. Ein Crawl eines Docs-Unterbereichs ist in der Praxis meist deutlich sinnvoller, als auf der Startseite mit lockeren Kontrollen zu beginnen.

Funktioniert firecrawl-crawl gut für Docs-Bereiche?

Ja. Die Beispiele im Repository heben abschnittsbasierte Extraktion wie /docs ausdrücklich hervor – einer der stärksten Anwendungsfälle für firecrawl-crawl for Web Scraping.

Was verhindert gute Ergebnisse?

Die üblichen Blocker sind ein vager Scope, fehlende Pfadfilter, kein Seitenlimit und der falsche Startpunkt. Das sind keine Nebensächlichkeiten, sondern Faktoren, die direkt darüber entscheiden, ob der Output nützlich oder voller Rauschen ist.

So verbesserst du die firecrawl-crawl Skill

Gib firecrawl-crawl engere Crawl-Grenzen

Der schnellste Weg, den Output von firecrawl-crawl zu verbessern, ist eine präzise Definition der Crawl-Grenzen. Nenne die Start-URL, den Abschnittspfad, das Seitenlimit und die gewünschte Tiefe. „Crawl die Docs unter /docs bis zu einer Tiefe von 2“ ist deutlich besser als „crawl die Website“.

Starte klein und erweitere dann

Für bessere Ergebnisse und weniger verschwendete Läufe solltest du zuerst einen kleinen Validierungs-Crawl durchführen:

niedriges --limit
enges --include-paths
moderates --max-depth

Wenn der Output richtig aussieht, erhöhe das Limit. So erkennst du Scope-Fehler, bevor sie teuer oder langsam werden.

Schreibe Prompts, die die Aufgabe nach dem Crawl einschließen

firecrawl-crawl install ist nur ein Teil des Erfolgs. Sage dem Agenten auch, was nach der Extraktion passieren soll. Beispiel:

„Use firecrawl-crawl to extract /docs up to 50 pages, save to .firecrawl/crawl.json, then identify onboarding, auth, and API reference pages.”

Das verbessert den End-to-End-Nutzen, weil Crawl und Analyse von Anfang an aufeinander abgestimmt sind.

Vermeide typische Fehlermuster

Häufige Probleme mit der firecrawl-crawl skill:

auf der Startseite beginnen, obwohl nur ein einzelner Bereich gebraucht wird
--limit auf einer großen Website weglassen
--max-depth weglassen, obwohl die Navigation dicht verzweigt ist
-o vergessen und damit einen einfachen Review-Punkt verlieren
nach „allem“ fragen, ohne die geschäftliche Relevanz zu definieren

Iteriere anhand des Outputs, nicht anhand von Annahmen

Prüfe nach dem ersten Lauf, was tatsächlich eingesammelt wurde. Wenn irrelevante Seiten dominieren, schärfe --include-paths nach oder reduziere die Tiefe. Wenn wichtige Seiten fehlen, erhöhe die Tiefe oder starte an einem passenderen Einstiegspunkt. Der beste firecrawl-crawl guide ist iterativ: crawlen, prüfen, verfeinern, erneut ausführen.

Halte firecrawl-crawl in der richtigen Rolle

Verwende firecrawl-crawl für die Sammlung und gib die Ergebnisse danach an Schritte wie Zusammenfassung, Klassifizierung, Vergleich oder Indexierung weiter. Wenn du versuchst, schon den Crawl-Schritt jede nachgelagerte Aufgabe gleichzeitig lösen zu lassen, leidet meist die Klarheit. Die Skill ist am stärksten, wenn sie zuerst den richtigen Korpus einsammelt.

Bewertungen & Rezensionen

Noch keine Bewertungen

Teile deine Rezension

Melde dich an, um für diesen Skill eine Bewertung und einen Kommentar zu hinterlassen.

0/10000

Neueste Rezensionen

Wird gespeichert...

Mehr Skills in dieser Kategorie

huggingface-datasets

von huggingface

Nutze die Skill "huggingface-datasets" für Workflows mit der Hugging Face Dataset Viewer API, um Datensätze zu validieren, Splits aufzulösen, Zeilen vorzuschauen und zu paginieren, Text zu durchsuchen, Filter anzuwenden sowie Parquet-Links oder Statistiken abzurufen. Ein praktischer huggingface-datasets Leitfaden für die schreibgeschützte Erkundung von Datensätzen.

Web Scraping

Favoriten 0GitHub 10.4k

data-scraper-agent

von affaan-m

data-scraper-agent hilft beim Aufbau einer wiederholbaren Public-Data-Pipeline für Web Scraping, Anreicherung und Speicherung. Es ist für das Monitoring von Jobs, Preisen, News, Repos, Sport und Listings nach Zeitplan mit GitHub Actions ausgelegt, mit Ausgaben nach Notion, Sheets oder Supabase. Am besten für laufendes Tracking, nicht für einmalige Extraktionen.

Web Scraping

Favoriten 0GitHub 156.1k

baoyu-url-to-markdown

von JimLiu

baoyu-url-to-markdown wandelt Live-URLs mit einer eingebundenen baoyu-fetch-CLI per Chrome CDP, Site-Adaptern und generischem Fallback in Markdown um. Prüfen Sie die Bun-Laufzeitvoraussetzungen, die einmalige Einrichtung von EXTEND.md und die Nutzung für X, YouTube, Hacker News sowie gerenderte Seiten.

Format Conversion

Favoriten 0GitHub 13.2k

x-twitter-scraper

von Xquik-dev

Verwende x-twitter-scraper, um X-(Twitter-)Daten und bestätigungspflichtige Aktionen über Xquik abzurufen. Unterstützt sind Tweet-Suche, Nutzerabfragen, Follower-Extraktion, Medien-Downloads, Monitore, Webhooks, MCP und Schreibaktionen. Am besten geeignet für Web-Scraping-artige Recherchen mit API-Schlüssel, nicht mit X-Login-Daten.

Web Scraping

Favoriten 0GitHub 71

exa-search

von K-Dense-AI

exa-search ist eine Web-Recherche-Skill auf Basis von Exa für das Finden aktueller Informationen und das Extrahieren von Inhalten aus URLs. Sie eignet sich für Suche, Quellenrecherche, Artikel- und PDF-Extraktion sowie technische oder wissenschaftliche Recherchen mit semantischer Suche, akademischer Filterung und klaren Hinweisen zu Installation und Nutzung.

Web Research

Favoriten 0GitHub 0

browser-use

von browser-use

browser-use ist ein Skill für Browser-Automatisierung: Seiten öffnen, Status prüfen, indizierte Elemente anklicken, in Felder tippen, Screenshots erstellen und eine persistente Browser-Sitzung weiterverwenden. Geeignet für zuverlässiges Ausfüllen von Formularen, Navigation und eingeloggte Workflows mit der browser-use CLI.

Browser Automation

Favoriten 0GitHub 84.9k

remote-browser

von browser-use

remote-browser unterstützt sandboxed Agents dabei, einen Headless-Browser für Browser-Automatisierung zu steuern. Damit lassen sich Seiten öffnen, Zustände prüfen, indexierte Elemente anklicken, Eingaben tippen, Screenshots erstellen und Verbindungen zu lokalen Apps oder CDP-basierten Browser-Sitzungen herstellen.

Browser Automation

Favoriten 0GitHub 84.9k

firecrawl

von firecrawl

firecrawl Skill zum Installieren, Authentifizieren und Nutzen der offiziellen Firecrawl CLI für Web-Scraping, Suche, Crawling und Seiteninteraktion. Erfahren Sie, wie Einrichtung, `firecrawl --status`, Login, sichere Dateiausgabe nach `.firecrawl/` und praxisnahe Nutzungsmuster laut Repository funktionieren.

Web Scraping

Favoriten 0GitHub 234

firecrawl-search

von firecrawl

firecrawl-search ist eine Skill für Webrecherche, um Quellen zu finden, strukturierte Suchen auszuführen und optional vollständige Seiteninhalte mit Firecrawl CLI als JSON zu extrahieren.

Web Research

Favoriten 0GitHub 234

parallel-web

von K-Dense-AI

parallel-web ist ein Skill für Web-Recherche und Extraktion, der auf parallel-cli basiert. Er hilft dir beim Web-Suchen, beim Extrahieren von URL-Inhalten, beim Anreichern von Daten aus Quellen und bei tiefergehender Recherche, wobei wissenschaftliche und akademische Quellen priorisiert werden. Verwende ihn für die Nutzung von parallel-web, Web-Recherche, Zitate und evidenzbasierte Workflows.

Web Research

Favoriten 0GitHub 0

geomaster

von K-Dense-AI

geomaster ist eine Geowissenschafts-Skill für GIS, Fernerkundung, räumliche Analyse und Earth-Observation-Workflows. Nutzen Sie sie für Data-Analysis-Aufgaben wie Raster- und Vektoroperationen, die Verarbeitung von Satellitenbildern, räumliche Kennzahlen und die Planung von Workflows. Der geomaster-Guide hilft Ihnen, die Skill zu installieren, zu prüfen und mit weniger Rätselraten einzusetzen.

Data Analysis

Favoriten 0GitHub 0

asc-aso-audit

von rudrankriyam

asc-aso-audit hilft dir, ein Offline-ASO-Audit für kanonische App-Store-Metadaten in `./metadata` durchzuführen und anschließend mit Astro MCP Keyword-Lücken aufzudecken. Verwende die asc-aso-audit Skill nach `asc metadata pull`, um `subtitle`, `keywords`, `description` und `whatsNew` mit weniger Rätselraten zu prüfen.

Data Analysis

Favoriten 0GitHub 0

ffuf-web-fuzzing

von jthack

ffuf-web-fuzzing ist ein praxisnaher Skill zum Aufspüren versteckter Webinhalte, zum Testen von Routen und Parametern sowie zum Fuzzing authentifizierter Ziele mit Raw Requests, Auto-Kalibrierung und Ergebnisanalyse. Er eignet sich für Security-Tester, die einen wiederholbaren ffuf-web-fuzzing-Leitfaden für Penetrationstests und Security-Audit-Workflows benötigen.

Security Audit

Favoriten 0GitHub 0

web-to-markdown

von softaworks

web-to-markdown ist ein Skill für Formatkonvertierung, der Live-Webseiten über das lokale `web2md`-CLI in sauberes Markdown umwandelt. Für JS-gerenderte Seiten, interaktive Abläufe und die Batch-Konvertierung von URLs nutzt er einen Browser der Chromium-Familie. Er wird nur ausgeführt, wenn er ausdrücklich namentlich aufgerufen wird.

Format Conversion

Favoriten 0GitHub 1.3k

firecrawl-agent

von firecrawl

firecrawl-agent unterstützt bei der Extraktion von strukturiertem JSON aus komplexen Websites mit mehreren Seiten. Hier erfahren Sie, wann sich das Tool eignet, wie Sie den Firecrawl CLI-Agent ausführen, Schemas hinzufügen, Start-URLs festlegen und Ausgaben für Preise, Produkte und verzeichnisartige Datenextraktion speichern.

Web Scraping

Favoriten 0GitHub 234

firecrawl-map

von firecrawl

firecrawl-map hilft Agents dabei, URLs auf einer Website zu finden und aufzulisten – mit Optionen für Suchfilter, Limits, JSON-Ausgabe, Sitemap-Modi und die Steuerung von Subdomains, bevor tieferes Scraping oder Crawling startet.

Web Scraping

Favoriten 0GitHub 234