F

firecrawl-crawl

von firecrawl

firecrawl-crawl unterstützt Agenten dabei, Inhalte einer Website oder eines Docs-Bereichs in großem Umfang zu extrahieren – mit Pfadfiltern, Tiefenlimits, Seitenobergrenzen, Wait-Modus und Prüfungen des Job-Status.

Stars234
Favoriten0
Kommentare0
Hinzugefügt31. März 2026
KategorieWeb Scraping
Installationsbefehl
npx skills add https://github.com/firecrawl/cli --skill firecrawl-crawl
Kurationswert

Diese Skill-Bewertung liegt bei 74/100. Das bedeutet: grundsätzlich listbar und voraussichtlich nützlich für Agenten, die websiteweite oder bereichsweite Inhalte extrahieren müssen. Verzeichnisnutzer sollten jedoch eher einen deutlich befehlsorientierten Leitfaden als ein umfassend ausgearbeitetes Workflow-Paket erwarten. Die Repository-Hinweise zeigen starke Trigger-Signale und praxisnahe CLI-Beispiele für Crawling mit Limits, Tiefe und Pfadfiltern. Das gibt Agenten verlässlichere Ausführungshinweise als ein generischer Prompt.

74/100
Stärken
  • Hohe Triggerbarkeit: Die Beschreibung nennt Crawl-bezogene Intents wie „get all the pages“, „/docs“ und „bulk extract“ ausdrücklich.
  • Praktisch direkt nutzbar: SKILL.md enthält konkrete `firecrawl crawl`-Beispiele für Bereichs-Crawling, Crawling mit Tiefenlimit und das Prüfen eines laufenden Crawl-Jobs.
  • Guter Hebel für einen häufigen Workflow: Dokumentiert werden zentrale Steuerungen wie `--include-paths`, `--limit`, `--max-depth`, `--wait` und `--progress` für Bulk-Extraction-Aufgaben.
Hinweise
  • Begrenzter Kontext für die Installationsentscheidung: In SKILL.md gibt es keinen Installationsbefehl und keine Support-Dateien, Referenzen oder Metadaten, die bei der Einschätzung der Setup-Anforderungen helfen.
  • Die Workflow-Tiefe wirkt eher begrenzt: Strukturelle Signale zeigen Workflow-Beispiele, aber nur wenig Hinweise auf Einschränkungen, Edge-Case-Behandlung oder Troubleshooting.
Überblick

Überblick über die firecrawl-crawl Skill

Was firecrawl-crawl macht

Die firecrawl-crawl Skill ist für die Extraktion großer Website-Bereiche gedacht, nicht für das Scraping einzelner Seiten. Sie hilft einem Agenten dabei, eine Website oder einen bestimmten Abschnitt zu crawlen, Links zu folgen und Inhalte vieler Seiten in einem einzigen Job zurückzugeben. Wenn dein Ziel etwa „alle Docs-Seiten erfassen“, „alles unter /docs extrahieren“ oder „dieses Help Center bis Tiefe 3 crawlen“ ist, ist das das passende Tool.

Für wen sich firecrawl-crawl eignet

firecrawl-crawl passt am besten für alle, die Inhalte über mehrere Seiten hinweg sammeln wollen – etwa für Dokumentationsanalyse, Migration, Indexierung, QA, Recherche oder die Übernahme von Wissen in ein Wissenssystem. Besonders nützlich ist die Skill, wenn ein normaler Prompt zu manuell wäre, weil sich die Zielinhalte über Dutzende verlinkte Seiten innerhalb derselben Domain erstrecken.

Die eigentliche Aufgabe hinter dem Einsatz

Nutzer setzen firecrawl-crawl ein, wenn sie Abdeckung brauchen – nicht nur Genauigkeit für eine einzelne URL. Die Hauptaufgabe besteht darin, den Crawl-Bereich klar genug zu definieren, damit das Tool die richtigen Seiten einsammelt, ohne Zeit mit irrelevanten Bereichen, Duplikaten oder gleich der gesamten öffentlichen Website zu verschwenden.

Was diese Skill unterscheidet

Die wichtigsten Unterscheidungsmerkmale sind praxistaugliche Crawl-Kontrollen: Pfadfilter, Tiefenlimits, Seitenlimits, asynchrone Job-Verarbeitung sowie optionales Warten und Fortschrittsanzeige. Dadurch ist firecrawl-crawl for Web Scraping deutlich operativer als eine generische Anweisung wie „scrape diese Website“.

Wann diese Skill besonders gut passt

Nutze die firecrawl-crawl skill, wenn:

  • du viele Seiten von einer einzelnen Website brauchst
  • die Seiten über interne Links auffindbar sind
  • du den Umfang über Pfade wie /docs, /blog oder ähnliche Bereiche eingrenzen willst
  • du einen wiederholbaren Crawl-Befehl statt ad hoc formulierter Prompts brauchst

Wann du sie nicht verwenden solltest

Beginne nicht mit firecrawl-crawl, wenn du nur eine einzelne Seite brauchst, zuerst ein URL-Inventar erstellen musst oder noch nicht sicher bist, welcher Bereich relevant ist. In solchen Fällen sind einfachere Schritte wie Search, Scrape oder Map meist sinnvoller, bevor du zu einem Crawl eskalierst.

So verwendest du die firecrawl-crawl Skill

Installationskontext für firecrawl-crawl

Diese Skill gehört zum firecrawl/cli-Skill-Set und ist für die Nutzung über die Firecrawl CLI vorgesehen. Wenn deine Umgebung Skills unterstützt, ist das praktische Installationsmuster:

npx skills add https://github.com/firecrawl/cli --skill firecrawl-crawl

Außerdem muss die Firecrawl CLI verfügbar sein, damit der Agent Befehle wie firecrawl crawl oder npx firecrawl crawl ausführen kann.

Diese Datei solltest du zuerst lesen

Starte mit skills/firecrawl-crawl/SKILL.md. Bei dieser Skill steckt dort der Großteil des operativen Nutzens: wann du sie einsetzen solltest, Quickstart-Befehle und die wichtigsten Optionen, die Crawl-Umfang und Laufzeitverhalten steuern.

Zentrale Befehlsmuster

Das Repository zeigt drei zentrale firecrawl-crawl usage-Muster:

# Crawl a docs section
firecrawl crawl "<url>" --include-paths /docs --limit 50 --wait -o .firecrawl/crawl.json

# Full crawl with depth limit
firecrawl crawl "<url>" --max-depth 3 --wait --progress -o .firecrawl/crawl.json

# Check status of a running crawl
firecrawl crawl <job-id>

Damit deckst du die meisten realen Workflows ab: einen eingegrenzten Abschnitts-Crawl, einen breiteren Site-Crawl mit Tiefenkontrolle und das Abfragen eines bereits laufenden Jobs.

Welche Eingaben am wichtigsten sind

Um mit firecrawl-crawl gute Ergebnisse zu bekommen, solltest du Folgendes angeben:

  • eine saubere Start-URL
  • den gewünschten Website-Bereich, falls vorhanden
  • ein sinnvolles Seitenlimit mit --limit
  • ein Tiefenlimit mit --max-depth, wenn die Website viele Verzweigungen hat
  • ob du mit --wait auf eine synchrone Fertigstellung warten willst
  • einen Ausgabepfad, damit sich die Ergebnisse später leicht prüfen lassen

Der größte Hebel für Qualität ist der Crawl-Umfang. Eine gute Abgrenzung ist meist wichtiger als jede nachgelagerte Verarbeitung.

Aus einer vagen Anfrage einen starken Prompt machen

Schwache Anfrage:

  • „Crawl diese Website und hol alles.“

Stärkere Anfrage:

  • „Use firecrawl-crawl on https://example.com, restrict to /docs, cap at 50 pages, wait for completion, save output to .firecrawl/crawl.json, and summarize the main product setup pages after extraction.”

Warum das funktioniert:

  • die Skill wird ausdrücklich genannt
  • es gibt eine Start-URL
  • der Pfad wird eingegrenzt
  • Kosten und Laufzeit werden begrenzt
  • es ist klar, was nach Abschluss des Crawls passieren soll

Bester Workflow für den ersten Lauf

Ein praxistauglicher firecrawl-crawl guide für den Einstieg:

  1. Wähle die engste sinnvolle Start-URL.
  2. Füge --include-paths hinzu, wenn du nur einen Abschnitt brauchst.
  3. Setze --limit im ersten Durchlauf eher konservativ.
  4. Ergänze --max-depth, wenn die Website viele Verzweigungen hat.
  5. Nutze --wait für einfache Läufe, oder starte den Job und prüfe ihn später bei größeren Crawls.
  6. Speichere die Ausgabe mit -o, damit du kontrollieren kannst, was tatsächlich eingesammelt wurde.

Diese Reihenfolge reduziert unnötige Crawls und macht es leichter, die Grenzen nach dem ersten Ergebnis gezielt nachzuschärfen.

Scope-Kontrollen, die schlechte Crawls verhindern

Die wichtigsten Optionen, die in der Skill hervorgehoben werden, sind:

  • --include-paths, um den Crawl im richtigen Bereich zu halten
  • --limit <n>, um ausufernde Seitenzahlen zu verhindern
  • --max-depth <n>, um zu tiefe Traversierung zu stoppen
  • --wait, um bis zum Abschluss zu blockieren
  • --progress, um während des Wartens den Fortschritt zu sehen

Wenn du diese Optionen weglässt, kann ein Crawl schneller als erwartet zu breit werden – besonders auf Docs-Seiten mit Changelogs, Blog-Links oder stark querverlinkter Navigation.

Async-Modus vs. Wait-Modus

Verwende --wait, wenn du einen einzigen Workflow-Schritt willst und der Crawl sofort fertig werden soll. Lass die Option weg, wenn der Crawl länger dauern könnte und du lieber jobbasiert arbeitest. Das Repository unterstützt ausdrücklich das spätere Prüfen des Status mit firecrawl crawl <job-id>, was für größere Jobs oder Agent-Workflows nützlich ist, die Einreichung und Analyse trennen.

Umgang mit Output und Review

Schreibe bei ernsthaften Läufen die Ergebnisse immer in eine Datei, zum Beispiel:

firecrawl crawl "https://example.com" --include-paths /docs --limit 50 --wait -o .firecrawl/crawl.json

Das erleichtert die Prüfung nach dem Lauf deutlich. Bevor du den Agenten bittest, die Ergebnisse zusammenzufassen oder weiterzuverarbeiten, solltest du verifizieren, dass die Ausgabe tatsächlich den gewünschten Bereich und die erwartete Seitenanzahl enthält. Schlechte Crawl-Grenzen führen zu schlechter nachgelagerter Synthese.

Gute firecrawl-crawl-Einsatzmuster

Besonders wertvolle Einsatzfälle sind:

  • alle Docs-Seiten für einen Produktvergleich einsammeln
  • einen Help-Center-Bereich für interne Suche oder RAG-Vorbereitung ziehen
  • einen Cluster aus Migrationsleitfäden extrahieren, bevor Dokumentation neu geschrieben wird
  • einen bekannten Website-Bereich per Bulk-Scraping erfassen, wenn die relevanten Seiten bereits über Links verbunden sind

Das sind deutlich bessere Anwendungsfälle als „finde irgendetwas Interessantes auf dieser Domain“.

firecrawl-crawl Skill FAQ

Ist firecrawl-crawl einsteigerfreundlich?

Ja, sofern du den Unterschied zwischen Single-Page-Scraping und Multi-Page-Crawling bereits verstehst. Die Befehlsoberfläche ist klein, aber Einsteiger sollten mit einem engen Pfad und einem niedrigen Seitenlimit beginnen, um übergroße Läufe zu vermeiden.

Worin unterscheidet sich firecrawl-crawl von einem normalen Prompt?

Ein normaler Prompt kann das Ziel beschreiben, aber firecrawl-crawl gibt dem Agenten einen klaren operativen Pfad: einen Crawl-Job starten, Tiefe und Limits steuern, optional warten und strukturierten Output speichern. Das reduziert Rätselraten und macht wiederholte Läufe konsistenter.

Wann sollte ich firecrawl-crawl statt scrape verwenden?

Verwende firecrawl-crawl, wenn sich die Zielinhalte über viele verlinkte Seiten erstrecken. Nutze scrape, wenn du nur eine bekannte URL brauchst. Wenn du noch nicht sicher bist, welche Seiten relevant sind, kann map oder search ein besserer früher Schritt sein als crawl.

Eignet sich firecrawl-crawl für die Extraktion kompletter Websites?

Manchmal, aber nur dann, wenn du mit breiter Abdeckung leben kannst und gute Limits setzt. Für große Websites ist „komplette Website“ oft ein schlechter erster Lauf. Ein Crawl eines Docs-Unterbereichs ist in der Praxis meist deutlich sinnvoller, als auf der Startseite mit lockeren Kontrollen zu beginnen.

Funktioniert firecrawl-crawl gut für Docs-Bereiche?

Ja. Die Beispiele im Repository heben abschnittsbasierte Extraktion wie /docs ausdrücklich hervor – einer der stärksten Anwendungsfälle für firecrawl-crawl for Web Scraping.

Was verhindert gute Ergebnisse?

Die üblichen Blocker sind ein vager Scope, fehlende Pfadfilter, kein Seitenlimit und der falsche Startpunkt. Das sind keine Nebensächlichkeiten, sondern Faktoren, die direkt darüber entscheiden, ob der Output nützlich oder voller Rauschen ist.

So verbesserst du die firecrawl-crawl Skill

Gib firecrawl-crawl engere Crawl-Grenzen

Der schnellste Weg, den Output von firecrawl-crawl zu verbessern, ist eine präzise Definition der Crawl-Grenzen. Nenne die Start-URL, den Abschnittspfad, das Seitenlimit und die gewünschte Tiefe. „Crawl die Docs unter /docs bis zu einer Tiefe von 2“ ist deutlich besser als „crawl die Website“.

Starte klein und erweitere dann

Für bessere Ergebnisse und weniger verschwendete Läufe solltest du zuerst einen kleinen Validierungs-Crawl durchführen:

  • niedriges --limit
  • enges --include-paths
  • moderates --max-depth

Wenn der Output richtig aussieht, erhöhe das Limit. So erkennst du Scope-Fehler, bevor sie teuer oder langsam werden.

Schreibe Prompts, die die Aufgabe nach dem Crawl einschließen

firecrawl-crawl install ist nur ein Teil des Erfolgs. Sage dem Agenten auch, was nach der Extraktion passieren soll. Beispiel:

  • „Use firecrawl-crawl to extract /docs up to 50 pages, save to .firecrawl/crawl.json, then identify onboarding, auth, and API reference pages.”

Das verbessert den End-to-End-Nutzen, weil Crawl und Analyse von Anfang an aufeinander abgestimmt sind.

Vermeide typische Fehlermuster

Häufige Probleme mit der firecrawl-crawl skill:

  • auf der Startseite beginnen, obwohl nur ein einzelner Bereich gebraucht wird
  • --limit auf einer großen Website weglassen
  • --max-depth weglassen, obwohl die Navigation dicht verzweigt ist
  • -o vergessen und damit einen einfachen Review-Punkt verlieren
  • nach „allem“ fragen, ohne die geschäftliche Relevanz zu definieren

Iteriere anhand des Outputs, nicht anhand von Annahmen

Prüfe nach dem ersten Lauf, was tatsächlich eingesammelt wurde. Wenn irrelevante Seiten dominieren, schärfe --include-paths nach oder reduziere die Tiefe. Wenn wichtige Seiten fehlen, erhöhe die Tiefe oder starte an einem passenderen Einstiegspunkt. Der beste firecrawl-crawl guide ist iterativ: crawlen, prüfen, verfeinern, erneut ausführen.

Halte firecrawl-crawl in der richtigen Rolle

Verwende firecrawl-crawl für die Sammlung und gib die Ergebnisse danach an Schritte wie Zusammenfassung, Klassifizierung, Vergleich oder Indexierung weiter. Wenn du versuchst, schon den Crawl-Schritt jede nachgelagerte Aufgabe gleichzeitig lösen zu lassen, leidet meist die Klarheit. Die Skill ist am stärksten, wenn sie zuerst den richtigen Korpus einsammelt.

Bewertungen & Rezensionen

Noch keine Bewertungen
Teile deine Rezension
Melde dich an, um für diesen Skill eine Bewertung und einen Kommentar zu hinterlassen.
G
0/10000
Neueste Rezensionen
Wird gespeichert...