firecrawl-crawl
作成者 firecrawlfirecrawl-crawl は、パスフィルター、深さ制限、ページ上限、待機モード、ジョブ状態確認を使って、Webサイト全体や docs セクションのコンテンツをまとめて抽出したいエージェント向けのスキルです。
このスキルの評価は 74/100 です。サイト全体または特定セクションのコンテンツ抽出が必要なエージェントには掲載に値し、有用である可能性があります。一方で、ディレクトリ利用者が期待すべきなのは、手厚く整備されたワークフローパッケージというより、コマンド中心の実践ガイドです。リポジトリ上では、強いトリガー語と、制限・深さ・パスフィルターを使ったクロールの実用的な CLI 例が確認でき、汎用的なプロンプトよりも実行時の指針として信頼しやすくなっています。
- トリガー適性が高い: 説明文で "get all the pages"、"/docs"、"bulk extract" といったクロール系の意図が明確に示されています。
- 運用に使いやすい: SKILL.md には、セクションクロール、深さ制限付きクロール、実行中クロールジョブの確認に関する具体的な `firecrawl crawl` 例が含まれています。
- 一般的なワークフローでエージェントが活用しやすい: 一括抽出タスク向けに `--include-paths`、`--limit`、`--max-depth`、`--wait`、`--progress` といった主要オプションが整理されています。
- 導入判断に必要な情報は限定的です: SKILL.md にインストールコマンドがなく、セットアップ要件を見極めるための補助ファイル、参照情報、メタデータも見当たりません。
- ワークフローの掘り下げは控えめです: 構成上、ワークフロー例は確認できますが、制約条件、エッジケース対応、トラブルシューティングに関する裏付けはあまりありません。
firecrawl-crawl スキルの概要
firecrawl-crawl でできること
firecrawl-crawl は、単一ページのスクレイピングではなく、Web サイト全体をまとめて抽出するためのスキルです。サイト全体や特定セクションをクロールし、リンクをたどりながら、複数ページの内容を 1 回のジョブで取得できます。たとえば「docs 配下を全部取りたい」「/docs 以下をまるごと抽出したい」「このヘルプセンターを深さ 3 までクロールしたい」といった用途なら、このツールが適しています。
firecrawl-crawl を使うべき人
firecrawl-crawl が特に向いているのは、ドキュメント分析、移行、インデックス作成、QA、調査、ナレッジ取り込みのために、複数ページのコンテンツをまとめて収集したい人です。対象コンテンツが同一ドメイン内の何十ページにもまたがっていて、通常のプロンプトでは手作業が多すぎる場合にとても有効です。
firecrawl-crawl の本質的な役割
firecrawl-crawl が選ばれるのは、1 つの URL の精度だけでなく、必要な範囲をしっかりカバーしたいときです。重要なのは、クロール対象の境界を十分に明確に定義し、無関係なセクションや重複ページ、サイト全体の不要な公開ページまで拾ってしまわないようにすることです。
firecrawl-crawl が他と違う点
大きな違いは、実運用で効くクロール制御がそろっていることです。たとえば、パスによる絞り込み、深さ制限、ページ数制限、非同期ジョブ処理、待機や進捗表示のオプションなどがあります。つまり firecrawl-crawl for Web Scraping は、単なる「このサイトをスクレイプして」という指示よりも、ずっと運用向きのツールです。
firecrawl-crawl が強くハマるケース
次のような場合は firecrawl-crawl skill が適しています。
- 1 つのサイトから多くのページを取得したい
- ページ同士が内部リンクでたどれる
/docsや/blogのようなパスで対象範囲を絞りたい- その場しのぎの指示ではなく、再現可能なクロールコマンドがほしい
firecrawl-crawl を使わないほうがいい場面
1 ページだけ取れればよい場合、まず URL 一覧を作りたい場合、あるいはどのセクションが重要かまだ定まっていない場合は、最初から firecrawl-crawl を使わないほうがよいです。そうしたケースでは、まず search、scrape、map といったより単純な手順を試し、その後に crawl へ進むほうがうまくいきます。
firecrawl-crawl スキルの使い方
firecrawl-crawl の導入前提
このスキルは firecrawl/cli の skill set に含まれており、Firecrawl CLI 経由で呼び出す前提です。環境が Skills をサポートしているなら、実用的な導入パターンは次のとおりです。
npx skills add https://github.com/firecrawl/cli --skill firecrawl-crawl
また、エージェントが firecrawl crawl や npx firecrawl crawl を実行できるように、Firecrawl CLI 自体も使える状態である必要があります。
最初に読むべきファイル
まずは skills/firecrawl-crawl/SKILL.md を確認してください。このスキルでは、そのファイルに実運用上の重要情報がほぼまとまっています。使いどころ、クイックスタートのコマンド、クロール範囲や実行時挙動を制御する主要オプションが載っています。
基本のコマンドパターン
リポジトリでは、firecrawl-crawl usage の代表的な 3 パターンが示されています。
# Crawl a docs section
firecrawl crawl "<url>" --include-paths /docs --limit 50 --wait -o .firecrawl/crawl.json
# Full crawl with depth limit
firecrawl crawl "<url>" --max-depth 3 --wait --progress -o .firecrawl/crawl.json
# Check status of a running crawl
firecrawl crawl <job-id>
この 3 つで、多くの実務フローをカバーできます。つまり、セクションを絞ったクロール、深さ制御付きの広めのサイトクロール、既存ジョブの状態確認です。
firecrawl-crawl で重要な入力
firecrawl-crawl で良い結果を得るには、次の情報を明確に渡すのが重要です。
- きれいな開始 URL
- 必要なら対象サイトのセクション
--limitによる妥当なページ上限- サイトが広い場合の
--max-depthによる深さ制限 --waitで同期完了を待つかどうか- あとで確認しやすい出力先パス
結果の質を最も左右するのは、クロール範囲です。後段の処理よりも、最初の境界設計のほうが効くことが多いです。
あいまいな依頼を、強いプロンプトに変える
弱い依頼:
- 「この Web サイトをクロールして全部取って」
より良い依頼:
- 「
https://example.comに対してfirecrawl-crawlを使い、/docsに限定し、50 ページ上限で、完了まで待機し、出力を.firecrawl/crawl.jsonに保存し、抽出後に主要な製品セットアップページを要約して」
これがうまく機能する理由:
- スキル名が明示されている
- 開始 URL がある
- パス制約がある
- コストと実行時間を抑えている
- クロール完了後に何をするかまで指定している
firecrawl-crawl の初回実行におすすめの流れ
初めて使うときの実践的な firecrawl-crawl guide は次の流れです。
- できるだけ狭く、目的に合った開始 URL を選ぶ。
- セクションだけ必要なら
--include-pathsを付ける。 - 初回は
--limitを控えめに設定する。 - 分岐の多いサイトなら
--max-depthを入れる。 - 単純な実行では
--waitを使い、大きなクロールでは送信だけして後でジョブを確認する。 -oで出力保存して、実際に何が集まったか見直せるようにする。
この手順なら、無駄なクロールを減らしつつ、最初の結果を見て境界を調整しやすくなります。
失敗しにくくする firecrawl-crawl の範囲制御
このスキルで特に重要なのは、次のオプションです。
--include-pathsで対象セクションに絞る--limit <n>でページ数の暴走を防ぐ--max-depth <n>で深すぎる巡回を止める--waitで完了まで待機する--progressで待機中の進捗を確認する
これらを省くと、想像以上にクロール範囲が広がりやすくなります。特に、changelog、blog リンク、相互リンクの多い docs サイトではその傾向が強いです。
非同期モードと wait モードの使い分け
1 つの手順の中でそのまま完了させたいなら --wait を使います。クロールに時間がかかりそうで、ジョブベースで進めたいなら付けないほうが向いています。リポジトリでは firecrawl crawl <job-id> による後からの状態確認が明示的にサポートされており、大きめのジョブや、送信と分析を分けるエージェントワークフローで便利です。
firecrawl-crawl の出力管理とレビュー
本番に近い実行では、必ずファイルに出力しましょう。たとえば次のようにします。
firecrawl crawl "https://example.com" --include-paths /docs --limit 50 --wait -o .firecrawl/crawl.json
こうしておくと、実行後の確認がかなり楽になります。エージェントに要約や変換を頼む前に、出力に意図したセクションが含まれているか、ページ数は想定どおりかを確認してください。クロール境界が悪いと、その後の要約や統合も崩れます。
firecrawl-crawl の良い使い方
特に価値が高い用途は次のとおりです。
- 製品比較のために docs ページ一式を集める
- 社内検索や RAG 準備のために help center の特定セクションを取得する
- ドキュメント書き換え前に migration guide 群をまとめて抽出する
- すでに関連ページ同士がリンクで結ばれている既知セクションを一括スクレイピングする
こうした用途は、「このドメインで何か面白いものを探して」といった曖昧な依頼より、はるかに適しています。
firecrawl-crawl スキル FAQ
firecrawl-crawl は初心者向きですか?
はい。ただし、1 ページのスクレイピングと複数ページのクロールの違いを理解していることが前提です。コマンド自体はそこまで多くありませんが、初心者はまず狭いパスと小さなページ上限で始めるべきです。いきなり大きく回すと、対象が広がりすぎやすくなります。
firecrawl-crawl と普通のプロンプトの違いは何ですか?
通常のプロンプトでも目的は伝えられますが、firecrawl-crawl には明確な実行経路があります。つまり、クロールジョブを投げ、深さや上限を制御し、必要なら待機し、構造化された出力を保存できます。これにより手探りが減り、繰り返し実行したときの一貫性も上がります。
scrape ではなく firecrawl-crawl を使うべきなのはいつですか?
対象コンテンツが、リンクでつながった複数ページにまたがっているなら firecrawl-crawl を使うべきです。既知の 1 URL だけでよいなら scrape のほうが向いています。どのページが必要かまだ見えていない段階なら、crawl の前に map や search を挟むほうがよいこともあります。
firecrawl-crawl はサイト全体の抽出に向いていますか?
場合によります。広い範囲を許容でき、適切な制限をかけられるなら使えます。ただし、大規模サイトでは「サイト全体」は初回実行としては悪手になりやすいです。緩い制御でトップページから始めるより、docs の一部セクションを狙うほうが、たいてい実用的です。
firecrawl-crawl は docs セクションの取得に向いていますか?
はい。リポジトリでも /docs のようなセクション単位の抽出が明示的に例示されており、これは firecrawl-crawl for Web Scraping の中でも特に強いユースケースです。
firecrawl-crawl で良い結果を妨げる要因は何ですか?
よくある阻害要因は、範囲指定があいまい、パスフィルタがない、ページ上限がない、開始 URL が適切でない、といった点です。これらは細かい設定ではなく、出力が有用になるかノイズだらけになるかを直接左右します。
firecrawl-crawl スキルを改善する方法
firecrawl-crawl のクロール境界をもっと明確にする
firecrawl-crawl の出力を最も手早く改善する方法は、クロール境界を正確に定義することです。開始 URL、対象セクションのパス、ページ上限、必要な深さを明記してください。「サイトをクロールして」よりも、「/docs 配下を深さ 2 までクロールして」のほうがはるかに良い指示です。
小さく始めて、あとで広げる
導入時の失敗を減らし、無駄な実行を避けるには、まず小さな検証クロールから始めるのが有効です。
- 低めの
--limit - 狭めの
--include-paths - 控えめな
--max-depth
出力が狙いどおりなら、その後で上限を広げます。このやり方なら、範囲ミスが高コスト化・長時間化する前に気づけます。
クロール後の作業まで含めてプロンプトを書く
firecrawl-crawl install だけでは成功しません。抽出後にエージェントへ何をさせたいかも、あわせて書いてください。例:
- 「
firecrawl-crawlを使って/docsを 50 ページまで抽出し、.firecrawl/crawl.jsonに保存して、その後 onboarding、auth、API reference のページを特定して」
こうすると、クロールと分析の向きが最初から揃うため、最終的な使い勝手が大きく上がります。
よくある失敗パターンを避ける
firecrawl-crawl skill でありがちな問題は次のとおりです。
- 必要なのは一部セクションだけなのにトップページから始める
- 大規模サイトで
--limitを省く - ナビゲーションが密なのに
--max-depthを省く -oを忘れて、レビューしやすい出力地点を失う- ビジネス上の関連性を定義しないまま「全部」と依頼する
思い込みではなく、出力を見て調整する
最初の実行後は、実際に何が集まったかを必ず確認してください。無関係なページが多いなら --include-paths を厳しくするか、深さを下げます。重要ページが足りないなら、深さを増やすか、より適切な入口 URL から始めます。良い firecrawl-crawl guide は反復的です。クロールし、確認し、調整し、再実行します。
firecrawl-crawl を適切な役割にとどめる
firecrawl-crawl は収集に使い、その後に要約、分類、比較、インデックス化へつなぐのが基本です。クロール段階で後続タスクまで全部片づけようとすると、かえって目的がぶれやすくなります。このスキルは、まず適切なコーパスを集める役割で使うと最も強みが出ます。
