firecrawl-crawl

作成者 firecrawl

firecrawl-crawl は、パスフィルター、深さ制限、ページ上限、待機モード、ジョブ状態確認を使って、Webサイト全体や docs セクションのコンテンツをまとめて抽出したいエージェント向けのスキルです。

スター234

お気に入り0

追加日2026年3月31日

カテゴリーWeb Scraping

インストールコマンド

npx skills add firecrawl/cli --skill firecrawl-crawl

編集スコア

このスキルの評価は 74/100 です。サイト全体または特定セクションのコンテンツ抽出が必要なエージェントには掲載に値し、有用である可能性があります。一方で、ディレクトリ利用者が期待すべきなのは、手厚く整備されたワークフローパッケージというより、コマンド中心の実践ガイドです。リポジトリ上では、強いトリガー語と、制限・深さ・パスフィルターを使ったクロールの実用的な CLI 例が確認でき、汎用的なプロンプトよりも実行時の指針として信頼しやすくなっています。

74/100

強み

トリガー適性が高い: 説明文で "get all the pages"、"/docs"、"bulk extract" といったクロール系の意図が明確に示されています。
運用に使いやすい: SKILL.md には、セクションクロール、深さ制限付きクロール、実行中クロールジョブの確認に関する具体的な `firecrawl crawl` 例が含まれています。
一般的なワークフローでエージェントが活用しやすい: 一括抽出タスク向けに `--include-paths`、`--limit`、`--max-depth`、`--wait`、`--progress` といった主要オプションが整理されています。

注意点

導入判断に必要な情報は限定的です: SKILL.md にインストールコマンドがなく、セットアップ要件を見極めるための補助ファイル、参照情報、メタデータも見当たりません。
ワークフローの掘り下げは控えめです: 構成上、ワークフロー例は確認できますが、制約条件、エッジケース対応、トラブルシューティングに関する裏付けはあまりありません。

Scraping Websites Website Cli Firecrawl Workflow

概要

firecrawl-crawl スキルの概要

firecrawl-crawl でできること

firecrawl-crawl は、単一ページのスクレイピングではなく、Web サイト全体をまとめて抽出するためのスキルです。サイト全体や特定セクションをクロールし、リンクをたどりながら、複数ページの内容を 1 回のジョブで取得できます。たとえば「docs 配下を全部取りたい」「/docs 以下をまるごと抽出したい」「このヘルプセンターを深さ 3 までクロールしたい」といった用途なら、このツールが適しています。

firecrawl-crawl を使うべき人

firecrawl-crawl が特に向いているのは、ドキュメント分析、移行、インデックス作成、QA、調査、ナレッジ取り込みのために、複数ページのコンテンツをまとめて収集したい人です。対象コンテンツが同一ドメイン内の何十ページにもまたがっていて、通常のプロンプトでは手作業が多すぎる場合にとても有効です。

firecrawl-crawl の本質的な役割

firecrawl-crawl が選ばれるのは、1 つの URL の精度だけでなく、必要な範囲をしっかりカバーしたいときです。重要なのは、クロール対象の境界を十分に明確に定義し、無関係なセクションや重複ページ、サイト全体の不要な公開ページまで拾ってしまわないようにすることです。

firecrawl-crawl が他と違う点

大きな違いは、実運用で効くクロール制御がそろっていることです。たとえば、パスによる絞り込み、深さ制限、ページ数制限、非同期ジョブ処理、待機や進捗表示のオプションなどがあります。つまり firecrawl-crawl for Web Scraping は、単なる「このサイトをスクレイプして」という指示よりも、ずっと運用向きのツールです。

firecrawl-crawl が強くハマるケース

次のような場合は firecrawl-crawl skill が適しています。

1 つのサイトから多くのページを取得したい
ページ同士が内部リンクでたどれる
/docs や /blog のようなパスで対象範囲を絞りたい
その場しのぎの指示ではなく、再現可能なクロールコマンドがほしい

firecrawl-crawl を使わないほうがいい場面

1 ページだけ取れればよい場合、まず URL 一覧を作りたい場合、あるいはどのセクションが重要かまだ定まっていない場合は、最初から firecrawl-crawl を使わないほうがよいです。そうしたケースでは、まず search、scrape、map といったより単純な手順を試し、その後に crawl へ進むほうがうまくいきます。

firecrawl-crawl スキルの使い方

firecrawl-crawl の導入前提

このスキルは firecrawl/cli の skill set に含まれており、Firecrawl CLI 経由で呼び出す前提です。環境が Skills をサポートしているなら、実用的な導入パターンは次のとおりです。

npx skills add https://github.com/firecrawl/cli --skill firecrawl-crawl

また、エージェントが firecrawl crawl や npx firecrawl crawl を実行できるように、Firecrawl CLI 自体も使える状態である必要があります。

最初に読むべきファイル

まずは skills/firecrawl-crawl/SKILL.md を確認してください。このスキルでは、そのファイルに実運用上の重要情報がほぼまとまっています。使いどころ、クイックスタートのコマンド、クロール範囲や実行時挙動を制御する主要オプションが載っています。

基本のコマンドパターン

リポジトリでは、firecrawl-crawl usage の代表的な 3 パターンが示されています。

# Crawl a docs section
firecrawl crawl "<url>" --include-paths /docs --limit 50 --wait -o .firecrawl/crawl.json

# Full crawl with depth limit
firecrawl crawl "<url>" --max-depth 3 --wait --progress -o .firecrawl/crawl.json

# Check status of a running crawl
firecrawl crawl <job-id>

この 3 つで、多くの実務フローをカバーできます。つまり、セクションを絞ったクロール、深さ制御付きの広めのサイトクロール、既存ジョブの状態確認です。

firecrawl-crawl で重要な入力

firecrawl-crawl で良い結果を得るには、次の情報を明確に渡すのが重要です。

きれいな開始 URL
必要なら対象サイトのセクション
--limit による妥当なページ上限
サイトが広い場合の --max-depth による深さ制限
--wait で同期完了を待つかどうか
あとで確認しやすい出力先パス

結果の質を最も左右するのは、クロール範囲です。後段の処理よりも、最初の境界設計のほうが効くことが多いです。

あいまいな依頼を、強いプロンプトに変える

弱い依頼:

「この Web サイトをクロールして全部取って」

より良い依頼:

「https://example.com に対して firecrawl-crawl を使い、/docs に限定し、50 ページ上限で、完了まで待機し、出力を .firecrawl/crawl.json に保存し、抽出後に主要な製品セットアップページを要約して」

これがうまく機能する理由:

スキル名が明示されている
開始 URL がある
パス制約がある
コストと実行時間を抑えている
クロール完了後に何をするかまで指定している

firecrawl-crawl の初回実行におすすめの流れ

初めて使うときの実践的な firecrawl-crawl guide は次の流れです。

できるだけ狭く、目的に合った開始 URL を選ぶ。
セクションだけ必要なら --include-paths を付ける。
初回は --limit を控えめに設定する。
分岐の多いサイトなら --max-depth を入れる。
単純な実行では --wait を使い、大きなクロールでは送信だけして後でジョブを確認する。
-o で出力保存して、実際に何が集まったか見直せるようにする。

この手順なら、無駄なクロールを減らしつつ、最初の結果を見て境界を調整しやすくなります。

失敗しにくくする firecrawl-crawl の範囲制御

このスキルで特に重要なのは、次のオプションです。

--include-paths で対象セクションに絞る
--limit <n> でページ数の暴走を防ぐ
--max-depth <n> で深すぎる巡回を止める
--wait で完了まで待機する
--progress で待機中の進捗を確認する

これらを省くと、想像以上にクロール範囲が広がりやすくなります。特に、changelog、blog リンク、相互リンクの多い docs サイトではその傾向が強いです。

非同期モードと wait モードの使い分け

1 つの手順の中でそのまま完了させたいなら --wait を使います。クロールに時間がかかりそうで、ジョブベースで進めたいなら付けないほうが向いています。リポジトリでは firecrawl crawl <job-id> による後からの状態確認が明示的にサポートされており、大きめのジョブや、送信と分析を分けるエージェントワークフローで便利です。

firecrawl-crawl の出力管理とレビュー

本番に近い実行では、必ずファイルに出力しましょう。たとえば次のようにします。

firecrawl crawl "https://example.com" --include-paths /docs --limit 50 --wait -o .firecrawl/crawl.json

こうしておくと、実行後の確認がかなり楽になります。エージェントに要約や変換を頼む前に、出力に意図したセクションが含まれているか、ページ数は想定どおりかを確認してください。クロール境界が悪いと、その後の要約や統合も崩れます。

firecrawl-crawl の良い使い方

特に価値が高い用途は次のとおりです。

製品比較のために docs ページ一式を集める
社内検索や RAG 準備のために help center の特定セクションを取得する
ドキュメント書き換え前に migration guide 群をまとめて抽出する
すでに関連ページ同士がリンクで結ばれている既知セクションを一括スクレイピングする

こうした用途は、「このドメインで何か面白いものを探して」といった曖昧な依頼より、はるかに適しています。

firecrawl-crawl スキル FAQ

firecrawl-crawl は初心者向きですか？

はい。ただし、1 ページのスクレイピングと複数ページのクロールの違いを理解していることが前提です。コマンド自体はそこまで多くありませんが、初心者はまず狭いパスと小さなページ上限で始めるべきです。いきなり大きく回すと、対象が広がりすぎやすくなります。

firecrawl-crawl と普通のプロンプトの違いは何ですか？

通常のプロンプトでも目的は伝えられますが、firecrawl-crawl には明確な実行経路があります。つまり、クロールジョブを投げ、深さや上限を制御し、必要なら待機し、構造化された出力を保存できます。これにより手探りが減り、繰り返し実行したときの一貫性も上がります。

scrape ではなく firecrawl-crawl を使うべきなのはいつですか？

対象コンテンツが、リンクでつながった複数ページにまたがっているなら firecrawl-crawl を使うべきです。既知の 1 URL だけでよいなら scrape のほうが向いています。どのページが必要かまだ見えていない段階なら、crawl の前に map や search を挟むほうがよいこともあります。

firecrawl-crawl はサイト全体の抽出に向いていますか？

場合によります。広い範囲を許容でき、適切な制限をかけられるなら使えます。ただし、大規模サイトでは「サイト全体」は初回実行としては悪手になりやすいです。緩い制御でトップページから始めるより、docs の一部セクションを狙うほうが、たいてい実用的です。

firecrawl-crawl は docs セクションの取得に向いていますか？

はい。リポジトリでも /docs のようなセクション単位の抽出が明示的に例示されており、これは firecrawl-crawl for Web Scraping の中でも特に強いユースケースです。

firecrawl-crawl で良い結果を妨げる要因は何ですか？

よくある阻害要因は、範囲指定があいまい、パスフィルタがない、ページ上限がない、開始 URL が適切でない、といった点です。これらは細かい設定ではなく、出力が有用になるかノイズだらけになるかを直接左右します。

firecrawl-crawl スキルを改善する方法

firecrawl-crawl のクロール境界をもっと明確にする

firecrawl-crawl の出力を最も手早く改善する方法は、クロール境界を正確に定義することです。開始 URL、対象セクションのパス、ページ上限、必要な深さを明記してください。「サイトをクロールして」よりも、「/docs 配下を深さ 2 までクロールして」のほうがはるかに良い指示です。

小さく始めて、あとで広げる

導入時の失敗を減らし、無駄な実行を避けるには、まず小さな検証クロールから始めるのが有効です。

低めの --limit
狭めの --include-paths
控えめな --max-depth

出力が狙いどおりなら、その後で上限を広げます。このやり方なら、範囲ミスが高コスト化・長時間化する前に気づけます。

クロール後の作業まで含めてプロンプトを書く

firecrawl-crawl install だけでは成功しません。抽出後にエージェントへ何をさせたいかも、あわせて書いてください。例:

「firecrawl-crawl を使って /docs を 50 ページまで抽出し、.firecrawl/crawl.json に保存して、その後 onboarding、auth、API reference のページを特定して」

こうすると、クロールと分析の向きが最初から揃うため、最終的な使い勝手が大きく上がります。

よくある失敗パターンを避ける

firecrawl-crawl skill でありがちな問題は次のとおりです。

必要なのは一部セクションだけなのにトップページから始める
大規模サイトで --limit を省く
ナビゲーションが密なのに --max-depth を省く
-o を忘れて、レビューしやすい出力地点を失う
ビジネス上の関連性を定義しないまま「全部」と依頼する

思い込みではなく、出力を見て調整する

最初の実行後は、実際に何が集まったかを必ず確認してください。無関係なページが多いなら --include-paths を厳しくするか、深さを下げます。重要ページが足りないなら、深さを増やすか、より適切な入口 URL から始めます。良い firecrawl-crawl guide は反復的です。クロールし、確認し、調整し、再実行します。

firecrawl-crawl を適切な役割にとどめる

firecrawl-crawl は収集に使い、その後に要約、分類、比較、インデックス化へつなぐのが基本です。クロール段階で後続タスクまで全部片づけようとすると、かえって目的がぶれやすくなります。このスキルは、まず適切なコーパスを集める役割で使うと最も強みが出ます。

評価とレビュー

まだ評価がありません

レビューを投稿

このスキルの評価やコメントを投稿するにはサインインしてください。

0/10000

新着レビュー

保存中...

このカテゴリーの他のスキル

huggingface-datasets

作成者 huggingface

huggingface-datasets スキルは、Hugging Face Dataset Viewer API のワークフローでデータセットの検証、split の解決、行のプレビューとページネーション、テキスト検索、フィルタ適用、parquet リンクや統計情報の取得を行うために使います。読み取り専用のデータセット探索に適した、実用的な huggingface-datasets ガイドです。

Web Scraping

お気に入り 0GitHub 10.4k

data-scraper-agent

作成者 affaan-m

data-scraper-agent は、Web スクレイピング、データ強化、保存までを一貫して行う、再利用可能な公開データパイプラインの構築を支援します。GitHub Actions を使って、ジョブ、価格、ニュース、リポジトリ、スポーツ、掲載情報などを定期監視する用途に向いており、出力先は Notion、Sheets、Supabase に対応します。一度きりの抽出よりも、継続的な追跡に最適です。

Web Scraping

お気に入り 0GitHub 156.1k

baoyu-url-to-markdown

作成者 JimLiu

baoyu-url-to-markdown は、vendored な baoyu-fetch CLI を使い、Chrome CDP・サイト別アダプター・汎用フォールバックで公開中の URL を Markdown に変換します。導入前に、Bun ランタイムの要件、初回の EXTEND.md 設定、X・YouTube・Hacker News・レンダリング後ページでの使い方を確認しておくと安心です。

Format Conversion

お気に入り 0GitHub 13.2k

x-twitter-scraper

作成者 Xquik-dev

x-twitter-scraperを使って、Xquik経由でX（Twitter）のデータ取得と確認付きアクションを実行できます。ツイート検索、ユーザー照会、フォロワー抽出、メディア डाउनलोड、監視、webhook、MCP、書き込み系アクションに対応。Xのログイン情報ではなくAPIキーで行う、Webスクレイピング寄りの調査用途に最適です。

Web Scraping

お気に入り 0GitHub 71

exa-search

作成者 K-Dense-AI

exa-search は、Exa を活用した Web リサーチスキルです。現在の情報を見つけたり、URL からコンテンツを抽出したりする用途に向いています。検索、ソース探索、記事や PDF の抽出、意味ベースの検索、学術的な絞り込みを使った技術・科学リサーチに利用でき、導入と使い方もわかりやすく整理されています。

Web Research

お気に入り 0GitHub 0

browser-use

作成者 browser-use

browser-use は、ページを開く、状態を確認する、番号付き要素をクリックする、フォームに入力する、スクリーンショットを撮る、永続的なブラウザーセッションを再利用するといった操作に対応したブラウザー自動化スキルです。browser-use CLI を使った安定したフォーム入力、ページ遷移、ログイン後のワークフローに適しています。

Browser Automation

お気に入り 0GitHub 84.9k

remote-browser

作成者 browser-use

remote-browserは、サンドボックス環境のエージェントがBrowser Automation用のヘッドレスブラウザを操作するためのスキルです。ページを開く、状態を確認する、番号付き要素をクリックする、入力する、スクリーンショットを撮る、ローカルアプリやCDP対応ブラウザセッションに接続するといった操作に使えます。

Browser Automation

お気に入り 0GitHub 84.9k

firecrawl

作成者 firecrawl

webスクレイピング、検索、クローリング、ページ操作に対応する公式 Firecrawl CLI をインストール・認証・活用するための firecrawl skill です。セットアップ、`firecrawl --status` による確認、ログイン、`.firecrawl/` への安全な出力方法、リポジトリに基づく実践的な使い方まで学べます。

Web Scraping

お気に入り 0GitHub 234

firecrawl-search

作成者 firecrawl

firecrawl-search は、ソースの発見や構造化検索を行い、必要に応じて Firecrawl CLI でページ全文を JSON として取得できる、Web調査向けのスキルです。

Web Research

お気に入り 0GitHub 234

parallel-web

作成者 K-Dense-AI

parallel-web は、parallel-cli を基盤にした Web リサーチと抽出のためのスキルです。Web 検索、URL からのコンテンツ抽出、ソースを使ったデータの補完、さらに学術・科学系ソースを優先した深掘りリサーチを支援します。parallel-web の使い方、Web リサーチ、引用、証拠ベースのワークフローに向いています。

Web Research

お気に入り 0GitHub 0

geomaster

作成者 K-Dense-AI

geomaster は、GIS、リモートセンシング、空間解析、地球観測のワークフローに対応する地理空間サイエンス系スキルです。ラスタ／ベクター操作、衛星画像処理、空間指標の算出、ワークフロー設計などのデータ分析タスクに使えます。geomaster ガイドを使えば、迷いを減らしながら、このスキルのインストール、内容確認、適用まで進められます。

Data Analysis

お気に入り 0GitHub 0

asc-aso-audit

作成者 rudrankriyam

asc-aso-auditは、`./metadata` にある正規の App Store メタデータを使ってオフラインでASO監査を行い、Astro MCPでキーワードの抜けを洗い出すのに役立ちます。`asc metadata pull` の後に asc-aso-audit スキルを使えば、`subtitle`、`keywords`、`description`、`whatsNew` を、勘に頼らず確認できます。

Data Analysis

お気に入り 0GitHub 0

ffuf-web-fuzzing

作成者 jthack

ffuf-web-fuzzing は、隠れたWebコンテンツの発見、ルートやパラメータのテスト、raw リクエスト、オートキャリブレーション、結果分析を使った認証済みターゲットのファジングに役立つ実践的なスキルです。ペネトレーションテストや Security Audit のワークフローで、再現性のある ffuf-web-fuzzing ガイドを必要とするセキュリティテスターに適しています。

Security Audit

お気に入り 0GitHub 0

web-to-markdown

作成者 softaworks

web-to-markdown は、ローカルの `web2md` CLI を使って公開中の Web ページを整った Markdown に変換する Format Conversion スキルです。JS 描画ページ、対話操作が必要なフロー、複数 URL の一括変換にも対応し、Chromium 系ブラウザを利用します。実行されるのは、名前を明示して呼び出した場合のみです。

Format Conversion

お気に入り 0GitHub 1.3k

firecrawl-agent

作成者 firecrawl

firecrawl-agentは、複雑で複数ページにまたがるWebサイトから構造化JSONを抽出したいときに役立つスキルです。Firecrawl CLI agentを使うべき場面、実行方法、schemaの追加、開始URLの指定、価格情報・商品一覧・ディレクトリ型データの出力保存までを判断しやすく紹介します。

Web Scraping

お気に入り 0GitHub 234

firecrawl-map

作成者 firecrawl

firecrawl-map は、サイト内のURLを見つけて一覧化するためのスキルです。検索フィルタ、件数制限、JSON出力、サイトマップモード、サブドメイン制御に対応しており、本格的な scraping や crawling の前段で使いやすく設計されています。

Web Scraping

お気に入り 0GitHub 234