firecrawl-scrape

作成者 firecrawl

firecrawl-scrape は、既知のURLからクリーンでLLM向けに扱いやすい内容を抽出できるスキルです。JSで描画されるページにも対応し、Firecrawl CLI または `npx firecrawl` を使って、markdown、リンク一覧、ページ単位の回答を取得できます。

スター234

お気に入り0

追加日2026年3月31日

カテゴリーWeb Scraping

インストールコマンド

npx skills add firecrawl/cli --skill firecrawl-scrape

編集スコア

このスキルの評価は 72/100 です。URLを指定して明確にスクレイピングしたいディレクトリ利用者向けには掲載可能な水準ですが、導入判断のためのページとしては情報の厚みがやや不足しています。リポジトリ上の根拠からは、静的ページやJS描画ページを markdown に抽出する用途での起動しやすさが高く、複数URL、出力形式、クエリベース抽出まで含めた実践的なコマンド例が確認できます。一方で、採用判断のしやすさは、トップレベルの説明文がかなり簡素であること、SKILL.md にインストールコマンドがないこと、補助ファイルやより深い運用ガイダンスがないことによって弱められています。

72/100

強み

説明文にあるトリガーの手がかりが明確で、「scrape」「fetch」「read this webpage」といったユーザー意図をこのスキルに直接結び付けています。
クイックスタートの例が具体的で、基本的なスクレイプ、本文のみの抽出、JS待機、複数URL、別形式での出力、ページ内容へのクエリといった実用的な使い方をすぐ確認できます。
単なる汎用プロンプトより運用面での価値が明確で、エージェントに `firecrawl scrape` / `npx firecrawl` の使用、出力の保存、Webページ抽出では WebFetch よりこちらを優先することを指示しています。

注意点

SKILL.md にインストールコマンドが含まれていないため、実行前に CLI のセットアップ方法を別途確認する必要があります。
リポジトリの補助情報は1つの markdown ファイル以外ほとんどなく、トラブルシューティング、認証・セットアップ、エッジケース対応に関するスクリプト、参照資料、補完リソースがありません。

Firecrawl Scraping Websites Markdown Cli Browser Automation

概要

firecrawl-scrape スキルの概要

firecrawl-scrape でできること

firecrawl-scrape は、URL がすでに分かっている 1 ページまたは複数の Web ページから、LLM で扱いやすいクリーンなコンテンツを抽出するためのスキルです。用途は実務的なページ取得に特化しており、広範なサイト探索向けではありません。対象ページを指定すると、そのページに基づく markdown、links、あるいは直接的な query answer といった構造化された出力を返します。

firecrawl-scrape が向いている人

このスキルは、次のようなページから安定して本文を取りたいユーザーに適しています。

ドキュメントページ
ブログ記事
料金ページ
製品ページ
JavaScript レンダリングのサイトや SPA

特に、通常の fetch 系ツールではクライアントレンダリングされたページをうまく取得できない場合や、LLM に渡しづらいノイズの多い HTML しか返ってこない場合に有効です。

firecrawl-scrape が実際に解決する仕事

多くのユーザーが欲しいのは、抽象的な意味での「web scraping」ではありません。実際には、次のどれかを実現したいはずです。

後で分析できるようにページを markdown として読み込む
ヘッダーやフッターを除いた主要コンテンツだけを抜き出す
ページ本文と一緒にリンクも抽出する
既知の URL について絞った質問をする
既知の複数 URL を並列で scrape する

こうした用途では、「この webpage を読んで」と指示するだけの汎用プロンプトより、firecrawl-scrape のほうが明確に強みがあります。

汎用 fetch ではなく firecrawl-scrape が選ばれる理由

最大の違いは、firecrawl-scrape が JS レンダリングされたページを含む webpage content extraction 向けに設計され、LLM ワークフローに最適化された出力を返すことです。上流のスキルでも、webpage content extraction には WebFetch ではなくこちらを使うよう明示されています。普段のブラウザ取得や fetch では、レンダリング後の内容、ナビゲーションのノイズ、リンク文脈が取りこぼされやすい場面で、この差が効きます。

firecrawl-scrape の向き・不向きをひと目で確認

向いているケース:

URL がすでに分かっている
サイト全体の探索ではなく、ページ内容が欲しい
markdown や links を機械的に扱いやすい形で取りたい
コンテンツ表示までに render 時間が必要なページを扱う

向いていないケース:

まず URL の発見から始めたい
サイト全体をたどりたい
ページ取得以上の interaction が必要
単純な静的 HTML fetch だけで足り、すでに別ツールを信頼している

firecrawl-scrape スキルの使い方

firecrawl-scrape のインストール前提

このスキルは firecrawl/cli リポジトリの skills/firecrawl-scrape にあります。スキル自体は Firecrawl CLI の呼び出し方を案内する内容なので、実際に必要なのは firecrawl コマンド、または npx firecrawl を使える環境です。スキル内の例でも両方の形式が使われています。

firecrawl scrape ...
npx firecrawl ...

まだ CLI が使える状態でないなら、セットアップの手間を減らすために npx firecrawl 形式から始めるのが実用的です。

firecrawl-scrape に必要な入力

firecrawl-scrape に最低限必要なのは、具体的な URL です。そのうえで、出力品質は追加で何を指定するかに左右されます。

必要な出力形式: markdown、links、または両方
主要コンテンツだけを残すかどうか
ページ表示まで待つ必要があるなら --wait-for を使うか
生のページ内容をファイルに保存したいか
--query で絞り込んだ回答を得たいか

このスキルは「この会社をオンラインで調べて」のような曖昧な依頼向きではありません。「この正確なページを scrape して、使える形で返す」という用途に向いています。

最初に成功しやすい最短コマンド

まず読みやすいページ本文が欲しいだけなら、ここから始めるのが最速です。

firecrawl scrape "<url>" -o .firecrawl/page.md

ナビゲーションやサイドバーが多くて本文が埋もれるなら、こちらを使います。

firecrawl scrape "<url>" --only-main-content -o .firecrawl/page.md

SPA だったり、レンダリング後に本文が出るページなら、次のように待機を入れます。

firecrawl scrape "<url>" --wait-for 3000 -o .firecrawl/page.md

firecrawl-scrape で main-content モードを使うべき場面

--only-main-content は、下流の要約や抽出精度を大きく改善しやすい、価値の高いオプションです。特に次の目的で効果があります。

記事の要約
製品情報や料金情報の抽出
別の LLM ステップへの投入
メニュー、フッター、繰り返しのページ装飾による token の無駄を減らす

一方で、ナビゲーションリンクや周辺レイアウトの文脈も必要なら、あえて使わないほうがよいです。

JavaScript レンダリングページを firecrawl-scrape で扱う方法

導入時によくあるつまずきが、「ブラウザでは普通に見えるのに、単純な fetch だと内容が欠ける」というケースです。firecrawl-scrape は、レンダリングを考慮した scraping でそこに対応します。実務上は、表示が遅れて出るページなら --wait-for に 3000 のような現実的な待機時間を追加します。

待機を入れるべき典型例:

商品スペックがページ読み込み後に表示される
ドキュメント本文がクライアント側で hydrate される
料金表がスクリプト実行後に出る

ただし、最初から長い待機時間を入れるのはおすすめしません。まずは短めに始め、出力に明らかな欠落がある場合だけ延ばしてください。

firecrawl-scrape で複数 URL を効率よく scrape する方法

このスキルは 1 コマンドで複数 URL を扱え、しかも並列で scrape されることが明記されています。そのため、次のような「対象ページがすでに決まっている小規模バッチ」に向いています。

複数の docs ページ
ホームページ、料金ページ、FAQ
すでに候補を絞った複数のブログ記事

例:

firecrawl scrape https://example.com https://example.com/blog https://example.com/docs

対象 URL が分かっているなら、crawl をかけるよりこちらのほうが適切です。

markdown と links を firecrawl-scrape でまとめて取得する方法

次の処理で本文の読みやすさとページ参照の両方が必要なら、複数フォーマットをまとめて要求します。

firecrawl scrape "<url>" --format markdown,links -o .firecrawl/page.json

特に相性が良いワークフローは次の通りです。

本文を抽出したあと、外部リンクも確認する
出典を意識したノートを作る
本文とナビゲーションや参照先を分けて扱う

単一の markdown ファイルよりも、構造化された後処理をしたいなら JSON 出力を選ぶのが適しています。

firecrawl-scrape をページ単位の質問に使う方法

実用性の高い firecrawl-scrape usage パターンの 1 つが、scrape と同時にページ限定の質問を投げる使い方です。

firecrawl scrape "https://example.com/pricing" --query "What is the enterprise plan price?"

特に向いている条件:

答えが 1 ページ内にありそう
ページ全体を読むより、絞った情報抽出をしたい
手作業で読む時間を減らしたい

逆に、答えが複数ページにまたがる場合や、複数文書を比較しないと判断できない場合は弱くなります。

雑な依頼を firecrawl-scrape 向きの強い指示に変える

弱い依頼:

「このサイトをスクレイピングして重要なことを教えて」

強い依頼:

「https://example.com/pricing に対して firecrawl-scrape を --only-main-content 付きで実行し、markdown を .firecrawl/pricing.md に保存。その後、プラン名、月額料金、年払いに関する注記、enterprise 向け問い合わせ表現を抽出して」

このほうが良い理由:

URL が具体的
出力モードが適切
scrape 後に何を抽出するか明確
対象範囲の曖昧さが減る

Web Scraping 向け firecrawl-scrape のおすすめ手順

実務では、次の流れがうまくいきやすいです。

対象ページの正確な URL を確認する。
まず markdown 抽出から始める。
ページのノイズが多ければ --only-main-content を追加する。
レンダリング後の内容が欠けていれば --wait-for を追加する。
リンク構造も必要なら --format markdown,links に切り替える。
タスクが狭くページ内で完結する場合だけ --query を使う。

これは、upstream での scrape の位置づけとも一致しています。つまり、より大きな流れの中での中間ステップ、search → scrape → map → crawl → interact、という考え方です。

リポジトリで最初に読むべきファイル

まず skills/firecrawl-scrape/SKILL.md を読んでください。実務上の価値の大半はこのファイルにまとまっています。

どんな場面で使うか
クイックスタートのコマンド
対応オプション
利用上のコツ

このスキルディレクトリの案内はインストール判断向けなので、導入前に押さえるべきポイントはシンプルです。元ドキュメントは簡潔で、試す前に確認必須の補助スクリプトや追加リファレンスはありません。

出力品質を左右する実践的な導入のコツ

小さな選択でも、結果に大きく効くものがあります。

トップレベルドメインより、正確な URL を優先する
分析中心のタスクでは --only-main-content を使う
--wait-for は出力が明らかに不完全なときだけ使う
.firecrawl/ に保存して、生データを確認してから次の自動化につなげる
--query はページ内で完結する事実確認に使い、自由度の高い調査には使わない

多くの場合、プロンプト文言を足すより、こうした判断のほうが結果を大きく左右します。

firecrawl-scrape スキル FAQ

firecrawl-scrape は URL を渡すだけの通常プロンプトより優れていますか？

実際に webpage extraction をしたいなら、たいていは Yes です。firecrawl-scrape skill には明確な実行パスがあり、JS レンダリングページに対応し、markdown や links を返せて、scraping 向けのオプションも備わっています。単純な閲覧なら通常プロンプトでも足りることはありますが、レンダリングが必要なページや、より整った出力構造が欲しい場面では信頼性が落ちやすいです。

WebFetch ではなく firecrawl-scrape を使うべきタイミングは？

webpage content extraction をしたいなら firecrawl-scrape を使います。upstream のスキルでも、その用途では WebFetch よりこちらを使うよう明確に勧めています。特に、レンダリング済みページ、よりクリーンな markdown 出力、CLI で再現しやすい scraping ワークフローが必要な場合に、その推奨は意味を持ちます。

firecrawl-scrape は初心者向けですか？

はい。多くの scraping ツールと比べれば、かなり取り組みやすい部類です。最初の手順は短く、URL を渡してコマンドを実行し、出力を見るだけで価値を得られます。サイト全体の crawling 戦略を理解していなくても始められます。初心者が最初に押さえるべき点は、これはサイト全体の探索ではなく、ページ単位の scraping だということです。

firecrawl-scrape は SPA や動的ページに対応できますか？

はい。そこがこのスキルの存在意義の 1 つです。ページが JavaScript レンダリングに依存している場合は、必要に応じて --wait-for を使い、抽出前に内容が表示される時間を確保してください。

firecrawl-scrape が不向きなのはどんな場面ですか？

次のケースでは避けたほうがよいです。

まだ対象 URL が分かっていない
ドメイン全体を広く探索したい
再帰的にサイトをたどりたい
抽出ではなく interaction が必要
まだ特定していない多数ページを横断して答えを組み立てる必要がある

このような場合は、最初の一歩としては search、map、crawl、あるいは別のツールのほうが向いています。

使うにはリポジトリ全体をインストールする必要がありますか？

スキルが参照している Firecrawl CLI の挙動にアクセスできる必要はありますが、スキル自体は軽量です。導入判断の観点では、リポジトリ全体の負担は小さめです。実用的な手順は SKILL.md にほぼ集約されており、先に理解しておくべき companion script や resource folder もありません。

firecrawl-scrape スキルを改善する方法

firecrawl-scrape の目的をもっと狭くする

もっとも多い品質問題は、意図が広すぎることです。たとえば次のような依頼のほうが結果は安定します。

「料金表を抽出して」
「markdown と links を返して」
「このページからこの 1 問に答えて」

次のような依頼より効果的です。

「役立つものを全部スクレイピングして」

ページ上でのタスクを狭くするほど、後処理の手間は減ります。

ページを意識した指示で firecrawl-scrape の入力を改善する

強い入力は、URL、出力モード、抽出対象をまとめて指定します。例:

firecrawl scrape "https://example.com/docs/auth" \
  --only-main-content \
  -o .firecrawl/auth.md

そのうえで、そのファイルに対して何をするかをエージェントに具体的に伝えます。

セットアップ手順を要約する
必須ヘッダーを一覧化する
コード例を抽出する
認証方式を比較する

この 2 段階パターンは、scraping と分析を 1 つの曖昧な依頼でまとめるより、信頼しやすいことが多いです。

ワークフロー全体を変える前に、まず欠落コンテンツを直す

出力が薄いと感じたら、最初に確認すべきなのは、そのページにレンダリング待ちが必要かどうかです。

firecrawl scrape "<url>" --wait-for 3000 -o .firecrawl/page.md

実際にはページのレンダリング完了前に取得していただけなのに、ツール選定の問題だと早合点してしまうケースは少なくありません。

下流の分析前にノイズを減らす

結果にナビゲーション、cookie 文言、フッター内容が多いなら、次に切り替えてください。

firecrawl scrape "<url>" --only-main-content -o .firecrawl/page.md

これにより、しばしば次の点が改善します。

要約品質
抽出精度
token 効率
類似ページ間での一貫性

自動化前提なら firecrawl-scrape で最初から構造化出力を使う

scrape したページを次の処理に渡すなら、後で markdown を再解析するのではなく、最初から構造化フォーマットを指定したほうがよいです。

firecrawl scrape "<url>" --format markdown,links -o .firecrawl/page.json

この点は firecrawl-scrape install の判断にも関わります。ワークフローが link-aware な自動化に依存するなら、単なるテキスト取得ツールより、このスキルのほうが適合性ははっきりしています。

事前に作り込みすぎず、1 回目の実行後に調整する

実用的な firecrawl-scrape guide の進め方は次の通りです。

もっともシンプルな scrape を実行する
何が欠けているか、何がノイズかを確認する
その問題を直すためのオプションを 1 つだけ足す
再実行して比較する

よくある改善の順番:

ベースラインの scrape
--only-main-content を追加
--wait-for を追加
--format markdown,links を追加
直接抽出には --query を使う

ページ出力を見る前から複雑なコマンドを組み立てるより、このやり方のほうが速く、失敗も少ないです。

firecrawl-scrape で注意したい典型的な失敗パターン

実務で多い問題は次の通りです。

本当の対象は下位ページなのに、ホームページを使ってしまう
scrape に crawl のような挙動を期待してしまう
JS レンダリング内容を待っていない
--query で複数ページを必要とする質問をしてしまう
最終要約だけ保存し、生の scrape 出力を残していない

これらの多くは、スコープを明確にして 1 回出力を点検するだけで避けられます。

上級者が firecrawl-scrape をさらに活かす方法

上級者は、scrape 自体を複雑にしすぎるのではなく、firecrawl-scrape を後続ステップと組み合わせることで結果を改善することが多いです。強いパターンは次の通りです。

正確なページをクリーンに scrape する
生の出力を保存する
その後で抽出、比較、統合を行う

この形なら、firecrawl-scrape for Web Scraping は最も得意なページ取得レイヤーに集中でき、性能を活かしやすくなります。

評価とレビュー

まだ評価がありません

レビューを投稿

このスキルの評価やコメントを投稿するにはサインインしてください。

0/10000

新着レビュー

保存中...

このカテゴリーの他のスキル

huggingface-datasets

作成者 huggingface

huggingface-datasets スキルは、Hugging Face Dataset Viewer API のワークフローでデータセットの検証、split の解決、行のプレビューとページネーション、テキスト検索、フィルタ適用、parquet リンクや統計情報の取得を行うために使います。読み取り専用のデータセット探索に適した、実用的な huggingface-datasets ガイドです。

Web Scraping

お気に入り 0GitHub 10.4k

data-scraper-agent

作成者 affaan-m

data-scraper-agent は、Web スクレイピング、データ強化、保存までを一貫して行う、再利用可能な公開データパイプラインの構築を支援します。GitHub Actions を使って、ジョブ、価格、ニュース、リポジトリ、スポーツ、掲載情報などを定期監視する用途に向いており、出力先は Notion、Sheets、Supabase に対応します。一度きりの抽出よりも、継続的な追跡に最適です。

Web Scraping

お気に入り 0GitHub 156.1k

baoyu-url-to-markdown

作成者 JimLiu

baoyu-url-to-markdown は、vendored な baoyu-fetch CLI を使い、Chrome CDP・サイト別アダプター・汎用フォールバックで公開中の URL を Markdown に変換します。導入前に、Bun ランタイムの要件、初回の EXTEND.md 設定、X・YouTube・Hacker News・レンダリング後ページでの使い方を確認しておくと安心です。

Format Conversion

お気に入り 0GitHub 13.2k

x-twitter-scraper

作成者 Xquik-dev

x-twitter-scraperを使って、Xquik経由でX（Twitter）のデータ取得と確認付きアクションを実行できます。ツイート検索、ユーザー照会、フォロワー抽出、メディア डाउनलोड、監視、webhook、MCP、書き込み系アクションに対応。Xのログイン情報ではなくAPIキーで行う、Webスクレイピング寄りの調査用途に最適です。

Web Scraping

お気に入り 0GitHub 71

exa-search

作成者 K-Dense-AI

exa-search は、Exa を活用した Web リサーチスキルです。現在の情報を見つけたり、URL からコンテンツを抽出したりする用途に向いています。検索、ソース探索、記事や PDF の抽出、意味ベースの検索、学術的な絞り込みを使った技術・科学リサーチに利用でき、導入と使い方もわかりやすく整理されています。

Web Research

お気に入り 0GitHub 0

browser-use

作成者 browser-use

browser-use は、ページを開く、状態を確認する、番号付き要素をクリックする、フォームに入力する、スクリーンショットを撮る、永続的なブラウザーセッションを再利用するといった操作に対応したブラウザー自動化スキルです。browser-use CLI を使った安定したフォーム入力、ページ遷移、ログイン後のワークフローに適しています。

Browser Automation

お気に入り 0GitHub 84.9k

remote-browser

作成者 browser-use

remote-browserは、サンドボックス環境のエージェントがBrowser Automation用のヘッドレスブラウザを操作するためのスキルです。ページを開く、状態を確認する、番号付き要素をクリックする、入力する、スクリーンショットを撮る、ローカルアプリやCDP対応ブラウザセッションに接続するといった操作に使えます。

Browser Automation

お気に入り 0GitHub 84.9k

firecrawl

作成者 firecrawl

webスクレイピング、検索、クローリング、ページ操作に対応する公式 Firecrawl CLI をインストール・認証・活用するための firecrawl skill です。セットアップ、`firecrawl --status` による確認、ログイン、`.firecrawl/` への安全な出力方法、リポジトリに基づく実践的な使い方まで学べます。

Web Scraping

お気に入り 0GitHub 234

firecrawl-search

作成者 firecrawl

firecrawl-search は、ソースの発見や構造化検索を行い、必要に応じて Firecrawl CLI でページ全文を JSON として取得できる、Web調査向けのスキルです。

Web Research

お気に入り 0GitHub 234

parallel-web

作成者 K-Dense-AI

parallel-web は、parallel-cli を基盤にした Web リサーチと抽出のためのスキルです。Web 検索、URL からのコンテンツ抽出、ソースを使ったデータの補完、さらに学術・科学系ソースを優先した深掘りリサーチを支援します。parallel-web の使い方、Web リサーチ、引用、証拠ベースのワークフローに向いています。

Web Research

お気に入り 0GitHub 0

geomaster

作成者 K-Dense-AI

geomaster は、GIS、リモートセンシング、空間解析、地球観測のワークフローに対応する地理空間サイエンス系スキルです。ラスタ／ベクター操作、衛星画像処理、空間指標の算出、ワークフロー設計などのデータ分析タスクに使えます。geomaster ガイドを使えば、迷いを減らしながら、このスキルのインストール、内容確認、適用まで進められます。

Data Analysis

お気に入り 0GitHub 0

asc-aso-audit

作成者 rudrankriyam

asc-aso-auditは、`./metadata` にある正規の App Store メタデータを使ってオフラインでASO監査を行い、Astro MCPでキーワードの抜けを洗い出すのに役立ちます。`asc metadata pull` の後に asc-aso-audit スキルを使えば、`subtitle`、`keywords`、`description`、`whatsNew` を、勘に頼らず確認できます。

Data Analysis

お気に入り 0GitHub 0

ffuf-web-fuzzing

作成者 jthack

ffuf-web-fuzzing は、隠れたWebコンテンツの発見、ルートやパラメータのテスト、raw リクエスト、オートキャリブレーション、結果分析を使った認証済みターゲットのファジングに役立つ実践的なスキルです。ペネトレーションテストや Security Audit のワークフローで、再現性のある ffuf-web-fuzzing ガイドを必要とするセキュリティテスターに適しています。

Security Audit

お気に入り 0GitHub 0

web-to-markdown

作成者 softaworks

web-to-markdown は、ローカルの `web2md` CLI を使って公開中の Web ページを整った Markdown に変換する Format Conversion スキルです。JS 描画ページ、対話操作が必要なフロー、複数 URL の一括変換にも対応し、Chromium 系ブラウザを利用します。実行されるのは、名前を明示して呼び出した場合のみです。

Format Conversion

お気に入り 0GitHub 1.3k

firecrawl-agent

作成者 firecrawl

firecrawl-agentは、複雑で複数ページにまたがるWebサイトから構造化JSONを抽出したいときに役立つスキルです。Firecrawl CLI agentを使うべき場面、実行方法、schemaの追加、開始URLの指定、価格情報・商品一覧・ディレクトリ型データの出力保存までを判断しやすく紹介します。

Web Scraping

お気に入り 0GitHub 234

firecrawl-map

作成者 firecrawl

firecrawl-map は、サイト内のURLを見つけて一覧化するためのスキルです。検索フィルタ、件数制限、JSON出力、サイトマップモード、サブドメイン制御に対応しており、本格的な scraping や crawling の前段で使いやすく設計されています。

Web Scraping

お気に入り 0GitHub 234