data-scraper-agent

作成者 affaan-m

data-scraper-agent は、Web スクレイピング、データ強化、保存までを一貫して行う、再利用可能な公開データパイプラインの構築を支援します。GitHub Actions を使って、ジョブ、価格、ニュース、リポジトリ、スポーツ、掲載情報などを定期監視する用途に向いており、出力先は Notion、Sheets、Supabase に対応します。一度きりの抽出よりも、継続的な追跡に最適です。

スター156.1k

お気に入り0

追加日2026年4月15日

カテゴリーWeb Scraping

インストールコマンド

npx skills add affaan-m/everything-claude-code --skill data-scraper-agent

編集スコア

このスキルの評価は 84/100 で、ディレクトリ掲載候補として十分有力です。トリガー条件が明確なデータスクレイピングのワークフローを備え、処理内容と用途がすぐに把握でき、単なるプロンプト以上の実用的な指針があります。公開データの監視タスクを、手探りを減らして実行する助けになる一方、対象サイトや保存先の構成に本当に合うかは個別に確認する必要があります。

84/100

強み

公開データの監視でよくある「スクレイピング」「追跡」「定期収集」といった依頼に対し、起動条件が明確です。
COLLECT → ENRICH → STORE の全体フローがはっきりしており、エージェントが迷わず実行しやすい構成です。
プレースホルダーがなく本文量も十分で、Python、Gemini Flash、GitHub Actions、Notion/Sheets/Supabase などの具体的な技術要素も含まれています。

注意点

インストールコマンドやサポートファイルがないため、セットアップや連携は SKILL.md だけを手がかりに手作業で解釈する必要がある場合があります。
用途の広さを優先したスキルのため、サイト固有のアンチボット対策や特殊なデータソースなどの例外ケースは、この抜粋だけでは十分に運用化されていません。

Python Google Notion Supabase Playwright Github Actions

概要

data-scraper-agent スキルの概要

data-scraper-agent でできること

data-scraper-agent スキルは、公開データを収集し、LLM で情報を付加し、その結果を保存して継続的に追跡できる自動パイプラインを構築するのに役立ちます。data-scraper-agent for Web Scraping の用途、とくに単発のスクレイピングではなく、求人掲示板、価格ページ、ニュースフィード、GitHub リポジトリ、スポーツ結果、各種リスティングなどのソースを繰り返し監視するエージェントを作りたい場合に最適です。

どんな人に向いているか

自前のサーバーを維持せずに、公開ソースを定期監視したい人には data-scraper-agent スキルの導入価値があります。アドホックなスクレイピングよりも、アラート、構造化レコード、トレンド追跡を重視するユーザーに向いています。逆に、必要なのが1回限りの手動抽出だけなら、また対象サイトが非公開、ログイン必須、あるいは強いボット対策をしているなら、あまり向きません。

ほかの方法と何が違うか

この data-scraper-agent skill の主な価値は、単なるスクレイパーではなくワークフローそのものにあります。収集、情報付加、保存という3段階のループを重視しており、素のページを使えるデータに変換しやすく、結果の分類もしやすく、GitHub Actions でシステムを継続運用しやすくなります。実務上のトレードオフは、ソースが公開であることに加え、エージェントに明確なスキーマとフィルタリングルールを与えるほど品質が安定する、という点です。

data-scraper-agent スキルの使い方

インストールして中身を確認する

Claude Code のワークフローでは、data-scraper-agent install コマンドを使います:
npx skills add affaan-m/everything-claude-code --skill data-scraper-agent

インストール後は、まず SKILL.md を読み、必要ならリポジトリ内の残りのスキルコンテキストも確認してください。このスキルは自己完結型ですが、data-scraper-agent usage をうまく使うには、実際の対象に当てる前に実行経路、出力形式、前提条件を確認しておくのが最善です。

曖昧な依頼を実用的な要件に変える

「このサイトをスクレイピングして」という弱いプロンプトでは、必要な構造が足りません。強いプロンプトでは、どのソースを監視するか、どの項目を収集するか、どれくらいの頻度で動かすか、結果をどこに保存するかまで明示します。たとえば: 「2つの掲示板で公開されているソフトウェアエンジニア求人について data-scraper-agent を作成し、title/company/location/salary/posted date を収集、URL で重複排除し、role seniority を付加したうえで、週次結果を Google Sheets に保存する」。

より良い出力のために指定すべきこと

このスキルは、公開ソース、望むスキーマ、判断ロジックを渡したときに最もよく機能します。サイトが静的か JS レンダリングか、どれだけ新しいデータが必要か、新規レコードや更新レコードを何で判定するかも含めてください。こうした情報を省くと、エージェントが取りすぎたり、重要な項目を取りこぼしたり、時系列比較しづらいレコードを生成したりする可能性があります。

まず読むべきファイルと概念

最初に SKILL.md を読み、起動方法、3層アーキテクチャ、free stack を説明しているセクションに集中してください。そこを押さえると、このスキルが適切かどうか、またパイプラインをどう組むべきかが分かります。新しい repo に合わせて調整する場合は、プロンプトを変更する前に、スケジュール設定、保存先の選択、情報付加ルールの具体例を確認してください。

data-scraper-agent スキル FAQ

これは Web ページ専用ですか？

いいえ。data-scraper-agent guide は、エージェントがアクセスできる公開ソース全般に使えます。API、フィード、ブラウザ描画が必要になるページも対象です。単純な HTML ページなら、基本的な HTTP スクレイピングで十分なことが多いです。一方、動的サイトではブラウザベースのアプローチが必要になる場合があり、そのぶん構成は複雑になります。

使うのにプログラミング経験は必要ですか？

プロンプトを書く最低限の慣れは役立ちますが、これはあくまで構築型のスキルです。ソースと望む出力を明確に説明できるなら、初心者でも使えます。項目、スケジュール、出力先を定義できない場合、結果が曖昧すぎて安定運用しにくくなる可能性が高いです。

普通のプロンプトと何が違いますか？

普通のプロンプトは、たいてい単発のスクレイパーや要約を返します。data-scraper-agent スキルは、収集、情報付加、保存、定期実行を含む繰り返し可能なシステムを作るためのものです。そのため、1回だけ抜き出せればよい場合ではなく、データを継続管理したい場合により適しています。

使わないほうがいいのはどんなときですか？

ソースにログインが必要な場合、厳しいレート制限がある場合、自動化がブロックされる場合、あるいはデータが非常に機微な場合は、data-scraper-agent を使わないでください。また、手早い手動エクスポートだけで足りる場合や、ソースの変化が激しすぎてエージェントの維持より単純なプロンプトのほうが楽な場合も、相性はよくありません。

data-scraper-agent スキルを改善する方法

ソース定義をより厳密にする

data-scraper-agent の成果を最も高めるのは、正確な URL、パターン、対象範囲を明示することです。どのページが重要で、どれは対象外か、エージェントに何を無視させるかをはっきり書いてください。たとえば、「米国のリモート backend roles の listing pages のみを監視し、internships、sponsored posts、重複 reposts は除外する」といった具合です。こうした指示は false positive を減らし、エージェントの安定性も高めます。

情報付加と保存のルールを定義する

実用的な出力がほしいなら、LLM に何を推測させ、何を厳密に原文通り残すべきかを伝えてください。情報付加は分類、優先度スコア付け、短い要約に使い、price、title、URL のようなソース項目は正確に保持します。保存先の形式も最初に指定してください。たとえば、レビュー主体なら Notion、軽量分析なら Sheets、構造化クエリなら Supabase が向いています。

最初の実行で失敗パターンを確認する

よくある問題は、重複レコード、動的ページ由来の欠落項目、そして意味を変えてしまう過剰な情報付加です。最初の実行後は、いくつかのレコードを確認し、dedupe、selectors、許可する source fields を中心にプロンプトを絞り込んでください。出力がノイズだらけなら、自動化を増やす前に対象範囲を狭めるほうが先です。

実際に追跡したい指標に合わせて改善する

最初の版ではまず監視ループが動くことを証明し、その後は自分が最も重視するシグナル、つまり freshness、completeness、classification quality に応じて data-scraper-agent を改善します。freshness が重要ならスケジュールを見直してください。completeness が重要なら抽出ルールを調整します。意思決定の質が重要なら、各項目をなぜ含めたのかをエージェントが説明できるように、情報付加プロンプトを強化してください。

評価とレビュー

まだ評価がありません

レビューを投稿

このスキルの評価やコメントを投稿するにはサインインしてください。

0/10000

新着レビュー

保存中...

このカテゴリーの他のスキル

huggingface-datasets

作成者 huggingface

huggingface-datasets スキルは、Hugging Face Dataset Viewer API のワークフローでデータセットの検証、split の解決、行のプレビューとページネーション、テキスト検索、フィルタ適用、parquet リンクや統計情報の取得を行うために使います。読み取り専用のデータセット探索に適した、実用的な huggingface-datasets ガイドです。

Web Scraping

お気に入り 0GitHub 10.4k

baoyu-url-to-markdown

作成者 JimLiu

baoyu-url-to-markdown は、vendored な baoyu-fetch CLI を使い、Chrome CDP・サイト別アダプター・汎用フォールバックで公開中の URL を Markdown に変換します。導入前に、Bun ランタイムの要件、初回の EXTEND.md 設定、X・YouTube・Hacker News・レンダリング後ページでの使い方を確認しておくと安心です。

Format Conversion

お気に入り 0GitHub 13.2k

x-twitter-scraper

作成者 Xquik-dev

x-twitter-scraperを使って、Xquik経由でX（Twitter）のデータ取得と確認付きアクションを実行できます。ツイート検索、ユーザー照会、フォロワー抽出、メディア डाउनलोड、監視、webhook、MCP、書き込み系アクションに対応。Xのログイン情報ではなくAPIキーで行う、Webスクレイピング寄りの調査用途に最適です。

Web Scraping

お気に入り 0GitHub 71

exa-search

作成者 K-Dense-AI

exa-search は、Exa を活用した Web リサーチスキルです。現在の情報を見つけたり、URL からコンテンツを抽出したりする用途に向いています。検索、ソース探索、記事や PDF の抽出、意味ベースの検索、学術的な絞り込みを使った技術・科学リサーチに利用でき、導入と使い方もわかりやすく整理されています。

Web Research

お気に入り 0GitHub 0

browser-use

作成者 browser-use

browser-use は、ページを開く、状態を確認する、番号付き要素をクリックする、フォームに入力する、スクリーンショットを撮る、永続的なブラウザーセッションを再利用するといった操作に対応したブラウザー自動化スキルです。browser-use CLI を使った安定したフォーム入力、ページ遷移、ログイン後のワークフローに適しています。

Browser Automation

お気に入り 0GitHub 84.9k

remote-browser

作成者 browser-use

remote-browserは、サンドボックス環境のエージェントがBrowser Automation用のヘッドレスブラウザを操作するためのスキルです。ページを開く、状態を確認する、番号付き要素をクリックする、入力する、スクリーンショットを撮る、ローカルアプリやCDP対応ブラウザセッションに接続するといった操作に使えます。

Browser Automation

お気に入り 0GitHub 84.9k

firecrawl

作成者 firecrawl

webスクレイピング、検索、クローリング、ページ操作に対応する公式 Firecrawl CLI をインストール・認証・活用するための firecrawl skill です。セットアップ、`firecrawl --status` による確認、ログイン、`.firecrawl/` への安全な出力方法、リポジトリに基づく実践的な使い方まで学べます。

Web Scraping

お気に入り 0GitHub 234

firecrawl-search

作成者 firecrawl

firecrawl-search は、ソースの発見や構造化検索を行い、必要に応じて Firecrawl CLI でページ全文を JSON として取得できる、Web調査向けのスキルです。

Web Research

お気に入り 0GitHub 234

parallel-web

作成者 K-Dense-AI

parallel-web は、parallel-cli を基盤にした Web リサーチと抽出のためのスキルです。Web 検索、URL からのコンテンツ抽出、ソースを使ったデータの補完、さらに学術・科学系ソースを優先した深掘りリサーチを支援します。parallel-web の使い方、Web リサーチ、引用、証拠ベースのワークフローに向いています。

Web Research

お気に入り 0GitHub 0

geomaster

作成者 K-Dense-AI

geomaster は、GIS、リモートセンシング、空間解析、地球観測のワークフローに対応する地理空間サイエンス系スキルです。ラスタ／ベクター操作、衛星画像処理、空間指標の算出、ワークフロー設計などのデータ分析タスクに使えます。geomaster ガイドを使えば、迷いを減らしながら、このスキルのインストール、内容確認、適用まで進められます。

Data Analysis

お気に入り 0GitHub 0

asc-aso-audit

作成者 rudrankriyam

asc-aso-auditは、`./metadata` にある正規の App Store メタデータを使ってオフラインでASO監査を行い、Astro MCPでキーワードの抜けを洗い出すのに役立ちます。`asc metadata pull` の後に asc-aso-audit スキルを使えば、`subtitle`、`keywords`、`description`、`whatsNew` を、勘に頼らず確認できます。

Data Analysis

お気に入り 0GitHub 0

ffuf-web-fuzzing

作成者 jthack

ffuf-web-fuzzing は、隠れたWebコンテンツの発見、ルートやパラメータのテスト、raw リクエスト、オートキャリブレーション、結果分析を使った認証済みターゲットのファジングに役立つ実践的なスキルです。ペネトレーションテストや Security Audit のワークフローで、再現性のある ffuf-web-fuzzing ガイドを必要とするセキュリティテスターに適しています。

Security Audit

お気に入り 0GitHub 0

web-to-markdown

作成者 softaworks

web-to-markdown は、ローカルの `web2md` CLI を使って公開中の Web ページを整った Markdown に変換する Format Conversion スキルです。JS 描画ページ、対話操作が必要なフロー、複数 URL の一括変換にも対応し、Chromium 系ブラウザを利用します。実行されるのは、名前を明示して呼び出した場合のみです。

Format Conversion

お気に入り 0GitHub 1.3k

firecrawl-agent

作成者 firecrawl

firecrawl-agentは、複雑で複数ページにまたがるWebサイトから構造化JSONを抽出したいときに役立つスキルです。Firecrawl CLI agentを使うべき場面、実行方法、schemaの追加、開始URLの指定、価格情報・商品一覧・ディレクトリ型データの出力保存までを判断しやすく紹介します。

Web Scraping

お気に入り 0GitHub 234

firecrawl-map

作成者 firecrawl

firecrawl-map は、サイト内のURLを見つけて一覧化するためのスキルです。検索フィルタ、件数制限、JSON出力、サイトマップモード、サブドメイン制御に対応しており、本格的な scraping や crawling の前段で使いやすく設計されています。

Web Scraping

お気に入り 0GitHub 234

firecrawl-crawl

作成者 firecrawl

firecrawl-crawl は、パスフィルター、深さ制限、ページ上限、待機モード、ジョブ状態確認を使って、Webサイト全体や docs セクションのコンテンツをまとめて抽出したいエージェント向けのスキルです。

Web Scraping

お気に入り 0GitHub 234