data-scraper-agent

作者 affaan-m

data-scraper-agent 協助建立可重複執行的公開資料流程，用於網頁爬取、資料增補與儲存。它適合搭配 GitHub Actions 依排程監控工作、價格、新聞、repo、體育賽事與清單，並將結果輸出到 Notion、Sheets 或 Supabase。最適合持續追蹤，不適合一次性擷取。

Stars156.1k

評論0

加入時間2026年4月15日

分類网页抓取

安裝指令

npx skills add affaan-m/everything-claude-code --skill data-scraper-agent

編輯評分

這個技能評分為 84/100，屬於很適合收錄的目錄項目：使用者能清楚觸發資料爬取工作流程，也能快速看懂其用途與技術堆疊，資訊足夠完整，不只是泛泛的提示詞。它有助於讓代理更穩定地執行公開資料監控任務、減少猜測，但使用前仍應確認是否符合特定目標網站與儲存環境。

84/100

亮點

啟動指引明確，涵蓋常見的公開資料監控需求，例如爬取、追蹤與排程蒐集。
工作流程架構清楚，完整呈現 COLLECT → ENRICH → STORE 管線，有助於代理降低執行歧義。
內容紮實，沒有佔位符標記，並提供具體技術參考（Python、Gemini Flash、GitHub Actions、Notion/Sheets/Supabase）。

注意事項

未提供安裝指令或支援檔案，因此設定與整合可能需要僅依據 SKILL.md 手動判讀。
此技能本身設計較為通用，像是網站特定的反爬措施或較特殊的資料來源，在摘錄內容中並未深入操作化。

Python Google Notion Supabase Playwright Github Actions

總覽

data-scraper-agent 技能總覽

data-scraper-agent 的用途

data-scraper-agent 技能可幫你建立一條自動化流程：收集公開資料、用 LLM 進行增補，並把輸出保存下來，方便後續持續追蹤。它最適合 data-scraper-agent for Web Scraping 這類任務——重點不是一次性抓取，而是建立一個可重複運作的 agent，持續檢查職缺板、價格頁、新聞來源、GitHub repos、體育賽果與各類清單。

適合安裝的人

如果你需要用低成本、排程化的方式監控公開來源，而且不想自己維護伺服器，就很適合安裝 data-scraper-agent 技能。它特別適合想要告警、結構化紀錄或趨勢追蹤的人，而不是只做臨時抓取。若你只需要單次手動擷取，或目標網站是私有、需要登入，或反機器人防護很強，這個技能的效益就會低很多。

為什麼它不一樣

這個 data-scraper-agent skill 的核心價值在於整體流程，而不只是爬蟲本身。它強調三步循環：收集、增補、儲存。這讓你更容易把原始頁面轉成可用資料、對結果做分類，並透過 GitHub Actions 持續運行。實際上的取捨是：品質高度依賴來源是否公開，以及你是否替 agent 提供清楚的 schema 與篩選規則。

如何使用 data-scraper-agent 技能

安裝並檢查這個技能

在你的 Claude Code 工作流程中使用 data-scraper-agent install 指令：
npx skills add affaan-m/everything-claude-code --skill data-scraper-agent

安裝後，先讀 SKILL.md，如果 repo 裡還有其他 skill context，再一併查看。即使這個技能本身已經是獨立完整的，data-scraper-agent usage 最好的用法，仍然是在你要求它對真實目標動手前，先確認執行路徑、輸出格式，以及任何預設假設。

把模糊需求改寫成可用簡報

像「幫我抓這個網站」這種弱提示，結構不夠完整。好的提示會清楚說明要監控哪個來源、要抓哪些欄位、多久執行一次，以及結果要存到哪裡。比如可以這樣寫：「建立一個 data-scraper-agent，監控兩個職缺板上的公開軟體工程職缺，收集 title/company/location/salary/posted date，以 URL 去重，補上職級資訊，並把每週結果存到 Google Sheets。」

想要更好的輸出，該指定什麼

這個技能在你提供公開來源、想要的 schema，以及決策邏輯時，效果最好。請補充網站是靜態頁還是 JS 渲染、資料需要多新、以及什麼情況算新紀錄或變更紀錄。若省略這些細節，agent 可能會抓太多、漏掉重要欄位，或產出難以長期比較的紀錄。

先閱讀哪些檔案與概念

先從 SKILL.md 開始，重點看解釋啟用方式、三層架構，以及 free stack 的章節。這些內容會告訴你這個技能什麼時候最合適，以及要怎麼把流程接起來。如果你要把它改用到新的 repo，請先找出排程設定、儲存選項與增補規則的具體範例，再去調整 prompts。

data-scraper-agent 技能 FAQ

這個只適用於網頁嗎？

不是。data-scraper-agent guide 適用於 agent 能夠存取的任何公開來源，包括 API、feeds，以及可能需要瀏覽器渲染的頁面。對於簡單的 HTML 頁面，基本的 HTTP scraping 通常就夠了。對動態網站來說，你可能需要以瀏覽器為基礎的方法，這也會增加設定複雜度。

使用它需要寫程式經驗嗎？

對提示設計有基本熟悉度會有幫助，但這仍然是一個偏建置型的技能。只要能清楚描述來源和想要的輸出，初學者也能使用。如果你無法定義欄位、排程或目的地，結果多半會太模糊，難以穩定部署。

它跟一般提示有什麼不同？

一般提示通常只會產生一次性的爬蟲或摘要。data-scraper-agent 技能的目標，是建立一套可重複運作的系統，包含收集、增補、儲存與排程執行。當你重視的是長期維護資料，而不只是一次抓取時，它就更合適。

什麼情況下不該用？

如果來源需要登入、有限流很嚴、會封鎖自動化，或資料極度敏感，就不要用 data-scraper-agent。當你只需要快速手動匯出，或來源變動頻繁到「用簡單提示直接做一次」反而比維護 agent 更容易時，它也不是好選擇。

如何改進 data-scraper-agent 技能

把來源定義寫得更精準

data-scraper-agent 最好的結果，來自明確指定 URL、模式與範圍邊界。請說清楚哪些頁面重要、哪些不重要，以及 agent 應該忽略什麼。例如：「只監控美國遠端後端職缺的 listing pages；排除 internship、sponsored posts 和重複 reposts。」這種簡報能降低誤判，並幫助 agent 維持穩定。

定義增補與儲存規則

如果你想要真正有用的輸出，就要告訴技能 LLM 應該推論什麼、哪些欄位必須維持原文。可以把增補用在分類、優先順序評分或簡短摘要，但像 price、title、URL 這些來源欄位要保持精準。也要事先指定目的地格式：Notion 適合審閱流程，Sheets 適合輕量分析，Supabase 則適合結構化查詢。

先檢查第一次執行的失敗模式

最常見的問題包括：重複紀錄、動態頁面缺少欄位，以及過度激進的增補把來源原意改掉。第一次執行後，請抽查幾筆紀錄，並針對去重、selectors、以及可接受的來源欄位，收緊提示內容。如果輸出太雜，先縮小範圍，再加更多自動化。

根據你實際追蹤的內容持續迭代

先用第一版驗證監控迴圈，再根據你最在意的訊號來改進 data-scraper-agent：新鮮度、完整性，或分類品質。如果你重視新鮮度，就調整排程；如果重視完整性，就修改擷取規則；如果重視決策品質，就強化增補提示，讓 agent 說明每個項目為什麼被納入。

評分與評論

尚無評分

分享你的評論

登入後即可為這項技能評分並留言。

0/10000

此分類中的更多技能

huggingface-datasets

作者 huggingface

使用 huggingface-datasets 技能來處理 Hugging Face Dataset Viewer API 工作流程：驗證資料集、解析 splits、預覽與分頁列資料、搜尋文字、套用篩選條件，並取得 parquet 連結或統計資訊。這是一份實用的 huggingface-datasets 指南，適合只讀的資料集探索。

网页抓取

收藏 0GitHub 10.4k

baoyu-url-to-markdown

作者 JimLiu

baoyu-url-to-markdown 可透過內建的 baoyu-fetch CLI，搭配 Chrome CDP、網站 adapter 與通用 fallback，將即時 URL 轉成 Markdown。使用前建議先確認 Bun 執行環境需求、首次 EXTEND.md 設定流程，以及在 X、YouTube、Hacker News 和需渲染頁面上的實際用法。

格式转换

收藏 0GitHub 13.2k

x-twitter-scraper

作者 Xquik-dev

使用 x-twitter-scraper 透過 Xquik 擷取 X（Twitter）資料與需要確認的動作。它支援貼文搜尋、使用者查詢、粉絲擷取、媒體下載、監控、webhooks、MCP 與寫入動作。最適合搭配 API key 進行類網頁爬蟲的研究，不適合使用 X 登入憑證。

网页抓取

收藏 0GitHub 71

exa-search

作者 K-Dense-AI

exa-search 是一項由 Exa 驅動的網頁研究技能，可用來尋找最新資訊並從 URL 擷取內容。適合用於搜尋、來源發掘、文章與 PDF 擷取，以及具備語意檢索、類學術篩選與清楚安裝／使用指引的技術或科學研究。

Web 研究

收藏 0GitHub 0

browser-use

作者 browser-use

browser-use 是一款用於瀏覽器自動化的技能，可開啟頁面、檢查目前狀態、點擊已編號元素、在欄位中輸入內容、擷取螢幕畫面，並重用持續性的瀏覽器工作階段。若你需要透過 browser-use CLI 穩定完成表單填寫、頁面導覽或登入後流程，這項技能很適合納入評估。

瀏覽器自動化

收藏 0GitHub 84.9k

remote-browser

作者 browser-use

remote-browser 可讓受沙箱限制的代理控制無頭瀏覽器，執行 Browser Automation。你可以用它開啟頁面、檢查目前狀態、點擊帶索引的元素、輸入內容、擷取螢幕截圖，並連線到本機應用程式或支援 CDP 的瀏覽器工作階段。

瀏覽器自動化

收藏 0GitHub 84.9k

firecrawl

作者 firecrawl

firecrawl skill 可協助你安裝、驗證並使用官方 Firecrawl CLI，進行網頁擷取、搜尋、爬取與頁面互動。內容涵蓋安裝設定、`firecrawl --status`、登入流程、將輸出安全寫入 `.firecrawl/`，以及依據 repo 整理的實用使用模式。

网页抓取

收藏 0GitHub 234

firecrawl-search

作者 firecrawl

firecrawl-search 是一個用於網頁研究的 skill，可協助找資料來源、執行結構化搜尋，並透過 Firecrawl CLI 視需要將完整頁面內容擷取為 JSON。

Web 研究

收藏 0GitHub 234

parallel-web

作者 K-Dense-AI

parallel-web 是一個由 parallel-cli 驅動的網頁研究與擷取技能。它可協助你搜尋網路、擷取 URL 內容、從來源補強資料，並進行更深入的研究，且預設優先使用學術與科學來源。適合用於 parallel-web 使用、網頁研究、引用蒐集，以及以證據為先的工作流程。

Web 研究

收藏 0GitHub 0

geomaster

作者 K-Dense-AI

geomaster 是一個地理空間科學技能，適用於 GIS、遙測、空間分析與地球觀測工作流程。可用在資料分析任務中，例如柵格與向量操作、衛星影像處理、空間指標計算與工作流程規劃。geomaster 指南可幫助你安裝、檢視並應用這個技能，少一點猜測、多一點把握。

数据分析

收藏 0GitHub 0

asc-aso-audit

作者 rudrankriyam

asc-aso-audit 可協助你在 `./metadata` 上對 Canonical App Store 中繼資料執行離線 ASO 稽核，再透過 Astro MCP 找出關鍵字缺口。搭配 `asc metadata pull` 後使用 asc-aso-audit skill，可更有把握地檢視 `subtitle`、`keywords`、`description` 和 `whatsNew`。

数据分析

收藏 0GitHub 0

ffuf-web-fuzzing

作者 jthack

ffuf-web-fuzzing 是一項實用技能，可用來發掘隱藏網頁內容、測試路由與參數，並透過原始請求、自動校準與結果分析對受認證目標進行模糊測試。它適合需要一份可重複使用的 ffuf-web-fuzzing 指南、用於滲透測試與 Security Audit 工作流程的資安測試人員。

安全稽核

收藏 0GitHub 0

web-to-markdown

作者 softaworks

web-to-markdown 是一個用於格式轉換的 skill，可透過本機 `web2md` CLI，將即時網頁整理成乾淨的 Markdown；面對 JS 渲染頁面、互動式流程與批次 URL 轉換時，會搭配 Chromium 系列瀏覽器處理。只有在明確以名稱呼叫時才會執行。

格式转换

收藏 0GitHub 1.3k

firecrawl-agent

作者 firecrawl

firecrawl-agent 可從複雜、跨多頁的網站擷取結構化 JSON。本文說明什麼情況適合使用、如何執行 Firecrawl CLI agent、加入 schema、設定起始 URLs，並將輸出保存為定價、商品與目錄型資料擷取結果。

网页抓取

收藏 0GitHub 234

firecrawl-map

作者 firecrawl

firecrawl-map 可協助代理在深入 scraping 或 crawling 前，先探索並列出網站上的 URL，並支援搜尋篩選、筆數限制、JSON 輸出、sitemap 模式與子網域控制等選項。

网页抓取

收藏 0GitHub 234

firecrawl-crawl

作者 firecrawl

firecrawl-crawl 可協助代理程式以批次方式擷取整個網站或文件區段的內容，並支援路徑篩選、深度限制、頁數上限、wait 模式，以及工作狀態查詢。

网页抓取

收藏 0GitHub 234