data-scraper-agent

作者 affaan-m

data-scraper-agent 可帮助你搭建可重复使用的公开数据管道，用于网页抓取、数据丰富和存储。它面向按计划持续监控任务、价格、新闻、仓库、体育和列表信息，可结合 GitHub Actions 定时运行，并将结果输出到 Notion、Sheets 或 Supabase。更适合长期跟踪，不适合一次性提取。

Stars156.1k

收录时间2026年4月15日

分类网页抓取

安装命令

npx skills add affaan-m/everything-claude-code --skill data-scraper-agent

编辑评分

该技能评分为 84/100，属于很值得收录的目录条目：它能清晰触发数据抓取流程，提供足够的运行细节让人快速理解技术栈和用途，并且不是只给一句泛泛提示。它有助于 agents 更稳妥地执行公开数据监控任务，减少试错，但用户仍需根据自己的目标网站和存储方案确认是否匹配。

84/100

亮点

激活指引明确，覆盖了抓取、跟踪、定时采集等常见公开数据监控需求。
工作流框架清晰，完整展示了 COLLECT → ENRICH → STORE 管道，帮助 agents 更少歧义地执行。
正文内容扎实，没有占位符，并提供了具体技术栈参考（Python、Gemini Flash、GitHub Actions、Notion/Sheets/Supabase）。

注意点

没有安装命令或配套支持文件，因此设置和集成可能需要仅凭 SKILL.md 手动理解。
该技能刻意保持通用，因此像站点级反爬措施或非常规数据源这类边缘情况，在摘录中没有被充分落地说明。

Python Google Notion Supabase Playwright Github Actions

概览

data-scraper-agent 技能概览

data-scraper-agent 能做什么

data-scraper-agent 技能可以帮你搭建一条自动化流水线：收集公开数据、用 LLM 做增强处理，并把结果保存下来，便于持续跟踪。它最适合 data-scraper-agent for Web Scraping 这类任务，目标不是一次性抓取，而是做一个可重复运行的 agent，持续检查职位网站、价格页面、新闻源、GitHub 仓库、体育赛果和各类列表页。

适合安装 data-scraper-agent 的人

如果你需要一种低成本、无需自己维护服务器的方式，按计划监控公开来源，就应该安装 data-scraper-agent 技能。它更适合想要告警、结构化记录或趋势追踪的用户，而不是临时抓一下就完事的场景。如果你只需要一次手动导出，或者目标站点是私有的、需要登录的、或者有很强的反爬保护，那它就不太合适。

它为什么不一样

data-scraper-agent skill 的核心价值不只是 scraper 本身，而是整套工作流。它强调三步循环：收集、增强、存储。这样更容易把原始页面转成可用数据，给结果做分类，并通过 GitHub Actions 让系统持续运行。实际权衡在于：质量取决于来源是否公开，以及你是否给 agent 提供了清晰的 schema 和筛选规则。

如何使用 data-scraper-agent 技能

安装并检查 data-scraper-agent 技能

在 Claude Code 工作流中使用 data-scraper-agent install 命令：
npx skills add affaan-m/everything-claude-code --skill data-scraper-agent

安装后，先读 SKILL.md，如果仓库里还有其他技能上下文，再继续查看。虽然这个技能本身是自包含的，但在让它真正针对一个目标落地之前，最好的使用方式是先确认执行路径、输出格式，以及任何默认假设。这样更容易把 data-scraper-agent usage 用对。

把模糊需求改写成可执行简报

像“抓这个网站”这样的弱提示，结构远远不够。更好的提示会明确要监控什么来源、收集哪些字段、多久运行一次，以及结果要落到哪里。比如： “为两个招聘板上的公开软件工程岗位搭建一个 data-scraper-agent，收集 title/company/location/salary/posted date，按 URL 去重，补充岗位资深度信息，并把每周结果存到 Google Sheets。”

想要更好输出，必须说明什么

这个技能在你提供公开来源、目标 schema 和决策逻辑时表现最好。要写清楚站点是静态页面还是 JS 渲染，数据需要多新鲜，以及什么算新记录或变更记录。如果这些细节缺失，agent 可能会抓太多、漏掉关键字段，或者生成不利于长期对比的记录。

先读哪些文件和概念

先从 SKILL.md 看起，重点关注解释激活方式、三层架构和免费技术栈的部分。这些内容会告诉你这个技能是否适合当前场景，以及如何把流水线接起来。如果你要把它改造到新仓库里，修改提示词之前，先找出有关定时任务配置、存储选项和增强规则的具体示例。

data-scraper-agent 技能常见问题

这只适用于网页吗？

不是。data-scraper-agent guide 适用于 agent 能访问到的任何公开来源，包括 API、feed，以及可能需要浏览器渲染的页面。对于简单的 HTML 页面，基础 HTTP 抓取通常就够了。对于动态站点，你可能需要基于浏览器的方法，这会增加配置复杂度。

使用它需要编程经验吗？

会基本的提示词表达会有帮助，但这仍然是一个偏构建型的技能。只要能清楚描述来源和期望输出，初学者也可以用。如果你无法定义字段、计划或落地目的地，结果大概率会过于模糊，难以稳定部署。

它和普通提示词有什么不同？

普通提示词通常只会生成一次性的 scraper 或摘要。data-scraper-agent 技能的目标是创建一个可重复运行的系统，包含收集、增强、存储和定时执行。也正因为如此，它更适合你关注长期维护数据，而不只是抓取一次的场景。

什么情况下不该用它？

如果来源需要登录、限流很严、会阻止自动化，或者数据非常敏感，就不要用 data-scraper-agent。如果你只需要快速手动导出，或者来源变化极其频繁，以至于维护一个 agent 比直接写个简单提示词更麻烦，那它也不是好选择。

如何改进 data-scraper-agent 技能

把来源定义得更精确

data-scraper-agent 要想效果好，关键在于把确切的 URL、模式和范围边界说清楚。明确哪些页面重要，哪些页面不重要，以及 agent 应该忽略什么。比如：“只监控美国远程后端岗位的列表页；排除实习、赞助帖和重复转载。”这种简报能减少误报，也能让 agent 更稳定。

明确增强和存储规则

如果你想要有用的输出，就要告诉技能 LLM 可以推断什么，以及哪些内容必须保持原样。可以把增强用于分类、优先级评分或简短摘要，但像价格、标题和 URL 这类源字段要保持精确。同时也要提前指定落地格式：Notion 适合审核流程，Sheets 适合轻量分析，Supabase 适合结构化查询。

先检查第一次运行中的失败模式

最常见的问题是记录重复、动态页面缺字段，以及增强过度导致源数据含义被改掉。第一次运行后，抽查几条记录，围绕去重、选择器和可接受的源字段收紧提示词。如果输出太嘈杂，先缩小范围，再考虑加更多自动化。

根据你真正追踪的内容持续迭代

先用第一个版本证明监控闭环能跑通，再根据你最关心的信号改进 data-scraper-agent：是新鲜度、完整度，还是分类质量。如果你最在意新鲜度，就优化调度频率；如果你更看重完整度，就调整抽取规则；如果你更在意决策支持，就改进增强提示词，让 agent 解释每个条目为什么会被纳入。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

huggingface-datasets

作者 huggingface

在 Hugging Face Dataset Viewer API 工作流中使用 huggingface-datasets 技能，用于校验数据集、解析 splits、预览和分页行、搜索文本、应用过滤器，以及获取 parquet 链接或统计信息。它是一份面向只读数据集探索的实用 huggingface-datasets 指南。

网页抓取

收藏 0GitHub 10.4k

baoyu-url-to-markdown

作者 JimLiu

baoyu-url-to-markdown 可借助内置的 baoyu-fetch CLI，将在线 URL 转为 Markdown，支持 Chrome CDP、站点适配器以及通用回退方案。适合在安装前了解 Bun 运行时要求、首次使用所需的 EXTEND.md 配置，以及处理 X、YouTube、Hacker News 和需渲染页面时的具体用法。

格式转换

收藏 0GitHub 13.2k

x-twitter-scraper

作者 Xquik-dev

使用 x-twitter-scraper 通过 Xquik 获取 X（Twitter）数据和需要确认的操作。它支持推文搜索、用户查询、粉丝提取、媒体下载、监控、webhook、MCP 和写入操作。适合基于 API key 的网页抓取式研究，不适合使用 X 登录凭证。

网页抓取

收藏 0GitHub 71

exa-search

作者 K-Dense-AI

exa-search 是一项由 Exa 驱动的网页研究技能，可用于查找最新信息并从 URL 中提取内容。适合用于搜索、来源发现、文章和 PDF 提取，以及结合语义检索、学术式过滤和清晰安装与使用指引的技术或科学研究。

Web 研究

收藏 0GitHub 0

browser-use

作者 browser-use

browser-use 是一项用于浏览器自动化的技能，可用于打开页面、检查当前状态、点击带索引的元素、在输入框中键入内容、截取截图，并复用持久化浏览器会话。通过 browser-use CLI，它适合完成稳定的表单填写、页面导航以及需要登录状态的工作流。

浏览器自动化

收藏 0GitHub 84.9k

remote-browser

作者 browser-use

remote-browser 可帮助受沙箱限制的 agent 控制无头浏览器，用于 Browser Automation。你可以用它打开页面、检查当前状态、点击带索引的元素、输入内容、截取截图，并连接本地应用或基于 CDP 的浏览器会话。

浏览器自动化

收藏 0GitHub 84.9k

firecrawl

作者 firecrawl

firecrawl skill 用于安装、认证并使用官方 Firecrawl CLI，支持网页抓取、搜索、爬取和页面交互。了解如何完成设置、运行 `firecrawl --status`、登录、将输出安全写入 `.firecrawl/`，以及参考仓库整理出的实用使用方式。

网页抓取

收藏 0GitHub 234

firecrawl-search

作者 firecrawl

firecrawl-search 是一项面向网页研究的技能，可用于查找信息源、执行结构化搜索，并可选通过 Firecrawl CLI 将整页内容抓取为 JSON。

Web 研究

收藏 0GitHub 234

parallel-web

作者 K-Dense-AI

parallel-web 是一个由 parallel-cli 驱动的网页研究与信息提取技能。它可帮助你进行网页搜索、提取 URL 内容、从来源中补充数据，并围绕学术与科学来源优先开展更深入的研究。适用于 parallel-web 的用法、网页研究、引用整理以及以证据为先的工作流。

Web 研究

收藏 0GitHub 0

geomaster

作者 K-Dense-AI

geomaster 是一项面向 GIS、遥感、空间分析和地球观测工作流的地理空间科学技能。可用于数据分析任务，例如栅格与矢量操作、卫星影像处理、空间指标计算和工作流规划。geomaster 指南可帮助你更少凭猜测地完成安装、查看和应用这项技能。

数据分析

收藏 0GitHub 0

asc-aso-audit

作者 rudrankriyam

asc-aso-audit 帮你基于 `./metadata` 中的标准 App Store 元数据执行离线 ASO 审核，再借助 Astro MCP 发现关键词缺口。建议在 `asc metadata pull` 之后使用 asc-aso-audit skill，重点查看 `subtitle`、`keywords`、`description` 和 `whatsNew`，减少拍脑袋判断。

数据分析

收藏 0GitHub 0

ffuf-web-fuzzing

作者 jthack

ffuf-web-fuzzing 是一项实用技能，可用于发现隐藏的 Web 内容、测试路由和参数，并通过原始请求、自动校准和结果分析对已认证目标进行 fuzzing。它适合需要一份可重复执行的 ffuf-web-fuzzing 渗透测试与 Security Audit 工作流指南的安全测试人员。

安全审计

收藏 0GitHub 0

web-to-markdown

作者 softaworks

web-to-markdown 是一项用于格式转换的 skill，可通过本地 `web2md` CLI 将在线网页转换为干净的 Markdown；对于 JS 渲染页面、交互式流程和批量 URL 转换，则会配合 Chromium 系浏览器完成处理。它只会在被用户明确点名时运行。

格式转换

收藏 0GitHub 1.3k

firecrawl-agent

作者 firecrawl

firecrawl-agent 可帮助你从复杂的多页面网站中提取结构化 JSON。了解它适合哪些场景、如何运行 Firecrawl CLI agent、添加 schema、设置起始 URL，以及如何保存输出，用于价格、商品和目录类数据提取。

网页抓取

收藏 0GitHub 234

firecrawl-map

作者 firecrawl

firecrawl-map 可帮助智能体发现并列出网站中的 URL，支持搜索过滤、结果数量限制、JSON 输出、sitemap 模式和子域名控制，适合在进一步 scraping 或 crawling 之前先做站点摸底。

网页抓取

收藏 0GitHub 234

firecrawl-crawl

作者 firecrawl

firecrawl-crawl 可帮助智能体批量提取网站或文档专区内容，支持路径过滤、抓取深度限制、页面数量上限、wait 模式以及任务状态检查。

网页抓取

收藏 0GitHub 234