网页抓取

浏览 数据处理 下与 网页抓取 相关的 Agent Skill,并比较相近工作流、工具与使用场景。

23 个技能
A
data-scraper-agent

作者 affaan-m

data-scraper-agent 可帮助你搭建可重复使用的公开数据管道,用于网页抓取、数据丰富和存储。它面向按计划持续监控任务、价格、新闻、仓库、体育和列表信息,可结合 GitHub Actions 定时运行,并将结果输出到 Notion、Sheets 或 Supabase。更适合长期跟踪,不适合一次性提取。

网页抓取
收藏 0GitHub 156.1k
B
remote-browser

作者 browser-use

remote-browser 可帮助受沙箱限制的 agent 控制无头浏览器,用于 Browser Automation。你可以用它打开页面、检查当前状态、点击带索引的元素、输入内容、截取截图,并连接本地应用或基于 CDP 的浏览器会话。

浏览器自动化
收藏 0GitHub 84.9k
B
browser-use

作者 browser-use

browser-use 是一项用于浏览器自动化的技能,可用于打开页面、检查当前状态、点击带索引的元素、在输入框中键入内容、截取截图,并复用持久化浏览器会话。通过 browser-use CLI,它适合完成稳定的表单填写、页面导航以及需要登录状态的工作流。

浏览器自动化
收藏 0GitHub 84.9k
J
baoyu-url-to-markdown

作者 JimLiu

baoyu-url-to-markdown 可借助内置的 baoyu-fetch CLI,将在线 URL 转为 Markdown,支持 Chrome CDP、站点适配器以及通用回退方案。适合在安装前了解 Bun 运行时要求、首次使用所需的 EXTEND.md 配置,以及处理 X、YouTube、Hacker News 和需渲染页面时的具体用法。

格式转换
收藏 0GitHub 13.2k
H
huggingface-datasets

作者 huggingface

在 Hugging Face Dataset Viewer API 工作流中使用 huggingface-datasets 技能,用于校验数据集、解析 splits、预览和分页行、搜索文本、应用过滤器,以及获取 parquet 链接或统计信息。它是一份面向只读数据集探索的实用 huggingface-datasets 指南。

网页抓取
收藏 0GitHub 10.4k
T
burpsuite-project-parser

作者 trailofbits

burpsuite-project-parser 使用 Burp Suite Professional 和 burpsuite-project-file-parser 扩展,在 Burp Suite 项目文件(.burp)中搜索并提取数据。适用于安全审计发现、代理历史记录、站点地图条目,以及对已捕获 HTTP 流量进行正则搜索。

安全审计
收藏 0GitHub 5k
S
web-to-markdown

作者 softaworks

web-to-markdown 是一项用于格式转换的 skill,可通过本地 `web2md` CLI 将在线网页转换为干净的 Markdown;对于 JS 渲染页面、交互式流程和批量 URL 转换,则会配合 Chromium 系浏览器完成处理。它只会在被用户明确点名时运行。

格式转换
收藏 0GitHub 1.3k
D
query

作者 duckdb

query 技能可对已挂载的数据库运行 DuckDB 查询,也可直接针对文件查询。它支持 SQL 和自然语言提问,兼容 session 与 ad-hoc 两种模式,适用于数据分析、快速检查,以及借助 DuckDB Friendly SQL 进行迭代式查询工作。

数据分析
收藏 0GitHub 443
F
firecrawl-agent

作者 firecrawl

firecrawl-agent 可帮助你从复杂的多页面网站中提取结构化 JSON。了解它适合哪些场景、如何运行 Firecrawl CLI agent、添加 schema、设置起始 URL,以及如何保存输出,用于价格、商品和目录类数据提取。

网页抓取
收藏 0GitHub 234
F
firecrawl-browser

作者 firecrawl

firecrawl-browser 是一项用于交互式网页自动化的 Firecrawl 技能。它作为独立浏览器命令已被弃用,目前官方建议改用 firecrawl scrape 配合 firecrawl interact,以处理点击、表单填写、登录流程、分页以及 JavaScript 较重的页面。

浏览器自动化
收藏 0GitHub 234
F
firecrawl

作者 firecrawl

firecrawl skill 用于安装、认证并使用官方 Firecrawl CLI,支持网页抓取、搜索、爬取和页面交互。了解如何完成设置、运行 `firecrawl --status`、登录、将输出安全写入 `.firecrawl/`,以及参考仓库整理出的实用使用方式。

网页抓取
收藏 0GitHub 234
F
firecrawl-crawl

作者 firecrawl

firecrawl-crawl 可帮助智能体批量提取网站或文档专区内容,支持路径过滤、抓取深度限制、页面数量上限、wait 模式以及任务状态检查。

网页抓取
收藏 0GitHub 234
F
firecrawl-download

作者 firecrawl

firecrawl-download 可将整个网站或文档专区下载为整理好的本地文件,输出到 `.firecrawl/` 目录下。它结合站点映射与抓取能力,支持 markdown、链接和截图,适合离线保存文档、副本归档、批量抓取页面,以及实用型 Web Scraping 工作流。

网页抓取
收藏 0GitHub 234
F
firecrawl-search

作者 firecrawl

firecrawl-search 是一项面向网页研究的技能,可用于查找信息源、执行结构化搜索,并可选通过 Firecrawl CLI 将整页内容抓取为 JSON。

Web 研究
收藏 0GitHub 234
F
firecrawl-map

作者 firecrawl

firecrawl-map 可帮助智能体发现并列出网站中的 URL,支持搜索过滤、结果数量限制、JSON 输出、sitemap 模式和子域名控制,适合在进一步 scraping 或 crawling 之前先做站点摸底。

网页抓取
收藏 0GitHub 234
F
firecrawl-scrape

作者 firecrawl

firecrawl-scrape 可从已知 URL 提取干净、适合 LLM 处理的内容,包括经 JavaScript 渲染的页面。可通过 Firecrawl CLI 或 `npx firecrawl` 抓取 markdown、链接,或提取针对单个页面的答案。

网页抓取
收藏 0GitHub 234
X
x-twitter-scraper

作者 Xquik-dev

使用 x-twitter-scraper 通过 Xquik 获取 X(Twitter)数据和需要确认的操作。它支持推文搜索、用户查询、粉丝提取、媒体下载、监控、webhook、MCP 和写入操作。适合基于 API key 的网页抓取式研究,不适合使用 X 登录凭证。

网页抓取
收藏 0GitHub 71
K
parallel-web

作者 K-Dense-AI

parallel-web 是一个由 parallel-cli 驱动的网页研究与信息提取技能。它可帮助你进行网页搜索、提取 URL 内容、从来源中补充数据,并围绕学术与科学来源优先开展更深入的研究。适用于 parallel-web 的用法、网页研究、引用整理以及以证据为先的工作流。

Web 研究
收藏 0GitHub 0
K
geomaster

作者 K-Dense-AI

geomaster 是一项面向 GIS、遥感、空间分析和地球观测工作流的地理空间科学技能。可用于数据分析任务,例如栅格与矢量操作、卫星影像处理、空间指标计算和工作流规划。geomaster 指南可帮助你更少凭猜测地完成安装、查看和应用这项技能。

数据分析
收藏 0GitHub 0
K
exa-search

作者 K-Dense-AI

exa-search 是一项由 Exa 驱动的网页研究技能,可用于查找最新信息并从 URL 中提取内容。适合用于搜索、来源发现、文章和 PDF 提取,以及结合语义检索、学术式过滤和清晰安装与使用指引的技术或科学研究。

Web 研究
收藏 0GitHub 0
R
asc-aso-audit

作者 rudrankriyam

asc-aso-audit 帮你基于 `./metadata` 中的标准 App Store 元数据执行离线 ASO 审核,再借助 Astro MCP 发现关键词缺口。建议在 `asc metadata pull` 之后使用 asc-aso-audit skill,重点查看 `subtitle`、`keywords`、`description` 和 `whatsNew`,减少拍脑袋判断。

数据分析
收藏 0GitHub 0
J
ffuf-web-fuzzing

作者 jthack

ffuf-web-fuzzing 是一项实用技能,可用于发现隐藏的 Web 内容、测试路由和参数,并通过原始请求、自动校准和结果分析对已认证目标进行 fuzzing。它适合需要一份可重复执行的 ffuf-web-fuzzing 渗透测试与 Security Audit 工作流指南的安全测试人员。

安全审计
收藏 0GitHub 0
R
twitter

作者 ReScienceLab

twitter skill 通过 twitterapi.io 获取实时 Twitter/X 数据,包括用户资料、推文、回复、关注者、正在关注的人、社区、Spaces、趋势和搜索结果。适合用于核实 Twitter 相关事实、账号调研和社交媒体验证,而不是凭提示词猜测。

社交媒体
收藏 0GitHub 0
网页抓取 Agent Skill