firecrawl-agent

作者 firecrawl

firecrawl-agent 可帮助你从复杂的多页面网站中提取结构化 JSON。了解它适合哪些场景、如何运行 Firecrawl CLI agent、添加 schema、设置起始 URL，以及如何保存输出，用于价格、商品和目录类数据提取。

Stars234

收录时间2026年3月31日

分类网页抓取

安装命令

npx skills add firecrawl/cli --skill firecrawl-agent

编辑评分

该技能评分为 76/100，说明它是一个较为扎实的目录收录候选：为 agent 提供了清晰的触发场景、示例命令和明确的输出模型，适合自主执行结构化网站提取；但在基础说明之外，实际落地时仍可能需要自行摸索一些操作细节。

76/100

亮点

触发性强：描述中明确点出了价格提取、商品列表、目录条目，以及基于 JSON schema 的网站提取等具体用例。
具备不错的操作起点：快速开始示例展示了真实的 `firecrawl agent` 命令，并包含 `--wait`、`--schema`、`--urls` 和输出文件等参数。
agent 价值明确：它清楚地表明，这项技能在多页面结构化提取方面比简单抓取更强。

注意点

安装与配置说明仍不够清晰：SKILL.md 中没有安装命令，也没有链接任何前置依赖所需的支持文件或参考资料。
更深入的工作流指导证据较少：仓库预览中似乎只有一个 SKILL.md 文件，约束说明有限，也没有脚本、规则或故障排查资源。

抓取 JSON-LD 网站网站 Cli Automation Ai

概览

firecrawl-agent skill 概览

firecrawl-agent 能做什么

firecrawl-agent skill 适合处理普通单页抓取不够用的自主式网页数据提取。它的设计目标是：能够在网站内自行导航、判断相关信息分布在哪些页面，并输出结构化 JSON。尤其适合价格表、产品目录、名录条目、功能清单这类任务。

最适合哪些用户

这个 firecrawl-agent skill 最适合那些需要“可直接使用的数据”而不是原始 HTML 的人：构建数据集的运营人员、收集竞品或市场信息的分析师、要把结果送入后续自动化流程的开发者，以及希望按 schema 做多页提取、而不是临时复制粘贴的 AI 用户。

真正要解决的任务是什么

大多数用户并不是在抽象地寻找“web scraping”。他们真正想解决的是一些明确问题，例如：

提取某个 SaaS 网站的所有价格档位
跨多个页面收集产品名称和价格
把一个目录站点整理成 JSON 记录
不用手动逐个映射 URL，就能收集结构化事实

这正是 firecrawl-agent for Web Scraping 与泛化 prompt 有明显区别的地方。

为什么选择 firecrawl-agent，而不是普通 prompt

普通模型 prompt 可以帮你建议 selector，或者总结页面上可见的内容，但通常不能稳定完成跨多页面的自主提取流程。firecrawl-agent 就是围绕这个场景设计的：你给它一个提取目标，可以选择性提供 schema，然后让它自己导航并返回可供机器直接使用的输出。

安装前必须知道的关键权衡

它的优势是减少逐页手工处理的工作量。代价是运行时间：agent 可能需要几分钟，而且输出质量很大程度取决于你是否把目标字段和范围定义清楚。如果你的需求只是“快速抓一页”，那它可能比你真正需要的更重。

如何使用 firecrawl-agent skill

firecrawl-agent 的安装前提

上游 skill 支持通过 Bash 调用 firecrawl，包括 firecrawl agent 和 npx firecrawl。如果你要把它安装到基于 skills 的环境中，可使用：

npx skills add https://github.com/firecrawl/cli --skill firecrawl-agent

实际使用时，你还需要在环境里能用 Firecrawl CLI，并完成该 CLI 所要求的认证或初始化配置。

先看这个文件

先从 skills/firecrawl-agent/SKILL.md 开始。在这个仓库里，这个文件几乎包含了所有实用指导。这个 skill 看起来没有明显的 rules/、resources/ 或辅助脚本，所以你是否要安装，主要应看其中的示例和 CLI 选项是否契合你的工作流。

理解 firecrawl-agent 的主要调用方式

核心的 firecrawl-agent usage 模式很简单：

描述提取目标
可选：提供 schema
可选：用起始 URL 限定范围
等待任务完成
把 JSON 输出保存到文件

该 skill 中的典型示例：

firecrawl agent "extract all pricing tiers" --wait -o .firecrawl/pricing.json

firecrawl agent "extract products" --schema '{"type":"object","properties":{"name":{"type":"string"},"price":{"type":"number"}}}' --wait -o .firecrawl/products.json

firecrawl agent "get feature list" --urls "<url>" --wait -o .firecrawl/features.json

这个 skill 需要什么输入

firecrawl-agent skill 在以下三点明确时效果最好：

提取目标
目标网站或起始 URLs
你希望得到的输出结构

较弱的输入：

“scrape this site”

更强的输入：

“Extract all pricing tiers from https://example.com/pricing and related plan pages. Return plan name, monthly price, annual price, included seats, and top features as JSON.”

最佳输入：

“Starting from https://example.com/pricing, extract every current pricing tier visible on the site. Return JSON with plans[] containing name, billing_period, price, currency, seat_limit, features[], and source_url. Ignore blog pages, docs, and historical changelog content.”

什么情况下要用 schema

当你的输出需要进入代码、表格、校验流程或可重复执行的工作流时，就应该用 --schema。schema 在以下场景尤其重要：

字段名必须保持稳定
你需要 number、array 之类的类型化值
你希望减少含糊不清的总结式输出
你打算在不同运行结果或不同网站之间做比较

没有 schema，agent 仍可能工作得不错，但对后续自动化来说，结果往往没那么可预测。

如何把模糊目标改写成好 prompt

一个高质量的 firecrawl-agent guide prompt 通常会包含：

目标实体类型：plans、products、listings、locations
覆盖规则：抓取所有当前有效项目，而不是示例
排除项：忽略 docs、blog、careers、changelog
归一化要求：价格返回为数字、每个项目一条记录
来源追踪：包含 source_url
边界情况策略：字段缺失时返回 null

示例：

firecrawl agent "Extract all products from the site. Return JSON with products[] containing name, price, currency, short_description, category, availability, and source_url. Only include live product pages. Ignore blog, support, and policy pages. If price is missing, use null." --urls "https://example.com" --wait -o .firecrawl/products.json

用起始 URL 减少结果漂移

如果你不提供 URL，agent 在决定去哪里探索时会有更大自由度。这在某些情况下有帮助，但也会明显增加无效导航的概率。为了获得更高精度，建议优先提供高概率入口页面，例如：

pricing pages
product category pages
company directories
marketplace listings

在真实工作中，这往往是决定 firecrawl-agent install 成败的最高杠杆改进之一。

提高提取稳定性的推荐工作流

一个实用流程是：

先在一个高概率源页面上做小范围测试
检查 JSON 是否有字段缺失或字段被混合合并
加上 schema 和排除规则
再扩展到更广的起始 URLs
将输出保存到专用目录，例如 .firecrawl/
校验数量，并抽样核对源页面

相比一开始就大范围抓取、然后再调试一堆噪声结果，这种流程通常更快。

输出处理与文件命名策略

使用 -o 把结果写入固定路径。这很重要，因为自主提取任务在做版本管理或长期对比时，更容易评估质量。好的示例包括：

.firecrawl/pricing.json
.firecrawl/products.json
.firecrawl/directory.json

如果你在反复迭代，最好让文件名能直接体现本次运行目的，而不是一直覆盖一个泛泛的 output.json。

实际适配：它最擅长什么

firecrawl-agent for Web Scraping 最强的使用场景通常是：

目标数据分布在多个页面
网站结构事先并不完全清楚
你需要的是结构化 JSON，而不是文字总结
如果手写抓取规则，投入成本会高于这次提取任务本身

实际不适配：什么情况下不该用

以下情况建议跳过 firecrawl-agent：

你只需要总结一个页面
合规要求很高，必须依赖精确且确定性的 selector
你已经有一个针对已知页面结构、稳定可用的 scraper
网站高度交互、存在访问门槛，或依赖你当前环境不支持的会话型流程

firecrawl-agent skill 常见问题

firecrawl-agent 适合新手吗？

适合，前提是你已经会用 CLI，并且能按“输出字段”来思考任务。基础示例并不难。新手真正的门槛通常不在安装命令，而在于能否把提取目标说完整，而不是模糊地下指令。

firecrawl-agent 和普通 AI prompting 的区别是什么？

普通 prompt 往往停留在分析层，或者只是处理单页的临时内容。firecrawl-agent usage 的核心则是“自主网站导航 + 结构化提取”。正是这两者的组合，让它值得替代泛泛的“总结这个网站”请求。

我每次都需要 JSON schema 吗？

不需要。做探索性工作时，直接提出提取请求通常就够了。但如果你需要跨多次运行保持一致、接入自动化流程，或者希望字段类型更干净，schema 通常值得多花这一分钟。

firecrawl-agent 需要多久？

该 skill 提到，自主提取通常可能需要约 2 到 5 分钟。相比简单的单页抓取，你应预期它的任务时间更长，尤其是在目标网站包含大量相关页面时。

firecrawl-agent 能提取价格、产品或目录信息吗？

可以。这正是该 skill 的核心定位：价格档位、产品列表、目录型条目，以及分布在整个网站中的其他结构化记录。

firecrawl-agent 适合所有 scraping 任务吗？

不适合。如果任务本身很简单、规则明确，或者已经能被传统 scraper 覆盖，那么这个 skill 可能没有必要。它最有价值的地方在于：问题本身不仅是提取，还包括发现与导航。

如何进一步用好 firecrawl-agent skill

给 firecrawl-agent 一个更清晰的提取合同

质量提升最明显的一步，通常是把 prompt 从“extract data”升级为一个明确合同，包含：

精确字段
包含规则
排除规则
缺失值处理方式
source URL 记录

这样可以减少“凭空补结构”的情况，也让结果更容易信任。

先收紧范围，再逐步扩大

很多效果差的运行，问题都出在一开始就从域名根路径出发、目标还很宽泛。更好的做法是：先从一两个高信号 URL 开始，确认字段质量，再在 schema 和 prompt 已经工作稳定后逐步扩大覆盖范围。

每条记录都要求来源信息

如果你希望后续能复核或排错，请在每条记录里要求 source_url。这个单一字段会让 firecrawl-agent guide 的整个工作流轻松很多，因为你可以迅速验证提取出的记录到底是不是来自正确页面。

统一那些最容易变化的字段

明确告诉 agent 如何处理现实网站里常见的脏差异：

price 用数字还是字符串
monthly 与 annual billing 如何表示
feature list 用数组返回
缺失字段返回 null
每个 product 或 plan 只保留一条记录

这些约束会显著提升结果的机器可读性。

注意常见失败模式

典型问题包括：

一个数据集里混入多种页面类型
变体页面造成重复记录
功能摘要被合并成一整块文本
价格被抓成文本碎片，而不是数值
起点过宽或过弱，导致站点覆盖不完整

这些问题大多不是靠重复执行同一个模糊命令就能解决的，而是要靠更强的范围约束和 schema 设计。

基于输出缺陷迭代，而不是只盯着“量不够”

如果第一次运行结果不对，不要只想着“多抓点页面”。先明确问题属于哪一类：

字段错了
页面类别错了
有重复
缺少归一化
覆盖不完整

然后围绕这个具体缺陷直接修改 prompt。这通常是改进 firecrawl-agent 结果最快的方法。

一个有效的二次修订模式

很实用的第二轮 prompt 模式是：

保持原目标不变
增加排除项
收紧字段定义
要求来源追踪
明确缺失值处理方式

修订示例：

first run: “extract all pricing tiers”
second run: “Extract all current pricing tiers from pricing and plan pages only. Ignore docs, blog, changelog, and legacy pages. Return plans[] with name, price, currency, billing_period, features[], and source_url. Use null when a field is not present.”

先检查一个问题，再决定要不要安装

在采用 firecrawl-agent skill 之前，先问自己：你的真实瓶颈到底是“发现并导航到正确页面”，还是“把已知页面格式化提取出来”？如果难点在于跨多个页面做导航发现，这个 skill 就非常契合；如果不是，使用更简单的 scrape 或单页提取工具，往往会更快，也更容易维护。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

huggingface-datasets

作者 huggingface

在 Hugging Face Dataset Viewer API 工作流中使用 huggingface-datasets 技能，用于校验数据集、解析 splits、预览和分页行、搜索文本、应用过滤器，以及获取 parquet 链接或统计信息。它是一份面向只读数据集探索的实用 huggingface-datasets 指南。

网页抓取

收藏 0GitHub 10.4k

data-scraper-agent

作者 affaan-m

data-scraper-agent 可帮助你搭建可重复使用的公开数据管道，用于网页抓取、数据丰富和存储。它面向按计划持续监控任务、价格、新闻、仓库、体育和列表信息，可结合 GitHub Actions 定时运行，并将结果输出到 Notion、Sheets 或 Supabase。更适合长期跟踪，不适合一次性提取。

网页抓取

收藏 0GitHub 156.1k

baoyu-url-to-markdown

作者 JimLiu

baoyu-url-to-markdown 可借助内置的 baoyu-fetch CLI，将在线 URL 转为 Markdown，支持 Chrome CDP、站点适配器以及通用回退方案。适合在安装前了解 Bun 运行时要求、首次使用所需的 EXTEND.md 配置，以及处理 X、YouTube、Hacker News 和需渲染页面时的具体用法。

格式转换

收藏 0GitHub 13.2k

x-twitter-scraper

作者 Xquik-dev

使用 x-twitter-scraper 通过 Xquik 获取 X（Twitter）数据和需要确认的操作。它支持推文搜索、用户查询、粉丝提取、媒体下载、监控、webhook、MCP 和写入操作。适合基于 API key 的网页抓取式研究，不适合使用 X 登录凭证。

网页抓取

收藏 0GitHub 71

exa-search

作者 K-Dense-AI

exa-search 是一项由 Exa 驱动的网页研究技能，可用于查找最新信息并从 URL 中提取内容。适合用于搜索、来源发现、文章和 PDF 提取，以及结合语义检索、学术式过滤和清晰安装与使用指引的技术或科学研究。

Web 研究

收藏 0GitHub 0

browser-use

作者 browser-use

browser-use 是一项用于浏览器自动化的技能，可用于打开页面、检查当前状态、点击带索引的元素、在输入框中键入内容、截取截图，并复用持久化浏览器会话。通过 browser-use CLI，它适合完成稳定的表单填写、页面导航以及需要登录状态的工作流。

浏览器自动化

收藏 0GitHub 84.9k

remote-browser

作者 browser-use

remote-browser 可帮助受沙箱限制的 agent 控制无头浏览器，用于 Browser Automation。你可以用它打开页面、检查当前状态、点击带索引的元素、输入内容、截取截图，并连接本地应用或基于 CDP 的浏览器会话。

浏览器自动化

收藏 0GitHub 84.9k

firecrawl

作者 firecrawl

firecrawl skill 用于安装、认证并使用官方 Firecrawl CLI，支持网页抓取、搜索、爬取和页面交互。了解如何完成设置、运行 `firecrawl --status`、登录、将输出安全写入 `.firecrawl/`，以及参考仓库整理出的实用使用方式。

网页抓取

收藏 0GitHub 234

firecrawl-search

作者 firecrawl

firecrawl-search 是一项面向网页研究的技能，可用于查找信息源、执行结构化搜索，并可选通过 Firecrawl CLI 将整页内容抓取为 JSON。

Web 研究

收藏 0GitHub 234

parallel-web

作者 K-Dense-AI

parallel-web 是一个由 parallel-cli 驱动的网页研究与信息提取技能。它可帮助你进行网页搜索、提取 URL 内容、从来源中补充数据，并围绕学术与科学来源优先开展更深入的研究。适用于 parallel-web 的用法、网页研究、引用整理以及以证据为先的工作流。

Web 研究

收藏 0GitHub 0

geomaster

作者 K-Dense-AI

geomaster 是一项面向 GIS、遥感、空间分析和地球观测工作流的地理空间科学技能。可用于数据分析任务，例如栅格与矢量操作、卫星影像处理、空间指标计算和工作流规划。geomaster 指南可帮助你更少凭猜测地完成安装、查看和应用这项技能。

数据分析

收藏 0GitHub 0

asc-aso-audit

作者 rudrankriyam

asc-aso-audit 帮你基于 `./metadata` 中的标准 App Store 元数据执行离线 ASO 审核，再借助 Astro MCP 发现关键词缺口。建议在 `asc metadata pull` 之后使用 asc-aso-audit skill，重点查看 `subtitle`、`keywords`、`description` 和 `whatsNew`，减少拍脑袋判断。

数据分析

收藏 0GitHub 0

ffuf-web-fuzzing

作者 jthack

ffuf-web-fuzzing 是一项实用技能，可用于发现隐藏的 Web 内容、测试路由和参数，并通过原始请求、自动校准和结果分析对已认证目标进行 fuzzing。它适合需要一份可重复执行的 ffuf-web-fuzzing 渗透测试与 Security Audit 工作流指南的安全测试人员。

安全审计

收藏 0GitHub 0

web-to-markdown

作者 softaworks

web-to-markdown 是一项用于格式转换的 skill，可通过本地 `web2md` CLI 将在线网页转换为干净的 Markdown；对于 JS 渲染页面、交互式流程和批量 URL 转换，则会配合 Chromium 系浏览器完成处理。它只会在被用户明确点名时运行。

格式转换

收藏 0GitHub 1.3k

firecrawl-map

作者 firecrawl

firecrawl-map 可帮助智能体发现并列出网站中的 URL，支持搜索过滤、结果数量限制、JSON 输出、sitemap 模式和子域名控制，适合在进一步 scraping 或 crawling 之前先做站点摸底。

网页抓取

收藏 0GitHub 234

firecrawl-crawl

作者 firecrawl

firecrawl-crawl 可帮助智能体批量提取网站或文档专区内容，支持路径过滤、抓取深度限制、页面数量上限、wait 模式以及任务状态检查。

网页抓取

收藏 0GitHub 234