firecrawl-crawl

firecrawl-crawl 可帮助智能体批量提取网站或文档专区内容，支持路径过滤、抓取深度限制、页面数量上限、wait 模式以及任务状态检查。

Stars234

收录时间2026年3月31日

分类网页抓取

安装命令

npx skills add firecrawl/cli --skill firecrawl-crawl

编辑评分

该技能评分为 74/100，说明它已达到可收录水平，对需要进行整站或分区内容提取的智能体大概率有用；不过目录用户应预期这更像是一份偏命令使用的指南，而不是一个支持非常完善的工作流方案。仓库证据显示，它提供了清晰的触发意图提示，以及带有限制条件、深度控制和路径过滤的实用 CLI 示例，因此相较于泛化提示词，能为智能体提供更可靠的执行指引。

74/100

亮点

触发性强：描述中明确点出了 "get all the pages"、"/docs"、"bulk extract" 等 crawl 类意图。
具备实际操作性：SKILL.md 提供了具体的 `firecrawl crawl` 示例，涵盖分区抓取、限制深度抓取，以及检查运行中的 crawl 任务。
对常见工作流有较强帮助：文档说明了 `--include-paths`、`--limit`、`--max-depth`、`--wait` 和 `--progress` 等关键控制项，适合批量提取任务。

注意点

安装决策信息有限：SKILL.md 中没有安装命令，也缺少支持文件、参考资料或元数据来帮助用户判断配置要求。
工作流深度看起来较为一般：从结构信号来看有工作流示例，但几乎没有看到关于约束条件、边界情况处理或故障排查的指导。

抓取网站网站 Cli Firecrawl 工作流

概览

firecrawl-crawl 技能概览

firecrawl-crawl 是做什么的

firecrawl-crawl 适合做网站的批量内容提取，不是抓取单个页面。它可以帮助 agent 爬取整个站点或某个指定栏目，自动跟随链接，并在一次任务中返回多个页面的内容。如果你的目标是“拿到所有文档页面”“提取 /docs 下的全部内容”或“把这个帮助中心爬到第 3 层深度”，那这个工具就是对口选择。

谁适合使用 firecrawl-crawl

firecrawl-crawl 最适合用于多页面内容采集的场景，比如文档分析、内容迁移、索引构建、QA、研究或知识入库。尤其当目标内容分布在同一域名下几十个互相链接的页面里，单靠普通 prompt 手动处理会很低效时，它的价值最明显。

firecrawl-crawl 真正解决的任务

用户采用 firecrawl-crawl，核心诉求通常不是“只把某个 URL 抓准”，而是“尽可能覆盖到目标内容”。真正的难点在于把爬取边界定义得足够清楚，让工具抓到该抓的页面，同时避免把无关栏目、重复内容，甚至整个公开网站都一起扫进去。

这个技能的差异点

firecrawl-crawl 的主要优势在于一组很实用的爬取控制能力：路径过滤、深度限制、页面数量上限、异步任务处理，以及可选的等待 / 进度显示行为。也正因为如此，firecrawl-crawl for Web Scraping 比一句泛泛的“把这个网站抓下来”更适合落地执行。

什么情况下 firecrawl-crawl 很匹配

在以下情况下，优先考虑使用 firecrawl-crawl skill：

你需要从同一个网站提取很多页面
目标页面能通过站内链接被发现
你希望把范围限制在 /docs、/blog 之类的路径下
你需要一个可重复执行的 crawl 命令，而不是一次性的临时 prompt

什么情况下不建议用它

如果你只需要一个页面、还需要先做 URL 清单盘点，或者目前还没想清楚到底哪个栏目最重要，就不要一上来用 firecrawl-crawl。这类场景通常更适合先做更简单的 search、scrape 或 map，再决定是否升级到 crawl。

如何使用 firecrawl-crawl 技能

firecrawl-crawl 的安装前提

这个技能属于 firecrawl/cli 技能集，设计上就是通过 Firecrawl CLI 来调用的。如果你的环境支持 Skills，比较实用的安装方式是：

npx skills add https://github.com/firecrawl/cli --skill firecrawl-crawl

另外，你还需要保证环境里能调用 Firecrawl CLI，这样 agent 才能运行 firecrawl crawl 或 npx firecrawl crawl 这类命令。

先看这个文件

优先阅读 skills/firecrawl-crawl/SKILL.md。对这个技能来说，这个文件里基本包含了最有操作价值的信息：适用场景、快速上手命令，以及控制爬取范围和运行方式的关键选项。

核心命令模式

仓库里展示了三种关键的 firecrawl-crawl usage 模式：

# Crawl a docs section
firecrawl crawl "<url>" --include-paths /docs --limit 50 --wait -o .firecrawl/crawl.json

# Full crawl with depth limit
firecrawl crawl "<url>" --max-depth 3 --wait --progress -o .firecrawl/crawl.json

# Check status of a running crawl
firecrawl crawl <job-id>

这三种模式覆盖了大多数真实工作流：限定栏目范围的 crawl、带深度控制的更大范围站点 crawl，以及对已有任务进行轮询查看状态。

最重要的输入项

想让 firecrawl-crawl 出结果更稳，建议明确提供：

一个干净的起始 URL
如果只抓某个栏目，要写清目标站点区段
用 --limit 设定一个合理的页面上限
如果站点很大，用 --max-depth 控制深度
是否希望通过 --wait 同步等待完成
一个输出路径，方便后续检查结果

影响结果质量最大的变量，其实是爬取范围。边界定义得好，通常比后续怎么处理数据更重要。

把模糊需求改成高质量 prompt

较弱的请求：

“Crawl this website and get everything.”

更强的请求：

“Use firecrawl-crawl on https://example.com, restrict to /docs, cap at 50 pages, wait for completion, save output to .firecrawl/crawl.json, and summarize the main product setup pages after extraction.”

为什么这样更有效：

明确点名了技能
给出了起始 URL
限定了路径范围
控制了成本和运行时长
说明了 crawl 完成后还要做什么

首次运行的最佳工作流

第一次使用时，一个实用的 firecrawl-crawl guide 可以按这个顺序来：

选择尽可能窄、但仍有用的起始 URL。
如果只需要某个栏目，加上 --include-paths。
第一次先把 --limit 设得保守一点。
如果站点分支很多，加上 --max-depth。
小任务用 --wait 即可；大 crawl 可以先提交，稍后再查任务状态。
用 -o 保存输出，这样你能回看实际抓到了什么。

这套顺序能减少无效 crawl，也更方便你根据首轮结果继续收紧或放宽边界。

防止爬偏的范围控制选项

这个技能里最关键的选项包括：

--include-paths：把 crawl 限制在正确栏目内
--limit <n>：防止页面数量失控
--max-depth <n>：避免遍历过深
--wait：阻塞直到完成
--progress：等待过程中查看进度

如果这些都不设，crawl 往往会比预期更快失控，尤其是在文档站里常见的 changelog、blog 链接或大量交叉导航存在时更是如此。

异步模式与 wait 模式怎么选

如果你希望整个流程一步跑完，而且 crawl 应该现在就完成，那就用 --wait。如果你预计 crawl 会比较久，更适合走基于任务的工作流，那就不要加它。仓库也明确支持后续用 firecrawl crawl <job-id> 查看状态，这对大任务或把“提交”和“分析”拆开的 agent 流程很有帮助。

输出结果的保存与复核

只要是稍微正式一点的运行，都建议把结果写入文件，例如：

firecrawl crawl "https://example.com" --include-paths /docs --limit 50 --wait -o .firecrawl/crawl.json

这样更方便你在运行后复核结果。不要在还没确认输出范围之前，就立刻让 agent 去总结或转换内容。crawl 边界一旦设错，后续的摘要、整理、分析基本都会被带偏。

好的 firecrawl-crawl 使用模式

高价值用法包括：

收集某个产品的全部文档页面，用于产品对比
提取帮助中心某个栏目，为内部搜索或 RAG 做准备
在重写文档前，批量提取一组 migration guide
对一个已知站点区段做批量抓取，而且相关页面已经通过链接连通

这些都比“在这个域名下随便找点有意思的内容”更适合 firecrawl-crawl。

firecrawl-crawl 技能 FAQ

firecrawl-crawl 对新手友好吗？

是的，前提是你已经理解“抓取单页”和“多页 crawl”之间的区别。它的命令面并不复杂，但新手最好从窄路径、低页面上限开始，避免第一次就跑出过大的任务。

firecrawl-crawl 和普通 prompt 的区别是什么？

普通 prompt 只能描述目标，但 firecrawl-crawl 给 agent 的是明确的操作路径：提交 crawl 任务、控制深度和数量上限、按需等待完成，并把结构化结果保存下来。这样能显著减少猜测空间，也让重复执行时更稳定一致。

什么时候应该用 firecrawl-crawl，而不是 scrape？

当目标内容分布在许多互相链接的页面上时，用 firecrawl-crawl。如果你只需要一个已知 URL，就用 scrape。如果你还没确定哪些页面真正重要，那么在 crawl 之前先用 map 或 search，往往是更合理的上一步。

firecrawl-crawl 适合做整站提取吗？

有时可以，但前提是你能接受较宽的覆盖范围，并且设好了足够好的限制条件。对于大型站点来说，“整站”通常不是一个好的首次运行策略。相比从首页松散地往外爬，先 crawl 某个 docs 子栏目通常更实际。

firecrawl-crawl 适合抓 docs 栏目吗？

适合。仓库示例就明确强调了像 /docs 这样的栏目级提取场景，这也是 firecrawl-crawl for Web Scraping 最强的用法之一。

什么因素会阻碍结果质量？

常见问题包括：范围描述含糊、缺少路径过滤、没有页面数量上限、起始 URL 选错。这些都不是小细节，而是直接决定输出到底有用还是充满噪音的关键因素。

如何改进 firecrawl-crawl 技能使用效果

给 firecrawl-crawl 设定更紧的爬取边界

想提升 firecrawl-crawl 输出质量，最快的方法就是把爬取边界定义得更精确。明确起始 URL、栏目路径、页面上限和目标深度。“抓取 /docs 下最多 2 层深度的文档”明显比“把这个站点爬一下”更好。

先小范围验证，再逐步放大

为了更顺利地采用 firecrawl-crawl，也为了减少浪费，建议先做一次小规模验证 crawl：

较低的 --limit
更窄的 --include-paths
适中的 --max-depth

如果输出看起来正确，再逐步提高 limit。这样能在任务变得耗时或昂贵之前，先把范围错误揪出来。

写 prompt 时，把 crawl 后任务一起说清楚

firecrawl-crawl install 只是成功的一部分。你还应该明确告诉 agent，提取完成后要做什么。例如：

“Use firecrawl-crawl to extract /docs up to 50 pages, save to .firecrawl/crawl.json, then identify onboarding, auth, and API reference pages.”

这样能提升端到端的可用性，因为 crawl 和后续分析从一开始就是对齐的。

避开常见失败模式

firecrawl-crawl skill 常见问题包括：

明明只需要某个栏目，却从首页开始
在大型站点上省略 --limit
导航结构很密集时省略 --max-depth
忘了加 -o，失去一个很容易复核的落点
只说“把所有内容都抓下来”，却没定义业务相关性

基于输出结果迭代，不要靠想象

第一次运行后，先检查实际抓到了什么。如果无关页面太多，就收紧 --include-paths 或降低深度；如果重要页面缺失，就增加深度，或换成更相关的入口 URL。最好的 firecrawl-crawl guide 一定是迭代式的：先 crawl、再检查、再调整、再重跑。

让 firecrawl-crawl 回到它最擅长的角色

把 firecrawl-crawl 用在内容收集阶段，然后再交给总结、分类、对比或索引步骤去处理。试图让 crawl 这一步一次性解决所有下游任务，通常只会让流程变得不清晰。这个技能最强的地方，是先把正确的语料集合起来。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

huggingface-datasets

作者 huggingface

在 Hugging Face Dataset Viewer API 工作流中使用 huggingface-datasets 技能，用于校验数据集、解析 splits、预览和分页行、搜索文本、应用过滤器，以及获取 parquet 链接或统计信息。它是一份面向只读数据集探索的实用 huggingface-datasets 指南。

网页抓取

收藏 0GitHub 10.4k

data-scraper-agent

作者 affaan-m

data-scraper-agent 可帮助你搭建可重复使用的公开数据管道，用于网页抓取、数据丰富和存储。它面向按计划持续监控任务、价格、新闻、仓库、体育和列表信息，可结合 GitHub Actions 定时运行，并将结果输出到 Notion、Sheets 或 Supabase。更适合长期跟踪，不适合一次性提取。

网页抓取

收藏 0GitHub 156.1k

baoyu-url-to-markdown

作者 JimLiu

baoyu-url-to-markdown 可借助内置的 baoyu-fetch CLI，将在线 URL 转为 Markdown，支持 Chrome CDP、站点适配器以及通用回退方案。适合在安装前了解 Bun 运行时要求、首次使用所需的 EXTEND.md 配置，以及处理 X、YouTube、Hacker News 和需渲染页面时的具体用法。

格式转换

收藏 0GitHub 13.2k

x-twitter-scraper

作者 Xquik-dev

使用 x-twitter-scraper 通过 Xquik 获取 X（Twitter）数据和需要确认的操作。它支持推文搜索、用户查询、粉丝提取、媒体下载、监控、webhook、MCP 和写入操作。适合基于 API key 的网页抓取式研究，不适合使用 X 登录凭证。

网页抓取

收藏 0GitHub 71

exa-search

作者 K-Dense-AI

exa-search 是一项由 Exa 驱动的网页研究技能，可用于查找最新信息并从 URL 中提取内容。适合用于搜索、来源发现、文章和 PDF 提取，以及结合语义检索、学术式过滤和清晰安装与使用指引的技术或科学研究。

Web 研究

收藏 0GitHub 0

browser-use

作者 browser-use

browser-use 是一项用于浏览器自动化的技能，可用于打开页面、检查当前状态、点击带索引的元素、在输入框中键入内容、截取截图，并复用持久化浏览器会话。通过 browser-use CLI，它适合完成稳定的表单填写、页面导航以及需要登录状态的工作流。

浏览器自动化

收藏 0GitHub 84.9k

remote-browser

作者 browser-use

remote-browser 可帮助受沙箱限制的 agent 控制无头浏览器，用于 Browser Automation。你可以用它打开页面、检查当前状态、点击带索引的元素、输入内容、截取截图，并连接本地应用或基于 CDP 的浏览器会话。

浏览器自动化

收藏 0GitHub 84.9k

firecrawl

作者 firecrawl

firecrawl skill 用于安装、认证并使用官方 Firecrawl CLI，支持网页抓取、搜索、爬取和页面交互。了解如何完成设置、运行 `firecrawl --status`、登录、将输出安全写入 `.firecrawl/`，以及参考仓库整理出的实用使用方式。

网页抓取

收藏 0GitHub 234

firecrawl-search

作者 firecrawl

firecrawl-search 是一项面向网页研究的技能，可用于查找信息源、执行结构化搜索，并可选通过 Firecrawl CLI 将整页内容抓取为 JSON。

Web 研究

收藏 0GitHub 234

parallel-web

作者 K-Dense-AI

parallel-web 是一个由 parallel-cli 驱动的网页研究与信息提取技能。它可帮助你进行网页搜索、提取 URL 内容、从来源中补充数据，并围绕学术与科学来源优先开展更深入的研究。适用于 parallel-web 的用法、网页研究、引用整理以及以证据为先的工作流。

Web 研究

收藏 0GitHub 0

geomaster

作者 K-Dense-AI

geomaster 是一项面向 GIS、遥感、空间分析和地球观测工作流的地理空间科学技能。可用于数据分析任务，例如栅格与矢量操作、卫星影像处理、空间指标计算和工作流规划。geomaster 指南可帮助你更少凭猜测地完成安装、查看和应用这项技能。

数据分析

收藏 0GitHub 0

asc-aso-audit

作者 rudrankriyam

asc-aso-audit 帮你基于 `./metadata` 中的标准 App Store 元数据执行离线 ASO 审核，再借助 Astro MCP 发现关键词缺口。建议在 `asc metadata pull` 之后使用 asc-aso-audit skill，重点查看 `subtitle`、`keywords`、`description` 和 `whatsNew`，减少拍脑袋判断。

数据分析

收藏 0GitHub 0

ffuf-web-fuzzing

作者 jthack

ffuf-web-fuzzing 是一项实用技能，可用于发现隐藏的 Web 内容、测试路由和参数，并通过原始请求、自动校准和结果分析对已认证目标进行 fuzzing。它适合需要一份可重复执行的 ffuf-web-fuzzing 渗透测试与 Security Audit 工作流指南的安全测试人员。

安全审计

收藏 0GitHub 0

web-to-markdown

作者 softaworks

web-to-markdown 是一项用于格式转换的 skill，可通过本地 `web2md` CLI 将在线网页转换为干净的 Markdown；对于 JS 渲染页面、交互式流程和批量 URL 转换，则会配合 Chromium 系浏览器完成处理。它只会在被用户明确点名时运行。

格式转换

收藏 0GitHub 1.3k

firecrawl-agent

作者 firecrawl

firecrawl-agent 可帮助你从复杂的多页面网站中提取结构化 JSON。了解它适合哪些场景、如何运行 Firecrawl CLI agent、添加 schema、设置起始 URL，以及如何保存输出，用于价格、商品和目录类数据提取。

网页抓取

收藏 0GitHub 234

firecrawl-map

作者 firecrawl

firecrawl-map 可帮助智能体发现并列出网站中的 URL，支持搜索过滤、结果数量限制、JSON 输出、sitemap 模式和子域名控制，适合在进一步 scraping 或 crawling 之前先做站点摸底。

网页抓取

收藏 0GitHub 234