firecrawl-download

作者 firecrawl

firecrawl-download 可将整个网站或文档专区下载为整理好的本地文件，输出到 `.firecrawl/` 目录下。它结合站点映射与抓取能力，支持 markdown、链接和截图，适合离线保存文档、副本归档、批量抓取页面，以及实用型 Web Scraping 工作流。

Stars234

收录时间2026年3月31日

分类网页抓取

安装命令

npx skills add firecrawl/cli --skill firecrawl-download

编辑评分

该技能评分为 73/100，说明它可以收录到目录中供用户发现：触发场景清晰，工作流也是真实可用的，但由于仓库仅提供一个 `SKILL.md`，除命令示例外运行细节较少，实际采用时仍需要用户自行补足一些判断。

73/100

亮点

触发意图明确：描述中直接点出了“下载整个网站”“离线副本”“下载全部文档”等具体使用场景。
对 agent 有实际杠杆价值：它把站点映射和抓取整合进一条命令，并说明了 formats、screenshots、include-paths 和 limits 等实用选项。
示例具备可操作性：`SKILL.md` 提供了快速上手命令，并明确说明可使用 `-y` 跳过确认提示。

注意点

运行层面的细节仍然有限：没有配套支持文件、参考资料、安装说明，也缺少针对失败处理、规模上限或输出管理的决策规则。
该技能被明确标注为 experimental，这会给偏生产型的 agent 工作流带来一定的信任和稳定性风险。

Firecrawl Cli 抓取网站离线 Markdown

概览

firecrawl-download 技能概览

firecrawl-download 是做什么的

firecrawl-download 这个技能只专注于一件事：把一个网站或某个文档分区下载为结构清晰的本地文件。它会先做站点发现，再抓取页面，然后把每个页面保存到 .firecrawl/ 目录下，可输出为 markdown、截图，或每页多种格式。

如果你想离线保存一份文档、建立本地研究语料库，或者需要一个可重复执行的批量保存流程，firecrawl-download 会非常合适。相比泛泛的网页抓取提示词，firecrawl-download 更适合“整站/整块文档下载”这类场景，因为它已经把完整抓取流程封装好了，你不需要从零设计 crawl workflow。

谁适合使用 firecrawl-download 技能

最适合这类 firecrawl-download 技能的用户包括：

需要把文档保存到本地的开发者
收集站点内容做审阅的研究人员
搭建轻量内容归档的团队
希望用更少试错成本完成“下载这个网站”流程的 agents

如果你的真实目标是“把这个网站保存成可用的本地文件”，那这个技能比宽泛的 web scraping prompt 更对路。

安装前用户最关心什么

大多数人决定是否安装 firecrawl-download，核心都在看这四件事：

它能不能处理整个网站或整块文档分区，而不是只抓一个页面？
它保存出来的结果是不是可直接使用的本地目录结构？
它能不能限制范围，避免把不该下载的页面也抓下来？
它支不支持 markdown、截图等多种输出格式？

从技能源码来看，这四个问题答案都是肯定的。唯一需要提前知道的是：它被标记为 experimental，所以更适合把它当作一个高效的便利型工作流，而不是一个经过深度加固的归档系统。

在 Web Scraping 工作流中的关键差异

firecrawl-download for Web Scraping 的价值，不只是“抓得下来”这么简单。它真正的差异在于，这个命令把下面这些步骤打包在一起了：

先做 site mapping
再做 scraping
按页面输出文件
自动生成嵌套本地目录
下载时可以复用 scrape 选项

这也是为什么在“下载文档”场景里，它比单纯只返回页面内容的 scrape 命令更值得安装。

如何使用 firecrawl-download 技能

firecrawl-download 的安装上下文

从仓库内容来看，这个技能位于 firecrawl/cli 的 skills/firecrawl-download 目录下。一个实用的安装方式是：

npx skills add https://github.com/firecrawl/cli --skill firecrawl-download

安装后，优先查看：

skills/firecrawl-download/SKILL.md

这个技能几乎没有太多辅助文件，因此 SKILL.md 就是最核心、最可靠的信息来源。

先看这个文件

建议你先从这里开始：

skills/firecrawl-download/SKILL.md

这个文件能很快告诉你真实边界：firecrawl download 是一个实验性的便利命令，它把 map 和 scrape 组合在一起，把结果保存到 .firecrawl/ 下，并支持在下载过程中使用 scrape 选项。

firecrawl-download 的基础用法

使用 firecrawl-download skill 最快的方法，就是直接指向一个文档根目录或内容根路径：

firecrawl download https://docs.example.com

如果是无人值守执行，技能文档里明确建议使用：

firecrawl download https://docs.example.com -y

当你希望在 agent 或脚本工作流里跳过确认提示时，就应该加上 -y。

让技能发挥效果需要哪些输入

像“download this site”这种过于宽泛的请求，通常不够好。更有用的输入应该包括：

根 URL
你真正想下载的分区边界
最大页面数量
需要的输出格式
是否需要截图
需要排除什么内容

一个更强的请求会像这样：

“Use firecrawl-download to save https://docs.example.com locally as markdown with screenshots, include only /guides and /api, limit to 50 pages, and skip translated pages.”

这样的信息量，足够让技能在抓取前先把范围 map 对。

实际使用中最重要的命令模式

源码里能看到几种很有价值的高频用法：

# With screenshots
firecrawl download https://docs.example.com --screenshot --limit 20 -y

# Multiple formats per page
firecrawl download https://docs.example.com --format markdown,links --screenshot --limit 20 -y

# Filter by section
firecrawl download https://docs.example.com --include-paths "/features,/sdks"

这些示例之所以重要，是因为它们对应的正是实际落地时最常见的阻碍：内容太多、抓错分区，或者输出保真度不够。

本地会写入什么内容

这个技能会把输出保存到 .firecrawl/ 下的嵌套目录中。如果你请求了多种格式，那么每个页面可能会生成独立文件，例如：

index.md
links.txt
screenshot.png

这种本地文件组织方式，是很多人选择安装 firecrawl-download 而不是临时写一个 scrape prompt 的关键原因之一。

如何把模糊目标改写成可执行的 prompt

如果你最初想到的是：

“download this docs site”

更好的写法应该拆成：

目标 URL
希望包含的分区过滤条件
文件格式
是否需要截图
页面数量上限
需要排除的内容

给 agent 的示例 prompt：

“Use the firecrawl-download skill to download https://docs.example.com for offline use. Save as markdown plus screenshots, include only /getting-started,/api, cap at 30 pages, and use -y so the run is non-interactive.”

这样效果更好，因为它把范围和输出上的歧义都提前消掉了。

获得稳定结果的推荐 firecrawl-download 工作流

一个实用的 firecrawl-download guide 工作流可以这样走：

先从最小但仍有价值的文档分区开始。
在增加页面数量之前，先加上 --include-paths。
第一次运行务必带上 --limit。
检查 .firecrawl/ 的输出目录结构。
只有在确实需要时，再加 --screenshot 或多格式输出。
等第一轮样本结果没问题后，再扩大抓取范围。

这样可以避开一个很常见的失败模式：一开始就下载太多、太杂的内容。

什么情况下应该用 firecrawl-download，而不是普通 scrape

当你需要下面这些能力时，就应该优先考虑 firecrawl-download usage：

抓很多页面，而不是一个页面
需要本地文件，而不只是返回文本
需要一份可浏览的离线副本
需要快速保存一版文档快照供审阅或参考

如果你只需要单页内容，或者需要高度定制的提取逻辑，那普通 scrape 反而更合适。firecrawl-download 的核心价值，在于用更快的工作流完成站点级保存。

需要尽早了解的限制与权衡

从技能源码来看，最重要的实际约束包括：

它被标记为 experimental
它本质上是一个便利型命令
输出质量仍然取决于目标站点结构，以及你设置的范围过滤
不加限制地跑大范围下载，结果可能会很嘈杂，也可能远超预期

所以，这个技能非常适合“可控范围内的文档下载”，但并不意味着它能保证完美、完整的归档结果。

firecrawl-download 技能 FAQ

firecrawl-download 适合新手吗？

适合，尤其当你的任务就是“把文档保存到本地”时。它的命令示例很直观，交互式向导也能降低上手门槛。不过新手依然应该从较小的 --limit 和更窄的 --include-paths 开始，避免一次下载过大。

它和通用 AI 抓取提示词的真实区别是什么？

通用提示词当然也能描述任务，但 firecrawl-download 已经内置了更实用的模式：先 map 站点，再逐页 scrape，并按目录保存文件。这样既减少了前期搭建成本，也让整个流程更可重复。

firecrawl-download 只能用于文档站吗？

不是，但文档站确实是最明确、最匹配的使用场景。它在页面结构和路径相对可预测的网站上效果最好。对于高度动态、或者范围难以界定的网站，你可能需要更强的过滤条件，甚至换一种方法。

firecrawl-download 除了 markdown 还能保存别的格式吗？

可以。技能源码明确展示了每页多格式输出，以及可选截图功能。如果你的需求既包括可阅读文本，也需要视觉证据或页面辅助信息，这一点会很重要。

什么情况下不应该用 firecrawl-download？

如果你只需要以下这些能力，就不建议用 firecrawl-download：

单个页面
自定义提取 schema
在抓取过程中做深度后处理
一个有更严格完备性保证的归档 pipeline

这些场景下，更窄的 scrape 命令或更定制化的工作流通常会更合适。

如何改进 firecrawl-download 技能的使用效果

先给 firecrawl-download 更收敛的范围

想提升 firecrawl-download 结果，最简单的方法就是减少歧义。优先明确使用：

--include-paths
--limit
清晰的文档根 URL

一个限定在 20 页的小范围任务，通常比一次失控的整站下载更有价值。

根据实际下游任务选择输出格式

不要默认把所有格式都打开。应该按下一步用途来选：

markdown：适合阅读、搜索和 LLM ingestion
links：适合关注结构关系的场景
--screenshot：适合关注布局或 UI 证据的场景

这样既能减轻运行负担，也更方便后续审查输出结果。

全量下载前先做一次样本运行

一个很稳妥的迭代方式是：

firecrawl download https://docs.example.com --include-paths "/api" --limit 10 -y

先检查保存下来的文件，再决定是否扩展到更多分区或提高上限。这样能更早发现范围设定错误的问题。

常见失败模式，以及如何避免

典型问题包括：

下载了错误的分区
抓了过多页面
在自动化运行里忘记加 -y
请求了其实并不需要的输出格式

解决方式并不复杂：明确范围、首轮限制规模，并有意识地选择输出。

面向 agent 调用时，如何提升 prompt 质量

如果是由 agent 调用这个技能，建议在请求里明确说明：

精确的起始 URL
本地输出的目标用途
需要包含的分区
需要避开的分区
输出格式
运行规模上限

一个好的 prompt 例如：

“Use firecrawl-download to create an offline markdown copy of https://docs.example.com, only for /guides and /reference, with screenshots for each page, limited to 40 pages, and save non-interactively.”

这种写法会比“download the docs”执行效果好得多。

看完第一轮输出后，如何继续迭代

第一轮完成后，重点检查这些问题：

.firecrawl/ 里是否包含了你预期的页面？
无关页面是不是太多？
你真正需要的是截图，还是纯文本就够？
下一轮应该扩大还是收窄 include paths？

提升 firecrawl-download skill 使用效果的最佳方式，不是盲目重跑，而是根据第一批结果真实产出的内容，调整范围和输出策略。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

huggingface-datasets

作者 huggingface

在 Hugging Face Dataset Viewer API 工作流中使用 huggingface-datasets 技能，用于校验数据集、解析 splits、预览和分页行、搜索文本、应用过滤器，以及获取 parquet 链接或统计信息。它是一份面向只读数据集探索的实用 huggingface-datasets 指南。

网页抓取

收藏 0GitHub 10.4k

data-scraper-agent

作者 affaan-m

data-scraper-agent 可帮助你搭建可重复使用的公开数据管道，用于网页抓取、数据丰富和存储。它面向按计划持续监控任务、价格、新闻、仓库、体育和列表信息，可结合 GitHub Actions 定时运行，并将结果输出到 Notion、Sheets 或 Supabase。更适合长期跟踪，不适合一次性提取。

网页抓取

收藏 0GitHub 156.1k

baoyu-url-to-markdown

作者 JimLiu

baoyu-url-to-markdown 可借助内置的 baoyu-fetch CLI，将在线 URL 转为 Markdown，支持 Chrome CDP、站点适配器以及通用回退方案。适合在安装前了解 Bun 运行时要求、首次使用所需的 EXTEND.md 配置，以及处理 X、YouTube、Hacker News 和需渲染页面时的具体用法。

格式转换

收藏 0GitHub 13.2k

x-twitter-scraper

作者 Xquik-dev

使用 x-twitter-scraper 通过 Xquik 获取 X（Twitter）数据和需要确认的操作。它支持推文搜索、用户查询、粉丝提取、媒体下载、监控、webhook、MCP 和写入操作。适合基于 API key 的网页抓取式研究，不适合使用 X 登录凭证。

网页抓取

收藏 0GitHub 71

exa-search

作者 K-Dense-AI

exa-search 是一项由 Exa 驱动的网页研究技能，可用于查找最新信息并从 URL 中提取内容。适合用于搜索、来源发现、文章和 PDF 提取，以及结合语义检索、学术式过滤和清晰安装与使用指引的技术或科学研究。

Web 研究

收藏 0GitHub 0

browser-use

作者 browser-use

browser-use 是一项用于浏览器自动化的技能，可用于打开页面、检查当前状态、点击带索引的元素、在输入框中键入内容、截取截图，并复用持久化浏览器会话。通过 browser-use CLI，它适合完成稳定的表单填写、页面导航以及需要登录状态的工作流。

浏览器自动化

收藏 0GitHub 84.9k

remote-browser

作者 browser-use

remote-browser 可帮助受沙箱限制的 agent 控制无头浏览器，用于 Browser Automation。你可以用它打开页面、检查当前状态、点击带索引的元素、输入内容、截取截图，并连接本地应用或基于 CDP 的浏览器会话。

浏览器自动化

收藏 0GitHub 84.9k

firecrawl

作者 firecrawl

firecrawl skill 用于安装、认证并使用官方 Firecrawl CLI，支持网页抓取、搜索、爬取和页面交互。了解如何完成设置、运行 `firecrawl --status`、登录、将输出安全写入 `.firecrawl/`，以及参考仓库整理出的实用使用方式。

网页抓取

收藏 0GitHub 234

firecrawl-search

作者 firecrawl

firecrawl-search 是一项面向网页研究的技能，可用于查找信息源、执行结构化搜索，并可选通过 Firecrawl CLI 将整页内容抓取为 JSON。

Web 研究

收藏 0GitHub 234

parallel-web

作者 K-Dense-AI

parallel-web 是一个由 parallel-cli 驱动的网页研究与信息提取技能。它可帮助你进行网页搜索、提取 URL 内容、从来源中补充数据，并围绕学术与科学来源优先开展更深入的研究。适用于 parallel-web 的用法、网页研究、引用整理以及以证据为先的工作流。

Web 研究

收藏 0GitHub 0

geomaster

作者 K-Dense-AI

geomaster 是一项面向 GIS、遥感、空间分析和地球观测工作流的地理空间科学技能。可用于数据分析任务，例如栅格与矢量操作、卫星影像处理、空间指标计算和工作流规划。geomaster 指南可帮助你更少凭猜测地完成安装、查看和应用这项技能。

数据分析

收藏 0GitHub 0

asc-aso-audit

作者 rudrankriyam

asc-aso-audit 帮你基于 `./metadata` 中的标准 App Store 元数据执行离线 ASO 审核，再借助 Astro MCP 发现关键词缺口。建议在 `asc metadata pull` 之后使用 asc-aso-audit skill，重点查看 `subtitle`、`keywords`、`description` 和 `whatsNew`，减少拍脑袋判断。

数据分析

收藏 0GitHub 0

ffuf-web-fuzzing

作者 jthack

ffuf-web-fuzzing 是一项实用技能，可用于发现隐藏的 Web 内容、测试路由和参数，并通过原始请求、自动校准和结果分析对已认证目标进行 fuzzing。它适合需要一份可重复执行的 ffuf-web-fuzzing 渗透测试与 Security Audit 工作流指南的安全测试人员。

安全审计

收藏 0GitHub 0

web-to-markdown

作者 softaworks

web-to-markdown 是一项用于格式转换的 skill，可通过本地 `web2md` CLI 将在线网页转换为干净的 Markdown；对于 JS 渲染页面、交互式流程和批量 URL 转换，则会配合 Chromium 系浏览器完成处理。它只会在被用户明确点名时运行。

格式转换

收藏 0GitHub 1.3k

firecrawl-agent

作者 firecrawl

firecrawl-agent 可帮助你从复杂的多页面网站中提取结构化 JSON。了解它适合哪些场景、如何运行 Firecrawl CLI agent、添加 schema、设置起始 URL，以及如何保存输出，用于价格、商品和目录类数据提取。

网页抓取

收藏 0GitHub 234

firecrawl-map

作者 firecrawl

firecrawl-map 可帮助智能体发现并列出网站中的 URL，支持搜索过滤、结果数量限制、JSON 输出、sitemap 模式和子域名控制，适合在进一步 scraping 或 crawling 之前先做站点摸底。

网页抓取

收藏 0GitHub 234