firecrawl-scrape

作者 firecrawl

firecrawl-scrape 可从已知 URL 提取干净、适合 LLM 处理的内容，包括经 JavaScript 渲染的页面。可通过 Firecrawl CLI 或 `npx firecrawl` 抓取 markdown、链接，或提取针对单个页面的答案。

Stars234

收录时间2026年3月31日

分类网页抓取

安装命令

npx skills add firecrawl/cli --skill firecrawl-scrape

编辑评分

该技能评分为 72/100，适合收录给想找清晰 URL 抓取命令的目录用户，但作为安装决策页面还不算特别完整。仓库内容表明，它在触发匹配和实际命令示例方面表现较强，能将静态页面或 JS 渲染页面抓取为 markdown，也覆盖了多 URL 使用、输出格式和基于查询的提取。不过，其采用判断的信息仍显不足：顶层描述文字非常简略，`SKILL.md` 中没有安装命令，也缺少配套文件和更深入的操作指导。

72/100

亮点

描述中的触发提示很明确，能将“scrape”“fetch”“read this webpage”等用户意图直接映射到这个技能。
快速上手示例展示了具体用法模式：基础抓取、仅主内容、等待 JS、多个 URL、替代输出格式，以及页面查询。
相较于泛泛的提示词，它提供了明确的操作价值：指导代理使用 `firecrawl scrape`/`npx firecrawl`、保存输出，并在网页提取场景中优先使用它而不是 WebFetch。

注意点

`SKILL.md` 未包含安装命令，因此用户在实际运行前仍需要依赖外部信息来完成 CLI 设置。
除一个 markdown 文件外，仓库提供的支持内容较少；没有用于排障、认证/配置或边界场景处理的脚本、参考资料或配套资源。

Firecrawl 抓取网站 Markdown Cli 浏览器自动化

概览

firecrawl-scrape 技能概览

firecrawl-scrape 是做什么的

firecrawl-scrape 适合在你已经知道目标 URL 的前提下，从一个或多个网页中提取干净、适合 LLM 使用的内容。它的定位是实用的页面抓取，而不是大范围的网站发现：把页面地址交给它，它会返回结构化结果，比如 markdown、links，或者基于该页面直接回答问题。

谁适合使用 firecrawl-scrape

这个技能适合需要稳定获取以下页面内容的用户：

文档页面
博客文章
价格页
产品页
JavaScript 渲染站点和 SPA

如果普通 fetch 工具在客户端渲染页面上经常失效，或者返回一堆不适合直接喂给 LLM 的噪声 HTML，那么 firecrawl-scrape 会特别有用。

firecrawl-scrape 真正解决的任务是什么

大多数用户并不是想抽象地做“web scraping”，他们真正想要的是下面这些结果之一：

把页面读成 markdown，供后续分析
提取正文内容，去掉页眉页脚
在页面文本之外一并拿到链接
针对一个已知 URL 提一个明确问题
并行抓取几个已知页面

在这些场景下，firecrawl-scrape 明显比一句泛泛的“read this webpage”式提示更靠谱。

为什么用户会选 firecrawl-scrape，而不是通用 fetch

firecrawl-scrape 的核心差异点在于：它专门为网页内容提取而设计，支持 JS 渲染页面，并且输出形式针对 LLM 工作流做了优化。上游技能也明确说明：做网页内容提取时，应优先用它而不是 WebFetch。这点很关键，尤其当你平时的浏览器或 fetch 路径拿不到渲染后的内容、抓到太多导航杂质，或者缺少链接上下文时。

一眼看懂：firecrawl-scrape 适合与不适合什么场景

适合：

你已经有明确 URL
你要的是页面内容，而不是全站探索
你需要 markdown 或 links 这类便于机器处理的输出
页面内容可能需要等待渲染后才出现

不适合：

你还需要先发现 URL
你需要遍历整个网站
你需要的不只是页面抓取，还包括交互
你只需要简单抓一下静态 HTML，且已经有可信赖的别的工具

如何使用 firecrawl-scrape 技能

firecrawl-scrape 的安装与使用前提

这个技能位于 firecrawl/cli 仓库的 skills/firecrawl-scrape 目录下。它本质上是对 Firecrawl CLI 的调用指引，所以实际前提是你能使用 firecrawl 命令，或者通过 npx firecrawl 来执行。技能示例里两种写法都有：

firecrawl scrape ...
npx firecrawl ...

如果你的环境里还没有现成可用的 CLI，优先使用 npx firecrawl，能明显减少前期配置阻力。

firecrawl-scrape 需要什么输入

至少，firecrawl-scrape 需要一个明确的 URL。在此基础上，输出质量取决于你有没有把下面这些信息说明清楚：

需要的输出格式：markdown、links，或两者都要
是否只保留正文内容
页面是否需要通过 --wait-for 等待渲染
是否要把原始页面内容保存到文件
是否想用 --query 直接拿到定向答案

这不是一个适合处理“去网上研究一下这家公司”这类模糊目标的技能。它适合的是：“抓这个具体页面，并返回有用结果。”

最快能跑通的第一条命令

如果你只是想先拿到可读的页面内容，从这里开始：

firecrawl scrape "<url>" -o .firecrawl/page.md

如果页面里导航、侧边栏等杂质很多，可以改用：

firecrawl scrape "<url>" --only-main-content -o .firecrawl/page.md

如果页面是 SPA，或内容要等渲染后才出现：

firecrawl scrape "<url>" --wait-for 3000 -o .firecrawl/page.md

firecrawl-scrape 什么时候该用 main-content 模式

--only-main-content 是最值得优先尝试的选项之一，因为它通常能明显提升后续摘要和信息提取的质量。以下情况尤其适合：

总结文章内容
提取产品信息或价格细节
把内容继续送入下一个 LLM 步骤
减少菜单、页脚和重复页面框架造成的 token 浪费

如果你明确需要导航链接或页面周边布局上下文，就不要开这个选项。

firecrawl-scrape 如何处理 JavaScript 渲染页面

很多人真正卡住的地方是：页面在浏览器里看起来正常，但用简单 fetch 方法拿到的内容却不完整。firecrawl-scrape 通过具备渲染感知的抓取方式来解决这个问题。实际使用中，如果内容出现较晚，就加上 --wait-for，并从类似 3000 这样的合理延迟开始。

适合加渲染等待的情况包括：

产品规格是在页面加载后才填充出来
文档内容依赖客户端 hydrate
价格表要等脚本运行完才会出现

不要一上来就默认设置很长的等待时间。先从较小值开始，只有在输出明显缺内容时再往上调。

如何高效抓取多个 URL

这个技能支持在一条命令里传入多个 URL，并且说明了这些页面会并发抓取。这很适合一些已知页面的小批量任务，比如：

几个文档页
首页、价格页和 FAQ
一组你已经挑好的博客文章

示例：

firecrawl scrape https://example.com https://example.com/blog https://example.com/docs

如果你已经知道准确目标页面，这种方式比 crawl 更合适。

如何同时拿到 markdown 和 links

如果你的下一步既依赖可读内容，也依赖页面引用链接，那就直接请求多种格式：

firecrawl scrape "<url>" --format markdown,links -o .firecrawl/page.json

这很适合下面这类工作流：

先提取内容，再检查出站链接
构建带引用依据的笔记
区分正文文本与导航、引用目标

如果你后续要做结构化处理，选择 JSON 输出通常比只存一个 markdown 文件更合适。

如何用 firecrawl-scrape 做定向提问

firecrawl-scrape usage 里一个非常实用的模式，是在抓取时直接针对页面提一个具体问题：

firecrawl scrape "https://example.com/pricing" --query "What is the enterprise plan price?"

它最适合这些情况：

答案大概率就在单个页面上
你想做定向提取，而不是通读整个页面
你想减少人工阅读时间

如果答案分散在多个页面，或者必须比较几份文档，这种方式就没那么强。

怎样把模糊请求改写成高质量提示

弱请求：

“Scrape this site and tell me what matters.”

强请求：

“Use firecrawl-scrape on https://example.com/pricing with --only-main-content. Save markdown to .firecrawl/pricing.md. Then extract plan names, monthly prices, annual billing notes, and enterprise contact language.”

为什么后者更好：

它给了明确 URL
它选对了输出模式
它明确了抓取后要提取什么
它减少了任务范围上的歧义

面向 Web Scraping 的 firecrawl-scrape 推荐工作流

一个实用、稳妥的顺序通常是：

确认你拿到的是准确页面 URL。
先用 markdown 提取跑一遍。
如果页面噪声很多，再加 --only-main-content。
如果渲染内容缺失，再加 --wait-for。
如果链接结构也重要，再切到 --format markdown,links。
只有在任务足够窄、且答案明确限定在单页内时，再用 --query。

这也符合上游对 scrape 的定位：它是更大工作流中的中间环节，即 search → scrape → map → crawl → interact。

仓库里优先该看哪些文件

先看 skills/firecrawl-scrape/SKILL.md。几乎所有实用价值都集中在这个文件里，包括：

什么时候该用这个技能
快速上手命令
支持的选项
使用技巧

从安装决策角度看，这里最关键的结论其实很简单：源文档本身很精炼，在真正动手前，你不需要额外去看辅助脚本或其他引用文件。

会直接影响 firecrawl-scrape 输出质量的实用建议

下面这些选择对结果的影响，通常比你多写几句提示词更大：

尽量提供精确 URL，而不是顶级域名首页。
分析型任务优先使用 --only-main-content。
只有在输出明显不完整时再使用 --wait-for。
把输出保存到 .firecrawl/，这样在串联更多自动化步骤前可以先检查原始结果。
--query 适合页面内事实提取，不适合开放式研究问题。

这些小决策，往往比继续堆 prompt wording 更关键。

firecrawl-scrape 技能 FAQ

firecrawl-scrape 比“给一个 URL 的普通提示”更好吗？

通常是的，尤其当任务是真正的网页提取时。firecrawl-scrape skill 提供了明确的调用路径，支持 JS 渲染页面，可以返回 markdown 或 links，也暴露了抓取相关选项。普通提示在简单阅读任务里可能够用，但一旦页面需要渲染，或你需要更干净、更结构化的输出，它就没那么稳定了。

什么时候该用 firecrawl-scrape，而不是 WebFetch？

当你要做网页内容提取时，就该优先用 firecrawl-scrape。上游技能已经明确建议，在这个用途下它优先于 WebFetch。这个建议在以下场景尤其有意义：渲染页面、需要更干净的 markdown 输出、以及需要可重复 CLI 行为的抓取工作流。

firecrawl-scrape 对新手友好吗？

是的，至少相较于很多抓取工具来说相当友好。它的首次上手路径很短：给一个 URL，执行命令，查看输出。你不需要先理解完整的 crawl 策略，也能马上得到价值。新手最需要理解的一点是：这是一种页面抓取工具，不是全站探索工具。

firecrawl-scrape 能处理 SPA 和动态页面吗？

可以。这正是它存在的核心原因之一。如果页面依赖 JavaScript 渲染，那么在需要时加上 --wait-for，给内容足够的出现时间，再进行提取即可。

什么情况下 firecrawl-scrape 是错误选择？

以下情况建议不要用它：

你还不知道目标 URL
你需要广泛发现站点内页面
你需要递归遍历整个网站
你的任务需要交互而不是提取
答案必须综合很多个你尚未识别出的页面

这些情况下，search、map、crawl 或其他工具更适合作为第一步。

使用它需要安装整个仓库吗？

你需要能访问这个技能所依赖的 Firecrawl CLI 行为，但技能本身很轻量。就决策而言，这里的仓库负担并不大：实用说明基本都集中在 SKILL.md 中，没有什么必须先啃完的配套脚本或资源目录。

如何改进 firecrawl-scrape 的使用效果

给 firecrawl-scrape 设定更窄的目标

最常见的质量问题，是任务意图给得太宽。下面这类请求通常效果更好：

“提取价格表”
“返回 markdown 加 links”
“回答这个页面里的一个问题”

而不是：

“把所有有用内容都抓下来”

页面任务越聚焦，后续清理成本通常越低。

用页面感知的指令改进输入

高质量输入通常会同时包含 URL、输出模式和提取目标。示例：

firecrawl scrape "https://example.com/docs/auth" \
  --only-main-content \
  -o .firecrawl/auth.md

然后再明确告诉 agent 要对这个文件做什么：

总结配置步骤
列出必需的 headers
提取代码示例
比较不同 auth 方法

这种两步式模式，通常比把抓取和分析揉进一个模糊请求里更可靠。

在改整个工作流之前，先修复内容缺失问题

如果输出看起来太薄，第一步先测试页面是不是需要渲染等待：

firecrawl scrape "<url>" --wait-for 3000 -o .firecrawl/page.md

很多用户切换工具切得太早，实际问题往往只是页面还没渲染完。

在下游分析前先降噪

如果结果里充满导航、cookie 文案或页脚内容，就切换到：

firecrawl scrape "<url>" --only-main-content -o .firecrawl/page.md

这通常会改善：

摘要质量
提取精度
token 效率
相似页面之间的一致性

计划做自动化时，优先使用结构化输出

如果抓取结果还要继续喂给下一步处理，就应当一开始直接请求结构化格式，而不是后面再去重新解析 markdown：

firecrawl scrape "<url>" --format markdown,links -o .firecrawl/page.json

这也会让 firecrawl-scrape install 的决策更清晰：如果你的工作流依赖带链接感知的自动化，这个技能会比纯文本 fetch 工具更匹配。

先跑第一版，再迭代，不要一开始就过度设计

一个高效的 firecrawl-scrape guide 使用模式是：

先跑最简单的 scrape
检查哪里缺内容、哪里噪声多
针对具体问题只加一个选项
重新运行并比较结果

典型迭代路径：

基础 scrape
加 --only-main-content
加 --wait-for
加 --format markdown,links
用 --query 做直接提取

这通常比在没看过页面输出之前就设计一条复杂命令更快。

使用 firecrawl-scrape 时要留意的常见失败模式

最常见、也最影响实际效果的问题包括：

用了首页，但真正目标其实是某个子页面
期待 scrape 的行为像 crawl 一样
没有等待 JS 渲染内容出现
用 --query 问了必须跨多个页面才能回答的问题
只保存最终摘要，没有保留原始抓取输出

这些问题大多都能通过更清晰的范围定义，加上一轮结果检查来避免。

高级用户如何从 firecrawl-scrape 拿到更多价值

高级用户通常不是靠把 scrape 本身变得特别复杂来提升结果，而是通过把 firecrawl-scrape 和后续步骤组合起来。一个很稳的模式是：

先把准确页面干净地抓下来
保存原始输出
再做提取、比较或综合分析

这样可以让 firecrawl-scrape for Web Scraping 始终聚焦在它最擅长的那一层：页面获取。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

huggingface-datasets

作者 huggingface

在 Hugging Face Dataset Viewer API 工作流中使用 huggingface-datasets 技能，用于校验数据集、解析 splits、预览和分页行、搜索文本、应用过滤器，以及获取 parquet 链接或统计信息。它是一份面向只读数据集探索的实用 huggingface-datasets 指南。

网页抓取

收藏 0GitHub 10.4k

data-scraper-agent

作者 affaan-m

data-scraper-agent 可帮助你搭建可重复使用的公开数据管道，用于网页抓取、数据丰富和存储。它面向按计划持续监控任务、价格、新闻、仓库、体育和列表信息，可结合 GitHub Actions 定时运行，并将结果输出到 Notion、Sheets 或 Supabase。更适合长期跟踪，不适合一次性提取。

网页抓取

收藏 0GitHub 156.1k

baoyu-url-to-markdown

作者 JimLiu

baoyu-url-to-markdown 可借助内置的 baoyu-fetch CLI，将在线 URL 转为 Markdown，支持 Chrome CDP、站点适配器以及通用回退方案。适合在安装前了解 Bun 运行时要求、首次使用所需的 EXTEND.md 配置，以及处理 X、YouTube、Hacker News 和需渲染页面时的具体用法。

格式转换

收藏 0GitHub 13.2k

x-twitter-scraper

作者 Xquik-dev

使用 x-twitter-scraper 通过 Xquik 获取 X（Twitter）数据和需要确认的操作。它支持推文搜索、用户查询、粉丝提取、媒体下载、监控、webhook、MCP 和写入操作。适合基于 API key 的网页抓取式研究，不适合使用 X 登录凭证。

网页抓取

收藏 0GitHub 71

exa-search

作者 K-Dense-AI

exa-search 是一项由 Exa 驱动的网页研究技能，可用于查找最新信息并从 URL 中提取内容。适合用于搜索、来源发现、文章和 PDF 提取，以及结合语义检索、学术式过滤和清晰安装与使用指引的技术或科学研究。

Web 研究

收藏 0GitHub 0

browser-use

作者 browser-use

browser-use 是一项用于浏览器自动化的技能，可用于打开页面、检查当前状态、点击带索引的元素、在输入框中键入内容、截取截图，并复用持久化浏览器会话。通过 browser-use CLI，它适合完成稳定的表单填写、页面导航以及需要登录状态的工作流。

浏览器自动化

收藏 0GitHub 84.9k

remote-browser

作者 browser-use

remote-browser 可帮助受沙箱限制的 agent 控制无头浏览器，用于 Browser Automation。你可以用它打开页面、检查当前状态、点击带索引的元素、输入内容、截取截图，并连接本地应用或基于 CDP 的浏览器会话。

浏览器自动化

收藏 0GitHub 84.9k

firecrawl

作者 firecrawl

firecrawl skill 用于安装、认证并使用官方 Firecrawl CLI，支持网页抓取、搜索、爬取和页面交互。了解如何完成设置、运行 `firecrawl --status`、登录、将输出安全写入 `.firecrawl/`，以及参考仓库整理出的实用使用方式。

网页抓取

收藏 0GitHub 234

firecrawl-search

作者 firecrawl

firecrawl-search 是一项面向网页研究的技能，可用于查找信息源、执行结构化搜索，并可选通过 Firecrawl CLI 将整页内容抓取为 JSON。

Web 研究

收藏 0GitHub 234

parallel-web

作者 K-Dense-AI

parallel-web 是一个由 parallel-cli 驱动的网页研究与信息提取技能。它可帮助你进行网页搜索、提取 URL 内容、从来源中补充数据，并围绕学术与科学来源优先开展更深入的研究。适用于 parallel-web 的用法、网页研究、引用整理以及以证据为先的工作流。

Web 研究

收藏 0GitHub 0

geomaster

作者 K-Dense-AI

geomaster 是一项面向 GIS、遥感、空间分析和地球观测工作流的地理空间科学技能。可用于数据分析任务，例如栅格与矢量操作、卫星影像处理、空间指标计算和工作流规划。geomaster 指南可帮助你更少凭猜测地完成安装、查看和应用这项技能。

数据分析

收藏 0GitHub 0

asc-aso-audit

作者 rudrankriyam

asc-aso-audit 帮你基于 `./metadata` 中的标准 App Store 元数据执行离线 ASO 审核，再借助 Astro MCP 发现关键词缺口。建议在 `asc metadata pull` 之后使用 asc-aso-audit skill，重点查看 `subtitle`、`keywords`、`description` 和 `whatsNew`，减少拍脑袋判断。

数据分析

收藏 0GitHub 0

ffuf-web-fuzzing

作者 jthack

ffuf-web-fuzzing 是一项实用技能，可用于发现隐藏的 Web 内容、测试路由和参数，并通过原始请求、自动校准和结果分析对已认证目标进行 fuzzing。它适合需要一份可重复执行的 ffuf-web-fuzzing 渗透测试与 Security Audit 工作流指南的安全测试人员。

安全审计

收藏 0GitHub 0

web-to-markdown

作者 softaworks

web-to-markdown 是一项用于格式转换的 skill，可通过本地 `web2md` CLI 将在线网页转换为干净的 Markdown；对于 JS 渲染页面、交互式流程和批量 URL 转换，则会配合 Chromium 系浏览器完成处理。它只会在被用户明确点名时运行。

格式转换

收藏 0GitHub 1.3k

firecrawl-agent

作者 firecrawl

firecrawl-agent 可帮助你从复杂的多页面网站中提取结构化 JSON。了解它适合哪些场景、如何运行 Firecrawl CLI agent、添加 schema、设置起始 URL，以及如何保存输出，用于价格、商品和目录类数据提取。

网页抓取

收藏 0GitHub 234

firecrawl-map

作者 firecrawl

firecrawl-map 可帮助智能体发现并列出网站中的 URL，支持搜索过滤、结果数量限制、JSON 输出、sitemap 模式和子域名控制，适合在进一步 scraping 或 crawling 之前先做站点摸底。

网页抓取

收藏 0GitHub 234