F

firecrawl-search

作者 firecrawl

firecrawl-search 是一项面向网页研究的技能,可用于查找信息源、执行结构化搜索,并可选通过 Firecrawl CLI 将整页内容抓取为 JSON。

Stars234
收藏0
评论0
收录时间2026年3月31日
分类Web 研究
安装命令
npx skills add https://github.com/firecrawl/cli --skill firecrawl-search
编辑评分

该技能评分为 78/100,属于值得收录的目录候选:它为 agent 提供了清晰的触发信号、具体的 CLI 示例,以及相比通用网页研究提示词更可信的工作流优势。对于目录用户来说,如果他们需要基于 Firecrawl 的搜索能力,并希望按需扩展到整页内容提取,可以考虑安装;不过也要预期仍有一些操作层面的细节没有完全展开。

78/100
亮点
  • 触发性强:描述中明确覆盖了多种常见用户意图,如“search for”、“find me”、“look up”以及研究/新闻类请求。
  • 操作价值明确:技能提供了基础搜索、搜索加抓取、近期新闻等具体命令,并标明了 JSON 输出路径和关键参数。
  • 工作流契合度高:它说明了 search 在更大升级路径中的位置(search → scrape → map → crawl → interact),有助于 agent 将其作为第一步选择。
注意点
  • 采用判断的清晰度受限于打包和支持文件较少:SKILL.md 中没有安装命令,也缺少配套脚本、参考资料或元数据。
  • 参数与选项说明看起来只覆盖了部分内容,对约束条件和选择规则的解释较薄弱,因此在边界场景或参数选择上,agent 仍可能需要自行判断。
概览

firecrawl-search 技能概览

firecrawl-search 是做什么的

firecrawl-search 是一个面向 Web Research 的网页研究技能:先帮你找到相关页面,再可在同一步里按需提取这些页面的完整内容。它特别适合那些不满足于搜索摘要的场景,比如发现信息源、收集文章、检查最新新闻,以及为后续总结或对比收集证据。

什么人适合安装 firecrawl-search 技能

如果你在做 AI 辅助的网页研究,而且还没有明确的目标 URL,那 firecrawl-search 往往很合适。凡是你的工作起点是“找一些关于 X 的来源”“搜索最近的相关报道”或“看看大家怎么说”,这个技能通常都比泛泛地写一个提示词更直接,因为它能把这类需求转成可复用的 CLI 工作流,并输出结构化 JSON 结果。

它真正解决的核心任务

大多数安装 firecrawl-search 的用户,实际想解决的是三件事:

  1. 快速找到相关页面,
  2. 视需要抓取完整页面 markdown,而不只是 snippet,
  3. 把干净的结果交给 agent 做整合、过滤,或继续抓取。

也正因为如此,firecrawl-search for Web Research 特别适合放在更大工作流的第一步:search → scrape → map → crawl。

为什么大家会用 firecrawl-search,而不是直接普通提问

firecrawl-search 的核心差异在于:它返回的是真正可机读的搜索结果 JSON,并且可以通过 --scrape 直接补充完整页面提取结果。相比让模型“搜一下网页”,它带来的优势包括:

  • 查询条件可明确控制,
  • 可以控制来源类型,比如 web 或 news,
  • 可以限制结果数量,
  • 更方便下游解析处理,
  • search 和 analysis 的边界更清晰。

安装前真正需要考虑什么

这个技能的仓库结构本身很轻,关键决策点不在于文档多不多,而在于它的工作流是否匹配你的任务。如果你需要“先发现来源,再按需抓内容”,那就值得安装 firecrawl-search skill。但不要把它当成完整站点爬虫、浏览器自动化工具,或者单独就能给出最终结论的引擎。

适合与不适合的场景

以下情况适合用 firecrawl-search

  • 你需要某个主题的来源,但还不知道具体 URL,
  • 你需要查看最近新闻或多个不同观点,
  • 你希望把搜索结果保存成文件,供后续处理。

以下情况则更建议跳过它:

  • 你已经知道要抓取的精确页面,
  • 你需要在一个站点内做深度遍历,
  • 你需要与表单或动态 Web app 做复杂交互。

如何使用 firecrawl-search 技能

firecrawl-search 的安装上下文

从仓库片段可以看出,这个技能预期通过 CLI 使用:

  • firecrawl *
  • npx firecrawl *

在支持 skills 的环境里,一个实用的 firecrawl-search install 安装方式是:

npx skills add https://github.com/firecrawl/cli --skill firecrawl-search

然后确认你的环境里可以运行 firecrawlnpx firecrawl 命令。

先看这个文件

针对这个技能,建议先读:

  • skills/firecrawl-search/SKILL.md

这里没有明显展开其它重要的配套目录,所以大多数采用判断都要从这一个文件里做。重点确认其中定义的触发语、命令模式以及搜索选项。

firecrawl-search 的核心命令

上游技能主要围绕三种模式:

firecrawl search "your query" -o .firecrawl/result.json --json
firecrawl search "your query" --scrape -o .firecrawl/scraped.json --json
firecrawl search "your query" --sources news --tbs qdr:d -o .firecrawl/news.json --json

它们分别覆盖了最主要的用法:

  • 基础搜索,
  • 搜索并提取完整页面内容,
  • 带时效过滤的新闻搜索。

firecrawl-search 需要什么样的输入

高质量的 firecrawl-search usage,通常从一个表达明确的 query 开始,至少要清楚这几个点:

  • 主题,
  • 时间范围,
  • 来源类型,
  • 检索意图。

较弱的输入示例:AI regulation

更强的输入示例:EU AI Act enforcement guidance 2025 official commentary

之所以后者更好,是因为搜索阶段本身非常“按字面执行”。如果你的请求很宽泛,输出通常也会很宽泛。

如何把模糊目标变成高质量提示

如果用户说:“找一下各家公司怎么谈开源 AI 安全”,那更好的做法是先把它转成一份调用计划:

  • 明确目标角度:厂商声明、博客文章、报告、访谈,
  • 明确时间范围:最近 30 天还是最近一年,
  • 明确来源:web 还是 news,
  • 决定是否需要立刻做完整页面提取。

一个更强的 firecrawl-search agent 提示可以写成:

Use firecrawl-search to find recent web and news sources about open-source AI security from the last 30 days. Return 10 results in JSON, then scrape the top 5 pages with substantive content for comparison.

这个提示更好,是因为它明确了搜索范围、时间窗口、输出形式,以及后续动作。

什么情况下应该立刻用 --scrape

如果 snippet 不够,而你已经知道后面一定会需要页面正文来做这些事情,就适合直接用 --scrape

  • summarization,
  • quote extraction,
  • policy comparison,
  • content clustering。

但如果你还在探索一个噪声很多的主题,第一轮最好别急着 --scrape。先只做 search,调准 query 更快;等确认结果集方向对了,再抓页面内容。

如何更合理地选择来源类型和时效过滤

目前可见的选项包括:

  • --sources <web,images,news>
  • --limit <n>
  • --tbs ...

对大多数研究任务来说:

  • 如果时效性很重要,用 --sources news
  • 如果你希望更广泛地发现来源,用 --sources web
  • 一开始把 --limit 控制在较小范围,能减少噪声,
  • 如果请求本身隐含“最近报道”的意思,就加上 --tbs

一个很常见的质量问题,是搜索明显偏新闻类的话题时却不加时效过滤,结果把过期报道和当前报道混在一起。

面向 Web Research 的推荐工作流

一个实用的 firecrawl-search guide 可以这样走:

  1. 从一个收窄过的搜索 query 开始。
  2. 把 JSON 输出保存到 .firecrawl/...
  3. 先检查标题和 URL 是否相关。
  4. 如果结果跑偏,就改写 query。
  5. 只有在结果集质量不错时,再用 --scrape 重跑。
  6. 在第二步处理里再去总结或比较抓取内容。

这种分阶段工作流,通常比“一次模糊请求里同时要求广泛搜索和完整提取”更稳。

输出处理与文件习惯

示例里把结果保存到了 .firecrawl/result.json 这种路径。这个习惯建议保留,因为它会显著提高技能可用性:

  • 你可以检查原始搜索输出,
  • agent 可以在后续步骤复用这些文件,
  • 你能把 discovery 和 synthesis 分开,
  • 一旦失败,也比只在对话里输出更容易排查。

会直接影响输出质量的实用技巧

下面这些习惯,往往能明显提升 firecrawl-search usage 质量:

  • 在 query 里写清命名实体:公司名、法律名、产品名。
  • 加入意图词,比如 officialcomparisoncase studyannouncement
  • 把探索阶段和提取阶段拆开跑。
  • 主动指定结果数量,而不是默认拿一大堆结果。
  • 新闻类 query 一定搭配时效约束来用。

在依赖它之前要先理解的边界

技能说明里已经明确把 firecrawl-search 定位为:相比内建 web search,更擅长输出结构化结果,并支持按需提取页面内容。但它依然有边界:

  • 结果质量高度依赖 query 质量,
  • 宽泛搜索很容易带来噪声,
  • 完整页面抓取并不等于深度站点 crawling,
  • 它是研究信息获取环节,不等于事实验证本身。

firecrawl-search 技能 FAQ

firecrawl-search 比普通“搜索网页”提示更好吗?

如果你要的是可复现的研究工作流,那么是的。firecrawl-search 更适合那些需要明确命令、JSON 输出、落盘文件和可选页面提取的场景。普通提示也许足够满足一次性好奇,但对需要可追溯、多步骤推进的研究任务来说,它明显更弱。

firecrawl-search 技能对新手友好吗?

友好,前提是你能接受运行 CLI 命令,并愿意看 JSON 输出。这个技能暴露出来的命令面并不大。对新手来说,真正更难的通常不是安装,而是 query 设计。

什么情况下应该用 firecrawl-search,而不是直接抓一个 URL?

当“先发现来源”是第一步时,就应该用 firecrawl-search skill。如果你已经知道准确页面,直接抓取通常是更干净的路径。

firecrawl-search 能处理近期新闻研究吗?

可以。技能里明确展示了 --sources news--tbs qdr:d 这种近期结果模式。只要你把时间范围定义清楚,它就适合做时效性较强的检查。

firecrawl-search 足够支撑完整 Web Research 流水线吗?

通常不够,它更适合作为第一步,而不是整个流水线本身。这个技能本身也暗示了一个递进式工作流:search → scrape → map → crawl → interact。如果你的瓶颈是发现来源,就安装它;如果瓶颈在站点遍历或交互,再补充其他技能。

什么情况下 firecrawl-search 不适合?

以下场景里,它通常不适合:

  • 你需要网站自动化,
  • 你需要登录后浏览,
  • 你需要穷尽式的域名 crawling,
  • 你已经有目标 URL。

如何提升 firecrawl-search 技能效果

通过收紧 query 提升 firecrawl-search 结果质量

影响最大的变量,就是 query 的具体程度。如果第一轮结果不好,不要只想着把 limit 调大。更有效的做法是重写 query,加入:

  • 明确主题,
  • 来源角度,
  • 日期信号,
  • 如果相关,再加地区或域名限制。

大多数时候,更好的 query 改写比拿更大的结果集更有效。

用双阶段研究代替一次性过载

firecrawl-search 的常见失败方式之一,就是一上来让它做太多事。更合理的模式是:

  • 第 1 阶段:只 search,先找出高价值 URL,
  • 第 2 阶段:只对选中的结果做 scrape,拿全文。

这样可以减少无关抓取,也能提升下游总结质量。

明确说明你真正需要的输出形式

如果下一步是 analysis,就应该把输出处理方式说清楚:

  • 保存原始 JSON,
  • 标出 top results,
  • 只抓最终入选页面,
  • 提取之后再做总结。

这比一句“把所有内容都研究一下”要可靠得多。

用来源和时间约束来减少噪声

如果你觉得结果很乱,优先加约束,而不是先加数量:

  • 当前事件切到 --sources news
  • 需要近期内容时加 --tbs
  • 下调或限制 --limit
  • 收窄主题表述。

这往往是提升 firecrawl-search for Web Research 效果最快的方法。

留意 firecrawl-search 的常见失败模式

firecrawl-search 最典型的问题包括:

  • query 过宽,
  • 太早开始 scraping,
  • 把常青主题和时效性主题混在一起,
  • 不读提取页面就把搜索结果当最终证据。

如果质量下降,先检查这些前提假设是否出了问题。

给 agent 更强的调用指令

更好的调用提示,通常会明确这些信息:

  • 研究问题是什么,
  • 什么样的来源算高质量,
  • 希望的来源类型,
  • 对时效性的要求,
  • 需要收集多少结果,
  • 是否要抓取结果页面。

例如:

Use firecrawl-search to find 8 recent news and web sources on open-source AI model security benchmarks from the past 14 days. Save JSON results, then scrape the top 4 substantive sources for detailed comparison.

这类指令之所以能提高结果质量,是因为它减少了模型自行猜测的空间。

拿到第一轮输出后继续迭代

不要只凭一次宽泛运行,就判断 firecrawl-search skill 好不好用。更好的方式是先看第一批结果,再继续细化:

  • 补上缺失的实体名,
  • 去掉有歧义的词,
  • 把一个 query 拆成两个更窄的搜索,
  • 只对明确相关的页面重新执行 scraping。

把它当作一个可迭代的研究工具,而不是一次性答案生成器,通常才能发挥 firecrawl-search 的最佳效果。

评分与评论

暂无评分
分享你的评价
登录后即可为这个技能评分并发表评论。
G
0/10000
最新评论
保存中...