firecrawl-search
作者 firecrawlfirecrawl-search 是一项面向网页研究的技能,可用于查找信息源、执行结构化搜索,并可选通过 Firecrawl CLI 将整页内容抓取为 JSON。
该技能评分为 78/100,属于值得收录的目录候选:它为 agent 提供了清晰的触发信号、具体的 CLI 示例,以及相比通用网页研究提示词更可信的工作流优势。对于目录用户来说,如果他们需要基于 Firecrawl 的搜索能力,并希望按需扩展到整页内容提取,可以考虑安装;不过也要预期仍有一些操作层面的细节没有完全展开。
- 触发性强:描述中明确覆盖了多种常见用户意图,如“search for”、“find me”、“look up”以及研究/新闻类请求。
- 操作价值明确:技能提供了基础搜索、搜索加抓取、近期新闻等具体命令,并标明了 JSON 输出路径和关键参数。
- 工作流契合度高:它说明了 search 在更大升级路径中的位置(search → scrape → map → crawl → interact),有助于 agent 将其作为第一步选择。
- 采用判断的清晰度受限于打包和支持文件较少:SKILL.md 中没有安装命令,也缺少配套脚本、参考资料或元数据。
- 参数与选项说明看起来只覆盖了部分内容,对约束条件和选择规则的解释较薄弱,因此在边界场景或参数选择上,agent 仍可能需要自行判断。
firecrawl-search 技能概览
firecrawl-search 是做什么的
firecrawl-search 是一个面向 Web Research 的网页研究技能:先帮你找到相关页面,再可在同一步里按需提取这些页面的完整内容。它特别适合那些不满足于搜索摘要的场景,比如发现信息源、收集文章、检查最新新闻,以及为后续总结或对比收集证据。
什么人适合安装 firecrawl-search 技能
如果你在做 AI 辅助的网页研究,而且还没有明确的目标 URL,那 firecrawl-search 往往很合适。凡是你的工作起点是“找一些关于 X 的来源”“搜索最近的相关报道”或“看看大家怎么说”,这个技能通常都比泛泛地写一个提示词更直接,因为它能把这类需求转成可复用的 CLI 工作流,并输出结构化 JSON 结果。
它真正解决的核心任务
大多数安装 firecrawl-search 的用户,实际想解决的是三件事:
- 快速找到相关页面,
- 视需要抓取完整页面 markdown,而不只是 snippet,
- 把干净的结果交给 agent 做整合、过滤,或继续抓取。
也正因为如此,firecrawl-search for Web Research 特别适合放在更大工作流的第一步:search → scrape → map → crawl。
为什么大家会用 firecrawl-search,而不是直接普通提问
firecrawl-search 的核心差异在于:它返回的是真正可机读的搜索结果 JSON,并且可以通过 --scrape 直接补充完整页面提取结果。相比让模型“搜一下网页”,它带来的优势包括:
- 查询条件可明确控制,
- 可以控制来源类型,比如 web 或 news,
- 可以限制结果数量,
- 更方便下游解析处理,
- search 和 analysis 的边界更清晰。
安装前真正需要考虑什么
这个技能的仓库结构本身很轻,关键决策点不在于文档多不多,而在于它的工作流是否匹配你的任务。如果你需要“先发现来源,再按需抓内容”,那就值得安装 firecrawl-search skill。但不要把它当成完整站点爬虫、浏览器自动化工具,或者单独就能给出最终结论的引擎。
适合与不适合的场景
以下情况适合用 firecrawl-search:
- 你需要某个主题的来源,但还不知道具体 URL,
- 你需要查看最近新闻或多个不同观点,
- 你希望把搜索结果保存成文件,供后续处理。
以下情况则更建议跳过它:
- 你已经知道要抓取的精确页面,
- 你需要在一个站点内做深度遍历,
- 你需要与表单或动态 Web app 做复杂交互。
如何使用 firecrawl-search 技能
firecrawl-search 的安装上下文
从仓库片段可以看出,这个技能预期通过 CLI 使用:
firecrawl *npx firecrawl *
在支持 skills 的环境里,一个实用的 firecrawl-search install 安装方式是:
npx skills add https://github.com/firecrawl/cli --skill firecrawl-search
然后确认你的环境里可以运行 firecrawl 或 npx firecrawl 命令。
先看这个文件
针对这个技能,建议先读:
skills/firecrawl-search/SKILL.md
这里没有明显展开其它重要的配套目录,所以大多数采用判断都要从这一个文件里做。重点确认其中定义的触发语、命令模式以及搜索选项。
firecrawl-search 的核心命令
上游技能主要围绕三种模式:
firecrawl search "your query" -o .firecrawl/result.json --json
firecrawl search "your query" --scrape -o .firecrawl/scraped.json --json
firecrawl search "your query" --sources news --tbs qdr:d -o .firecrawl/news.json --json
它们分别覆盖了最主要的用法:
- 基础搜索,
- 搜索并提取完整页面内容,
- 带时效过滤的新闻搜索。
firecrawl-search 需要什么样的输入
高质量的 firecrawl-search usage,通常从一个表达明确的 query 开始,至少要清楚这几个点:
- 主题,
- 时间范围,
- 来源类型,
- 检索意图。
较弱的输入示例:AI regulation
更强的输入示例:EU AI Act enforcement guidance 2025 official commentary
之所以后者更好,是因为搜索阶段本身非常“按字面执行”。如果你的请求很宽泛,输出通常也会很宽泛。
如何把模糊目标变成高质量提示
如果用户说:“找一下各家公司怎么谈开源 AI 安全”,那更好的做法是先把它转成一份调用计划:
- 明确目标角度:厂商声明、博客文章、报告、访谈,
- 明确时间范围:最近 30 天还是最近一年,
- 明确来源:web 还是 news,
- 决定是否需要立刻做完整页面提取。
一个更强的 firecrawl-search agent 提示可以写成:
Use firecrawl-search to find recent web and news sources about open-source AI security from the last 30 days. Return 10 results in JSON, then scrape the top 5 pages with substantive content for comparison.
这个提示更好,是因为它明确了搜索范围、时间窗口、输出形式,以及后续动作。
什么情况下应该立刻用 --scrape
如果 snippet 不够,而你已经知道后面一定会需要页面正文来做这些事情,就适合直接用 --scrape:
- summarization,
- quote extraction,
- policy comparison,
- content clustering。
但如果你还在探索一个噪声很多的主题,第一轮最好别急着 --scrape。先只做 search,调准 query 更快;等确认结果集方向对了,再抓页面内容。
如何更合理地选择来源类型和时效过滤
目前可见的选项包括:
--sources <web,images,news>--limit <n>--tbs ...
对大多数研究任务来说:
- 如果时效性很重要,用
--sources news, - 如果你希望更广泛地发现来源,用
--sources web, - 一开始把
--limit控制在较小范围,能减少噪声, - 如果请求本身隐含“最近报道”的意思,就加上
--tbs。
一个很常见的质量问题,是搜索明显偏新闻类的话题时却不加时效过滤,结果把过期报道和当前报道混在一起。
面向 Web Research 的推荐工作流
一个实用的 firecrawl-search guide 可以这样走:
- 从一个收窄过的搜索 query 开始。
- 把 JSON 输出保存到
.firecrawl/...。 - 先检查标题和 URL 是否相关。
- 如果结果跑偏,就改写 query。
- 只有在结果集质量不错时,再用
--scrape重跑。 - 在第二步处理里再去总结或比较抓取内容。
这种分阶段工作流,通常比“一次模糊请求里同时要求广泛搜索和完整提取”更稳。
输出处理与文件习惯
示例里把结果保存到了 .firecrawl/result.json 这种路径。这个习惯建议保留,因为它会显著提高技能可用性:
- 你可以检查原始搜索输出,
- agent 可以在后续步骤复用这些文件,
- 你能把 discovery 和 synthesis 分开,
- 一旦失败,也比只在对话里输出更容易排查。
会直接影响输出质量的实用技巧
下面这些习惯,往往能明显提升 firecrawl-search usage 质量:
- 在 query 里写清命名实体:公司名、法律名、产品名。
- 加入意图词,比如
official、comparison、case study、announcement。 - 把探索阶段和提取阶段拆开跑。
- 主动指定结果数量,而不是默认拿一大堆结果。
- 新闻类 query 一定搭配时效约束来用。
在依赖它之前要先理解的边界
技能说明里已经明确把 firecrawl-search 定位为:相比内建 web search,更擅长输出结构化结果,并支持按需提取页面内容。但它依然有边界:
- 结果质量高度依赖 query 质量,
- 宽泛搜索很容易带来噪声,
- 完整页面抓取并不等于深度站点 crawling,
- 它是研究信息获取环节,不等于事实验证本身。
firecrawl-search 技能 FAQ
firecrawl-search 比普通“搜索网页”提示更好吗?
如果你要的是可复现的研究工作流,那么是的。firecrawl-search 更适合那些需要明确命令、JSON 输出、落盘文件和可选页面提取的场景。普通提示也许足够满足一次性好奇,但对需要可追溯、多步骤推进的研究任务来说,它明显更弱。
firecrawl-search 技能对新手友好吗?
友好,前提是你能接受运行 CLI 命令,并愿意看 JSON 输出。这个技能暴露出来的命令面并不大。对新手来说,真正更难的通常不是安装,而是 query 设计。
什么情况下应该用 firecrawl-search,而不是直接抓一个 URL?
当“先发现来源”是第一步时,就应该用 firecrawl-search skill。如果你已经知道准确页面,直接抓取通常是更干净的路径。
firecrawl-search 能处理近期新闻研究吗?
可以。技能里明确展示了 --sources news 和 --tbs qdr:d 这种近期结果模式。只要你把时间范围定义清楚,它就适合做时效性较强的检查。
firecrawl-search 足够支撑完整 Web Research 流水线吗?
通常不够,它更适合作为第一步,而不是整个流水线本身。这个技能本身也暗示了一个递进式工作流:search → scrape → map → crawl → interact。如果你的瓶颈是发现来源,就安装它;如果瓶颈在站点遍历或交互,再补充其他技能。
什么情况下 firecrawl-search 不适合?
以下场景里,它通常不适合:
- 你需要网站自动化,
- 你需要登录后浏览,
- 你需要穷尽式的域名 crawling,
- 你已经有目标 URL。
如何提升 firecrawl-search 技能效果
通过收紧 query 提升 firecrawl-search 结果质量
影响最大的变量,就是 query 的具体程度。如果第一轮结果不好,不要只想着把 limit 调大。更有效的做法是重写 query,加入:
- 明确主题,
- 来源角度,
- 日期信号,
- 如果相关,再加地区或域名限制。
大多数时候,更好的 query 改写比拿更大的结果集更有效。
用双阶段研究代替一次性过载
firecrawl-search 的常见失败方式之一,就是一上来让它做太多事。更合理的模式是:
- 第 1 阶段:只 search,先找出高价值 URL,
- 第 2 阶段:只对选中的结果做 scrape,拿全文。
这样可以减少无关抓取,也能提升下游总结质量。
明确说明你真正需要的输出形式
如果下一步是 analysis,就应该把输出处理方式说清楚:
- 保存原始 JSON,
- 标出 top results,
- 只抓最终入选页面,
- 提取之后再做总结。
这比一句“把所有内容都研究一下”要可靠得多。
用来源和时间约束来减少噪声
如果你觉得结果很乱,优先加约束,而不是先加数量:
- 当前事件切到
--sources news, - 需要近期内容时加
--tbs, - 下调或限制
--limit, - 收窄主题表述。
这往往是提升 firecrawl-search for Web Research 效果最快的方法。
留意 firecrawl-search 的常见失败模式
firecrawl-search 最典型的问题包括:
- query 过宽,
- 太早开始 scraping,
- 把常青主题和时效性主题混在一起,
- 不读提取页面就把搜索结果当最终证据。
如果质量下降,先检查这些前提假设是否出了问题。
给 agent 更强的调用指令
更好的调用提示,通常会明确这些信息:
- 研究问题是什么,
- 什么样的来源算高质量,
- 希望的来源类型,
- 对时效性的要求,
- 需要收集多少结果,
- 是否要抓取结果页面。
例如:
Use firecrawl-search to find 8 recent news and web sources on open-source AI model security benchmarks from the past 14 days. Save JSON results, then scrape the top 4 substantive sources for detailed comparison.
这类指令之所以能提高结果质量,是因为它减少了模型自行猜测的空间。
拿到第一轮输出后继续迭代
不要只凭一次宽泛运行,就判断 firecrawl-search skill 好不好用。更好的方式是先看第一批结果,再继续细化:
- 补上缺失的实体名,
- 去掉有歧义的词,
- 把一个 query 拆成两个更窄的搜索,
- 只对明确相关的页面重新执行 scraping。
把它当作一个可迭代的研究工具,而不是一次性答案生成器,通常才能发挥 firecrawl-search 的最佳效果。
