defuddle

defuddle 可通过 Defuddle CLI 从网页中提取干净的 markdown，去除页面杂项，适合研究、文档整理和文章采集。适用于常规 HTML 页面，可通过 npm 安装；对于以 .md 结尾的 URL 则不建议使用。

Stars19.7k

收录时间2026年4月5日

分类Web 研究

安装命令

npx skills add kepano/obsidian-skills --skill defuddle

编辑评分

该技能评分为 76/100，说明它是一个表现扎实的目录候选项：它为 agent 提供了清晰的触发条件、简单直接的命令模式，以及在处理普通网页时相较通用网页抓取更值得使用的明确理由。目录用户可以据此做出较有依据的安装判断，但也应预期它更像是对外部 CLI 的轻量封装，而不是一套深度引导式工作流。

76/100

亮点

触发条件明确：文档清楚说明，当用户提供的是标准网页 URL 且需要阅读或分析时应使用 Defuddle；对于以 .md 结尾的 URL 则不适用。
操作层面清晰：技能内容提供了安装说明，以及用于提取 markdown、输出文件和获取元数据的具体命令。
对 agent 有实际价值：它解释了去除导航、广告和页面杂项的实际收益，相比直接抓取原始网页，可有效减少 token 消耗。

注意点

边界场景说明有限：除了排除 .md URL 之外，没有进一步说明如何处理失败情况、不受支持的页面、认证墙或动态站点。
配套材料较少：没有脚本、参考资料或输出示例来说明预期结果，因此是否采用主要取决于这份简短的 SKILL.md。

Cli npm Markdown 网站 Documentation 博客 Automation

概览

defuddle skill 概览

defuddle skill 的作用是什么

defuddle 可以把普通网页转换成干净、可读的 markdown，相比直接抓取原始页面，杂讯要少得多。它尤其适合文章、文档、指南、博客帖子等 HTML 页面：这类页面里菜单、广告、侧边栏和导航往往只会浪费 token，还会干扰后续分析。

最适合用于 Web Research 的场景

当你的真实目标是阅读、总结、对比、引用或分析页面内容，而不是检查站点外壳或原始 HTML 时，就很适合用 defuddle for Web Research。它的核心价值，是为后续推理提供更干净的输入。如果用户给的是一个普通页面 URL，想要拿到正文内容，那么 defuddle usage 通常会比通用网页抓取更适合作为起点。

主要限制，以及不适合使用的情况

最重要的边界其实很简单：不要对以 .md 结尾的 URL 使用 defuddle。这类页面本身已经是 markdown，直接 fetch 更干净，也能避免不必要的二次转换。除此之外，如果你需要精确的页面结构、交互元素、脚本行为，或者完整的 DOM 保真度，defuddle 也并不合适。

为什么用户会选择 defuddle

真正的差异点不在于“能不能抓网页”，而在于“能不能快速给出适合 token 成本、可直接阅读的正文文本”。这也是 defuddle skill 对研究流程、笔记采集、文章摘要、文档阅读特别有吸引力的原因：更干净的 markdown，往往能直接提升后续输出质量。

如何使用 defuddle skill

defuddle 安装与基础命令

关于 defuddle install，仓库给出的安装方式是直接安装 Defuddle CLI：

npm install -g defuddle

核心命令：

defuddle parse <url> --md

请尽量稳定使用 --md。对于大多数研究和分析工作流，这都是推荐输出格式，因为它能去掉视觉噪音，同时保留可读的内容结构。

defuddle skill 需要哪些输入

defuddle skill 需要一个页面 URL，最好再加上明确意图。理想输入通常包括：

精确的 URL
你希望从页面里拿到什么
你要完整 markdown、保存输出，还是只要 metadata

示例：

“读一下这篇文章并总结核心论点：<url>”
“从这个 docs 页面提取干净的 markdown，并保存到 content.md：<url>”
“只获取 <url> 的页面标题和描述”

常用命令：

defuddle parse <url> --md -o content.md
defuddle parse <url> -p title
defuddle parse <url> -p description
defuddle parse <url> -p domain

如何把模糊目标变成高质量的 defuddle 提示

弱请求：“看一下这个 URL。”

更好的 defuddle guide 提示方式：

“对 <url> 使用 defuddle，并输出 markdown。忽略站点导航。然后把关键点总结成 5 个 bullet，并引用最重要的一段。”
“对这个文档页使用 defuddle：<url>。提取 markdown，识别安装步骤、前置条件和注意事项，然后把它们改写成 checklist。”
“先只提取 <url> 的 metadata。如果标题和描述与主题匹配，再继续提取完整 markdown。”

这样效果更好，因为它同时告诉 agent：一是要如何调用 defuddle，二是清洗完内容之后要怎么处理。

defuddle skill 常见问题

defuddle 比“普通提示词 + fetch”更好吗？

大多数文章型页面里，答案通常是肯定的。普通 fetch 往往会把页眉、页脚、cookie 提示和导航一起带回来。defuddle usage 会在分析开始前先改善信噪比，从而降低 token 成本，也能减少无关页面元素导致的摘要偏差。

什么时候不该使用 defuddle skill？

遇到 .md URL、原始文件，或者你需要精确 HTML、嵌入媒体行为、页面脚本、布局细节时，就应当跳过 defuddle。它是内容提取工具，不是浏览器自动化工具，也不是 DOM 检查工具。

defuddle skill 对新手友好吗？

友好。它的命令面非常小：安装一次，然后直接用 defuddle parse <url> --md。这让 defuddle skill 很容易上手，即使你的目标只是为研究或笔记整理拿到更干净的源文本，也足够用了。

defuddle 能返回哪些输出？

你可以用 --md 获取 markdown，用 --json 获取 JSON，默认返回 HTML，也可以通过 -p <name> 获取指定 metadata。对于大多数阅读和研究任务，markdown 是最适合的默认选项；而 metadata 模式更适合快速校验和路由判断。

如何改进 defuddle skill 的使用效果

给 defuddle 一个更精确的页面目标

提升 defuddle 效果最简单的方法，就是直接提供规范的内容页，而不是首页、搜索页或列表页。文章详情页、单篇文档页，通常会比充满导航和重复链接的聚合页产出更干净的 markdown。

在同一条请求里说明后续任务

当提取和明确的下一步一起出现时，defuddle skill 的效果会更好。与其只说“parse 这个”，不如直接说明你还需要：

summary
key claims
setup steps
FAQs
quotes
comparison points

这样可以减少交接歧义，也能帮助 agent 围绕你真正要完成的任务来组织输出。

不确定时，先用 metadata 模式再做完整提取

如果 URL 可能会跳转、页面质量不高，或者根本不是你要的页面，先从下面这些命令开始：

defuddle parse <url> -p title
defuddle parse <url> -p description
defuddle parse <url> -p domain

这是一个简单但很有效的 defuddle guide 技巧：先验证相关性，再投入成本做完整 markdown 提取。

常见失败模式，以及如何迭代

如果输出看起来过薄，或者结构很奇怪，问题很多时候出在源页面，而不是 CLI 本身。可以尝试换成更具体的 URL，把分类页换成文章页，或者先把 markdown 保存下来手动检查。如果第一次结果范围太大，就用更窄的指令重新运行 defuddle for Web Research，例如“只提取安装步骤”或“只引用与 authentication 相关的段落”。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

use-my-browser

作者 xixu-me

use-my-browser 是一项浏览器自动化策略技能，用于帮助你在不同网页层之间做出合适选择：公共 Web 工具、实时 Chrome、raw fetch，或 Playwright，以应对登录态页面、动态站点以及依赖 DevTools 的任务。

浏览器自动化

收藏 0GitHub 6

web-access

作者 eze-is

web-access 是一项面向实时网页操作的技能，集成搜索、页面抓取、原始 HTML 检查，以及基于 Chrome CDP 的浏览器自动化，适合处理动态站点、需登录访问的网站和交互式页面。

浏览器自动化

收藏 0GitHub 2.6k

perplexity

作者 softaworks

perplexity 是 softaworks/agent-toolkit 中一个专注于 Perplexity 驱动网页调研的 skill。它帮助你判断何时使用 Search、Ask 或 `/research`，建议从较低的结果上限开始，并避免把网页搜索用于文档查询、工作区问题或已知 URL。

Web 研究

收藏 0GitHub 1.3k

producthunt

作者 ReScienceLab

producthunt 是一个面向 Product Hunt 的技能，可通过官方 GraphQL API 获取 posts、topics、users、collections 和 comments。你可以从 ReScienceLab/opc-skills 安装，配置 `PRODUCTHUNT_ACCESS_TOKEN`，并运行 `get_posts.py`、`get_post.py` 等脚本，用于上线调研和 Product Launches 监测。

产品发布

收藏 0GitHub 654

firecrawl

作者 firecrawl

firecrawl skill 用于安装、认证并使用官方 Firecrawl CLI，支持网页抓取、搜索、爬取和页面交互。了解如何完成设置、运行 `firecrawl --status`、登录、将输出安全写入 `.firecrawl/`，以及参考仓库整理出的实用使用方式。

网页抓取

收藏 0GitHub 234

firecrawl-search

作者 firecrawl

firecrawl-search 是一项面向网页研究的技能，可用于查找信息源、执行结构化搜索，并可选通过 Firecrawl CLI 将整页内容抓取为 JSON。

Web 研究

收藏 0GitHub 234

tavily-search

作者 tavily-ai

tavily-search 是一项面向 AI agent 的网页调研技能，通过 Tavily CLI 返回结构化搜索结果，包括摘要片段、相关性信号和元数据。它支持域名过滤、时间范围和更深入的搜索深度，适合用于获取最新来源以及执行有引导的 Web research 工作流。

Web 研究

收藏 0GitHub 184

requesthunt

作者 ReScienceLab

requesthunt 可帮助你从 Reddit、X 和 GitHub 收集并分析真实用户反馈，用于需求调研和竞品分析。你只需设置 `REQUESTHUNT_API_KEY`，运行 Python 脚本，即可抓取话题、搜索用户需求，并将痛点、吐槽和功能请求整理成有证据支撑的分析报告。

竞品分析

收藏 0GitHub 0

firecrawl-agent

作者 firecrawl

firecrawl-agent 可帮助你从复杂的多页面网站中提取结构化 JSON。了解它适合哪些场景、如何运行 Firecrawl CLI agent、添加 schema、设置起始 URL，以及如何保存输出，用于价格、商品和目录类数据提取。

网页抓取

收藏 0GitHub 234

firecrawl-map

作者 firecrawl

firecrawl-map 可帮助智能体发现并列出网站中的 URL，支持搜索过滤、结果数量限制、JSON 输出、sitemap 模式和子域名控制，适合在进一步 scraping 或 crawling 之前先做站点摸底。

网页抓取

收藏 0GitHub 234

domain-hunter

作者 ReScienceLab

domain-hunter 可帮助智能体查找可注册域名、验证是否可用、比较注册商价格、评估不同 TLD 的取舍，并在减少盲目判断的情况下决定去哪里购买。

Web 研究

收藏 0GitHub 0

fact-checker

作者 Shubhamsaboo

fact-checker 是一项以提示词驱动的技能，用于结构化事实核查、来源评估，并输出带有置信度和背景说明的清晰结论。你可以从 Shubhamsaboo/awesome-llm-apps 安装它，用可复用的工作流核查陈述、传言、统计数据和可能误导的说法。

事实核查

收藏 0GitHub 104.2k

deep-research

作者 Shubhamsaboo

deep-research 是一个轻量级的代理技能，用于开展结构化 Web 研究。它通过单一的 SKILL.md 工作流，帮助你明确研究范围、汇集多方来源、评估信息可信度，并综合输出带引用的研究结论。

Web 研究

收藏 0GitHub 104.2k

research

作者 MarsWang42

面向复杂主题的结构化深度研究工作流。了解 research 技能的工作方式、所需条件，以及如何高效使用其先规划后执行的流程。

学术研究

收藏 0GitHub 690

firecrawl-scrape

作者 firecrawl

firecrawl-scrape 可从已知 URL 提取干净、适合 LLM 处理的内容，包括经 JavaScript 渲染的页面。可通过 Firecrawl CLI 或 `npx firecrawl` 抓取 markdown、链接，或提取针对单个页面的答案。

网页抓取

收藏 0GitHub 234

multi-search-engine

作者 openclaw

multi-search-engine 是一款面向 Web Research 的搜索技能，集成 17 个搜索引擎、高级搜索运算符、时间筛选、注重隐私的搜索选项，以及 WolframAlpha 查询能力。它可帮助智能体在无需 API keys 的情况下，更高效地构建并执行搜索 URL。

Web 研究

收藏 0GitHub 3.8k

defuddle

defuddle skill 概览

defuddle skill 的作用是什么

最适合用于 Web Research 的场景

主要限制，以及不适合使用的情况

为什么用户会选择 defuddle

如何使用 defuddle skill

defuddle 安装与基础命令

defuddle skill 需要哪些输入

如何把模糊目标变成高质量的 defuddle 提示

推荐工作流，以及优先读哪些仓库文件

defuddle skill 常见问题

defuddle 比“普通提示词 + fetch”更好吗？

什么时候不该使用 defuddle skill？

defuddle skill 对新手友好吗？

defuddle 能返回哪些输出？

如何改进 defuddle skill 的使用效果

给 defuddle 一个更精确的页面目标

在同一条请求里说明后续任务

不确定时，先用 metadata 模式再做完整提取

常见失败模式，以及如何迭代

评分与评论