read
作者 tw93read 技能会把 URL 和 PDF 抓取为干净的 Markdown,方便阅读、引用、注释和后续处理。它专为读取付费墙页面、JS 密集型网站、X/Twitter、GitHub 文件、中国平台,以及需要在分析前稳定获取源文本的 Workflow Automation 流程而设计。需要的是源内容采集而不是评论时,就用 read 指南。
该技能得分 84/100,属于目录用户的稳妥候选项。它提供了一套可信、适合 agent 的流程,可将 URL 和 PDF 抓取为干净的 Markdown,并带有足够的路由与兜底细节,让 agent 相比通用提示更少靠猜测即可触发。
- 触发性强:明确的 when_to_use/dispatch_intent 覆盖 URL、PDF,以及英文和中文中常见的用户意图。
- 工作流清晰:路由规则区分 Feishu、Weixin、GitHub、X/Twitter、PDF,以及回退代理链路。
- 执行价值高:包含的脚本和方法引用展示了具体的抓取路径、隐私级别和保存路径行为。
- SKILL.md 中没有安装命令,因此部署和采用要依赖用户从脚本和引用中自行梳理运行时依赖。
- 部分分支依赖外部代理或平台特定 API,因此在 JS 密集、付费墙或需要凭证的来源上,成功率可能会有波动。
read 概览
read 是做什么的
read skill 会抓取一个 URL 或 PDF,并返回干净的 Markdown,方便你查看、引用、转述或复用网页内容,而不必手动从浏览器里复制。它就是为 read 流程设计的:拿到链接,转成可读文本,除非你后面明确要求,否则默认不做分析。
这个 skill 最适合什么场景
当你的真实任务是“把这页读出来”或“提取这个文档”时,最适合用 read skill,尤其适用于付费墙页面、JS 重度站点、PDF、X/Twitter 链接,以及微信、飞书等常见中文平台。若你在 Workflow Automation 里需要先稳定摄取内容,再进行摘要、翻译、对比或保存,它也是很合适的选择。
它和其他方式有什么不同
read 的核心区别在于路由:它会根据来源选择抓取方式,而不是把所有场景都塞进一个通用提示词里。这一点很重要,因为 GitHub、PDF URL、微信公众号文章和本地文件往往需要不同处理。它还强调隐私分级和默认不分析,因此更适合后续自动化流程,也更可预测。
如何使用 read skill
安装 read skill
使用 npx skills add tw93/Waza --skill read 安装。安装后,先阅读 SKILL.md,再查看 references/read-methods.md 和 references/save-paths.md,了解实际的抓取与保存规则。如果你需要平台级的具体行为,请检查 scripts/fetch.sh、scripts/fetch_weixin.py、scripts/fetch_feishu.py 和 scripts/fetch_local.py。
给 skill 正确的输入
read skill 最适合单一、明确的目标:一个 URL、一个 PDF 链接,或者一个本地 PDF 路径。如果你想要高质量输出,必须同时说明来源和你要的结果,而不是只说“读一下这个”。更好的提示词例如:“读这篇微信公众号文章,只返回 Markdown”或“抓取这个 PDF,并保留标题层级,方便引用”。
把路由逻辑用对
如果目标是 GitHub 内容,当你想要干净的源代码提取时,优先使用 raw 文件 URL 或 gh。对于 mp.weixin.qq.com,通常会先走代理级联,再以微信公众号脚本作为兜底。对于 x.com 或 twitter.com,应使用代理路径;对于本地 PDF,走提取路径更合适。这套路由逻辑,正是 read usage 相比通用浏览器提示词的核心优势。
先读,再决定要不要保存
默认情况下,read 会把内容直接展示出来,而不是保存成文件。只有在你明确需要 Markdown 成品时,才要求保存,并使用基于标题的路径,例如 ~/Downloads/{title}.md。如果你要把 read 串进研究流程或自动化流程里,最好先确认下一步需要的是仅展示结果,还是已经保存好的文件。
read skill 常见问题
read 只是一个通用抓取提示词吗?
不是。通用提示词也许能让它返回页面文本,但 read 包含基于来源的路由、考虑隐私的抓取层级,以及平台专用脚本。这能降低标准浏览器提取在某些页面上容易失败的问题。
什么时候不该用 read?
如果文本已经在仓库里,本来就不需要联网抓取,那就不要用 read。如果你想要的是评论、解读,或者在源文本尚未抓到之前就先做摘要,它也不是合适的选择。
read 对新手友好吗?
如果你手上有 URL,且目标明确,那它是友好的。新手最常见的错误,是只说“看看这个链接”,却没有说明想要 Markdown 输出、保存文件,还是后续分析。read 的用法并不复杂,但输入必须具体。
read 适合 Workflow Automation 吗?
适合,尤其是在下一步依赖干净源文本的时候。它很适合用于自动化流水线:先收集文章、PDF 或平台帖子,再做打标、摘要、翻译或归档。如果你的工作流需要确定性地抓取源内容,read 是很实用的前端 skill。
如何改进 read skill
提供更好的来源上下文
最有价值的输入改进是把来源说清楚:给出准确 URL,注明它是 PDF 还是网页,并说明是否可能遇到登录墙、中文平台或 GitHub 文件等复杂情况。你对来源描述得越清楚,skill 选错路径的概率就越低。
先把输出约束说清楚
如果你只要 Markdown,请直接说明。如果你想保存内容,也要在抓取前说清楚。如果你需要便于引用的格式,就要求尽量保留标题和链接。这些约束比额外解释更重要,因为 read 的设计目标是输出源文本,而不是解释文本。
注意常见失败模式
最常见的失败模式包括:走错路由、指望本地抓取去处理 JS 重度页面,或者在源内容尚未抓到时就要求 read 做摘要。另一个常见问题是,页面被拦截或为空时,没有切换到代理路径。遇到这些情况时,通常该改的是来源选择,而不是把提示词写得更长。
先抓取,再做后续迭代
一个好的 read 流程是先抓取,再用第二个提示词做分析、抽取或对比。如果第一次输出太乱,就优化来源或明确平台;如果结构缺失,就要求换一种抓取方法或指定保存路径。对于 read usage 来说,小幅调整提示词,往往比反复改写同一句请求更有效。
