A

skill-creator

作者 anthropics

skill-creator 是一个用于 Skill 编写的元技能,可用于起草新技能、修改现有 `SKILL.md`、运行评测、对比不同方案,并借助仓库脚本和审查工具优化触发描述。

Stars105.1k
收藏2
评论0
收录时间2026年3月28日
分类Skill 编写
安装命令
npx skills add anthropics/skills --skill skill-creator
编辑评分

该技能评分为 84/100,适合希望以真实工作流来创建、迭代和评估其他技能的用户。仓库内容具备较强的落地性——包含多步骤说明、评估 agent 以及可直接运行的脚本,因此相比通用提示词通常能提供更高杠杆;不过由于 `SKILL.md` 没有给出简洁的安装或快速开始命令,采用时仍需要自行理解部分配置方式。

95/100
亮点
  • 触发覆盖面强:说明明确涵盖了创建新技能、编辑现有技能、运行评测、对比方案差异,以及优化描述以提升触发效果。
  • 操作杠杆高:仓库提供了用于评测循环和审查的具体工具,包括 `run_eval.py`、`run_loop.py`、`aggregate_benchmark.py`、`package_skill.py` 和 `eval-viewer/generate_review.py`。
  • 渐进式信息组织做得不错:面向 analyzer、comparator 和 grader agent 的专门文档清楚说明了各自角色、输入要求以及分步骤评估流程。
注意点
  • 上手并非完全开箱即用:`SKILL.md` 没有提供安装命令或精简的快速开始路径,用户可能需要自己判断如何把这些脚本接入当前环境。
  • 对简单场景来说,这套流程可能偏重:包含多个脚本、agent 和评估步骤,对部分用户而言可能超出实际需要。
概览

skill-creator skill 概览

skill-creator 是做什么的

skill-creator 是一个面向 Skill Authoring 的元技能:它帮助你创建新 skill、修订已有 skill,并评估这些改动是否真的带来了行为改进。它不同于泛泛的“帮我写个 skill”提示词,核心是一个迭代闭环:起草、测试、审查输出、对比不同版本、再继续优化。

谁适合使用 skill-creator

skill-creator 最适合那些需要把重复出现的 agent 行为沉淀成可复用 skill 的人:

  • 从一个模糊想法开始的 skill 作者
  • 要改进表现不佳 SKILL.md 的维护者
  • 希望在大范围上线前先补上 evals 的团队
  • 想优化描述,让正确 skill 更稳定触发的人

如果你只是需要一个一次性 prompt,skill-creator 很可能比你实际需要的流程更重。

真正要解决的问题

大多数用户并不只是需要有人帮忙写 markdown,他们真正缺的是减少试错和猜测的方法:

  • skill 里到底该包含什么
  • 怎样从用户那里收集足够上下文
  • 如何用真实 prompt 做测试
  • 如何从定性和定量两个维度审查输出
  • 如何迭代,避免被某一次“看起来不错”的结果误导

这种对工作流的强调,正是 skill-creator skill 最主要的差异点。

安装前最值得关注的地方

从仓库内容来看,skill-creator 在评估和迭代上明显强于“立刻生成脚手架”。它包含:

  • 位于 agents/ 的面向评测的辅助 agents
  • 位于 scripts/ 的 benchmark 和报告脚本
  • 位于 eval-viewer/assets/ 的 HTML 审查流程
  • 位于 references/schemas.md 的 schema / 参考资料

这让 skill-creator 特别适合那些在意“如何衡量质量”,而不只是“先生成第一稿”的场景。

哪些因素可能阻碍采用

最大的权衡点是复杂度。skill-creator 预期你按阶段思考,并提供测试 prompts、预期结果和对比目标。如果你的环境跑不了配套的 Python 脚本,或者你本来就不打算评估输出,那你最终只能用到这个 skill 的一部分价值。

如何使用 skill-creator skill

在你的 skills 环境中安装 skill-creator

如果你采用 Anthropic skills CLI 的使用方式,可以直接从上游仓库安装:

npx skills add https://github.com/anthropics/skills --skill skill-creator

仓库里的 SKILL.md 没有提供单独 package 安装器的信息,所以对大多数用户来说,最合适的做法还是从 monorepo 添加,然后查看本地安装出来的文件。

先读这些文件

想快速建立整体认知,建议按这个顺序读:

  1. skills/skill-creator/SKILL.md
  2. skills/skill-creator/agents/grader.md
  3. skills/skill-creator/agents/comparator.md
  4. skills/skill-creator/agents/analyzer.md
  5. skills/skill-creator/scripts/run_eval.py
  6. skills/skill-creator/scripts/run_loop.py
  7. skills/skill-creator/eval-viewer/generate_review.py
  8. skills/skill-creator/references/schemas.md

这一路径能直接看出它真正的运行模型:先生成或修订 skill,再跑 evals、比较输出,并分析为什么某个版本更好。

从你当前所处的阶段开始用 skill-creator

skill-creator skill 不只是给全新 skill 准备的。效果最好的用法,是明确告诉模型你现在处于哪个阶段:

  • 想法梳理: “我知道问题,但还没想清楚 workflow”
  • 第一稿: “把这些笔记整理成可用的 SKILL.md
  • 修复: “这个 skill 已经存在,但在这些 prompts 上表现失败”
  • 优化: “优化触发描述和示例”
  • 评估: “设计测试 prompts 和预期结果”
  • 对比: “比较 v1 和 v2,并解释哪个更好”

如果跳过这一步,模型很可能会把力气花在错误的阶段上。

提供 skill 真正需要的输入

一个高质量的 skill-creator usage 提示,通常会包括:

  • 目标用户要完成的工作
  • 未来这个 skill 会接收到什么输入
  • 期望输出或交付物是什么
  • skill 可以读取或运行哪些工具 / 文件
  • 延迟、格式、安全性等约束
  • 你已经观察到的失败案例
  • 3 到 10 条真实测试 prompts

通常带来最大质量提升的,不是更长的说明文字,而是更好的示例和失败样本。

把模糊目标改写成高质量 prompt

弱 prompt:

Help me create a research skill.

更强的 prompt:

Use skill-creator for Skill Authoring. I need a skill that turns a vague market question into a structured research brief with sources, assumptions, and open questions. Inputs are a user question and optional company context. Outputs should be a markdown brief. The skill may browse repository files but should not invent citations. Current failure modes: overlong answers, weak source framing, and missing assumptions. Please draft the skill, propose 6 eval prompts, and suggest measurable expectations for each.

它更好的原因在于:任务、输入输出、约束条件和失败模式都写清楚了。

用上内置的评估工作流

从仓库证据看,skill-creator 的设计重点是迭代评估,而不只是起草。在实际使用中,流程通常是:

  1. 起草或修订 skill
  2. 建一个小型 eval 集
  3. 运行执行
  4. 审查 transcript 和输出
  5. 对照预期打分
  6. 在合适时做盲测式版本比较
  7. 再次修订 skill

scripts/ 目录下的脚本其实已经明确提示了官方预期 workflow:

  • run_eval.py:运行 evals
  • aggregate_benchmark.pygenerate_report.py:汇总结果
  • run_loop.py:执行重复改进循环
  • quick_validate.py:做更快的校验
  • improve_description.py:优化触发描述

用 HTML viewer 审查输出

从安装决策角度看,skill-creator install 的一个很实际的亮点,是它自带审查 UI。eval-viewer/generate_review.py 可以根据一组运行结果生成一个自包含的 HTML 审查页面,并支持保存反馈。这在需要人工审查多个输出时尤其重要,特别是那些既要看 transcript 质量、又要看最终产物质量的 skill。

如果你在判断要不要采用这个 skill,这套审查工具是最有说服力的理由之一。

用 comparator 和 grader agents 降低迭代偏差

其中两个辅助 agent 特别有价值:

  • agents/comparator.md:以 A/B 方式比较输出,而且不知道具体是哪个 skill 产出的
  • agents/grader.md:根据 transcript 和输出检查预期是否满足,同时也会指出那些定义得太弱的断言

这意味着 skill-creator 不只是问“这个输出看起来好不好”,还会进一步问“我们的 eval 设计本身有没有意义”。对于认真做 skill 维护的人来说,这一点非常实用,也很少见。

不只调正文,也要调描述

很多 skill 作者会把注意力几乎都放在指令正文上,却忽略了顶部那个用于触发的描述。scripts/improve_description.py 的存在说明,触发质量本来就是预期工作流的一部分。如果一个本来不错的 skill 没有被稳定调用,优先改进这些地方:

  • 描述里对问题的 framing
  • 应该在哪些场景触发
  • 明确哪些边界外任务不该由它处理

对于已经有一批 skill 的库来说,这是 skill-creator skill 的高杠杆用法之一。

了解 skill-creator 的实际边界

skill-creator 能帮助你把编写和评估流程结构化,但它并不能替代以下内容:

  • 对目标任务本身的领域知识
  • 足够真实的 eval 样例
  • 在输出带主观性时的人类判断
  • 对仓库内 Python 工具的运行环境支持

如果你拿不出真实 prompts,或者无法检查输出,这套流程的效果会明显打折。

skill-creator skill 常见问题

skill-creator 适合新手吗?

适合,但有一个前提:新手可以借助 skill-creator guide 式工作流避免对着空白页发呆,但整个仓库默认你对迭代测试有一定接受度。如果你刚上手,建议先从起草和一个很小的 eval 集开始,再去碰 benchmark 脚本。

为什么说 skill-creator 比普通 prompt 更好?

普通 prompt 也许能给你一份像样的第一稿。但如果你需要一个可重复执行的“创建 + 改进”闭环,并且要有评估支撑,skill-creator 会更合适。它真正的价值在于外围的方法论和辅助文件,而不是单次写作本身。

什么情况下不该用 skill-creator?

以下情况可以直接跳过:

  • 你只需要一次性 prompt
  • 你没有测试输出的计划
  • 任务太小,不值得抽象成一个 skill
  • 你的环境无法使用仓库配套脚本或审查流程

这些情况下,直接写 prompt 会更快。

skill-creator 只适合新建 skill 吗?

不是。skill-creator skill 同样适合修订已有 skill、对两个版本做 benchmark,以及优化描述来提升触发准确率。

不用全部脚本也有价值吗?

有。你依然可以把 skill-creator usage 用在起草和手工修订上。不过,真正让这个仓库比普通 prompting 多出信息增益的,还是评估脚本和 viewer。

这只适用于 Anthropic 的 skills 生态吗?

它显然是围绕那个生态里的 skill 结构和术语设计的,所以那会是最佳适配场景。不过它的方法论——起草、评估、比较、修订——也很容易迁移到其他内部 skill 或 agent 框架中。

如何改进 skill-creator skill 的使用效果

先把任务边界收窄

想更快提升 skill-creator 输出质量,最有效的办法之一,就是提前定义未来这个 skill 应该拒绝什么、忽略什么。没有边界时,草稿往往会变得过宽、过度触发。建议在 prompt 里直接加入 “use when” 和 “do not use when” 示例。

尽早提供真实 eval prompts

很多用户太晚才开始写测试用例。对于 skill-creator for Skill Authoring 来说,尽早准备 eval prompts 会强迫你尽快把真实任务讲清楚。好的 eval 应该反映真实用户输入,而不是只拿那些会让 skill 看起来更好的“精修样例”。

写出更强的预期标准

预期写得太弱,很容易制造虚假的信心。不要只写:

  • “Output is clear”

更好的写法是:

  • “Output includes a prioritized recommendation”
  • “Every cited claim links to a provided source”
  • “Result contains assumptions and open questions sections”

这和 agents/grader.md 体现出来的思路是一致的:它明确提醒你要避免那种随便都能满足的断言。

改动很细微时,用盲测比较版本

如果你在两个相近草稿之间做选择,不要只靠肉眼看 markdown。细小措辞变化可能会影响实际执行,而这些影响仅从 skill 文件本身往往看不出来。此时更适合用盲比较模式。

不只看最终输出,也要看 transcripts

一个表面上很漂亮的最终答案,可能掩盖了糟糕的工具使用、漏读文件,或者推理薄弱的问题。当你把 transcript 和输出一起审查,并追问“为什么这个版本成功”,skill-creator 的价值才会真正放大,这也正契合 analyzer agent 的设计目的。

一次只改一个维度

如果你希望得到可信的学习结论,就不要同时重写描述、指令、示例和工具说明。一次只改一个维度,重新跑同一套稳定的 eval 集,再去看差异。这样做会让 skill-creator guide 式流程输出的信息更有解释力。

把仓库文件当作操作说明来用

如果结果总觉得泛、抓不住重点,不要只回头重看 SKILL.md。更应该去读那些真正定义评估行为的辅助文件:

  • agents/comparator.md:看 A/B 审查里“更好”到底怎么定义
  • agents/grader.md:看 pass/fail 的严格标准
  • agents/analyzer.md:看事后复盘如何提炼改进方向
  • references/schemas.md:看预期结构长什么样

很多时候,这些文件比顶层描述更能说明这个 skill 该怎么用。

第一次跑通后,继续扩充 eval 集

一个常见失败模式是:几次结果不错就停下来了。但 skill-creator skill 本来就是为迭代扩展设计的:当草稿在小样本上跑通后,就应该把 prompts 扩展到边界案例、含糊请求,以及失败率高的样例。只有这样,你才能判断这个 skill 到底是真的稳,还是只是运气好。

评分与评论

暂无评分
分享你的评价
登录后即可为这个技能评分并发表评论。
G
0/10000
最新评论
保存中...