skill-creator
作者 anthropicsskill-creator 是一个用于 Skill 编写的元技能,可用于起草新技能、修改现有 `SKILL.md`、运行评测、对比不同方案,并借助仓库脚本和审查工具优化触发描述。
该技能评分为 84/100,适合希望以真实工作流来创建、迭代和评估其他技能的用户。仓库内容具备较强的落地性——包含多步骤说明、评估 agent 以及可直接运行的脚本,因此相比通用提示词通常能提供更高杠杆;不过由于 `SKILL.md` 没有给出简洁的安装或快速开始命令,采用时仍需要自行理解部分配置方式。
- 触发覆盖面强:说明明确涵盖了创建新技能、编辑现有技能、运行评测、对比方案差异,以及优化描述以提升触发效果。
- 操作杠杆高:仓库提供了用于评测循环和审查的具体工具,包括 `run_eval.py`、`run_loop.py`、`aggregate_benchmark.py`、`package_skill.py` 和 `eval-viewer/generate_review.py`。
- 渐进式信息组织做得不错:面向 analyzer、comparator 和 grader agent 的专门文档清楚说明了各自角色、输入要求以及分步骤评估流程。
- 上手并非完全开箱即用:`SKILL.md` 没有提供安装命令或精简的快速开始路径,用户可能需要自己判断如何把这些脚本接入当前环境。
- 对简单场景来说,这套流程可能偏重:包含多个脚本、agent 和评估步骤,对部分用户而言可能超出实际需要。
skill-creator skill 概览
skill-creator 是做什么的
skill-creator 是一个面向 Skill Authoring 的元技能:它帮助你创建新 skill、修订已有 skill,并评估这些改动是否真的带来了行为改进。它不同于泛泛的“帮我写个 skill”提示词,核心是一个迭代闭环:起草、测试、审查输出、对比不同版本、再继续优化。
谁适合使用 skill-creator
skill-creator 最适合那些需要把重复出现的 agent 行为沉淀成可复用 skill 的人:
- 从一个模糊想法开始的 skill 作者
- 要改进表现不佳
SKILL.md的维护者 - 希望在大范围上线前先补上 evals 的团队
- 想优化描述,让正确 skill 更稳定触发的人
如果你只是需要一个一次性 prompt,skill-creator 很可能比你实际需要的流程更重。
真正要解决的问题
大多数用户并不只是需要有人帮忙写 markdown,他们真正缺的是减少试错和猜测的方法:
- skill 里到底该包含什么
- 怎样从用户那里收集足够上下文
- 如何用真实 prompt 做测试
- 如何从定性和定量两个维度审查输出
- 如何迭代,避免被某一次“看起来不错”的结果误导
这种对工作流的强调,正是 skill-creator skill 最主要的差异点。
安装前最值得关注的地方
从仓库内容来看,skill-creator 在评估和迭代上明显强于“立刻生成脚手架”。它包含:
- 位于
agents/的面向评测的辅助 agents - 位于
scripts/的 benchmark 和报告脚本 - 位于
eval-viewer/与assets/的 HTML 审查流程 - 位于
references/schemas.md的 schema / 参考资料
这让 skill-creator 特别适合那些在意“如何衡量质量”,而不只是“先生成第一稿”的场景。
哪些因素可能阻碍采用
最大的权衡点是复杂度。skill-creator 预期你按阶段思考,并提供测试 prompts、预期结果和对比目标。如果你的环境跑不了配套的 Python 脚本,或者你本来就不打算评估输出,那你最终只能用到这个 skill 的一部分价值。
如何使用 skill-creator skill
在你的 skills 环境中安装 skill-creator
如果你采用 Anthropic skills CLI 的使用方式,可以直接从上游仓库安装:
npx skills add https://github.com/anthropics/skills --skill skill-creator
仓库里的 SKILL.md 没有提供单独 package 安装器的信息,所以对大多数用户来说,最合适的做法还是从 monorepo 添加,然后查看本地安装出来的文件。
先读这些文件
想快速建立整体认知,建议按这个顺序读:
skills/skill-creator/SKILL.mdskills/skill-creator/agents/grader.mdskills/skill-creator/agents/comparator.mdskills/skill-creator/agents/analyzer.mdskills/skill-creator/scripts/run_eval.pyskills/skill-creator/scripts/run_loop.pyskills/skill-creator/eval-viewer/generate_review.pyskills/skill-creator/references/schemas.md
这一路径能直接看出它真正的运行模型:先生成或修订 skill,再跑 evals、比较输出,并分析为什么某个版本更好。
从你当前所处的阶段开始用 skill-creator
skill-creator skill 不只是给全新 skill 准备的。效果最好的用法,是明确告诉模型你现在处于哪个阶段:
- 想法梳理: “我知道问题,但还没想清楚 workflow”
- 第一稿: “把这些笔记整理成可用的
SKILL.md” - 修复: “这个 skill 已经存在,但在这些 prompts 上表现失败”
- 优化: “优化触发描述和示例”
- 评估: “设计测试 prompts 和预期结果”
- 对比: “比较 v1 和 v2,并解释哪个更好”
如果跳过这一步,模型很可能会把力气花在错误的阶段上。
提供 skill 真正需要的输入
一个高质量的 skill-creator usage 提示,通常会包括:
- 目标用户要完成的工作
- 未来这个 skill 会接收到什么输入
- 期望输出或交付物是什么
- skill 可以读取或运行哪些工具 / 文件
- 延迟、格式、安全性等约束
- 你已经观察到的失败案例
- 3 到 10 条真实测试 prompts
通常带来最大质量提升的,不是更长的说明文字,而是更好的示例和失败样本。
把模糊目标改写成高质量 prompt
弱 prompt:
Help me create a research skill.
更强的 prompt:
Use skill-creator for Skill Authoring. I need a skill that turns a vague market question into a structured research brief with sources, assumptions, and open questions. Inputs are a user question and optional company context. Outputs should be a markdown brief. The skill may browse repository files but should not invent citations. Current failure modes: overlong answers, weak source framing, and missing assumptions. Please draft the skill, propose 6 eval prompts, and suggest measurable expectations for each.
它更好的原因在于:任务、输入输出、约束条件和失败模式都写清楚了。
用上内置的评估工作流
从仓库证据看,skill-creator 的设计重点是迭代评估,而不只是起草。在实际使用中,流程通常是:
- 起草或修订 skill
- 建一个小型 eval 集
- 运行执行
- 审查 transcript 和输出
- 对照预期打分
- 在合适时做盲测式版本比较
- 再次修订 skill
scripts/ 目录下的脚本其实已经明确提示了官方预期 workflow:
run_eval.py:运行 evalsaggregate_benchmark.py和generate_report.py:汇总结果run_loop.py:执行重复改进循环quick_validate.py:做更快的校验improve_description.py:优化触发描述
用 HTML viewer 审查输出
从安装决策角度看,skill-creator install 的一个很实际的亮点,是它自带审查 UI。eval-viewer/generate_review.py 可以根据一组运行结果生成一个自包含的 HTML 审查页面,并支持保存反馈。这在需要人工审查多个输出时尤其重要,特别是那些既要看 transcript 质量、又要看最终产物质量的 skill。
如果你在判断要不要采用这个 skill,这套审查工具是最有说服力的理由之一。
用 comparator 和 grader agents 降低迭代偏差
其中两个辅助 agent 特别有价值:
agents/comparator.md:以 A/B 方式比较输出,而且不知道具体是哪个 skill 产出的agents/grader.md:根据 transcript 和输出检查预期是否满足,同时也会指出那些定义得太弱的断言
这意味着 skill-creator 不只是问“这个输出看起来好不好”,还会进一步问“我们的 eval 设计本身有没有意义”。对于认真做 skill 维护的人来说,这一点非常实用,也很少见。
不只调正文,也要调描述
很多 skill 作者会把注意力几乎都放在指令正文上,却忽略了顶部那个用于触发的描述。scripts/improve_description.py 的存在说明,触发质量本来就是预期工作流的一部分。如果一个本来不错的 skill 没有被稳定调用,优先改进这些地方:
- 描述里对问题的 framing
- 应该在哪些场景触发
- 明确哪些边界外任务不该由它处理
对于已经有一批 skill 的库来说,这是 skill-creator skill 的高杠杆用法之一。
了解 skill-creator 的实际边界
skill-creator 能帮助你把编写和评估流程结构化,但它并不能替代以下内容:
- 对目标任务本身的领域知识
- 足够真实的 eval 样例
- 在输出带主观性时的人类判断
- 对仓库内 Python 工具的运行环境支持
如果你拿不出真实 prompts,或者无法检查输出,这套流程的效果会明显打折。
skill-creator skill 常见问题
skill-creator 适合新手吗?
适合,但有一个前提:新手可以借助 skill-creator guide 式工作流避免对着空白页发呆,但整个仓库默认你对迭代测试有一定接受度。如果你刚上手,建议先从起草和一个很小的 eval 集开始,再去碰 benchmark 脚本。
为什么说 skill-creator 比普通 prompt 更好?
普通 prompt 也许能给你一份像样的第一稿。但如果你需要一个可重复执行的“创建 + 改进”闭环,并且要有评估支撑,skill-creator 会更合适。它真正的价值在于外围的方法论和辅助文件,而不是单次写作本身。
什么情况下不该用 skill-creator?
以下情况可以直接跳过:
- 你只需要一次性 prompt
- 你没有测试输出的计划
- 任务太小,不值得抽象成一个 skill
- 你的环境无法使用仓库配套脚本或审查流程
这些情况下,直接写 prompt 会更快。
skill-creator 只适合新建 skill 吗?
不是。skill-creator skill 同样适合修订已有 skill、对两个版本做 benchmark,以及优化描述来提升触发准确率。
不用全部脚本也有价值吗?
有。你依然可以把 skill-creator usage 用在起草和手工修订上。不过,真正让这个仓库比普通 prompting 多出信息增益的,还是评估脚本和 viewer。
这只适用于 Anthropic 的 skills 生态吗?
它显然是围绕那个生态里的 skill 结构和术语设计的,所以那会是最佳适配场景。不过它的方法论——起草、评估、比较、修订——也很容易迁移到其他内部 skill 或 agent 框架中。
如何改进 skill-creator skill 的使用效果
先把任务边界收窄
想更快提升 skill-creator 输出质量,最有效的办法之一,就是提前定义未来这个 skill 应该拒绝什么、忽略什么。没有边界时,草稿往往会变得过宽、过度触发。建议在 prompt 里直接加入 “use when” 和 “do not use when” 示例。
尽早提供真实 eval prompts
很多用户太晚才开始写测试用例。对于 skill-creator for Skill Authoring 来说,尽早准备 eval prompts 会强迫你尽快把真实任务讲清楚。好的 eval 应该反映真实用户输入,而不是只拿那些会让 skill 看起来更好的“精修样例”。
写出更强的预期标准
预期写得太弱,很容易制造虚假的信心。不要只写:
- “Output is clear”
更好的写法是:
- “Output includes a prioritized recommendation”
- “Every cited claim links to a provided source”
- “Result contains assumptions and open questions sections”
这和 agents/grader.md 体现出来的思路是一致的:它明确提醒你要避免那种随便都能满足的断言。
改动很细微时,用盲测比较版本
如果你在两个相近草稿之间做选择,不要只靠肉眼看 markdown。细小措辞变化可能会影响实际执行,而这些影响仅从 skill 文件本身往往看不出来。此时更适合用盲比较模式。
不只看最终输出,也要看 transcripts
一个表面上很漂亮的最终答案,可能掩盖了糟糕的工具使用、漏读文件,或者推理薄弱的问题。当你把 transcript 和输出一起审查,并追问“为什么这个版本成功”,skill-creator 的价值才会真正放大,这也正契合 analyzer agent 的设计目的。
一次只改一个维度
如果你希望得到可信的学习结论,就不要同时重写描述、指令、示例和工具说明。一次只改一个维度,重新跑同一套稳定的 eval 集,再去看差异。这样做会让 skill-creator guide 式流程输出的信息更有解释力。
把仓库文件当作操作说明来用
如果结果总觉得泛、抓不住重点,不要只回头重看 SKILL.md。更应该去读那些真正定义评估行为的辅助文件:
agents/comparator.md:看 A/B 审查里“更好”到底怎么定义agents/grader.md:看 pass/fail 的严格标准agents/analyzer.md:看事后复盘如何提炼改进方向references/schemas.md:看预期结构长什么样
很多时候,这些文件比顶层描述更能说明这个 skill 该怎么用。
第一次跑通后,继续扩充 eval 集
一个常见失败模式是:几次结果不错就停下来了。但 skill-creator skill 本来就是为迭代扩展设计的:当草稿在小样本上跑通后,就应该把 prompts 扩展到边界案例、含糊请求,以及失败率高的样例。只有这样,你才能判断这个 skill 到底是真的稳,还是只是运气好。
