Overview
skill-creator 是什么
skill-creator 是一个用于构建和改进其他 agent 技能的元技能。在 anthropics/skills 仓库中,它被定义为一套工作流:从零创建技能、修订已有技能、使用 eval prompts 进行测试、审查结果,并持续迭代直到效果提升。
因此,对于使用 Anthropic 和 Claude 工作流、希望以更结构化方式编写技能、验证行为并持续优化触发描述的团队来说,skill-creator 尤其值得关注。
谁适合使用 skill-creator
如果你属于以下情况,适合使用 skill-creator:
- 正在编写一个新技能,需要一套可重复执行的创作流程
- 正在更新一个效果不佳或触发不稳定的现有技能
- 希望在重写前后运行 eval,对改动效果进行对比
- 需要对输出做定性审查,而不只是看简单的通过/失败数量
- 想对多个技能版本做 benchmark,并分析为什么某个版本表现更好
它特别适合技能作者、agent 工作流设计者,以及技能库中负责测试与验证的人员。
它能解决什么问题
从仓库内容来看,skill-creator 的能力不止于起草说明。它支持的是一个更完整的优化闭环:
- 起草或重写技能
- 创建并审查 eval prompts
- 根据 transcript 和输出核对评分预期
- 以盲测方式比较不同输出
- 分析胜出版本为何表现更好
- 优化技能描述,以提升触发准确率
正因为这些能力结合在一起,skill-creator 首先适用于技能编写,同时也与技能测试和技能验证高度相关。
仓库中包含哪些内容
从文件树可以看出,这不是单一的一段 prompt,而是一套可落地的工作流:
SKILL.md定义了创建和迭代技能的高层流程agents/analyzer.md、agents/comparator.md和agents/grader.md描述了专门的评估角色scripts/run_eval.py、scripts/run_loop.py、scripts/quick_validate.py和scripts/aggregate_benchmark.py用于支持测试与 benchmark 工作流scripts/improve_description.py表明描述优化被视为一项核心任务eval-viewer/generate_review.py、eval-viewer/viewer.html和assets/eval_review.html用于支持对 eval 运行结果进行人工审查references/schemas.md表明还提供了技能打包或验证相关的结构说明与参考资料
什么情况下 skill-creator 很适合
如果你希望用一套有文档、可重复执行的流程,按周期持续改进某个技能,那么 skill-creator 会非常适合。尤其当你的团队重视基于证据的迭代,而不是一次性的 prompt 修改时,它会更有价值。
以下场景尤其值得选择它:
- 需要一套实用的技能编写流程
- 需要超出临时测试范围的评估支持
- 需要通过盲测对比来减少不同版本之间的偏差
- 需要用于查看 transcript 和输出的审查工具
- 需要在用户或评估者反馈后进行结构化迭代
什么情况下 skill-creator 可能不是最佳选择
如果你只想做一个非常轻量的小型辅助技能,而且没有计划建立评估闭环,那么这个技能可能超出你的实际需求。它也不是通用的软件开发工具包,更不是 UI 框架。它的核心重点始终是 agent 技能的编写与效果衡量。
如果你的目标只是安装一个现成的终端用户技能并立刻使用,那么 skill-creator 更偏流程导向,而不是任务导向。
How to Use
安装 skill-creator
可以通过下面的命令,从 Anthropic skills 仓库安装 skill-creator:
npx skills add https://github.com/anthropics/skills --skill skill-creator
安装完成后,先打开已安装文件中的 SKILL.md。这个文件定义了整体工作流:识别用户当前所处阶段、起草或修订技能、进行测试、审查结果,并持续迭代。
先查看这些关键文件
如果你是在评估是否安装和采用,建议优先查看以下文件:
SKILL.mdagents/analyzer.mdagents/comparator.mdagents/grader.mdscripts/run_eval.pyscripts/run_loop.pyscripts/quick_validate.pyscripts/improve_description.pyscripts/aggregate_benchmark.pyeval-viewer/generate_review.pyeval-viewer/viewer.htmlassets/eval_review.htmlreferences/schemas.md
这组文件能清楚体现出,skill-creator 同时提供编写指导和验证支持。
理解推荐的工作流
根据 SKILL.md,它预期的使用方式是迭代式的:
- 明确目标技能应该做什么,以及如何工作。
- 起草技能。
- 创建一小组测试 prompts。
- 在这些 prompts 上运行技能。
- 从定性和定量两个维度审查输出。
- 根据审查结论重写技能。
- 扩大测试集规模并重复以上流程。
如果你希望从一个粗略想法逐步推进到经过验证的技能,而不是把评估当成最后补做的环节,这种流程会很有帮助。
使用评估 agents 做更深入的审查
仓库中包含三个专门的 agent 定义,进一步说明了评估应如何进行:
agents/comparator.md:以 A 和 B 的形式比较输出,不透露是哪个技能生成的,有助于减少偏差agents/analyzer.md:解释为什么胜出的版本会胜出,并给出可执行的改进建议agents/grader.md:检查预期是否真的通过,并提醒你避免使用会造成虚假信心的弱断言
这些文件放在一起,说明 skill-creator 不只是用来生成技能草稿,也强调严格、规范的审查过程。
在浏览器中查看 eval 结果
一个很实用的功能是 eval-viewer/generate_review.py,它可以为 eval 结果生成并提供一个自包含的审查页面。源码中给出的脚本用法是:
python generate_review.py <workspace-path> [--port PORT] [--skill-name NAME]
它也可以加载历史反馈:
python generate_review.py <workspace-path> --previous-feedback /path/to/old/feedback.json
根据源码片段,它会读取 workspace 中的运行结果,把输出数据嵌入到一个 HTML 审查页面中,在本地提供访问,并将反馈自动保存到 feedback.json。如果你的工作流依赖人工审查输出结果,这是考虑采用 skill-creator 的一个很强理由。
将 scripts 文件夹视为实际操作工具箱
scripts/ 目录表明了 skill-creator 支持的主要操作任务:
run_eval.py:执行评估run_loop.py:运行迭代优化循环quick_validate.py:进行更快速的验证检查aggregate_benchmark.py:汇总 benchmark 结果并进行面向差异的分析generate_report.py:生成报告improve_description.py:优化描述package_skill.py:处理打包工作
更稳妥的做法是,把这些文件当作需要根据自身环境查看和调整的实现细节,而不是默认它们适用于所有场景的一体化方案。
实际采用建议
在全面采用 skill-creator 之前,建议先确认以下几点:
- 你的团队是否已经有适合做 transcript 和输出审查的 workspace 布局
- 你是否除了数字评分之外,也需要定性审查
- 在你的流程里,不同技能版本之间的盲测对比是否重要
- 你是否需要通过描述优化来提升技能触发效果
- 基于 Python 的本地审查工具是否适合你的环境
如果这些需求与你的工作流吻合,那么 skill-creator 很可能是一个值得安装的选择。
FAQ
安装后,skill-creator 实际会做什么?
skill-creator 会提供一套结构化流程,用于创建和改进 agent 技能。它把编写指导、eval 执行支持、结果审查、评分、盲测对比和迭代整合在一起,帮助你从草稿推进到经过测试的版本。
skill-creator 只能用于创建全新的技能吗?
不是。仓库描述明确支持从零创建技能、修改已有技能、优化现有技能、运行 eval、进行性能 benchmark,以及优化描述以提升触发准确率。
skill-creator 是否包含测试和验证支持?
是的,而且从仓库内容来看这一点非常明确。agents/grader.md、agents/comparator.md、agents/analyzer.md 以及 run_eval.py、quick_validate.py、aggregate_benchmark.py 等脚本的存在,都说明测试与验证是这套工作流的核心组成部分。
skill-creator 能否帮助我更公平地比较两个技能版本?
可以。agents/comparator.md 描述了盲测对比流程:输出会被标记为 A 和 B,而不会显示是哪个技能生成的。如果你希望以更低偏差比较不同版本,这会非常有用。
skill-creator 可以帮助优化技能描述吗?
可以。顶层描述明确提到会优化技能描述,以提升触发准确率;同时仓库中也包含 scripts/improve_description.py,这与该能力说明是一致的。
我需要使用每一个脚本和子目录吗?
不需要。更实际的做法是先从 SKILL.md 开始,查看各个 agent 角色文件,再根据你的工作流去检查对应的脚本和 viewer 文件。有些团队只需要编写循环和 eval 审查,有些团队则会用到更完整的 benchmark 与 reporting 能力。
skill-creator 适合简单的一次性任务吗?
通常不太适合。skill-creator 的价值主要体现在你打算长期迭代、测试、比较并持续改进某个技能时。对于没有评估计划的一次性任务来说,它的流程结构可能会比你真正需要的更多。
在决定把 skill-creator 用于生产工作流之前,我应该先看什么?
优先查看 SKILL.md、agents/ 下的三个 agent 文件、scripts/ 目录中的脚本,以及 eval-viewer/generate_review.py。这些文件最能说明 skill-creator 在真实使用中是如何进行技能编写、测试和验证的。
