A

skill-creator

作者 anthropics

通过 skill-creator 工作流创建、优化、测试并基准对比 agent 技能,涵盖 eval 结果审查、评分、盲测对比以及描述优化等环节。

Stars0
收藏0
评论0
分类Skill 编写
安装命令
npx skills add https://github.com/anthropics/skills --skill skill-creator
概览

Overview

skill-creator 是什么

skill-creator 是一个用于构建和改进其他 agent 技能的元技能。在 anthropics/skills 仓库中,它被定义为一套工作流:从零创建技能、修订已有技能、使用 eval prompts 进行测试、审查结果,并持续迭代直到效果提升。

因此,对于使用 Anthropic 和 Claude 工作流、希望以更结构化方式编写技能、验证行为并持续优化触发描述的团队来说,skill-creator 尤其值得关注。

谁适合使用 skill-creator

如果你属于以下情况,适合使用 skill-creator

  • 正在编写一个新技能,需要一套可重复执行的创作流程
  • 正在更新一个效果不佳或触发不稳定的现有技能
  • 希望在重写前后运行 eval,对改动效果进行对比
  • 需要对输出做定性审查,而不只是看简单的通过/失败数量
  • 想对多个技能版本做 benchmark,并分析为什么某个版本表现更好

它特别适合技能作者、agent 工作流设计者,以及技能库中负责测试与验证的人员。

它能解决什么问题

从仓库内容来看,skill-creator 的能力不止于起草说明。它支持的是一个更完整的优化闭环:

  • 起草或重写技能
  • 创建并审查 eval prompts
  • 根据 transcript 和输出核对评分预期
  • 以盲测方式比较不同输出
  • 分析胜出版本为何表现更好
  • 优化技能描述,以提升触发准确率

正因为这些能力结合在一起,skill-creator 首先适用于技能编写,同时也与技能测试和技能验证高度相关。

仓库中包含哪些内容

从文件树可以看出,这不是单一的一段 prompt,而是一套可落地的工作流:

  • SKILL.md 定义了创建和迭代技能的高层流程
  • agents/analyzer.mdagents/comparator.mdagents/grader.md 描述了专门的评估角色
  • scripts/run_eval.pyscripts/run_loop.pyscripts/quick_validate.pyscripts/aggregate_benchmark.py 用于支持测试与 benchmark 工作流
  • scripts/improve_description.py 表明描述优化被视为一项核心任务
  • eval-viewer/generate_review.pyeval-viewer/viewer.htmlassets/eval_review.html 用于支持对 eval 运行结果进行人工审查
  • references/schemas.md 表明还提供了技能打包或验证相关的结构说明与参考资料

什么情况下 skill-creator 很适合

如果你希望用一套有文档、可重复执行的流程,按周期持续改进某个技能,那么 skill-creator 会非常适合。尤其当你的团队重视基于证据的迭代,而不是一次性的 prompt 修改时,它会更有价值。

以下场景尤其值得选择它:

  • 需要一套实用的技能编写流程
  • 需要超出临时测试范围的评估支持
  • 需要通过盲测对比来减少不同版本之间的偏差
  • 需要用于查看 transcript 和输出的审查工具
  • 需要在用户或评估者反馈后进行结构化迭代

什么情况下 skill-creator 可能不是最佳选择

如果你只想做一个非常轻量的小型辅助技能,而且没有计划建立评估闭环,那么这个技能可能超出你的实际需求。它也不是通用的软件开发工具包,更不是 UI 框架。它的核心重点始终是 agent 技能的编写与效果衡量。

如果你的目标只是安装一个现成的终端用户技能并立刻使用,那么 skill-creator 更偏流程导向,而不是任务导向。

How to Use

安装 skill-creator

可以通过下面的命令,从 Anthropic skills 仓库安装 skill-creator

npx skills add https://github.com/anthropics/skills --skill skill-creator

安装完成后,先打开已安装文件中的 SKILL.md。这个文件定义了整体工作流:识别用户当前所处阶段、起草或修订技能、进行测试、审查结果,并持续迭代。

先查看这些关键文件

如果你是在评估是否安装和采用,建议优先查看以下文件:

  • SKILL.md
  • agents/analyzer.md
  • agents/comparator.md
  • agents/grader.md
  • scripts/run_eval.py
  • scripts/run_loop.py
  • scripts/quick_validate.py
  • scripts/improve_description.py
  • scripts/aggregate_benchmark.py
  • eval-viewer/generate_review.py
  • eval-viewer/viewer.html
  • assets/eval_review.html
  • references/schemas.md

这组文件能清楚体现出,skill-creator 同时提供编写指导和验证支持。

理解推荐的工作流

根据 SKILL.md,它预期的使用方式是迭代式的:

  1. 明确目标技能应该做什么,以及如何工作。
  2. 起草技能。
  3. 创建一小组测试 prompts。
  4. 在这些 prompts 上运行技能。
  5. 从定性和定量两个维度审查输出。
  6. 根据审查结论重写技能。
  7. 扩大测试集规模并重复以上流程。

如果你希望从一个粗略想法逐步推进到经过验证的技能,而不是把评估当成最后补做的环节,这种流程会很有帮助。

使用评估 agents 做更深入的审查

仓库中包含三个专门的 agent 定义,进一步说明了评估应如何进行:

  • agents/comparator.md:以 A 和 B 的形式比较输出,不透露是哪个技能生成的,有助于减少偏差
  • agents/analyzer.md:解释为什么胜出的版本会胜出,并给出可执行的改进建议
  • agents/grader.md:检查预期是否真的通过,并提醒你避免使用会造成虚假信心的弱断言

这些文件放在一起,说明 skill-creator 不只是用来生成技能草稿,也强调严格、规范的审查过程。

在浏览器中查看 eval 结果

一个很实用的功能是 eval-viewer/generate_review.py,它可以为 eval 结果生成并提供一个自包含的审查页面。源码中给出的脚本用法是:

python generate_review.py <workspace-path> [--port PORT] [--skill-name NAME]

它也可以加载历史反馈:

python generate_review.py <workspace-path> --previous-feedback /path/to/old/feedback.json

根据源码片段,它会读取 workspace 中的运行结果,把输出数据嵌入到一个 HTML 审查页面中,在本地提供访问,并将反馈自动保存到 feedback.json。如果你的工作流依赖人工审查输出结果,这是考虑采用 skill-creator 的一个很强理由。

将 scripts 文件夹视为实际操作工具箱

scripts/ 目录表明了 skill-creator 支持的主要操作任务:

  • run_eval.py:执行评估
  • run_loop.py:运行迭代优化循环
  • quick_validate.py:进行更快速的验证检查
  • aggregate_benchmark.py:汇总 benchmark 结果并进行面向差异的分析
  • generate_report.py:生成报告
  • improve_description.py:优化描述
  • package_skill.py:处理打包工作

更稳妥的做法是,把这些文件当作需要根据自身环境查看和调整的实现细节,而不是默认它们适用于所有场景的一体化方案。

实际采用建议

在全面采用 skill-creator 之前,建议先确认以下几点:

  • 你的团队是否已经有适合做 transcript 和输出审查的 workspace 布局
  • 你是否除了数字评分之外,也需要定性审查
  • 在你的流程里,不同技能版本之间的盲测对比是否重要
  • 你是否需要通过描述优化来提升技能触发效果
  • 基于 Python 的本地审查工具是否适合你的环境

如果这些需求与你的工作流吻合,那么 skill-creator 很可能是一个值得安装的选择。

FAQ

安装后,skill-creator 实际会做什么?

skill-creator 会提供一套结构化流程,用于创建和改进 agent 技能。它把编写指导、eval 执行支持、结果审查、评分、盲测对比和迭代整合在一起,帮助你从草稿推进到经过测试的版本。

skill-creator 只能用于创建全新的技能吗?

不是。仓库描述明确支持从零创建技能、修改已有技能、优化现有技能、运行 eval、进行性能 benchmark,以及优化描述以提升触发准确率。

skill-creator 是否包含测试和验证支持?

是的,而且从仓库内容来看这一点非常明确。agents/grader.mdagents/comparator.mdagents/analyzer.md 以及 run_eval.pyquick_validate.pyaggregate_benchmark.py 等脚本的存在,都说明测试与验证是这套工作流的核心组成部分。

skill-creator 能否帮助我更公平地比较两个技能版本?

可以。agents/comparator.md 描述了盲测对比流程:输出会被标记为 A 和 B,而不会显示是哪个技能生成的。如果你希望以更低偏差比较不同版本,这会非常有用。

skill-creator 可以帮助优化技能描述吗?

可以。顶层描述明确提到会优化技能描述,以提升触发准确率;同时仓库中也包含 scripts/improve_description.py,这与该能力说明是一致的。

我需要使用每一个脚本和子目录吗?

不需要。更实际的做法是先从 SKILL.md 开始,查看各个 agent 角色文件,再根据你的工作流去检查对应的脚本和 viewer 文件。有些团队只需要编写循环和 eval 审查,有些团队则会用到更完整的 benchmark 与 reporting 能力。

skill-creator 适合简单的一次性任务吗?

通常不太适合。skill-creator 的价值主要体现在你打算长期迭代、测试、比较并持续改进某个技能时。对于没有评估计划的一次性任务来说,它的流程结构可能会比你真正需要的更多。

在决定把 skill-creator 用于生产工作流之前,我应该先看什么?

优先查看 SKILL.mdagents/ 下的三个 agent 文件、scripts/ 目录中的脚本,以及 eval-viewer/generate_review.py。这些文件最能说明 skill-creator 在真实使用中是如何进行技能编写、测试和验证的。

评分与评论

暂无评分
分享你的评价
登录后即可为这个技能评分并发表评论。
G
0/10000
最新评论
保存中...