skill-creator

skill-creator 是一个用于 Skill 编写的元技能，可用于起草新技能、修改现有 `SKILL.md`、运行评测、对比不同方案，并借助仓库脚本和审查工具优化触发描述。

Stars105.1k

收录时间2026年3月28日

分类Skill 编写

安装命令

npx skills add anthropics/skills --skill skill-creator

编辑评分

该技能评分为 84/100，适合希望以真实工作流来创建、迭代和评估其他技能的用户。仓库内容具备较强的落地性——包含多步骤说明、评估 agent 以及可直接运行的脚本，因此相比通用提示词通常能提供更高杠杆；不过由于 `SKILL.md` 没有给出简洁的安装或快速开始命令，采用时仍需要自行理解部分配置方式。

95/100

亮点

触发覆盖面强：说明明确涵盖了创建新技能、编辑现有技能、运行评测、对比方案差异，以及优化描述以提升触发效果。
操作杠杆高：仓库提供了用于评测循环和审查的具体工具，包括 `run_eval.py`、`run_loop.py`、`aggregate_benchmark.py`、`package_skill.py` 和 `eval-viewer/generate_review.py`。
渐进式信息组织做得不错：面向 analyzer、comparator 和 grader agent 的专门文档清楚说明了各自角色、输入要求以及分步骤评估流程。

注意点

上手并非完全开箱即用：`SKILL.md` 没有提供安装命令或精简的快速开始路径，用户可能需要自己判断如何把这些脚本接入当前环境。
对简单场景来说，这套流程可能偏重：包含多个脚本、agent 和评估步骤，对部分用户而言可能超出实际需要。

Anthropic Claude 工作流测试 Documentation

概览

skill-creator skill 概览

skill-creator 是做什么的

skill-creator 是一个面向 Skill Authoring 的元技能：它帮助你创建新 skill、修订已有 skill，并评估这些改动是否真的带来了行为改进。它不同于泛泛的“帮我写个 skill”提示词，核心是一个迭代闭环：起草、测试、审查输出、对比不同版本、再继续优化。

谁适合使用 skill-creator

skill-creator 最适合那些需要把重复出现的 agent 行为沉淀成可复用 skill 的人：

从一个模糊想法开始的 skill 作者
要改进表现不佳 SKILL.md 的维护者
希望在大范围上线前先补上 evals 的团队
想优化描述，让正确 skill 更稳定触发的人

如果你只是需要一个一次性 prompt，skill-creator 很可能比你实际需要的流程更重。

真正要解决的问题

大多数用户并不只是需要有人帮忙写 markdown，他们真正缺的是减少试错和猜测的方法：

skill 里到底该包含什么
怎样从用户那里收集足够上下文
如何用真实 prompt 做测试
如何从定性和定量两个维度审查输出
如何迭代，避免被某一次“看起来不错”的结果误导

这种对工作流的强调，正是 skill-creator skill 最主要的差异点。

安装前最值得关注的地方

从仓库内容来看，skill-creator 在评估和迭代上明显强于“立刻生成脚手架”。它包含：

位于 agents/ 的面向评测的辅助 agents
位于 scripts/ 的 benchmark 和报告脚本
位于 eval-viewer/ 与 assets/ 的 HTML 审查流程
位于 references/schemas.md 的 schema / 参考资料

这让 skill-creator 特别适合那些在意“如何衡量质量”，而不只是“先生成第一稿”的场景。

哪些因素可能阻碍采用

最大的权衡点是复杂度。skill-creator 预期你按阶段思考，并提供测试 prompts、预期结果和对比目标。如果你的环境跑不了配套的 Python 脚本，或者你本来就不打算评估输出，那你最终只能用到这个 skill 的一部分价值。

如何使用 skill-creator skill

在你的 skills 环境中安装 skill-creator

如果你采用 Anthropic skills CLI 的使用方式，可以直接从上游仓库安装：

npx skills add https://github.com/anthropics/skills --skill skill-creator

仓库里的 SKILL.md 没有提供单独 package 安装器的信息，所以对大多数用户来说，最合适的做法还是从 monorepo 添加，然后查看本地安装出来的文件。

先读这些文件

想快速建立整体认知，建议按这个顺序读：

skills/skill-creator/SKILL.md
skills/skill-creator/agents/grader.md
skills/skill-creator/agents/comparator.md
skills/skill-creator/agents/analyzer.md
skills/skill-creator/scripts/run_eval.py
skills/skill-creator/scripts/run_loop.py
skills/skill-creator/eval-viewer/generate_review.py
skills/skill-creator/references/schemas.md

这一路径能直接看出它真正的运行模型：先生成或修订 skill，再跑 evals、比较输出，并分析为什么某个版本更好。

从你当前所处的阶段开始用 skill-creator

skill-creator skill 不只是给全新 skill 准备的。效果最好的用法，是明确告诉模型你现在处于哪个阶段：

想法梳理： “我知道问题，但还没想清楚 workflow”
第一稿： “把这些笔记整理成可用的 SKILL.md”
修复： “这个 skill 已经存在，但在这些 prompts 上表现失败”
优化： “优化触发描述和示例”
评估： “设计测试 prompts 和预期结果”
对比： “比较 v1 和 v2，并解释哪个更好”

如果跳过这一步，模型很可能会把力气花在错误的阶段上。

提供 skill 真正需要的输入

一个高质量的 skill-creator usage 提示，通常会包括：

目标用户要完成的工作
未来这个 skill 会接收到什么输入
期望输出或交付物是什么
skill 可以读取或运行哪些工具 / 文件
延迟、格式、安全性等约束
你已经观察到的失败案例
3 到 10 条真实测试 prompts

通常带来最大质量提升的，不是更长的说明文字，而是更好的示例和失败样本。

把模糊目标改写成高质量 prompt

弱 prompt：

Help me create a research skill.

更强的 prompt：

Use skill-creator for Skill Authoring. I need a skill that turns a vague market question into a structured research brief with sources, assumptions, and open questions. Inputs are a user question and optional company context. Outputs should be a markdown brief. The skill may browse repository files but should not invent citations. Current failure modes: overlong answers, weak source framing, and missing assumptions. Please draft the skill, propose 6 eval prompts, and suggest measurable expectations for each.

它更好的原因在于：任务、输入输出、约束条件和失败模式都写清楚了。

用上内置的评估工作流

从仓库证据看，skill-creator 的设计重点是迭代评估，而不只是起草。在实际使用中，流程通常是：

起草或修订 skill
建一个小型 eval 集
运行执行
审查 transcript 和输出
对照预期打分
在合适时做盲测式版本比较
再次修订 skill

scripts/ 目录下的脚本其实已经明确提示了官方预期 workflow：

run_eval.py：运行 evals
aggregate_benchmark.py 和 generate_report.py：汇总结果
run_loop.py：执行重复改进循环
quick_validate.py：做更快的校验
improve_description.py：优化触发描述

用 HTML viewer 审查输出

从安装决策角度看，skill-creator install 的一个很实际的亮点，是它自带审查 UI。eval-viewer/generate_review.py 可以根据一组运行结果生成一个自包含的 HTML 审查页面，并支持保存反馈。这在需要人工审查多个输出时尤其重要，特别是那些既要看 transcript 质量、又要看最终产物质量的 skill。

如果你在判断要不要采用这个 skill，这套审查工具是最有说服力的理由之一。

用 comparator 和 grader agents 降低迭代偏差

其中两个辅助 agent 特别有价值：

agents/comparator.md：以 A/B 方式比较输出，而且不知道具体是哪个 skill 产出的
agents/grader.md：根据 transcript 和输出检查预期是否满足，同时也会指出那些定义得太弱的断言

这意味着 skill-creator 不只是问“这个输出看起来好不好”，还会进一步问“我们的 eval 设计本身有没有意义”。对于认真做 skill 维护的人来说，这一点非常实用，也很少见。

不只调正文，也要调描述

很多 skill 作者会把注意力几乎都放在指令正文上，却忽略了顶部那个用于触发的描述。scripts/improve_description.py 的存在说明，触发质量本来就是预期工作流的一部分。如果一个本来不错的 skill 没有被稳定调用，优先改进这些地方：

描述里对问题的 framing
应该在哪些场景触发
明确哪些边界外任务不该由它处理

对于已经有一批 skill 的库来说，这是 skill-creator skill 的高杠杆用法之一。

了解 skill-creator 的实际边界

skill-creator 能帮助你把编写和评估流程结构化，但它并不能替代以下内容：

对目标任务本身的领域知识
足够真实的 eval 样例
在输出带主观性时的人类判断
对仓库内 Python 工具的运行环境支持

如果你拿不出真实 prompts，或者无法检查输出，这套流程的效果会明显打折。

skill-creator skill 常见问题

skill-creator 适合新手吗？

适合，但有一个前提：新手可以借助 skill-creator guide 式工作流避免对着空白页发呆，但整个仓库默认你对迭代测试有一定接受度。如果你刚上手，建议先从起草和一个很小的 eval 集开始，再去碰 benchmark 脚本。

为什么说 skill-creator 比普通 prompt 更好？

普通 prompt 也许能给你一份像样的第一稿。但如果你需要一个可重复执行的“创建 + 改进”闭环，并且要有评估支撑，skill-creator 会更合适。它真正的价值在于外围的方法论和辅助文件，而不是单次写作本身。

什么情况下不该用 skill-creator？

以下情况可以直接跳过：

你只需要一次性 prompt
你没有测试输出的计划
任务太小，不值得抽象成一个 skill
你的环境无法使用仓库配套脚本或审查流程

这些情况下，直接写 prompt 会更快。

skill-creator 只适合新建 skill 吗？

不是。skill-creator skill 同样适合修订已有 skill、对两个版本做 benchmark，以及优化描述来提升触发准确率。

不用全部脚本也有价值吗？

有。你依然可以把 skill-creator usage 用在起草和手工修订上。不过，真正让这个仓库比普通 prompting 多出信息增益的，还是评估脚本和 viewer。

这只适用于 Anthropic 的 skills 生态吗？

它显然是围绕那个生态里的 skill 结构和术语设计的，所以那会是最佳适配场景。不过它的方法论——起草、评估、比较、修订——也很容易迁移到其他内部 skill 或 agent 框架中。

如何改进 skill-creator skill 的使用效果

先把任务边界收窄

想更快提升 skill-creator 输出质量，最有效的办法之一，就是提前定义未来这个 skill 应该拒绝什么、忽略什么。没有边界时，草稿往往会变得过宽、过度触发。建议在 prompt 里直接加入 “use when” 和 “do not use when” 示例。

尽早提供真实 eval prompts

很多用户太晚才开始写测试用例。对于 skill-creator for Skill Authoring 来说，尽早准备 eval prompts 会强迫你尽快把真实任务讲清楚。好的 eval 应该反映真实用户输入，而不是只拿那些会让 skill 看起来更好的“精修样例”。

写出更强的预期标准

预期写得太弱，很容易制造虚假的信心。不要只写：

“Output is clear”

更好的写法是：

“Output includes a prioritized recommendation”
“Every cited claim links to a provided source”
“Result contains assumptions and open questions sections”

这和 agents/grader.md 体现出来的思路是一致的：它明确提醒你要避免那种随便都能满足的断言。

改动很细微时，用盲测比较版本

如果你在两个相近草稿之间做选择，不要只靠肉眼看 markdown。细小措辞变化可能会影响实际执行，而这些影响仅从 skill 文件本身往往看不出来。此时更适合用盲比较模式。

不只看最终输出，也要看 transcripts

一个表面上很漂亮的最终答案，可能掩盖了糟糕的工具使用、漏读文件，或者推理薄弱的问题。当你把 transcript 和输出一起审查，并追问“为什么这个版本成功”，skill-creator 的价值才会真正放大，这也正契合 analyzer agent 的设计目的。

一次只改一个维度

如果你希望得到可信的学习结论，就不要同时重写描述、指令、示例和工具说明。一次只改一个维度，重新跑同一套稳定的 eval 集，再去看差异。这样做会让 skill-creator guide 式流程输出的信息更有解释力。

把仓库文件当作操作说明来用

如果结果总觉得泛、抓不住重点，不要只回头重看 SKILL.md。更应该去读那些真正定义评估行为的辅助文件：

agents/comparator.md：看 A/B 审查里“更好”到底怎么定义
agents/grader.md：看 pass/fail 的严格标准
agents/analyzer.md：看事后复盘如何提炼改进方向
references/schemas.md：看预期结构长什么样

很多时候，这些文件比顶层描述更能说明这个 skill 该怎么用。

第一次跑通后，继续扩充 eval 集

一个常见失败模式是：几次结果不错就停下来了。但 skill-creator skill 本来就是为迭代扩展设计的：当草稿在小样本上跑通后，就应该把 prompts 扩展到边界案例、含糊请求，以及失败率高的样例。只有这样，你才能判断这个 skill 到底是真的稳，还是只是运气好。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

create-colleague

作者 titanwings

create-colleague 可将同事文档、聊天记录、邮件、截图、Feishu 和 DingTalk 数据整理为可编辑的 AI 技能，并分别产出工作风格与人物画像内容，还提供持续迭代的更新流程。

Skill 编写

收藏 1GitHub 747

lean-ux-canvas

作者 deanpeters

lean-ux-canvas 帮助团队梳理业务问题、暴露假设，并使用 Lean UX Canvas v2 明确下一步要学什么。适合工作坊准备、干系人对齐，以及在进入方案设计前需要一份实用的 lean-ux-canvas 指南时用于早期产品发现。

Skill 编写

收藏 0GitHub 4.1k

documentation-lookup

作者 affaan-m

documentation-lookup 帮助 agent 直接从最新文档回答库、框架和 API 问题，而不是依赖记忆。它非常适合安装、配置、参考资料和代码示例类任务，尤其是在最新语法很重要时。对于依赖实时文档和版本准确指导的 Skill Docs 请求，建议使用 documentation-lookup 技能。

Skill 文档

收藏 0GitHub 156.1k

mcp-builder

作者 anthropics

mcp-builder 是一份面向外部 API 与服务的 MCP 服务器规划、开发和评估实用指南。它帮助开发者确定工具边界、命名方式、传输方案，以及 Python 或 Node 的实现模式与评估流程，让 agent 能更稳定地使用服务器。

MCP 服务开发

收藏 0GitHub 105k

user-story

作者 deanpeters

user-story 技能可帮助你把产品需求转化为一条可直接进入开发的用户故事，采用 Mike Cohn 语法和 Gherkin 验收标准。适用于更清晰的交接、更准确的估算，以及为技术写作和产品团队提供更紧凑的用户故事指南。

技术写作

收藏 0GitHub 4.1k

user-story-splitting

作者 deanpeters

user-story-splitting 这项技能可帮助你使用结构化模式，将大型 epic 和 user story 拆分成更小、可独立交付的故事。适用于估算、排期、降低风险，以及当 backlog 条目过于宽泛、无法放进一个 sprint 时的 Skill Authoring 工作流。

Skill 编写

收藏 0GitHub 0

sanity-best-practices

作者 sanity-io

sanity-best-practices 技能可帮助你在动手前先选对 Sanity 的实践模式。适用于 schemas、GROQ、TypeGen、Visual Editing、Portable Text、本地化、迁移、Functions、Blueprints，以及 Next.js、Nuxt、Astro、Remix、SvelteKit、Angular、Hydrogen 和 App SDK 等前端集成场景。

前端开发

收藏 0GitHub 0

provider-docs

作者 hashicorp

provider-docs 技能可帮助你为 Terraform Provider 创建、更新并验证 Terraform Registry 文档。它适用于 provider-docs 指南工作、Technical Writing 场景下的 provider-docs，以及在文档变更时保持 schema 描述、tfplugindocs 模板和 Registry 输出同步。

技术写作

收藏 0GitHub 0

press-release

作者 deanpeters

press-release 技能可帮助你在动手构建前，先起草一份 Amazon 风格的 Working Backwards 新闻稿。它适合用来厘清客户价值、验证产品或功能想法，并用一段简洁、以客户为中心的叙述让相关方达成一致。对 Technical Writing 的 press-release 场景以及早期产品规划都很有帮助。

技术写作

收藏 0GitHub 4.1k

writing-skills

作者 obra

writing-skills 是一份面向 Skill Authoring 的实用指南，用于以测试驱动的工作流创建、编辑和验证 agent skills。你可以快速了解关键文件、前置条件，以及如何处理压力场景、基线测试，并高效迭代简洁的 `SKILL.md`。

Skill 编写

收藏 0GitHub 121.9k

prd-generator

作者 ognjengt

prd-generator 能把一个粗略的产品想法转化为适合 AI 使用的 Product Requirements Document（PRD）。它会先追问关键澄清问题，再按固定模板整理内容，帮助创始人、产品负责人和 Skill Authoring 工作流产出更清晰的规格说明，供下游 AI 编码工具使用。当你需要结构化需求、指标、约束以及可直接用于实现的上下文时，就用 prd-generator。

Skill 编写

收藏 0GitHub 0

command-creator

作者 softaworks

command-creator 可帮助你把反复使用的 Claude Code 工作流整理成可复用的 slash commands。你可以了解合适的命令设计模式，编写 agent 可执行的指令，判断应使用 `.claude/commands/` 还是 `~/.claude/commands/`，并借助随附参考资料查看示例与最佳实践。

Skill 编写

收藏 0GitHub 1.3k

altitude-horizon-framework

作者 deanpeters

altitude-horizon-framework 是一款面向 PM 晋升到 Director 过渡的决策技能。可用于诊断“高度”和“视野”上的偏差，澄清范围与时机，并在战略表述模糊时应用 Cascading Context Map。内容还包含实用的安装、用法与示例说明，便于技能编写与落地。

Skill 编写

收藏 0GitHub 4.1k

prompt-optimizer

作者 affaan-m

prompt-optimizer 是一项 prompt-optimizer 技能，用于分析粗糙的提示词，找出缺失的上下文，并将其改写为更清晰、可直接粘贴的提示词。它最适合 prompt-optimizer 指南类工作、提示词审阅，以及用于 Prompt Writing 的 prompt-optimizer，尤其是在你需要为 Claude Code 或 ECC 工作流整理出更好的结构时。它不会执行底层任务。

提示词写作

收藏 0GitHub 156.2k

continuous-learning-v2

作者 affaan-m

continuous-learning-v2 将 Claude Code 会话转化为按项目作用域的学习流程，结合 hooks、observer agents、置信度评分，以及把重复模式晋升为 skills、commands 或 agents。

Skill 编写

收藏 0GitHub 156.1k

documentation-and-adrs

作者 addyosmani

documentation-and-adrs 可帮助代理编写以决策为核心的技术文档和 ADRs。适合用于记录架构、API、基础设施、auth 以及功能变更中的背景、约束、权衡、被否决方案和后续影响。若你需要为未来的工程师和代理保留可长期参考的决策依据，而不只是产出一份润色过的总结，它尤其合适。

技术写作

收藏 0GitHub 18.7k