A

skill-comply

作者 affaan-m

skill-comply 是一款合规测试技能,用于在真实运行中检查 agent 是否遵循某个 skill、规则或 agent 定义。它会从 markdown 生成规范,运行三档 prompt 严格度,分类工具调用时间线,并基于证据输出合规率。适合用于 skill-comply 的合规审查。

Stars156.3k
收藏0
评论0
收录时间2026年4月15日
分类合规审查
安装命令
npx skills add affaan-m/everything-claude-code --skill skill-comply
编辑评分

该技能得分 78/100,说明它很适合作为目录中的候选条目,适合想验证 agent 是否真的遵循了 skills、rules 和 agent definitions 的用户。仓库提供了清晰的工作流、明确的触发条件和配套脚本/测试,便于用户较有把握地判断安装价值,但也要预期一定的运行配置成本。

78/100
亮点
  • 清楚描述了一个多步骤的合规工作流:规范生成、三级场景生成、trace 捕获、分类和报告。
  • 触发条件和适用范围明确:SKILL.md 说明了何时启用,以及支持哪些目标(skills、rules、agent definitions)。
  • 有真实实现证据:多个脚本、prompts、fixtures 和测试为文档中的工作流提供支撑。
注意点
  • SKILL.md 中没有安装命令,因此用户需要手动接入,且可能要查看脚本才能正确运行。
  • 仓库注明 agent-definition 工作流验证尚未完全支持,因此相比标题所示的广泛范围,覆盖面仍有限。
概览

skill-comply 技能概览

skill-comply 是一款合规测试技能,用来检查一个 agent 在真实运行中是否真的遵循了某个 skill、规则或 agent 定义。它适合需要证据而不是猜测的用户:例如验证工作流规则的维护者、测试新 skill 的作者,或者想确认编码 agent 在不同提示条件下是否仍然遵守 TDD、review 或流程约束的团队。

skill-comply 技能能做什么

skill-comply 会先根据一个 markdown 源文件生成预期行为规范,然后创建三个支持力度逐步降低的提示词,运行 agent,最后把实际工具调用时间线与规范进行比对。这样它就特别适合用于 Compliance Review:当你关心的不只是最终输出,还包括动作是否出现、以及动作顺序是否正确时,它会很有价值。

skill-comply 适合什么场景

当你需要验证一条规则在压力下是否还能被遵守时,就用 skill-comply:无论是支持性提示、普通提示,还是带竞争性的提示。它尤其适合依赖顺序的技能,比如“先测试,再实现”或“编辑前先读规则”这类要求。

skill-comply 的差异点在哪里

和那种笼统地问“它有没有遵守规则?”的普通提示不同,skill-comply 把检查流程真正落地了:它会提取步骤,用 LLM 对工具调用进行分类,并以确定性的方式评估顺序。它的价值在于 trace、timeline 和 compliance rate,这些信息能帮助你判断这个 skill 是否足够稳定,值得继续使用。

如何使用 skill-comply 技能

安装并启用 skill-comply

使用下面的命令安装 skill-comply 技能:

npx skills add affaan-m/everything-claude-code --skill skill-comply

然后把它运行到你想验证的 markdown 文件上。这个仓库本身的使用方式以 CLI 执行为中心,所以最好把它指向单个目标文件,并把输出当作合规报告来看,而不是把它当成一段文字摘要。

先阅读这些文件

要走 skill-comply install 和初始化路径,先从 skills/skill-comply/SKILL.md 看起,然后再检查 prompts/spec_generator.mdprompts/scenario_generator.mdprompts/classifier.md。这三个 prompt 展示了真实工作流:规范提取、场景生成和 trace 分类。如果你想理解实现层面的约束,再快速浏览 scripts/run.pyscripts/spec_generator.pyscripts/scenario_generator.pyscripts/classifier.py

如何构造一个好的输入

一条高质量的 skill-comply usage prompt 应该是明确的合规目标,而不是模糊的政策描述。好的输入会写清楚文件和要验证的行为,例如:“检查 rules/common/testing.md 是否在编码任务中被遵守”或“衡量 agent 是否在这个 skill 里先写测试再实现”。像“这好吗?”这种弱输入,无法给工具足够的行为信号来评分。

提升效果的实用工作流

建议按这个顺序来:先选一条规则或一个 skill,生成规范,审查提取出的步骤,再运行三个场景等级。skill-comply for Compliance Review 的最佳用法,是把支持性、普通和竞争性三次运行并排比较,因为这样才能看出行为到底是不是稳健,还是只在 prompt 帮忙时才成立。

skill-comply 技能常见问题

skill-comply 只适用于编码技能吗?

不是。它最适合编码 agent 的工作流,但仓库明确支持 skill、规则和 agent definitions。如果你的目标是一个带有可观察动作的 markdown policy,skill-comply 依然很适合。

这和普通 prompt 测试有什么不同?

普通 prompt 测试只看回答看起来对不对。skill-comply 检查的是 agent 的动作是否匹配预期顺序,包括工具使用时机。这一点在合规关注的是流程而不只是输出时,尤其重要。

skill-comply 对新手友好吗?

如果你能确认被测试的文件,并描述你期望的行为,那它是友好的。更难的部分在于挑选一个有清晰可观察步骤的目标。对于规则本身很模糊、或者主要依赖人工判断的场景,它的价值就会低很多。

什么情况下不该用它?

如果目标没有可执行的顺序、没有有意义的工具调用,或者只有主观质量标准,就不要用 skill-comply。如果你需要的是超出单次 claude -p 运行和 trace 对比之外的完整生产可观测性,它也不是很合适。

如何改进 skill-comply 技能

提供更清晰的源材料

skill-comply 最适合的输入,是明确写出动作、顺序和例外情况的 markdown。若你的规则只写“优先测试”,而不是“实现前先写一个测试”,那么提取出来的规范就会更难评分,在 Compliance Review 里也没那么有用。

留意主要失败模式

最大的风险,是过度相信一个过于宽泛或过于狭窄的提取规范。另一个常见问题,是把提示支持度误认为真实合规:某个 skill 在支持性场景里看起来很好,但一旦提示变成普通或竞争性就失败了。要用 skill-comply usage 的结果检查稳健性,而不是只看一次绿色通过。

强化第一次运行的输入

提供目标路径、真实任务,以及复现被测行为所需的任何初始化命令。如果这个 skill 依赖文件、命令或环境假设,一定要显式写出来,这样生成的场景才会反映真实使用,而不是玩具示例。

从 trace 反馈回 spec 进行迭代

第一次运行后,先检查生成的 spec 和工具调用时间线,再去修改 prompt 或 skill 文本。如果某一步被漏掉了,要判断问题出在 skill 表述、场景设计,还是 detector 描述。skill-comply 最大的价值就在这个循环里:它把“它有没有遵守?”变成你可以直接改 source rule 的具体编辑建议。

评分与评论

暂无评分
分享你的评价
登录后即可为这个技能评分并发表评论。
G
0/10000
最新评论
保存中...