judge
作者 NeoLabHQJudge 是一个两阶段评估技能:先启动 meta-judge,再启动 judge 子代理,在隔离上下文、证据和明确标准下对作品打分。适合用于代码、写作、分析或 Skill Authoring 的仅报告式审查;当你需要一份站得住脚的 judge 指南,而不是随口给出的意见时,它尤其合适。
这个技能得分 66/100,说明它可以上架,但只适合作为给想要结构化判断流程的用户提供的一个中等、带保留意见的选项。它具备足够真实的操作内容,足以支持安装;不过目录用户应预期需要自行做一些解读,因为该仓库没有配套脚本、参考资料或安装命令,而且工作流主要都写在一个 SKILL.md 文件里。
- 触发条件和用途清晰:frontmatter 说明它会先启动 meta-judge,再启动 judge 子代理,在当前对话中执行评估。
- 工作流内容较充实:技能正文篇幅较长,包含多个标题和明确阶段,说明这不是一个占位式的 judge 流程。
- 强调证据:它明确要求结构化评分和引用,这比泛泛的提示词更能提升代理可靠性。
- 没有支持文件或安装命令,因此采用方式取决于阅读并手动执行 SKILL.md 中的工作流。
- 操作细节仍有相当一部分埋在正文里;目录用户可能需要自行推断确切执行步骤和边界情况的处理方式。
judge 技能概览
judge 是做什么的
judge 技能会启动一个两阶段评估工作流:先由 meta-judge 为任务定义合适的评分标准,再由 judge 子代理在隔离上下文中基于证据对成果打分。它特别适合需要严谨审查代码、分析、写作或 agent 输出的用户,而不是只想要一个随意意见的人。
谁应该使用 judge
当你需要一份只输出结论的评估,并且希望标准清晰、引用明确、反馈可执行时,就该用 judge 技能。它非常适合 Skill Authoring 审查、repo 变更审查,以及任何可能被确认偏误或会话延续效应影响判断的任务。
它为什么不一样
和那种泛泛要求“给点反馈”的提示词不同,judge 会在评分开始前先构建评估标准。这让 judge 技能在以下场景里更有优势:待评估的产物类型不确定、你需要多维度打分,或者这份审查结果必须能向另一位人类交代得清楚。
如何使用 judge 技能
安装 judge 并检查入口文件
使用 npx skills add NeoLabHQ/context-engineering-kit --skill judge 安装。先从 plugins/sadd/skills/judge/SKILL.md 看起,因为这里写明了决定 judge 安装行为的工作流、输入项和评估约束。
给 judge 一个明确的评估目标
这个技能在你同时说明“评估什么”和“从什么角度评估”时效果最好。一个好的提示词可以是:Judge the last draft of the launch page for clarity, SEO fit, and factual accuracy. 像 Review this 这样模糊的说法,会让 meta-judge 多出很多猜测空间。
为 judge 流水线提供合适的上下文
请包含要评估的产物、成功标准,以及任何硬性约束,例如语气、受众、评分优先级或禁止更改的内容。如果你把 judge 用于 Skill Authoring,一定要明确说明,并点出目标 skill,因为评分标准应当围绕安装清晰度、可发现性和说明质量来调整。
先读这些文件
在安装和适配时,先读 SKILL.md,然后再看仓库里包含的任何工作流或策略文件。在这个仓库里,skill 本体就是主要事实来源,所以最快的路径,是先检查提示词结构、工作流阶段和证据要求,再把这个模式复制到你自己的系统里。
judge 技能常见问题
judge 只用于代码审查吗?
不是。judge 技能的用途是评估任何适合用 rubric 来判断的产物:提示词、文档、分析、agent 输出或设计决策都可以。关键要求是,结果能够依据明确标准并结合证据来判断。
什么时候不该用 judge?
当你只需要快速的主观反应、还没有完成的产物,或者任务无法依据证据评估时,不要用 judge。此时,通常一个更简单的提示词会更快,也更不容易出问题。
judge 适合新手吗?
适合,前提是用户能够说清楚产物是什么、成功标准是什么。新手通常只是因为在没有上下文的情况下就要求“给判断”而卡住。这个技能通过强制加入 meta-judge 步骤来缓解这个问题,但它仍然需要一个清晰的目标。
judge 和普通提示词有什么不同?
普通提示词往往让一个模型在一次流程里同时发明标准并对结果打分。judge 技能把这两个角色拆开,这通常能提升一致性、减少偏差,也让最终报告更值得信任。
如何改进 judge 技能
把评估目标说清楚
最好的 judge 输入会明确写出具体产物、目标受众,以及你想支持的决策。例如:Evaluate the new onboarding doc for first-time contributors, with emphasis on setup clarity and missing prerequisites. 这比 Check my doc 更好,因为 rubric 可以真正对齐用户风险。
加上会影响 rubric 的约束
如果你在意逐行证据、引用要求,或特定评分尺度,请一开始就说明。judge 在知道应该优先看正确性、完整性、UX 清晰度还是策略合规性时表现更好,而不是默认把它们平均处理。
读完第一份报告后再迭代
先用第一份 judge 报告来收紧下一轮提示词:补充缺失上下文、澄清权衡关系,并指出哪些部分感觉评分不够。对于 Skill Authoring,最有价值的迭代通常是让 judge 分别重新评估安装清晰度、使用场景真实性和边界情况。
注意常见失败模式
当原始内容本身很模糊、产物还不完整,或者评估重点塞进了太多目标时,judge 的表现可能会变差。如果出现这种情况,就把任务拆成更窄的多轮处理,只给 judge 当前决策所需的材料。
