judge

作者 NeoLabHQ

Judge 是一个两阶段评估技能：先启动 meta-judge，再启动 judge 子代理，在隔离上下文、证据和明确标准下对作品打分。适合用于代码、写作、分析或 Skill Authoring 的仅报告式审查；当你需要一份站得住脚的 judge 指南，而不是随口给出的意见时，它尤其合适。

Stars982

收录时间2026年5月9日

分类Skill 编写

安装命令

npx skills add NeoLabHQ/context-engineering-kit --skill judge

编辑评分

这个技能得分 66/100，说明它可以上架，但只适合作为给想要结构化判断流程的用户提供的一个中等、带保留意见的选项。它具备足够真实的操作内容，足以支持安装；不过目录用户应预期需要自行做一些解读，因为该仓库没有配套脚本、参考资料或安装命令，而且工作流主要都写在一个 SKILL.md 文件里。

66/100

亮点

触发条件和用途清晰：frontmatter 说明它会先启动 meta-judge，再启动 judge 子代理，在当前对话中执行评估。
工作流内容较充实：技能正文篇幅较长，包含多个标题和明确阶段，说明这不是一个占位式的 judge 流程。
强调证据：它明确要求结构化评分和引用，这比泛泛的提示词更能提升代理可靠性。

注意点

没有支持文件或安装命令，因此采用方式取决于阅读并手动执行 SKILL.md 中的工作流。
操作细节仍有相当一部分埋在正文里；目录用户可能需要自行推断确切执行步骤和边界情况的处理方式。

Claude Claude Code Agents Evaluation 验证推理上下文工程

概览

judge 技能概览

judge 是做什么的

judge 技能会启动一个两阶段评估工作流：先由 meta-judge 为任务定义合适的评分标准，再由 judge 子代理在隔离上下文中基于证据对成果打分。它特别适合需要严谨审查代码、分析、写作或 agent 输出的用户，而不是只想要一个随意意见的人。

谁应该使用 judge

当你需要一份只输出结论的评估，并且希望标准清晰、引用明确、反馈可执行时，就该用 judge 技能。它非常适合 Skill Authoring 审查、repo 变更审查，以及任何可能被确认偏误或会话延续效应影响判断的任务。

它为什么不一样

和那种泛泛要求“给点反馈”的提示词不同，judge 会在评分开始前先构建评估标准。这让 judge 技能在以下场景里更有优势：待评估的产物类型不确定、你需要多维度打分，或者这份审查结果必须能向另一位人类交代得清楚。

如何使用 judge 技能

安装 judge 并检查入口文件

使用 npx skills add NeoLabHQ/context-engineering-kit --skill judge 安装。先从 plugins/sadd/skills/judge/SKILL.md 看起，因为这里写明了决定 judge 安装行为的工作流、输入项和评估约束。

给 judge 一个明确的评估目标

这个技能在你同时说明“评估什么”和“从什么角度评估”时效果最好。一个好的提示词可以是：Judge the last draft of the launch page for clarity, SEO fit, and factual accuracy. 像 Review this 这样模糊的说法，会让 meta-judge 多出很多猜测空间。

为 judge 流水线提供合适的上下文

请包含要评估的产物、成功标准，以及任何硬性约束，例如语气、受众、评分优先级或禁止更改的内容。如果你把 judge 用于 Skill Authoring，一定要明确说明，并点出目标 skill，因为评分标准应当围绕安装清晰度、可发现性和说明质量来调整。

先读这些文件

在安装和适配时，先读 SKILL.md，然后再看仓库里包含的任何工作流或策略文件。在这个仓库里，skill 本体就是主要事实来源，所以最快的路径，是先检查提示词结构、工作流阶段和证据要求，再把这个模式复制到你自己的系统里。

judge 技能常见问题

judge 只用于代码审查吗？

不是。judge 技能的用途是评估任何适合用 rubric 来判断的产物：提示词、文档、分析、agent 输出或设计决策都可以。关键要求是，结果能够依据明确标准并结合证据来判断。

什么时候不该用 judge？

当你只需要快速的主观反应、还没有完成的产物，或者任务无法依据证据评估时，不要用 judge。此时，通常一个更简单的提示词会更快，也更不容易出问题。

judge 适合新手吗？

适合，前提是用户能够说清楚产物是什么、成功标准是什么。新手通常只是因为在没有上下文的情况下就要求“给判断”而卡住。这个技能通过强制加入 meta-judge 步骤来缓解这个问题，但它仍然需要一个清晰的目标。

judge 和普通提示词有什么不同？

普通提示词往往让一个模型在一次流程里同时发明标准并对结果打分。judge 技能把这两个角色拆开，这通常能提升一致性、减少偏差，也让最终报告更值得信任。

如何改进 judge 技能

把评估目标说清楚

最好的 judge 输入会明确写出具体产物、目标受众，以及你想支持的决策。例如：Evaluate the new onboarding doc for first-time contributors, with emphasis on setup clarity and missing prerequisites. 这比 Check my doc 更好，因为 rubric 可以真正对齐用户风险。

加上会影响 rubric 的约束

如果你在意逐行证据、引用要求，或特定评分尺度，请一开始就说明。judge 在知道应该优先看正确性、完整性、UX 清晰度还是策略合规性时表现更好，而不是默认把它们平均处理。

读完第一份报告后再迭代

先用第一份 judge 报告来收紧下一轮提示词：补充缺失上下文、澄清权衡关系，并指出哪些部分感觉评分不够。对于 Skill Authoring，最有价值的迭代通常是让 judge 分别重新评估安装清晰度、使用场景真实性和边界情况。

注意常见失败模式

当原始内容本身很模糊、产物还不完整，或者评估重点塞进了太多目标时，judge 的表现可能会变差。如果出现这种情况，就把任务拆成更窄的多轮处理，只给 judge 当前决策所需的材料。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

create-colleague

作者 titanwings

create-colleague 可将同事文档、聊天记录、邮件、截图、Feishu 和 DingTalk 数据整理为可编辑的 AI 技能，并分别产出工作风格与人物画像内容，还提供持续迭代的更新流程。

Skill 编写

收藏 1GitHub 747

skill-creator

作者 anthropics

skill-creator 是一个用于 Skill 编写的元技能，可用于起草新技能、修改现有 `SKILL.md`、运行评测、对比不同方案，并借助仓库脚本和审查工具优化触发描述。

Skill 编写

收藏 2GitHub 105.1k

lean-ux-canvas

作者 deanpeters

lean-ux-canvas 帮助团队梳理业务问题、暴露假设，并使用 Lean UX Canvas v2 明确下一步要学什么。适合工作坊准备、干系人对齐，以及在进入方案设计前需要一份实用的 lean-ux-canvas 指南时用于早期产品发现。

Skill 编写

收藏 0GitHub 4.1k

documentation-lookup

作者 affaan-m

documentation-lookup 帮助 agent 直接从最新文档回答库、框架和 API 问题，而不是依赖记忆。它非常适合安装、配置、参考资料和代码示例类任务，尤其是在最新语法很重要时。对于依赖实时文档和版本准确指导的 Skill Docs 请求，建议使用 documentation-lookup 技能。

Skill 文档

收藏 0GitHub 156.1k

mcp-builder

作者 anthropics

mcp-builder 是一份面向外部 API 与服务的 MCP 服务器规划、开发和评估实用指南。它帮助开发者确定工具边界、命名方式、传输方案，以及 Python 或 Node 的实现模式与评估流程，让 agent 能更稳定地使用服务器。

MCP 服务开发

收藏 0GitHub 105k

user-story

作者 deanpeters

user-story 技能可帮助你把产品需求转化为一条可直接进入开发的用户故事，采用 Mike Cohn 语法和 Gherkin 验收标准。适用于更清晰的交接、更准确的估算，以及为技术写作和产品团队提供更紧凑的用户故事指南。

技术写作

收藏 0GitHub 4.1k

user-story-splitting

作者 deanpeters

user-story-splitting 这项技能可帮助你使用结构化模式，将大型 epic 和 user story 拆分成更小、可独立交付的故事。适用于估算、排期、降低风险，以及当 backlog 条目过于宽泛、无法放进一个 sprint 时的 Skill Authoring 工作流。

Skill 编写

收藏 0GitHub 0

sanity-best-practices

作者 sanity-io

sanity-best-practices 技能可帮助你在动手前先选对 Sanity 的实践模式。适用于 schemas、GROQ、TypeGen、Visual Editing、Portable Text、本地化、迁移、Functions、Blueprints，以及 Next.js、Nuxt、Astro、Remix、SvelteKit、Angular、Hydrogen 和 App SDK 等前端集成场景。

前端开发

收藏 0GitHub 0

provider-docs

作者 hashicorp

provider-docs 技能可帮助你为 Terraform Provider 创建、更新并验证 Terraform Registry 文档。它适用于 provider-docs 指南工作、Technical Writing 场景下的 provider-docs，以及在文档变更时保持 schema 描述、tfplugindocs 模板和 Registry 输出同步。

技术写作

收藏 0GitHub 0

press-release

作者 deanpeters

press-release 技能可帮助你在动手构建前，先起草一份 Amazon 风格的 Working Backwards 新闻稿。它适合用来厘清客户价值、验证产品或功能想法，并用一段简洁、以客户为中心的叙述让相关方达成一致。对 Technical Writing 的 press-release 场景以及早期产品规划都很有帮助。

技术写作

收藏 0GitHub 4.1k

writing-skills

作者 obra

writing-skills 是一份面向 Skill Authoring 的实用指南，用于以测试驱动的工作流创建、编辑和验证 agent skills。你可以快速了解关键文件、前置条件，以及如何处理压力场景、基线测试，并高效迭代简洁的 `SKILL.md`。

Skill 编写

收藏 0GitHub 121.9k

prd-generator

作者 ognjengt

prd-generator 能把一个粗略的产品想法转化为适合 AI 使用的 Product Requirements Document（PRD）。它会先追问关键澄清问题，再按固定模板整理内容，帮助创始人、产品负责人和 Skill Authoring 工作流产出更清晰的规格说明，供下游 AI 编码工具使用。当你需要结构化需求、指标、约束以及可直接用于实现的上下文时，就用 prd-generator。

Skill 编写

收藏 0GitHub 0

command-creator

作者 softaworks

command-creator 可帮助你把反复使用的 Claude Code 工作流整理成可复用的 slash commands。你可以了解合适的命令设计模式，编写 agent 可执行的指令，判断应使用 `.claude/commands/` 还是 `~/.claude/commands/`，并借助随附参考资料查看示例与最佳实践。

Skill 编写

收藏 0GitHub 1.3k

altitude-horizon-framework

作者 deanpeters

altitude-horizon-framework 是一款面向 PM 晋升到 Director 过渡的决策技能。可用于诊断“高度”和“视野”上的偏差，澄清范围与时机，并在战略表述模糊时应用 Cascading Context Map。内容还包含实用的安装、用法与示例说明，便于技能编写与落地。

Skill 编写

收藏 0GitHub 4.1k

prompt-optimizer

作者 affaan-m

prompt-optimizer 是一项 prompt-optimizer 技能，用于分析粗糙的提示词，找出缺失的上下文，并将其改写为更清晰、可直接粘贴的提示词。它最适合 prompt-optimizer 指南类工作、提示词审阅，以及用于 Prompt Writing 的 prompt-optimizer，尤其是在你需要为 Claude Code 或 ECC 工作流整理出更好的结构时。它不会执行底层任务。

提示词写作

收藏 0GitHub 156.2k

continuous-learning-v2

作者 affaan-m

continuous-learning-v2 将 Claude Code 会话转化为按项目作用域的学习流程，结合 hooks、observer agents、置信度评分，以及把重复模式晋升为 skills、commands 或 agents。

Skill 编写

收藏 0GitHub 156.1k