judge-with-debate

作者 NeoLabHQ

judge-with-debate 通过结构化的多智能体辩论来评估解决方案，使用共享规范、基于证据的反驳，以及最多 3 轮讨论达成共识。它非常适合代码审查、基于评分标准的评估，以及 Multi-Agent Systems 工作流中的 judge-with-debate。

Stars982

收录时间2026年5月9日

分类多 Agent 系统

安装命令

npx skills add NeoLabHQ/context-engineering-kit --skill judge-with-debate

编辑评分

该技能得分 76/100，说明它是 Agent Skills Finder 中一个相当扎实的候选条目。目录用户可以合理期待这是一个真实、可复用的多智能体辩论式评估工作流，结构也足够完整，值得安装；不过也要注意，由于仓库没有提供安装命令或配套支持文件，实际接入时可能需要一定的自行判断。

76/100

亮点

触发意图明确且行动导向：frontmatter 和任务文本都直接说明，它通过独立评审之间的多轮辩论来评估解决方案。
运行层面的内容很充实：正文篇幅较长，包含大量标题和流程信号，比如多轮辩论、元评审（meta-judge）以及共享评估规范。
对智能体很有用：该技能强调基于证据的批评、迭代完善和共识达成，这比用于评估任务的通用提示词更有价值。

注意点

没有提供安装命令或支持文件，因此用户可能需要自行推断如何接入到自己的智能体配置中。
可见内容虽然有很强的流程框架，但没有完整的端到端上手细节；首次使用者可能需要仔细通读完整的 SKILL.md。

Agents Evaluation 推理工作流 Claude Anthropic

概览

judge-with-debate 技能概览

judge-with-debate 技能用于通过结构化的多智能体分歧来评估一个方案，而不是只看单次判断结果。它最适合你需要对质量、正确性或权衡做出可辩护的判断时使用；judge-with-debate 技能会在最终评分前强制引入证据、反驳观点和收敛过程。

judge-with-debate 适合做什么

当任务不是“写一个答案”，而是“判断这个答案、设计或实现到底好不好”时，就该用 judge-with-debate。它非常适合代码审查、方案排序、基于 rubric 的评估，以及任何 Multi-Agent Systems 工作流中单次模型输出带来偏差风险较高的场景。

它和普通 prompt 有什么不同

通用的评估 prompt 通常只会要求一个观点。judge-with-debate 会加入 meta-judge、共享的评估规范和多轮辩论，因此结果不容易被含糊带过。这也让 judge-with-debate 技能在准确性比速度更重要时更有价值。

适合哪些读者

这个技能适合需要可重复评估标准，而不仅仅是一个结论的 agent、reviewer 和 builder。如果你要比较多个候选方案，或者需要 judge-with-debate 指南在不同案例之间产出一致评分，它能帮你节省搭建成本并减少试错。

如何使用 judge-with-debate 技能

先安装，再检查技能内容

先在你的 skill manager 里按仓库的安装流程完成安装，然后在真正应用之前先读 skill 文件。典型的 judge-with-debate install 路径是先定位到 plugins/sadd/skills/judge-with-debate/SKILL.md，再确认周边仓库约定，这样你才知道这个技能期望输入和输出如何组织。

提供正确的输入形态

这个技能在你同时提供一个方案工件和明确评估标准时效果最好。一个好的 judge-with-debate usage prompt 会说明评什么、什么叫“好”，以及哪些约束最重要。例如：Judge this PR against correctness, maintainability, and spec compliance; prioritize evidence from the diff and call out any missing edge cases.

先看定义行为的文件

先读 SKILL.md，再查看会影响执行的仓库约定。这个仓库里最需要检查的是技能主体本身；没有额外的 helper scripts 或参考文件夹，所以安装决策主要取决于你是否理解任务流程、辩论阶段，以及这个单一事实来源给出的输出预期。

放进适合辩论的工作流里使用

一个实用的 judge-with-debate 指南是：先明确给出一个目标、一个 rubric 和所有硬约束；让 meta-judge 生成规范；然后让各个 judge 基于证据展开争论，而不是只是换句话说重复同一个分数。这个技能最强的地方在于你保留了“规范”“分析”“共识”这三步的区分；如果把这些步骤混在一起，辩论的价值就会明显下降。

judge-with-debate 技能 FAQ

judge-with-debate 只适合代码审查吗？

不是。judge-with-debate 技能适用于任何需要多视角提升可信度的结构化评估：代码、prompt、计划、研究摘要，或彼此竞争的方案。它在错误判断代价高于延长评估时间时尤其有价值。

什么时候不该用它？

当你只需要一个快速的经验性答案、当评估标准模糊到没法辩论、或者根本没有有意义的证据可以比较时，就别用 judge-with-debate。如果简单的规则检查已经够用，那么辩论带来的额外开销就没有必要。

它比单个强 prompt 更好吗？

对于有争议的决策，通常是的，因为这个技能会把分歧显式化，并强迫围绕证据达成收敛。不过对于简单任务，普通 prompt 可能更快，也已经足够准确；judge-with-debate 技能关注的是决策质量，而不是最少 token。

它适合新手吗？

适合，只要你能说清工件是什么，并明确 rubric。新手最常见的错误是只说“帮我判断一下”，却不说明成功标准是什么，这会让辩论缺乏足够力度。

如何改进 judge-with-debate 技能

把评估标准收得更紧

质量提升最大的杠杆就是 rubric。不要只要一个泛泛结论，而要明确加权关注点和失败阈值：Score correctness 50%, robustness 30%, clarity 20%; fail if the solution misses an edge case or contradicts the spec. 更强的标准能帮助 judge-with-debate 技能产生更尖锐的分歧和更干净的共识。

提供可直接用于举证的上下文

辩论最有效的时候，是 judges 能指向具体材料：准确的方案路径、相关片段、验收标准和已知约束。如果这些输入缺失，技能仍然可以运行，但辩论很容易滑向推断，而不是基于事实的评估。

注意常见失败模式

最主要的失败模式是过度泛化的共识：因为 prompt 太宽泛，所有 judges 都显得观点一致。另一个问题是 rubric 漂移，也就是讨论开始评判别的东西。要提升 judge-with-debate 技能的结果，就要把目标收窄，要求明确给出权衡，并让最终总结保留尚未解决的分歧。

在第一次输出后继续迭代

如果第一次输出太保守，就把缺失的决策点反馈回去，再用更具体的 rubric 或更严格的证据要求重新运行。对于 Multi-Agent Systems 场景里的 judge-with-debate，最有效的改进通常来自把决策边界说清楚，而不是单纯增加更多轮次。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

iterative-retrieval

作者 affaan-m

iterative-retrieval 是一种工作流模式，用于在 agentic 工作中逐步优化上下文检索。它能帮助 subagents 避免获取过多或过少的上下文，因此适用于 iterative-retrieval 的使用场景、安装决策，以及 Workflow Automation 中的 iterative-retrieval。

工作流自动化

收藏 0GitHub 156.2k

agents-sdk

作者 cloudflare

agents-sdk 可帮助你构建带有有状态对话、持久化执行、WebSocket 或流式聊天、MCP 集成、定时任务和浏览器自动化的 Cloudflare Workers 代理。这个 agents-sdk 技能重点面向安装决策、配置和实际使用，适用于现有或新建的 Workers 应用；只有在多代理系统确实符合 Cloudflare 运行时限制时，才会提供相应指导。

多 Agent 系统

收藏 0GitHub 1.3k

agentic-development

作者 alinaqi

agentic-development 技能可帮助你使用 Python 中的 Pydantic AI 或 Node.js 中的 Claude Agent SDK 构建用于多步骤编排的 AI 智能体。可用它来选择框架、定义工具，并设计类型明确、可投入生产的智能体工作流。

Agent 编排

收藏 0GitHub 0

do-in-parallel

作者 NeoLabHQ

do-in-parallel 是一款面向 Agent Orchestration 的工作流技能，可在文件或目标范围内并行启动多个子代理，智能分组可重复工作，并通过 meta-judges 和 LLM-as-a-judge 复核结果。当你需要批量执行、又希望比通用提示更少靠猜测时，适合使用 do-in-parallel 技能。

Agent 编排

收藏 0GitHub 982

agent-teams

作者 alinaqi

agent-teams 是一个面向 Claude Code 的工作流技能，专为多智能体功能交付设计，采用严格的 TDD 流程。它会协调规范编写、评审、失败测试、实现、安全检查以及 PR 编排，适合使用 claude-bootstrap 的团队。在你需要可重复的交接、质量关卡，以及在功能分支上减少 agent 偏移时安装它。

多 Agent 系统

收藏 0GitHub 0

dmux-workflows

作者 affaan-m

dmux-workflows 是一份使用 dmux 在 tmux 窗格中编排并行 AI 代理会话的指南。它帮助你把研究、实现、测试和文档工作拆分到 Claude Code、Codex、OpenCode 及类似运行框架中，从而以更少的上下文瓶颈管理多智能体开发。

多 Agent 系统

收藏 0GitHub 156.1k

subagent-driven-development

作者 NeoLabHQ

subagent-driven-development 帮助你把实现计划拆分为独立任务，为每个任务派发一个全新的 subagent，并在各步骤之间审查结果。它适用于需要通过 agent 编排来更快交付、同时保留质量关卡的场景，尤其是 3 个及以上彼此独立的问题、bug 修复、功能切片或仓库清理。

Agent 编排

收藏 0GitHub 982

launch-sub-agent

作者 NeoLabHQ

launch-sub-agent 可帮助你在多智能体系统中为边界明确的任务派发一个专注的子智能体。它会分析任务复杂度，选择合适的模型层级，支持按专长匹配智能体，并加入自我审查验证，以获得更可靠的结果。

多 Agent 系统

收藏 0GitHub 982

multi-agent-patterns

作者 NeoLabHQ

multi-agent-patterns 是一份实用指南，帮助你在 Claude Code 中设计 Multi-Agent Systems，适用于单个 agent 不够用的场景。它可用于拆分工作、协调子 agent，并比较不同编排模式，而不会增加不必要的开销。

多 Agent 系统

收藏 0GitHub 982

model-hierarchy

作者 zscole

model-hierarchy 技能帮助智能体把任务分派给能够处理它的最低成本模型，在不牺牲常规质量的前提下提升成本控制效果。这个 model-hierarchy 指南适用于 Workflow Automation、子智能体创建和简单任务分类。它适合那些希望采用可重复的 model-hierarchy 使用模式，而不是临时挑选模型的安装场景。

工作流自动化

收藏 0GitHub 341

autonomous-loops

作者 affaan-m

autonomous-loops 是一项用于设计自主 Claude Code 工作流的技能，涵盖从简单的顺序流水线到带质量门禁和交接的多智能体 DAG 编排。

Agent 编排

收藏 0GitHub 156.1k

autonomous-agent-harness

作者 affaan-m

autonomous-agent-harness 将 Claude Code 变成一个具备记忆、定时运行、任务分发和电脑操作能力的持续自驱代理系统。它适用于代理编排、周期性检查以及长生命周期工作流，尤其是在你需要的不只是一次性提示词时。

Agent 编排

收藏 0GitHub 156.1k

santa-method

作者 affaan-m

santa-method 是一套多智能体验证工作流，适用于那些在发布前必须确保正确无误的输出。它通过独立复核来发现内容、代码相关交付物、合规敏感文案以及工作流自动化任务中的盲点。若你需要一个可重复的“生成、验证、收敛”循环，就安装 santa-method 技能。

工作流自动化

收藏 0GitHub 156.2k

claude-devfleet

作者 affaan-m

claude-devfleet 是面向 Claude DevFleet 的多 agent 编排技能，可帮助你规划项目、在隔离的 worktree 中分派并行 agent、监控进度并读取结构化报告。它更适合需要考虑依赖关系的大型编码任务，不适合快速的单文件修改。

Agent 编排

收藏 0GitHub 156.1k

dispatching-parallel-agents

作者 obra

dispatching-parallel-agents 是一项 Agent Orchestration skill，适合把真正彼此独立的任务拆分给多个 agent 并行处理，在上下文隔离的前提下统一协调结果。

Agent 编排

收藏 0GitHub 121.8k

workspace

作者 alinaqi

workspace 技能让 Claude Code 能够跨 monorepo 和多个仓库获得动态感知。可用于分析 workspace 拓扑、跟踪 API 合约，并让跨项目变更在工作流自动化中保持一致。

工作流自动化

收藏 0GitHub 607