judge-with-debate

작성자 NeoLabHQ

judge-with-debate는 공유된 사양, 근거 기반 반박, 최대 3라운드의 토론을 통해 다중 에이전트 토론 방식으로 솔루션을 평가합니다. 코드 리뷰, 루브릭 기반 평가, 그리고 Multi-Agent Systems 워크플로우에서의 judge-with-debate에 특히 적합합니다.

Stars982

즐겨찾기0

추가됨2026년 5월 9일

카테고리Multi-Agent Systems

설치 명령어

npx skills add NeoLabHQ/context-engineering-kit --skill judge-with-debate

큐레이션 점수

이 스킬은 76/100점으로, Agent Skills Finder에 올릴 만한 탄탄한 후보입니다. 디렉터리 사용자는 다중 에이전트 토론 기반 평가를 위한 실제로 재사용 가능한 워크플로우를 기대할 수 있으며, 설치할 만큼의 구조도 갖추고 있습니다. 다만 저장소에 설치 명령이나 보조 지원 파일이 드러나지 않으므로, 실제 도입 시에는 일부 해석이 필요할 수 있습니다.

76/100

강점

명확하고 실행 중심적인 트리거: frontmatter와 작업 설명에서 독립적인 판정자들 간의 다단계 토론으로 솔루션을 평가한다고 직접 밝힙니다.
높은 운영적 밀도: 본문이 충분히 길고, 여러 개의 제목과 워크플로 신호를 포함하며, 여러 차례의 토론 라운드, 메타 판정자, 공유 평가 사양까지 드러납니다.
에이전트 활용도가 높음: 근거 기반 비평, 반복적 개선, 합의를 강조해 일반적인 평가용 프롬프트보다 훨씬 실질적인 효용을 제공합니다.

주의점

설치 명령이나 지원 파일이 제공되지 않아, 사용자가 자신의 에이전트 설정에 어떻게 연결할지 직접 판단해야 할 수 있습니다.
발췌된 내용은 프로세스 구조는 잘 보여주지만, 보이는 증거만으로는 온보딩 전 과정을 충분히 확인하기 어렵습니다. 처음 사용하는 경우 SKILL.md 전체를 꼼꼼히 읽어야 할 수 있습니다.

Agents Evaluation Reasoning Workflow Claude Anthropic

개요

judge-with-debate 기능 개요

judge-with-debate 기능은 한 번에 내리는 단일 의견이 아니라, 구조화된 다중 에이전트 논쟁을 통해 솔루션을 평가할 때 사용합니다. 품질, 정확성, 트레이드오프에 대해 방어 가능한 판단이 필요하고, 최종 채점 전에 judge-with-debate 기능이 근거, 반론, 수렴 과정을 강제로 거치게 하려는 경우에 가장 적합합니다.

judge-with-debate 기능의 용도

judge-with-debate는 “답을 작성하라”가 아니라 “이 답, 설계, 구현이 실제로 좋은지 판단하라”가 과제일 때 쓰는 기능입니다. 코드 리뷰, 솔루션 순위 매기기, 루브릭 기반 평가, 그리고 한 번의 모델 패스로 생길 수 있는 편향이 위험한 모든 Multi-Agent Systems 워크플로에 잘 맞습니다.

일반 프롬프트와 다른 점

일반적인 평가 프롬프트는 보통 한 가지 의견만 요구합니다. 반면 judge-with-debate는 메타 심판, 공통 평가 명세, 반복 토론 라운드를 추가해 결과를 쉽게 얼버무리기 어렵게 만듭니다. 그래서 judge-with-debate 기능은 속도보다 정확성이 더 중요한 상황에서 특히 유용합니다.

이런 사용자에게 적합합니다

이 기능은 단순한 판정이 아니라, 반복 가능한 평가 기준이 필요한 에이전트, 리뷰어, 빌더에게 잘 맞습니다. 여러 후보 솔루션을 비교하거나, judge-with-debate 가이드를 사용해 사례 간 점수를 일관되게 내야 한다면, 이 기능이 준비 시간을 줄이고 추측을 덜어줍니다.

judge-with-debate 기능 사용 방법

먼저 설치하고 기능을 확인하세요

사용 중인 skill manager에서 저장소 설치 흐름을 통해 먼저 설치한 뒤, 적용하기 전에 기능 파일을 읽어보세요. 일반적인 judge-with-debate install 경로는 plugins/sadd/skills/judge-with-debate/SKILL.md를 찾고, 이어서 주변 저장소 규칙까지 확인해 이 기능이 입력과 출력을 어떤 방식으로 정리하길 기대하는지 파악하는 것입니다.

적절한 입력 형태를 제공하세요

이 기능은 솔루션 경로나 산출물에 더해 명확한 평가 기준을 함께 줄 때 가장 잘 작동합니다. 좋은 judge-with-debate usage 프롬프트는 무엇을 판정하는지, “좋다”의 기준이 무엇인지, 어떤 제약이 중요한지 분명히 적습니다. 예: Judge this PR against correctness, maintainability, and spec compliance; prioritize evidence from the diff and call out any missing edge cases.

동작을 정의하는 파일부터 보세요

먼저 SKILL.md를 읽고, 실행에 영향을 주는 주변 저장소 규칙을 확인하세요. 이 저장소에서는 기능 본문 자체가 가장 중요한 검토 대상이며, 별도의 helper script나 추가 reference folder는 없습니다. 따라서 설치 여부를 판단할 때는 단일 source of truth에 적힌 작업 흐름, 토론 단계, 출력 기대치를 이해하는 것이 핵심입니다.

토론에 맞는 워크플로로 사용하세요

실용적인 judge-with-debate 가이드는 이렇습니다. 먼저 대상 하나, 루브릭 하나, 그리고 반드시 지켜야 할 제약을 앞에 제시합니다. 그다음 메타 심판이 명세를 다듬게 한 뒤, 심판들이 같은 점수를 반복 말하기보다 근거를 두고 논쟁하게 하세요. 이 기능은 “명세,” “분석,” “합의”를 구분해서 유지할 때 가장 강합니다. 이 단계를 뭉개면 토론의 가치가 크게 줄어듭니다.

judge-with-debate 기능 FAQ

judge-with-debate는 코드 리뷰 전용인가요?

아닙니다. judge-with-debate 기능은 여러 관점이 신뢰도를 높여주는 구조화된 평가라면 무엇이든 사용할 수 있습니다. 코드, 프롬프트, 계획안, 리서치 요약, 경쟁 솔루션 모두 대상이 될 수 있습니다. 잘못된 판단의 비용이 평가를 길게 하는 비용보다 클수록 이 기능의 가치가 커집니다.

언제는 사용하지 않는 게 좋나요?

빠른 휴리스틱 답변이 필요하거나, 토론할 만큼 기준이 명확하지 않거나, 비교할 만한 실질적인 증거가 없을 때는 judge-with-debate를 건너뛰세요. 단순한 규칙 기반 점검이면 충분하다면, 토론 오버헤드는 불필요합니다.

단일 강력 프롬프트보다 더 나은가요?

대체로 논쟁적인 결정에서는 그렇습니다. 이 기능은 의견 차이를 명시적으로 드러내고, 근거를 중심으로 수렴하도록 강제하기 때문입니다. 다만 단순한 작업이라면 일반 프롬프트가 더 빠르고 충분히 정확할 수 있습니다. judge-with-debate 기능은 토큰 최소화가 아니라 판단 품질을 위한 도구입니다.

초보자도 쓰기 쉬운가요?

네, 평가 대상과 루브릭을 말할 수만 있다면 가능합니다. 초보자가 가장 흔히 하는 실수는 “이거 판단해줘”처럼 넓게 요청하면서 성공 기준을 적지 않는 것입니다. 그러면 토론이 힘을 잃습니다.

judge-with-debate 기능 개선 방법

평가 기준을 더 촘촘하게 만드세요

가장 큰 품질 레버는 루브릭입니다. 단순한 판정을 요구하기보다 가중치와 실패 기준을 분명히 적으세요. 예: Score correctness 50%, robustness 30%, clarity 20%; fail if the solution misses an edge case or contradicts the spec. 기준이 강할수록 judge-with-debate 기능은 더 선명한 의견 차이와 더 깔끔한 합의를 만들어냅니다.

근거를 제시하기 쉬운 맥락을 주세요

토론은 심판이 구체적인 자료를 짚을 수 있을 때 가장 잘 작동합니다. 정확한 솔루션 경로, 관련 코드 조각, acceptance criteria, 알려진 제약을 함께 주세요. 이런 입력을 빼면 기능은 여전히 실행되지만, 토론이 근거 평가보다 추론 쪽으로 흐르기 쉽습니다.

흔한 실패 모드를 점검하세요

가장 흔한 실패는 과도하게 일반화된 합의입니다. 프롬프트가 너무 넓어서 모든 심판이 비슷하게 말해 버리는 경우입니다. 또 하나는 루브릭 드리프트로, 논의 중에 서로 다른 것을 점수 매기기 시작하는 상황입니다. judge-with-debate 기능 결과를 개선하려면 대상 범위를 좁게 잡고, 명시적 트레이드오프를 요청하고, 해결되지 않은 이견까지 남기는 최종 요약을 요구하세요.

첫 번째 결과를 바탕으로 다시 조정하세요

첫 출력이 너무 부드럽다면, 빠진 판단 지점을 되돌려 주고 더 구체적인 루브릭이나 더 엄격한 근거 요구로 다시 실행하세요. Multi-Agent Systems용 judge-with-debate에서는, 보통 라운드를 더 늘리는 것보다 판단 경계를 분명히 하는 편이 개선 효과가 큽니다.

평점 및 리뷰

아직 평점이 없습니다

리뷰 남기기

이 스킬의 평점과 리뷰를 남기려면 로그인하세요.

0/10000

최신 리뷰

저장 중...

이 카테고리의 다른 스킬

iterative-retrieval

작성자 affaan-m

iterative-retrieval은 에이전트 작업에서 문맥 검색을 점진적으로 정교화하는 워크플로 패턴입니다. 서브에이전트가 문맥을 너무 많이도, 너무 적게도 받지 않도록 도와주며, iterative-retrieval 사용법, 설치 판단, Workflow Automation용 iterative-retrieval에 특히 유용합니다.

Workflow Automation

즐겨찾기 0GitHub 156.2k

multi-agent-patterns

작성자 muratcankoylan

multi-agent-patterns 스킬은 Agent Orchestration, 컨텍스트 분리, 병렬 작업, 구조화된 핸드오프를 바탕으로 에이전트 시스템을 설계하고 구현하는 데 도움을 줍니다. 단일 에이전트와 멀티 에이전트 구성을 비교할 때, 또는 supervisor 라우팅, peer 핸드오프, 합의, 장애 처리가 필요할 때 사용하면 좋습니다. 에이전트 수를 늘리는 것보다 명확한 조율이 더 중요한 오케스트레이션 중심 작업에 특히 적합합니다.

Agent Orchestration

즐겨찾기 0GitHub 15.6k

agents-sdk

작성자 cloudflare

agents-sdk는 상태를 유지하는 대화, 내구성 있는 실행, WebSocket 또는 스트리밍 채팅, MCP 통합, 예약 작업, 브라우저 자동화를 갖춘 Cloudflare Workers 에이전트를 만드는 데 도움이 됩니다. 이 agents-sdk 스킬은 기존 Workers 앱이든 새 앱이든 설치 여부 판단, 설정, 실전 활용에 초점을 맞추며, Cloudflare 런타임 제약에 맞을 때만 멀티 에이전트 시스템을 다룹니다.

Multi-Agent Systems

즐겨찾기 0GitHub 1.3k

agentic-development

작성자 alinaqi

agentic-development 스킬은 Python의 Pydantic AI 또는 Node.js의 Claude Agent SDK를 사용해 여러 단계의 오케스트레이션이 필요한 AI 에이전트를 만드는 데 도움을 줍니다. 어떤 프레임워크를 선택할지 정하고, 도구를 정의하고, 유형이 명확하며 운영에 바로 쓸 수 있는 에이전트 워크플로를 구성할 때 활용하세요.

Agent Orchestration

즐겨찾기 0GitHub 0

do-in-parallel

작성자 NeoLabHQ

do-in-parallel은 Agent Orchestration용 워크플로 기술로, 여러 하위 에이전트를 파일이나 대상별로 병렬 실행하고, 반복 가능한 작업을 지능적으로 묶어 처리하며, meta-judges와 LLM-as-a-judge 검토로 결과를 검증합니다. 일반적인 프롬프트보다 시행착오를 줄이면서 배치 실행이 필요할 때 do-in-parallel 기술을 사용하세요.

Agent Orchestration

즐겨찾기 0GitHub 982

agent-teams

작성자 alinaqi

agent-teams는 엄격한 TDD 파이프라인을 기반으로 하는 Claude Code 워크플로 스킬입니다. spec 작성, 리뷰, 실패 테스트, 구현, 보안 점검, PR 조율을 함께 관리해 claude-bootstrap을 사용하는 팀의 멀티 에이전트 기능 전달을 체계화합니다. 반복 가능한 인계, 품질 게이트, 그리고 기능 브랜치에서의 에이전트 드리프트 감소가 필요할 때 설치하세요.

Multi-Agent Systems

즐겨찾기 0GitHub 0

dmux-workflows

작성자 affaan-m

dmux-workflows는 tmux 패널에서 dmux를 사용해 병렬 AI 에이전트 세션을 조율하는 가이드입니다. 리서치, 구현, 테스트, 문서 작업을 Claude Code, Codex, OpenCode 및 유사한 하니스에 나눠 배분해, 컨텍스트 병목을 줄이면서 멀티 에이전트 개발을 관리할 수 있도록 돕습니다.

Multi-Agent Systems

즐겨찾기 0GitHub 156.1k

subagent-driven-development

작성자 NeoLabHQ

subagent-driven-development는 구현 계획을 독립적인 작업으로 쪼개고, 각 작업마다 새 subagent를 투입한 뒤, 단계마다 결과를 검토할 수 있게 도와줍니다. 속도와 품질 게이트를 함께 챙겨야 하는 agent orchestration에 적합하며, 특히 3개 이상의 독립 이슈, 버그 수정, 기능 단위 작업, 또는 저장소 정리에 유용합니다.

Agent Orchestration

즐겨찾기 0GitHub 982

launch-sub-agent

작성자 NeoLabHQ

launch-sub-agent는 멀티 에이전트 시스템에서 범위가 정해진 작업을 처리하도록 집중형 서브 에이전트를 호출하는 데 도움을 줍니다. 작업 복잡도를 분석하고, 적절한 모델 등급을 선택하며, 전문 에이전트 매칭을 지원하고, 자기 검토 기반 검증을 더해 더 신뢰할 수 있는 결과를 얻도록 합니다.

Multi-Agent Systems

즐겨찾기 0GitHub 982

multi-agent-patterns

작성자 NeoLabHQ

multi-agent-patterns는 Claude Code에서 한 에이전트만으로는 부족할 때 Multi-Agent Systems를 설계하는 실용 가이드입니다. 작업을 분리하고, 서브 에이전트를 조율하고, 불필요한 오버헤드 없이 오케스트레이션 패턴을 비교할 때 활용할 수 있습니다.

Multi-Agent Systems

즐겨찾기 0GitHub 982

model-hierarchy

작성자 zscole

model-hierarchy 스킬은 에이전트가 작업을 처리할 수 있는 가장 저렴한 모델로 업무를 라우팅하도록 도와 비용을 더 잘 통제하면서도 일상적인 품질은 유지하게 해줍니다. 워크플로 자동화, 서브에이전트 생성, 간단한 작업 분류에 이 model-hierarchy 가이드를 활용하세요. 즉흥적으로 모델을 고르는 대신, 반복 가능한 model-hierarchy 사용 패턴이 필요한 설치에 잘 맞습니다.

Workflow Automation

즐겨찾기 0GitHub 341

codex-collab

작성자 Kevin7Qi

codex-collab은 codex app-server JSON-RPC 프로토콜을 통해 작업을 Codex에 넘기기 위한 Claude Code 스킬입니다. codex-collab 스킬을 사용하면 작업을 끝까지 실행하고, 코드를 리뷰하며, 병렬로 리서치하고, 재시작 가능한 스레드와 재사용 가능한 출력을 바탕으로 워크플로 자동화를 지원할 수 있습니다.

Workflow Automation

즐겨찾기 0GitHub 0

autonomous-loops

작성자 affaan-m

autonomous-loops는 단순한 순차 파이프라인부터 품질 게이트와 핸드오프를 포함한 멀티 에이전트 DAG 오케스트레이션까지, 자율형 Claude Code 워크플로를 설계하기 위한 스킬입니다.

Agent Orchestration

즐겨찾기 0GitHub 156.1k

autonomous-agent-harness

작성자 affaan-m

autonomous-agent-harness는 Claude Code를 메모리, 예약 실행, 작업 분배, 컴퓨터 사용을 갖춘 지속형 자기지시 에이전트 시스템으로 바꿉니다. 일회성 프롬프트로는 부족하고 에이전트 오케스트레이션, 반복 점검, 장기 실행 워크플로가 필요할 때 적합합니다.

Agent Orchestration

즐겨찾기 0GitHub 156.1k

santa-method

작성자 affaan-m

santa-method는 배포 전에 반드시 정확해야 하는 결과물을 위한 멀티 에이전트 검증 워크플로입니다. 독립적인 검토를 통해 콘텐츠, 코드 인접 산출물, 컴플라이언스 민감 문구, 워크플로 자동화 작업의 사각지대를 찾아냅니다. 산출물을 만들고, 검증하고, 수렴시키는 반복 루프가 필요할 때 santa-method 스킬을 설치하세요.

Workflow Automation

즐겨찾기 0GitHub 156.2k

claude-devfleet

작성자 affaan-m

claude-devfleet는 Claude DevFleet용 멀티 에이전트 오케스트레이션 스킬입니다. 프로젝트 계획을 세우고, 격리된 worktree에서 병렬 에이전트를 실행·배치하며, 진행 상황을 모니터링하고, 구조화된 보고서를 확인하는 데 도움이 됩니다. 의존성을 고려해야 하는 큰 코딩 작업에 적합하며, 단순한 단일 파일 수정에는 덜 어울립니다.

Agent Orchestration

즐겨찾기 0GitHub 156.1k