judge

작성자 NeoLabHQ

Judge는 2단계 평가 skill로, 먼저 메타-judge를 실행한 뒤 judge 하위 에이전트가 격리된 컨텍스트, 근거, 명확한 기준으로 결과를 채점합니다. 코드, 글쓰기, 분석, Skill Authoring을 보고용으로 검토해야 할 때, 가벼운 의견이 아니라 방어 가능한 judge 가이드가 필요하다면 사용하세요.

Stars982

즐겨찾기0

추가됨2026년 5월 9일

카테고리Skill Authoring

설치 명령어

npx skills add NeoLabHQ/context-engineering-kit --skill judge

큐레이션 점수

이 skill은 66/100점으로, 목록에는 올릴 수 있지만 구조화된 판단 워크플로를 원하는 사용자에게는 무난한 수준의 제한적 선택지입니다. 설치를 정당화할 만큼 실제 운영 내용은 있지만, 저장소에 보조 스크립트, 참고자료, install command가 없고 워크플로도 대부분 하나의 SKILL.md 파일에 들어 있어 사용자가 어느 정도 해석해야 합니다.

66/100

강점

트리거와 목적이 분명합니다. frontmatter에 현재 대화에서 메타-judge를 먼저 실행한 뒤 평가용 judge 하위 에이전트를 띄운다고 명시되어 있습니다.
워크플로 내용이 충분합니다. 본문이 길고 여러 heading과 단계가 정의돼 있어, 단순한 자리표시자보다 실제 judge 프로세스에 가깝습니다.
근거 중심 설계입니다. 구조화된 점수화와 citations를 명시해, 일반적인 prompt보다 에이전트 신뢰도를 높입니다.

주의점

지원 파일이나 install command가 없어, 도입하려면 SKILL.md 워크플로를 읽고 수동으로 적용해야 합니다.
운영 세부사항이 여전히 서술 속에 일부 숨겨져 있어, 사용자가 정확한 실행 순서와 예외 처리를 스스로 추론해야 할 수 있습니다.

Claude Claude Code Agents Evaluation Verification Reasoning Context Engineering

개요

judge 개요

judge가 하는 일

judge skill은 두 단계 평가 워크플로를 실행합니다. 먼저 메타-judge가 작업에 맞는 루브릭을 정의하고, 그다음 judge 서브에이전트가 분리된 컨텍스트와 증거를 바탕으로 결과물을 채점합니다. 이 skill은 대충 의견을 내는 용도보다 코드, 분석, 글, 에이전트 출력물을 엄격하게 검토해야 하는 사용자에게 더 잘 맞습니다.

누가 judge를 사용해야 하나

명확한 기준, 인용, 실행 가능한 피드백이 포함된 보고서형 평가가 필요하다면 judge skill을 사용하세요. Skill Authoring 검토, repo 변경 검토, 그리고 확인 편향이나 세션 잔상이 판단을 흐릴 수 있는 모든 작업에 특히 잘 맞습니다.

무엇이 다른가

단순히 “피드백해 달라”는 일반 프롬프트와 달리, judge는 채점을 시작하기 전에 평가 기준부터 만듭니다. 그래서 산출물 유형이 아직 불명확하거나, 다차원 채점이 필요하거나, 다른 사람에게도 근거 있게 설명할 수 있는 검토가 필요할 때 judge skill이 더 유리합니다.

judge skill 사용 방법

judge를 설치하고 진입 파일을 확인하기

npx skills add NeoLabHQ/context-engineering-kit --skill judge로 설치하세요. plugins/sadd/skills/judge/SKILL.md부터 확인하는 것이 좋습니다. 이 파일에 judge의 설치 동작을 정의하는 워크플로, 입력값, 평가 제약이 들어 있습니다.

judge에 구체적인 평가 대상을 지정하기

이 skill은 작업과 관점을 함께 지정할 때 가장 잘 작동합니다. 좋은 프롬프트 예시는 Judge the last draft of the launch page for clarity, SEO fit, and factual accuracy.입니다. 반대로 Review this처럼 쓰면 메타-judge가 추측해야 할 부분이 너무 많아집니다.

judge 파이프라인에 맞는 컨텍스트 제공하기

평가할 산출물, 성공 기준, 그리고 톤, 대상 독자, 루브릭 우선순위, 금지되는 변경 사항 같은 강한 제약을 함께 넣으세요. Skill Authoring에 judge를 쓰는 경우에는 그 사실을 명시하고 대상 skill 이름도 적어야 합니다. 설치 명확성, 발견 가능성, 지시 품질에 맞게 루브릭이 달라져야 하기 때문입니다.

먼저 이 파일들을 읽기

설치와 적용을 위해서는 먼저 SKILL.md를 읽고, 그다음 이 repo에 포함된 워크플로 또는 정책 파일을 확인하세요. 이 repo에서는 skill 본문 자체가 핵심 기준이므로, 패턴을 자신의 시스템에 그대로 옮기기 전에 프롬프트 구조, 워크플로 단계, 증거 요구사항을 먼저 살펴보는 것이 가장 빠른 방법입니다.

judge skill FAQ

judge는 코드 리뷰에만 쓰는 건가요?

아닙니다. judge skill은 루브릭으로 평가할 수 있는 모든 산출물에 사용할 수 있습니다. 예를 들면 프롬프트, 문서, 분석, 에이전트 출력, 설계 결정 등이 있습니다. 핵심은 결과를 명시적 기준과 증거에 따라 판단할 수 있어야 한다는 점입니다.

언제 judge를 쓰지 말아야 하나요?

빠른 주관적 반응만 필요하거나, 아직 완성된 산출물이 없거나, 증거만으로 평가할 수 없는 작업이라면 judge를 쓰지 않는 편이 좋습니다. 이런 경우에는 더 단순한 프롬프트가 보통 더 빠르고 덜 취약합니다.

초보자도 judge를 쓰기 좋은가요?

네, 산출물과 성공 기준을 이름으로 지정할 수 있다면 그렇습니다. 초보자는 보통 맥락 없이 판단을 요청할 때 가장 어려움을 겪습니다. 이 skill은 메타-judge 단계를 강제해서 그 문제를 줄여 주지만, 그래도 평가 대상은 분명해야 합니다.

judge는 일반 프롬프트와 어떻게 다른가요?

일반 프롬프트는 한 모델이 기준을 만들고 결과를 채점하는 일을 한 번에 처리하게 만드는 경우가 많습니다. judge skill은 그 역할을 분리합니다. 그래서 일관성이 높아지고, 편향이 줄어들며, 최종 보고서를 더 신뢰하기 쉬워집니다.

judge skill 개선 방법

평가 대상을 분명하게 적기

judge에 가장 좋은 입력은 정확한 산출물, 원하는 독자, 그리고 지원하려는 의사결정을 함께 적은 것입니다. 예를 들면 Evaluate the new onboarding doc for first-time contributors, with emphasis on setup clarity and missing prerequisites.처럼 쓰는 편이 좋습니다. Check my doc보다 나은 이유는, 실제 사용자 리스크에 맞춰 루브릭을 정렬할 수 있기 때문입니다.

루브릭에 영향을 주는 제약 추가하기

라인 단위 증거, 인용해야 할 요구사항, 특정 점수 체계가 중요하다면 처음부터 명시하세요. judge는 정확성, 완전성, UX 명확성, 정책 준수 중 무엇을 우선해야 하는지 알 때 더 잘 작동합니다. 이 기준들을 암묵적으로 평균 내기보다, 우선순위를 분명히 알려 주는 편이 낫습니다.

첫 보고서 이후에는 반복해서 다듬기

첫 judge 보고서를 바탕으로 다음 프롬프트를 더 날카롭게 만드세요. 빠진 컨텍스트를 추가하고, 트레이드오프를 더 분명히 하고, 과소평가된 것처럼 느껴진 섹션이 있으면 이름을 지정하세요. Skill Authoring에서는 설치 명확성, 사용 현실성, 경계 사례를 각각 따로 재평가해 달라고 요청하는 반복이 특히 유용합니다.

흔한 실패 패턴을 주의하기

원본 작업이 모호하거나, 산출물이 불완전하거나, 평가 초점이 너무 많은 목표로 과부하되면 judge의 성능이 떨어질 수 있습니다. 그런 경우에는 작업을 더 좁은 단계로 나누고, 현재 판단에 필요한 자료만 judge에 넣으세요.

평점 및 리뷰

아직 평점이 없습니다

리뷰 남기기

이 스킬의 평점과 리뷰를 남기려면 로그인하세요.

0/10000

최신 리뷰

저장 중...

이 카테고리의 다른 스킬

create-colleague

작성자 titanwings

create-colleague는 동료 문서, 채팅, 이메일, 스크린샷, Feishu, DingTalk 데이터를 편집 가능한 AI 스킬로 변환합니다. 업무 결과물과 페르소나 결과물을 분리해 생성할 수 있고, 지속적으로 다듬어 갈 수 있는 업데이트 흐름도 제공합니다.

Skill Authoring

즐겨찾기 1GitHub 747

skill-creator

작성자 anthropics

skill-creator는 새 스킬 초안 작성, 기존 `SKILL.md` 수정, eval 실행, 변형 비교, 트리거 설명 개선을 지원하는 Skill Authoring 메타 스킬입니다. 저장소 스크립트와 리뷰 도구를 함께 활용하는 워크플로에 적합합니다.

Skill Authoring

즐겨찾기 2GitHub 105.1k

lean-ux-canvas

작성자 deanpeters

lean-ux-canvas는 Lean UX Canvas v2를 활용해 팀이 비즈니스 문제를 정리하고, 가정을 드러내며, 다음에 무엇을 배워야 할지 정의하도록 돕습니다. 솔루션을 정하기 전에 실용적인 lean-ux-canvas 가이드가 필요한 워크숍 준비, 이해관계자 정렬, 초기 제품 발굴에 적합합니다.

Skill Authoring

즐겨찾기 0GitHub 4.1k

documentation-lookup

작성자 affaan-m

documentation-lookup은 에이전트가 기억에 의존하지 않고 최신 문서를 바탕으로 라이브러리, 프레임워크, API 질문에 답하도록 돕습니다. 최신 문법이 중요한 설정, 구성, 레퍼런스, 코드 예시 작업에 특히 적합합니다. 요청이 실시간 문서와 버전 정확성이 필요한 안내에 의존할 때는 Skill Docs용 documentation-lookup 스킬을 사용하세요.

Skill Docs

즐겨찾기 0GitHub 156.1k

mcp-builder

작성자 anthropics

mcp-builder는 외부 API·서비스용 MCP 서버를 기획, 구현, 평가할 때 참고하기 좋은 실무형 가이드입니다. 도구 범위와 네이밍, 전송 방식, Python 또는 Node 구현 패턴, 평가 워크플로를 정리해 에이전트가 서버를 안정적으로 활용할 수 있도록 돕습니다.

MCP Server Development

즐겨찾기 0GitHub 105k

user-story

작성자 deanpeters

user-story 스킬은 제품 요구사항을 Mike Cohn 형식과 Gherkin 승인 기준이 들어간 하나의 개발 가능한 스토리로 정리하도록 도와줍니다. 더 명확한 인수인계, 더 나은 추정, 그리고 Technical Writing 및 제품 팀을 위한 더 탄탄한 user-story 가이드가 필요할 때 사용하세요.

Technical Writing

즐겨찾기 0GitHub 4.1k

skill-optimizer

작성자 mcollina

skill-optimizer는 작성된 AI 스킬의 활성화, 명확성, 그리고 모델 간 신뢰성을 높이는 데 도움을 줍니다. 스킬은 만들어졌지만 잘 따르지 않거나, 트리거가 약하거나, 회귀가 보이거나, 컨텍스트 비용을 줄여야 할 때 Skill Authoring에 사용하세요. 벤치마크 루프, 릴리스 게이트, 더 높은 사용 충실도를 지원합니다.

Skill Authoring

즐겨찾기 0GitHub 1.8k

data-structure-protocol

작성자 k-kolomeitsev

data-structure-protocol 스킬은 에이전트가 코드베이스용 DSP 그래프를 만들고 탐색하도록 돕습니다. 모듈, 함수, import, export, 그리고 연결 이유까지 추적해 .dsp 프로젝트, 부트스트랩 워크플로, 그리고 구조적 맥락을 바탕으로 더 안전한 코드 변경에 유용합니다.

Skill Authoring

즐겨찾기 0GitHub 0

user-story-splitting

작성자 deanpeters

user-story-splitting 스킬은 구조화된 패턴을 활용해 큰 에픽과 사용자 스토리를 더 작고 독립적으로 배포 가능한 스토리로 나누는 데 도움을 줍니다. 추정, 순서 정하기, 리스크 감소, 그리고 백로그 항목이 한 스프린트에 담기엔 너무 클 때의 Skill Authoring 워크플로에 활용하기 좋습니다.

Skill Authoring

즐겨찾기 0GitHub 0

sanity-best-practices

작성자 sanity-io

sanity-best-practices 스킬은 빌드에 들어가기 전에 Sanity에 가장 적합한 패턴을 고르는 데 도움이 됩니다. 스키마, GROQ, TypeGen, Visual Editing, Portable Text, 로컬라이제이션, 마이그레이션, Functions, Blueprints, 그리고 Next.js, Nuxt, Astro, Remix, SvelteKit, Angular, Hydrogen, App SDK 같은 프런트엔드 통합에 활용하세요.

Frontend Development

즐겨찾기 0GitHub 0

provider-docs

작성자 hashicorp

provider-docs 스킬은 Terraform Provider의 Terraform Registry 문서를 작성, 업데이트, 검증하는 데 도움이 됩니다. provider-docs 가이드 작업, Technical Writing용 provider-docs 작업, 문서 변경 시 schema 설명, `tfplugindocs` 템플릿, Registry 출력의 동기화를 유지하는 용도로 사용하세요.

Technical Writing

즐겨찾기 0GitHub 0

press-release

작성자 deanpeters

press-release 스킬은 제품을 만들기 전에 Amazon식 Working Backwards 보도자료 초안을 작성하는 데 도움을 줍니다. 고객 가치가 무엇인지 분명히 하고, 제품이나 기능 아이디어를 검증하며, 간결하고 고객 중심적인 서사로 이해관계자의 방향을 맞추는 데 유용합니다. Technical Writing과 초기 제품 기획에서의 press-release 작성에 특히 도움이 됩니다.

Technical Writing

즐겨찾기 0GitHub 4.1k

writing-skills

작성자 obra

writing-skills는 테스트 주도 워크플로로 에이전트 스킬을 만들고, 수정하고, 검증하는 Skill Authoring 가이드입니다. 핵심 파일, 사전 준비 사항, 그리고 압박 시나리오, 기준선 테스트, 간결한 SKILL.md 반복 개선에 필요한 실무 단계를 배울 수 있습니다.

Skill Authoring

즐겨찾기 0GitHub 121.9k

prd-generator

작성자 ognjengt

prd-generator는 대략적인 제품 아이디어를 AI가 바로 활용할 수 있는 제품 요구사항 문서(PRD)로 바꿔줍니다. 명확화 질문을 던지고, 고정 템플릿을 따르며, 창업자·프로덕트 리드·Skill Authoring 워크플로가 후속 AI 코딩 도구를 위한 더 명확한 명세를 작성하도록 돕습니다. 구조화된 요구사항, 지표, 제약 조건, 그리고 구현에 바로 쓸 수 있는 맥락이 필요할 때 prd-generator를 사용하세요.

Skill Authoring

즐겨찾기 0GitHub 0

command-creator

작성자 softaworks

command-creator는 Claude Code에서 반복해서 쓰는 워크플로를 재사용 가능한 슬래시 명령어로 정리할 수 있게 도와주는 스킬입니다. 어떤 명령 패턴을 써야 하는지 이해하고, 에이전트가 실행할 수 있는 지시문을 작성하며, `.claude/commands/`와 `~/.claude/commands/` 중 어디에 둘지 판단할 수 있습니다. 함께 제공되는 참고 자료를 통해 예시와 모범 사례도 빠르게 확인할 수 있습니다.

Skill Authoring

즐겨찾기 0GitHub 1.3k

altitude-horizon-framework

작성자 deanpeters

altitude-horizon-framework는 PM에서 Director로의 전환을 위한 의사결정 스킬입니다. 높이(Altitude)와 시야(Horizon)의 간극을 진단하고, 범위와 타이밍을 명확히 하며, 전략이 모호할 때 Cascading Context Map을 적용하는 데 활용하세요. 스킬 작성에 필요한 설치, 사용법, 예시 안내도 함께 제공합니다.

Skill Authoring

즐겨찾기 0GitHub 4.1k