eval-harness

작성자 affaan-m

eval-harness 스킬은 Claude Code 세션과 eval-driven development를 위한 정식 평가 프레임워크입니다. 패스/실패 기준을 정의하고, capability 및 regression eval을 구축하며, 프롬프트나 워크플로 변경을 배포하기 전에 에이전트의 신뢰성을 측정하는 데 도움이 됩니다.

Stars156.1k

즐겨찾기0

추가됨2026년 4월 15일

카테고리Model Evaluation

설치 명령어

npx skills add affaan-m/everything-claude-code --skill eval-harness

큐레이션 점수

이 스킬의 점수는 78/100으로, eval-driven development를 수행하는 에이전트에게 실질적인 워크플로 가치를 제공하는 디렉터리 후보입니다. 사용자는 이 스킬을 빠르게 호출하고 목적을 이해할 수 있어야 하지만, 도우미 스크립트나 번들된 참고자료가 포함된 방식보다는 문서 중심의 스킬에 가깝다는 점을 예상해야 합니다.

78/100

강점

EDD 설정, 패스/실패 기준, 회귀 eval, 벤치마킹을 위한 활성화 사용 사례가 명확함
구조화된 eval 및 grader 템플릿과 여러 워크플로 섹션을 갖춘 충분한 운영 콘텐츠
frontmatter와 명시적인 'When to Activate' 가이드 덕분에 트리거 가능성이 높아 설치 의도를 판단하기 쉬움

주의점

설치 명령, 스크립트, 지원 파일이 없어 채택하려면 markdown 안내를 직접 읽고 적용해야 함
참고자료/리소스/테스트가 번들되어 있지 않아, 바로 쓸 수 있는 평가 하네스를 원하는 사용자에게는 신뢰 신호가 부족함

Claude Code Evaluation Testing Regression Testing Pr Github Code

개요

eval-harness 스킬 개요

eval-harness가 하는 일

eval-harness 스킬은 Claude Code 세션과 eval 기반 개발을 위한 공식 평가 프레임워크입니다. 배포하기 전에 무엇이 “좋은 결과”인지 먼저 정의하고, 에이전트·프롬프트·워크플로가 실제로 그 기준을 충족하는지 측정할 수 있게 도와줍니다.

누가 사용하면 좋은가

AI 보조 코딩, 프롬프트 변경, 에이전트 동작에 대해 반복 가능한 검증이 필요하다면 eval-harness 스킬을 사용하세요. 모델 버전을 비교하는 팀, 회귀(regression)를 추적하는 팀, 모호한 작업 기대치를 합격/불합격 기준으로 바꾸려는 팀에 특히 유용합니다.

왜 중요한가

Model Evaluation을 위한 eval-harness의 핵심 가치는 신뢰성입니다. 결과를 느낌으로 판단하는 대신, 동작이 언제 어떻게 바뀌는지 드러내는 eval을 작성할 수 있기 때문입니다. 덕분에 에이전트 성능을 더 쉽게 디버깅하고, 실행 결과를 비교하고, 품질을 조용히 떨어뜨리는 프롬프트 업데이트를 배포하는 일을 막을 수 있습니다.

언제 적합한가

이 스킬은 작업을 관찰 가능한 성공 기준, 출력 구조, 체크포인트가 있는 동작으로 표현할 수 있을 때 가장 잘 맞습니다. 반대로 범위가 넓고 창의적인 작업은, 측정 가능한 합격 조건을 정의할 수 있을 때만 효과적으로 활용할 수 있습니다.

eval-harness 스킬 사용 방법

설치하고 활성화하기

eval-harness install을 하려면 Claude Code 환경에서 저장소의 스킬 설치 흐름을 사용한 뒤, 스킬 파일을 직접 열어보세요. 이 스킬은 skills/eval-harness/SKILL.md에 있으며, 프레임워크를 언제 활성화할지와 eval을 어떻게 구성할지를 정의하므로 가장 먼저 읽어야 하는 파일입니다.

스킬이 평가할 수 있는 프롬프트 만들기

eval-harness usage를 제대로 하려면 “내 에이전트를 테스트해줘”처럼 시작하지 마세요. 대신 에이전트가 완료해야 할 작업, 성공으로 볼 조건, 실패의 모습, 능력 검증인지 회귀 검증인지 같은 구체적인 목표부터 정해야 합니다. 더 나은 입력 예시는 다음과 같습니다: “검증을 깨뜨리지 않고 React 폼을 업데이트할 수 있는지 평가하고, 명시적인 성공 기준 3개를 요구해줘.” 이렇게 해야 harness가 측정 가능한 대상을 갖게 됩니다.

먼저 읽어야 할 파일 보기

자신의 워크플로에 eval-harness guide 방식을 적용하려면, 먼저 SKILL.md를 읽고 그다음 평가 스타일, 채점 로직, 출력 규칙을 설명하는 저장소 노트를 확인하세요. 이 저장소에는 보조 스크립트나 추가 지원 폴더가 없으므로, 스킬 파일 자체가 사실상의 단일 기준(source of truth)입니다.

실무 워크플로에 적용하기

좋은 워크플로는 이렇습니다: 동작을 정의하고, 정상 경로(happy path)용 eval 하나를 작성한 뒤, 이미 알려진 실패를 위한 회귀 eval 하나를 추가하고, harness를 실행한 다음 기준을 다듬습니다. 이렇게 하면 eval이 너무 커져서 디버깅하기 어려워지는 일을 막을 수 있고, 해석하기 힘들 정도로 넓은 테스트를 쓰는 것도 줄일 수 있습니다.

eval-harness 스킬 FAQ

eval-harness는 Claude Code 전용인가요?

아닙니다. 이 스킬은 Claude Code 세션을 기준으로 작성됐지만, 구조화된 에이전트 평가가 필요한 곳이라면 어디서든 유용합니다. 사용하는 스택이 다른 도구를 기반으로 하더라도, eval 형식과 채점 로직은 그대로 맞춰 쓸 수 있습니다.

eval-harness는 일반 프롬프트와 같은가요?

아닙니다. 일반 프롬프트는 답을 요청하지만, eval-harness는 그 답을 반복 가능하게 판단하는 방법을 요구합니다. 버전이 달라도 일관성이 필요할 때는 이 차이가 매우 중요합니다. 단순히 한 번 잘 나오는 응답이 필요한 게 아니라면 더더욱 그렇습니다.

초보자도 쓰기 쉬운가요?

네, 작업을 분명하게 설명할 수 있다면 가능합니다. 더 어려운 부분은 문법이 아니라 좋은 성공 기준을 쓰는 일입니다. 초보자는 전체 워크플로를 한 번에 모델링하려 하기보다, 간단한 능력 평가 하나로 시작할 때 대체로 더 잘합니다.

언제 쓰지 않는 게 좋나요?

작업이 매우 주관적이거나, 결과를 일관되게 확인할 수 없거나, 단발성 답변만 필요하다면 eval-harness는 건너뛰세요. 신뢰성, 회귀 추적, 모델 비교가 실제 목표일 때 가장 강합니다.

eval-harness 스킬 개선 방법

기준을 관찰 가능하게 만들기

가장 큰 품질 향상은 의견을 체크 가능한 조건으로 바꾸는 데서 나옵니다. “더 좋게 만들어줘” 대신 “기존 API 형태를 유지한다”, “유효한 JSON을 반환한다”, “세 개의 회귀 사례를 모두 통과한다”처럼 조건을 제시하세요. 기준이 더 관찰 가능할수록 eval-harness는 실행도, 신뢰도도 높아집니다.

능력 평가와 회귀 평가를 분리하기

새 기능 검증과 기존 동작 검증을 섞으면 실패 원인을 해석하기 어려워집니다. 능력 eval은 Claude가 새로운 일을 할 수 있는지에만 집중하고, 회귀 eval은 알려진 기준선이 여전히 유지되는지에 집중하세요.

harness에 실제 엣지 케이스를 넣기

더 강한 eval에는 정상 경로만이 아니라 실패 모드도 포함됩니다. 까다로운 입력, 불완전한 컨텍스트, 모호한 지시를 추가해 eval-harness skill이 에이전트가 강한지, 아니면 깨끗한 예시에서만 운이 좋았는지를 드러내게 하세요.

첫 실행 뒤에 반복 개선하기

첫 실행은 증명이 아니라 보정으로 보세요. 결과가 불명확하다면 성공 기준을 더 엄격하게 만들고, 기준선을 추가하고, 하나의 큰 eval을 더 작은 검사로 나누세요. 보통 이 방법이 eval-harness usage를 개선하고 실제로 행동에 옮길 수 있는 결과를 얻는 가장 빠른 길입니다.

평점 및 리뷰

아직 평점이 없습니다

리뷰 남기기

이 스킬의 평점과 리뷰를 남기려면 로그인하세요.

0/10000

최신 리뷰

저장 중...

이 카테고리의 다른 스킬

evaluation-methodology

작성자 wshobson

evaluation-methodology 스킬은 Model Evaluation을 위한 PluginEval 점수 체계를 설명합니다. 평가 레이어, 루브릭, 종합 점수 산정, 배지 기준점은 물론, 결과를 해석하고 취약한 평가 차원을 개선하는 실무적인 방법까지 다룹니다.

Model Evaluation

즐겨찾기 0GitHub 32.6k

healthcare-eval-harness

작성자 affaan-m

healthcare-eval-harness는 의료 앱 배포를 위한 환자 안전 평가 하니스입니다. 릴리스 전에 팀이 CDSS 정확도, PHI 노출, 데이터 무결성, 임상 워크플로 동작, 통합 준수 여부를 검증하는 데 도움이 됩니다. 치명적 실패가 배포를 차단하므로, Model Evaluation과 CI 안전 게이트에서 healthcare-eval-harness를 활용하기에 유용합니다.

Model Evaluation

즐겨찾기 0GitHub 156.2k

agent-eval

작성자 affaan-m

agent-eval은 재현 가능한 작업으로 코딩 에이전트를 일대일로 벤치마킹하는 스킬로, 통과율, 비용, 시간, 일관성을 비교합니다. 이 agent-eval 스킬을 사용하면 Claude Code, Aider, Codex 또는 다른 에이전트를 자신의 repo에서 평가할 수 있으며, 즉흥적인 프롬프트 실험보다 더 명확한 근거를 얻을 수 있습니다.

Model Evaluation

즐겨찾기 0GitHub 156k

huggingface-community-evals

작성자 huggingface

huggingface-community-evals는 inspect-ai 또는 lighteval로 Hugging Face Hub 모델 평가를 로컬에서 실행할 수 있게 도와줍니다. 백엔드 선택, 스모크 테스트, 그리고 vLLM, Transformers, accelerate 활용 가이드를 확인할 때 유용합니다. HF Jobs 오케스트레이션, model-card PR, .eval_results 게시, community-evals 자동화 용도에는 맞지 않습니다.

Model Evaluation

즐겨찾기 0GitHub 10.4k

huggingface-best

작성자 huggingface

huggingface-best 스킬은 Hugging Face 벤치마크 리더보드를 확인하고 기기 제한과 모델 크기를 기준으로 필터링해, 작업에 가장 적합한 모델을 찾는 데 도움을 줍니다. 코딩, 추론, 채팅, OCR, RAG, 음성, 비전, 멀티모달 작업에서, 일반적인 모델 목록이 아니라 실용적인 후보군이 필요할 때 사용하세요.

Model Evaluation

즐겨찾기 0GitHub 10.4k

libafl

작성자 trailofbits

libafl 스킬은 맞춤형 타깃, 변이 전략, 보안 감사 워크플로를 위한 LibAFL 기반 모듈형 퍼저를 계획하고 구축하는 데 도움을 줍니다. 이 libafl 가이드를 활용하면 타깃 세부 정보에서 실용적인 하니스, 피드백 모델, 실행 계획으로 더 적은 가정으로 이어갈 수 있습니다.

Security Audit

즐겨찾기 0GitHub 5k

evaluation

작성자 muratcankoylan

evaluation 스킬은 비결정적 시스템을 위한 에이전트 평가를 설계하고 실행하는 데 도움이 됩니다. 평가 설치 계획, 루브릭, 회귀 점검, 품질 게이트, Skill Testing용 평가에 활용하세요. LLM-as-judge 워크플로, 다차원 스코어링, 그리고 반복 가능한 결과가 필요할 때의 실용적인 평가 사용에 잘 맞습니다.

Skill Testing

즐겨찾기 0GitHub 0

judge-with-debate

작성자 NeoLabHQ

judge-with-debate는 공유된 사양, 근거 기반 반박, 최대 3라운드의 토론을 통해 다중 에이전트 토론 방식으로 솔루션을 평가합니다. 코드 리뷰, 루브릭 기반 평가, 그리고 Multi-Agent Systems 워크플로우에서의 judge-with-debate에 특히 적합합니다.

Multi-Agent Systems

즐겨찾기 0GitHub 982

gws-modelarmor

작성자 googleworkspace

gws-modelarmor는 googleworkspace/cli 생태계에서 Google Model Armor를 다룰 수 있게 도와줍니다. 프롬프트 정제, 모델 응답 정제, 템플릿 생성에 활용할 수 있으며, 일반적인 프롬프트보다 훨씬 적은 추측으로 작업할 수 있습니다. 반복 가능하고 정책을 고려한 사용, 그리고 Security Audit 워크플로에 맞게 설계되었습니다.

Security Audit

즐겨찾기 0GitHub 25.5k

analyzing-campaign-attribution-evidence

작성자 mukul975

analyzing-campaign-attribution-evidence는 분석가가 인프라 중복, ATT&CK 일관성, 멀웨어 유사성, 시점, 언어적 흔적을 함께 검토해 방어 가능한 캠페인 귀속 판단을 내리도록 돕습니다. CTI, 인시던트 분석, Security Audit 검토에 이 analyzing-campaign-attribution-evidence 가이드를 활용하세요.

Security Audit

즐겨찾기 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

작성자 mukul975

detecting-ai-model-prompt-injection-attacks는 LLM에 닿기 전에 신뢰할 수 없는 텍스트를 선별하는 보안 skill입니다. 레이어드 정규식, 휴리스틱 점수화, DeBERTa 기반 분류를 활용해 직접적·간접적 프롬프트 인젝션 공격을 탐지합니다. 챗봇 입력 검증, 문서 수집, 위협 모델링에 특히 유용합니다.

Threat Modeling

즐겨찾기 0GitHub 0

llm-evaluation

작성자 wshobson

llm-evaluation 스킬을 사용하면 메트릭, 사람 검토, 벤치마킹, 회귀 점검을 바탕으로 LLM 앱, 프롬프트, RAG 시스템, 모델 변경에 대한 반복 가능한 평가 계획을 설계할 수 있습니다.

Model Evaluation

즐겨찾기 0GitHub 32.6k

ai-prompt-engineering-safety-review

작성자 github

ai-prompt-engineering-safety-review는 운영 배포, 평가, 또는 고객 대상 사용 전에 LLM 프롬프트를 점검해 안전성, 편향, 보안 취약점, 출력 품질을 검토하는 프롬프트 감사 스킬입니다.

Model Evaluation

즐겨찾기 0GitHub 27.8k

agentic-eval

작성자 github

agentic-eval은 reflection, rubric 기반 비평, evaluator-optimizer 패턴을 활용해 AI 출력에 대한 evaluation loop를 구축하는 방법을 보여주는 GitHub Copilot 스킬입니다.

Model Evaluation

즐겨찾기 0GitHub 27.8k

ml-pipeline-workflow

작성자 wshobson

ml-pipeline-workflow는 데이터 준비, 학습, 검증, 배포, 모니터링까지 아우르는 엔드투엔드 MLOps 파이프라인을 설계할 때 참고하기 좋은 실무형 가이드입니다. 반복 가능한 워크플로 자동화를 위한 오케스트레이션 패턴도 함께 다룹니다.

Workflow Automation

즐겨찾기 0GitHub 0

frontend-design

작성자 anthropics

frontend-design은 막연한 UI 아이디어를 실제 프론트엔드 코드와 뚜렷한 미적 방향성으로 구현해, 생산 단계에 바로 쓸 수 있는 개성 있는 인터페이스를 만들고 흔한 AI 스타일링을 줄여줍니다.

UI Design

즐겨찾기 1GitHub 105.2k