agent-eval

작성자 affaan-m

agent-eval은 재현 가능한 작업으로 코딩 에이전트를 일대일로 벤치마킹하는 스킬로, 통과율, 비용, 시간, 일관성을 비교합니다. 이 agent-eval 스킬을 사용하면 Claude Code, Aider, Codex 또는 다른 에이전트를 자신의 repo에서 평가할 수 있으며, 즉흥적인 프롬프트 실험보다 더 명확한 근거를 얻을 수 있습니다.

Stars156k

즐겨찾기0

추가됨2026년 4월 15일

카테고리Model Evaluation

설치 명령어

npx skills add affaan-m/everything-claude-code --skill agent-eval

큐레이션 점수

이 스킬은 78/100점으로, 재현 가능한 방식으로 코딩 에이전트를 비교하려는 디렉터리 사용자에게 충분히 유력한 후보입니다. 저장소에는 언제 쓰면 좋은지와 어떻게 동작하는지 이해할 만큼의 운영 정보가 담겨 있지만, 보조 스크립트나 참고 파일은 없으므로 설치 전에는 소스를 직접 검토하는 것이 좋습니다.

78/100

강점

에이전트 비교, 회귀 점검, 모델/도구 도입 판단에 맞는 명확한 활용 사례를 제시합니다.
YAML 작업 정의, judge 체크, git worktree 분리를 통한 재현 가능한 비교 흐름이 구체적입니다.
데이터 기반으로 에이전트를 선택하려는 팀에 즉흥적 비교보다 높은 설치 판단 가치를 제공합니다.

주의점

설치 명령, 스크립트, 지원 파일이 제공되지 않아, 실제 도입은 여전히 메인 스킬 파일을 읽는 데 의존합니다.
저장소는 가벼운 단일 CLI 워크플로에 초점이 맞춰진 것으로 보입니다. 더 넓은 평가 인프라가 필요한 사용자는 추가 도구가 필요할 수 있습니다.

Claude Code Codex Aider Git Cli Testing Workflow

개요

agent-eval 스킬 개요

agent-eval은 동일한 작업을 여러 코딩 에이전트로 정면 비교하고, 통과율, 비용, 시간, 일관성을 기준으로 결과를 비교할 수 있게 해주는 스킬입니다. 실제 리포지토리에서 Claude Code, Aider, Codex 또는 다른 에이전트를 도입할지 판단하는 단계라면, agent-eval 스킬은 감이나 선호가 아니라 재현 가능한 근거를 바탕으로 결정할 수 있게 도와줍니다.

이 스킬은 “일단 프롬프트 넣어보고 결과 보자” 식의 가벼운 테스트보다, 공정한 비교가 필요한 팀과 파워 유저에게 더 잘 맞습니다. 핵심은 작업을 한 번만 정의하고, 여러 에이전트를 같은 기준선에서 실행한 뒤, 여러분의 제약 조건 안에서 무엇이 가장 잘 작동하는지 판별하는 데 있습니다.

agent-eval이 유용한 이유

agent-eval의 핵심 가치는 통제된 비교에 있습니다. 같은 repo, 같은 작업, 같은 성공 판정 기준, 그리고 분리된 worktree를 사용합니다. 그래서 즉흥적인 실험이나 일회성 프롬프트보다 결과를 더 신뢰하기 쉽습니다.

agent-eval 스킬이 잘 맞는 경우

다음과 같은 상황이라면 agent-eval 스킬이 잘 맞습니다:

워크플로를 표준화하기 전에 에이전트를 비교하고 싶을 때
모델 업데이트가 실제 결과를 바꿨는지 확인하고 싶을 때
자신의 코드베이스와 내부 규칙 위에서 성능을 검증하고 싶을 때
팀 의사결정이나 구매 검토를 위한 근거 자료가 필요할 때

agent-eval 스킬이 맞지 않을 수 있는 경우

단순히 코딩 답변 하나만 필요하다면 일반 프롬프트가 더 간단합니다. agent-eval은 반복 가능성, 평가 기준, 그리고 속도·품질·비용 간의 트레이드오프가 중요한 경우에 가장 큰 가치를 냅니다.

agent-eval 스킬 사용 방법

agent-eval 설치 후 먼저 확인할 것

agent-eval 설치를 하려면 repo에서 스킬을 추가한 뒤, 가장 먼저 핵심 스킬 파일을 확인하세요:
npx skills add affaan-m/everything-claude-code --skill agent-eval

그다음 SKILL.md와, 실제 워크플로에서 함께 쓰는 연결 문서를 열어보면 됩니다. 이 리포지토리에서는 스킬 파일 자체가 사실상 핵심 소스이므로, 설치 여부를 결정할 때는 그 안의 작업 모델이 여러분의 평가 방식과 얼마나 잘 맞는지가 중요합니다.

모호한 목표를 실행 가능한 작업으로 바꾸기

agent-eval 사용은 작업 내용, 대상 repo, 객관적인 판정 기준을 구체적으로 정의할수록 효과가 좋습니다. “리팩터링을 더 잘하는 에이전트가 뭔지 테스트해줘” 같은 프롬프트는 약합니다. 반대로 아래처럼 쓰면 훨씬 강한 비교가 됩니다:

src/http_client.py에 retry logic 추가
재현 가능성을 위해 repo를 특정 commit에 고정
변경 가능한 파일 범위 명시
pytest 또는 grep 같은 judge command 정의
필요하다면 허용 가능한 최대 시간 또는 비용 명시

작업을 자동으로 검증할 수 있는 범위가 넓을수록, 비교 결과도 더 유의미해집니다.

agent-eval 평가 전에 먼저 읽어야 할 파일

우선 아래 파일부터 보세요:

작업 형식과 워크플로를 설명하는 SKILL.md
테스트 또는 judge 규칙을 정의하는 repo 내부 파일
YAML 작업 정의에서 지정한 파일들

특히 Model Evaluation 용도로 agent-eval을 검토 중이라면, 큰 규모의 벤치마크에 들어가기 전에 현재의 작업과 judges가 충분히 안정적이어서 실행 간 비교가 가능한지부터 확인하는 편이 좋습니다.

agent-eval 스킬 FAQ

agent-eval은 코딩 에이전트 벤치마크에만 쓰나요?

네, 기본적으로 그렇습니다. 이 스킬은 코딩 에이전트를 정면 비교하는 용도로 설계되었으며, 일반적인 프롬프트 테스트나 광범위한 LLM 벤치마킹을 위한 도구는 아닙니다.

사용하려면 Docker가 필요한가요?

아니요. 이 스킬은 git worktree 격리를 사용하므로, 컨테이너 오버헤드 없이도 실행 결과를 분리해 관리할 수 있습니다.

초보자도 쓰기 쉬운 편인가요?

작업을 명확하게 정의하고 명령줄 기반 워크플로를 돌릴 수 있다면 충분히 접근 가능합니다. 반면, 설정 없이 클릭 한 번으로 평가해주는 도구를 기대한다면 잘 맞지 않을 수 있습니다.

일반 프롬프트와는 뭐가 다른가요?

일반 프롬프트는 한 에이전트에게 하나의 작업을 시킵니다. 반면 agent-eval 스킬은 같은 작업을 여러 에이전트에게 수행하게 하고, 고정된 judges로 결과를 판정해 편향을 줄인 상태에서 비교할 수 있게 합니다.

agent-eval 스킬 개선 방법

더 강한 작업 정의를 사용하세요

좋은 agent-eval 결과는 입력이 명확하고, 수정 가능 범위가 분명하며, 객관적인 judges가 있는 작업에서 나옵니다. 프롬프트가 너무 열려 있으면, 비교 결과는 에이전트 성능보다 해석 차이를 더 많이 반영하게 됩니다.

실제 성공 기준을 반영하는 judges를 추가하세요

팀이 실제 변경 사항을 검증하는 방식과 닮은 체크를 우선하세요. 예를 들어 테스트, lint, 파일 diff, 패턴 검사 등이 좋습니다. judge가 너무 느슨하면 부족한 해법도 좋아 보일 수 있고, 너무 엄격하면 깨지기 쉬운 편법에 점수를 주게 될 수 있습니다.

답이 아니라 벤치마크를 다듬으세요

어떤 에이전트가 엉뚱한 이유로 이겼다면, 결론부터 내리지 말고 작업 정의를 먼저 수정하세요. files 목록을 더 촘촘히 제한하고, 승인 기준을 더 분명히 쓰고, commit을 고정해서 agent-eval 스킬이 매번 같은 대상을 측정하도록 만드는 것이 중요합니다.

흔한 실패 패턴을 주의하세요

가장 흔한 실수는 모호한 프롬프트, judge와 작업의 불일치, 그리고 공정 비교를 하기엔 너무 큰 작업입니다. 더 나은 agent-eval 활용을 원한다면, 첫 벤치마크는 작고, 재현 가능하고, 실제로 에이전트에게 맡기고 싶은 일을 대표하는 수준으로 잡는 것이 좋습니다.

평점 및 리뷰

아직 평점이 없습니다

리뷰 남기기

이 스킬의 평점과 리뷰를 남기려면 로그인하세요.

0/10000

최신 리뷰

저장 중...

이 카테고리의 다른 스킬

evaluation-methodology

작성자 wshobson

evaluation-methodology 스킬은 Model Evaluation을 위한 PluginEval 점수 체계를 설명합니다. 평가 레이어, 루브릭, 종합 점수 산정, 배지 기준점은 물론, 결과를 해석하고 취약한 평가 차원을 개선하는 실무적인 방법까지 다룹니다.

Model Evaluation

즐겨찾기 0GitHub 32.6k

healthcare-eval-harness

작성자 affaan-m

healthcare-eval-harness는 의료 앱 배포를 위한 환자 안전 평가 하니스입니다. 릴리스 전에 팀이 CDSS 정확도, PHI 노출, 데이터 무결성, 임상 워크플로 동작, 통합 준수 여부를 검증하는 데 도움이 됩니다. 치명적 실패가 배포를 차단하므로, Model Evaluation과 CI 안전 게이트에서 healthcare-eval-harness를 활용하기에 유용합니다.

Model Evaluation

즐겨찾기 0GitHub 156.2k

eval-harness

작성자 affaan-m

eval-harness 스킬은 Claude Code 세션과 eval-driven development를 위한 정식 평가 프레임워크입니다. 패스/실패 기준을 정의하고, capability 및 regression eval을 구축하며, 프롬프트나 워크플로 변경을 배포하기 전에 에이전트의 신뢰성을 측정하는 데 도움이 됩니다.

Model Evaluation

즐겨찾기 0GitHub 156.1k

huggingface-community-evals

작성자 huggingface

huggingface-community-evals는 inspect-ai 또는 lighteval로 Hugging Face Hub 모델 평가를 로컬에서 실행할 수 있게 도와줍니다. 백엔드 선택, 스모크 테스트, 그리고 vLLM, Transformers, accelerate 활용 가이드를 확인할 때 유용합니다. HF Jobs 오케스트레이션, model-card PR, .eval_results 게시, community-evals 자동화 용도에는 맞지 않습니다.

Model Evaluation

즐겨찾기 0GitHub 10.4k

huggingface-best

작성자 huggingface

huggingface-best 스킬은 Hugging Face 벤치마크 리더보드를 확인하고 기기 제한과 모델 크기를 기준으로 필터링해, 작업에 가장 적합한 모델을 찾는 데 도움을 줍니다. 코딩, 추론, 채팅, OCR, RAG, 음성, 비전, 멀티모달 작업에서, 일반적인 모델 목록이 아니라 실용적인 후보군이 필요할 때 사용하세요.

Model Evaluation

즐겨찾기 0GitHub 10.4k

libafl

작성자 trailofbits

libafl 스킬은 맞춤형 타깃, 변이 전략, 보안 감사 워크플로를 위한 LibAFL 기반 모듈형 퍼저를 계획하고 구축하는 데 도움을 줍니다. 이 libafl 가이드를 활용하면 타깃 세부 정보에서 실용적인 하니스, 피드백 모델, 실행 계획으로 더 적은 가정으로 이어갈 수 있습니다.

Security Audit

즐겨찾기 0GitHub 5k

evaluation

작성자 muratcankoylan

evaluation 스킬은 비결정적 시스템을 위한 에이전트 평가를 설계하고 실행하는 데 도움이 됩니다. 평가 설치 계획, 루브릭, 회귀 점검, 품질 게이트, Skill Testing용 평가에 활용하세요. LLM-as-judge 워크플로, 다차원 스코어링, 그리고 반복 가능한 결과가 필요할 때의 실용적인 평가 사용에 잘 맞습니다.

Skill Testing

즐겨찾기 0GitHub 0

judge-with-debate

작성자 NeoLabHQ

judge-with-debate는 공유된 사양, 근거 기반 반박, 최대 3라운드의 토론을 통해 다중 에이전트 토론 방식으로 솔루션을 평가합니다. 코드 리뷰, 루브릭 기반 평가, 그리고 Multi-Agent Systems 워크플로우에서의 judge-with-debate에 특히 적합합니다.

Multi-Agent Systems

즐겨찾기 0GitHub 982

gws-modelarmor

작성자 googleworkspace

gws-modelarmor는 googleworkspace/cli 생태계에서 Google Model Armor를 다룰 수 있게 도와줍니다. 프롬프트 정제, 모델 응답 정제, 템플릿 생성에 활용할 수 있으며, 일반적인 프롬프트보다 훨씬 적은 추측으로 작업할 수 있습니다. 반복 가능하고 정책을 고려한 사용, 그리고 Security Audit 워크플로에 맞게 설계되었습니다.

Security Audit

즐겨찾기 0GitHub 25.5k

analyzing-campaign-attribution-evidence

작성자 mukul975

analyzing-campaign-attribution-evidence는 분석가가 인프라 중복, ATT&CK 일관성, 멀웨어 유사성, 시점, 언어적 흔적을 함께 검토해 방어 가능한 캠페인 귀속 판단을 내리도록 돕습니다. CTI, 인시던트 분석, Security Audit 검토에 이 analyzing-campaign-attribution-evidence 가이드를 활용하세요.

Security Audit

즐겨찾기 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

작성자 mukul975

detecting-ai-model-prompt-injection-attacks는 LLM에 닿기 전에 신뢰할 수 없는 텍스트를 선별하는 보안 skill입니다. 레이어드 정규식, 휴리스틱 점수화, DeBERTa 기반 분류를 활용해 직접적·간접적 프롬프트 인젝션 공격을 탐지합니다. 챗봇 입력 검증, 문서 수집, 위협 모델링에 특히 유용합니다.

Threat Modeling

즐겨찾기 0GitHub 0

llm-evaluation

작성자 wshobson

llm-evaluation 스킬을 사용하면 메트릭, 사람 검토, 벤치마킹, 회귀 점검을 바탕으로 LLM 앱, 프롬프트, RAG 시스템, 모델 변경에 대한 반복 가능한 평가 계획을 설계할 수 있습니다.

Model Evaluation

즐겨찾기 0GitHub 32.6k

ai-prompt-engineering-safety-review

작성자 github

ai-prompt-engineering-safety-review는 운영 배포, 평가, 또는 고객 대상 사용 전에 LLM 프롬프트를 점검해 안전성, 편향, 보안 취약점, 출력 품질을 검토하는 프롬프트 감사 스킬입니다.

Model Evaluation

즐겨찾기 0GitHub 27.8k

agentic-eval

작성자 github

agentic-eval은 reflection, rubric 기반 비평, evaluator-optimizer 패턴을 활용해 AI 출력에 대한 evaluation loop를 구축하는 방법을 보여주는 GitHub Copilot 스킬입니다.

Model Evaluation

즐겨찾기 0GitHub 27.8k

ml-pipeline-workflow

작성자 wshobson

ml-pipeline-workflow는 데이터 준비, 학습, 검증, 배포, 모니터링까지 아우르는 엔드투엔드 MLOps 파이프라인을 설계할 때 참고하기 좋은 실무형 가이드입니다. 반복 가능한 워크플로 자동화를 위한 오케스트레이션 패턴도 함께 다룹니다.

Workflow Automation

즐겨찾기 0GitHub 0

frontend-design

작성자 anthropics

frontend-design은 막연한 UI 아이디어를 실제 프론트엔드 코드와 뚜렷한 미적 방향성으로 구현해, 생산 단계에 바로 쓸 수 있는 개성 있는 인터페이스를 만들고 흔한 AI 스타일링을 줄여줍니다.

UI Design

즐겨찾기 1GitHub 105.2k

agent-eval

agent-eval 스킬 개요

agent-eval이 유용한 이유

agent-eval 스킬이 잘 맞는 경우

agent-eval 스킬이 맞지 않을 수 있는 경우

agent-eval 스킬 사용 방법

agent-eval 설치 후 먼저 확인할 것

모호한 목표를 실행 가능한 작업으로 바꾸기

추천 워크플로

agent-eval 평가 전에 먼저 읽어야 할 파일

agent-eval 스킬 FAQ

agent-eval은 코딩 에이전트 벤치마크에만 쓰나요?

사용하려면 Docker가 필요한가요?

초보자도 쓰기 쉬운 편인가요?

일반 프롬프트와는 뭐가 다른가요?

agent-eval 스킬 개선 방법

더 강한 작업 정의를 사용하세요

실제 성공 기준을 반영하는 judges를 추가하세요

답이 아니라 벤치마크를 다듬으세요

흔한 실패 패턴을 주의하세요

평점 및 리뷰