evaluation

작성자 muratcankoylan

evaluation 스킬은 비결정적 시스템을 위한 에이전트 평가를 설계하고 실행하는 데 도움이 됩니다. 평가 설치 계획, 루브릭, 회귀 점검, 품질 게이트, Skill Testing용 평가에 활용하세요. LLM-as-judge 워크플로, 다차원 스코어링, 그리고 반복 가능한 결과가 필요할 때의 실용적인 평가 사용에 잘 맞습니다.

Stars0

즐겨찾기0

추가됨2026년 5월 14일

카테고리Skill Testing

설치 명령어

npx skills add muratcankoylan/Agent-Skills-for-Context-Engineering --skill evaluation

큐레이션 점수

이 스킬의 점수는 78/100으로, 에이전트 평가를 구축하거나 측정하는 사용자에게 실질적인 가치를 주는 유력한 디렉터리 수록 후보입니다. 저장소에는 에이전트가 별도의 추측 없이 더 쉽게 트리거하고 활용할 수 있도록 운영 세부 정보가 충분히 담겨 있지만, experimental 신호와 install command 부재는 설치 결정을 할 때 함께 고려해야 합니다.

78/100

강점

evaluation, 테스트 프레임워크, 품질 게이트, 에이전트 벤치마킹에 대한 활성화 의도가 분명해 트리거하기 쉽습니다.
워크플로 콘텐츠가 충실합니다. SKILL.md가 길고 구조화되어 있으며, references 문서와 Python evaluator script도 함께 제공되어 운영 맥락이 선명하고 에이전트 활용도도 높습니다.
다차원 평가 가이드와 구체적인 metric 정의가 있어, 에이전트가 루브릭을 처음부터 즉흥적으로 만드는 대신 실제 평가 워크플로를 실행할 수 있게 돕습니다.

주의점

저장소에 experimental/test 신호가 표시되어 있으므로, 사용자는 이를 완성형 production package라기보다 실용적인 프로토타입으로 보는 것이 좋습니다.
SKILL.md에 install command가 없어, 바로 설치 안내를 원하는 디렉터리 사용자에게는 도입 장벽이 조금 더 있을 수 있습니다.

Evaluation Agents Context Engineering Testing Workflow Quality Management Verification

개요

평가 skill 개요

evaluation skill이 하는 일

evaluation skill은 에이전트 시스템의 평가를 설계하고 실행하는 데 도움이 됩니다. 특히 출력이 비결정적이어서 하나의 “정답”이 존재하지 않을 때 유용합니다. 일회성 프롬프트를 쓰는 데 그치지 않고, 에이전트 성능을 측정하거나 설정을 비교하거나 파이프라인에 품질 게이트를 두어야 하는 사람에게 가장 적합합니다.

누가 사용하면 좋은가

컨텍스트 엔지니어링 변경을 테스트하거나, 시간에 따른 에이전트 행동 점수를 매기거나, 에이전트를 프로덕션에 올릴 준비가 되었는지 판단하려는 경우 이 evaluation skill을 사용하세요. LLM-as-judge 워크플로, 루브릭 기반 채점, 회귀 테스트, 그리고 단계별 실행의 정확성보다 결과 품질이 더 중요한 에이전트 테스트에 특히 잘 맞습니다.

무엇이 다른가

이 repo는 전체 총점 하나보다 다차원 평가를 강조합니다. 에이전트는 서로 다른 방식으로도 성공할 수 있으므로 이런 구조가 더 적절합니다. 또한 참고 자료와 실행 가능한 evaluator script를 통해 실무 구현을 뒷받침하므로, evaluation install은 계획과 실행 모두에 바로 활용할 수 있습니다.

evaluation skill 사용 방법

설치하고 활성화하기

다음 명령으로 설치합니다:

npx skills add muratcankoylan/Agent-Skills-for-Context-Engineering --skill evaluation

그다음 평가 설치 기획, 채점 루브릭, 또는 에이전트 시스템용 평가 가이드를 만들 때 사용하세요. 평가 대상 시스템, 성공 기준, 그리고 중요하게 보는 실패 모드를 명확히 적어 줄수록 이 skill이 더 잘 작동합니다.

skill에 알맞은 입력 주기

“이 agent를 평가해줘”처럼 약한 요청은 너무 많은 부분이 비어 있습니다. 더 강한 프롬프트에는 시스템, 목표 결과, 제약, 채점 요구사항이 들어가야 합니다. 예를 들면: “제품 문서만 근거로 답해야 하고, 환각을 피해야 하며, 사실 정확성, 완성도, 인용 정확성, 도구 효율성 기준으로 점수화해야 하는 고객지원 agent의 평가를 설계해줘.” 이렇게 구체적으로 적어야 evaluation skill이 막연한 조언이 아니라 실제로 쓸 수 있는 루브릭을 만들어냅니다.

먼저 읽어야 할 repo 파일

먼저 SKILL.md에서 워크플로와 활성화 규칙을 확인하고, 이어서 점수 정의는 references/metrics.md, 구현 패턴은 scripts/evaluator.py를 읽으세요. 자신의 스택에 맞게 skill을 조정하려는 경우에는 다른 파일보다 이 세 파일을 먼저 살펴보는 것이 좋습니다. evaluation 로직이 어떤 방식으로 적용되도록 설계되었는지 가장 분명하게 보여주기 때문입니다.

실제 워크플로에 적용하기

실용적인 evaluation 사용 흐름은 다음과 같습니다: 과제 정의, 평가 차원 선택, 가중치 부여, 테스트 케이스 작성, scorer 실행, 그리고 실패 사례를 패턴 수준에서 검토하기. 결과를 나중에 점수만 매기는 용도로 쓰지 말고, 이 skill로 루브릭 자체를 만들거나 다듬으세요. 그러면 회귀 테스트, 모델 비교, 그리고 Skill Testing용 evaluation에 훨씬 더 유용해집니다.

evaluation skill FAQ

evaluation skill은 벤치마크용인가요?

아닙니다. 일상적인 품질 게이트, 회귀 테스트, 그리고 실패한 실행 이후 프롬프트나 agent 정책을 개선하는 데도 유용합니다. 에이전트 출력에 대해 반복 가능한 판단 기준이 필요하다면, 정식 벤치마크 세트가 없어도 evaluation skill은 충분히 관련성이 있습니다.

언제는 사용하지 않는 게 좋나요?

단순한 주관적 리뷰나 빠른 프롬프트 수정만 필요하다면 굳이 쓰지 않아도 됩니다. output 품질이 루브릭, 테스트 세트, 반복 가능한 점수화까지 동원할 만큼 중요할 때 evaluation skill의 가치가 가장 큽니다.

초보자도 사용하기 쉬운가요?

네, 에이전트가 무엇을 해야 하는지 이미 알고 있다면 그렇습니다. 가장 큰 학습 곡선은 문법이 아니라, 좋은 평가 차원을 정의하고 단일 점수에 과도하게 의존하지 않는 것입니다.

일반 프롬프트와 어떻게 다른가요?

일반 프롬프트는 의견을 묻습니다. evaluation skill은 그 의견을 차원, 가중치, 테스트 케이스가 있는 구조화되고 반복 가능한 평가로 바꾸는 워크플로입니다. 일관성이 여러 번의 실행이나 여러 리뷰어 사이에서 중요할 때 이 차이가 결정적입니다.

evaluation skill 개선 방법

더 선명한 성공 기준부터 시작하기

가장 좋은 결과는 넓은 목표가 아니라 명시적인 목표 행동에서 나옵니다. “품질을 측정하자” 대신, 품질이 무엇을 뜻하는지 구체화하세요. 예를 들면 사실 정확성, 완전한 범위, 출처 충실도, 지연 시간, 거절 행동, 도구 사용 등이 있습니다. 기준이 구체적일수록 evaluation skill은 진짜 성과와 우연한 성공을 더 잘 구분할 수 있습니다.

리스크에 맞는 차원을 사용하기

repo의 기본 강조점인 사실 정확성, 완성도, 인용 정확성, 출처 품질은 좋은 출발점입니다. 하지만 실제 평가에는 실제 실패 비용이 반영되어야 합니다. 고객 대면 agent라면 스타일보다 환각이 더 중요할 수 있고, 연구용 agent라면 간결함보다 출처 품질이 더 우선일 수 있습니다. 일반적인 점수를 그대로 받아들이지 말고 루브릭을 조정하세요.

평균보다 실패를 기준으로 반복 개선하기

첫 번째 평가 후에는 점수가 낮은 사례를 검토하고 반복되는 원인을 찾아보세요. 예를 들면 누락된 컨텍스트, 약한 검색, 잘못된 도구 선택, 과하게 자신 있는 답변 등이 있습니다. 그런 패턴을 바탕으로 테스트 세트와 프롬프트 입력을 수정하세요. 그것이 evaluation 사용을 가장 빨리 개선하고, 시간이 지날수록 이 skill의 효과를 키우는 방법입니다.

평점 및 리뷰

아직 평점이 없습니다

리뷰 남기기

이 스킬의 평점과 리뷰를 남기려면 로그인하세요.

0/10000

최신 리뷰

저장 중...

이 카테고리의 다른 스킬

skill-creator

작성자 anthropics

skill-creator는 새 스킬 초안 작성, 기존 `SKILL.md` 수정, eval 실행, 변형 비교, 트리거 설명 개선을 지원하는 Skill Authoring 메타 스킬입니다. 저장소 스크립트와 리뷰 도구를 함께 활용하는 워크플로에 적합합니다.

Skill Authoring

즐겨찾기 2GitHub 105.1k

cpp-testing

작성자 affaan-m

cpp-testing 스킬은 GoogleTest, GoogleMock, CMake, CTest를 사용해 C++ 테스트를 작성, 실행, 디버그하는 데 도움을 줍니다. 커버리지 확인, 불안정한 테스트(flakiness) 수정, sanitizer 기반 진단, 현대 C++ 프로젝트에서의 실용적인 cpp-testing 활용에 적합합니다.

Test Automation

즐겨찾기 0GitHub 156.1k

test-driven-development

작성자 addyosmani

test-driven-development 스킬은 먼저 실패하는 테스트를 작성한 뒤, 가장 작은 수정으로 이를 통과시키며 코드를 바꾸도록 돕습니다. 로직 변경, 버그 수정, 회귀 이슈, 엣지 케이스처럼 그럴듯한 패치보다 검증 가능한 근거가 중요한 작업에 적합합니다.

Skill Testing

즐겨찾기 0GitHub 18.8k

skill-optimizer

작성자 mcollina

skill-optimizer는 작성된 AI 스킬의 활성화, 명확성, 그리고 모델 간 신뢰성을 높이는 데 도움을 줍니다. 스킬은 만들어졌지만 잘 따르지 않거나, 트리거가 약하거나, 회귀가 보이거나, 컨텍스트 비용을 줄여야 할 때 Skill Authoring에 사용하세요. 벤치마크 루프, 릴리스 게이트, 더 높은 사용 충실도를 지원합니다.

Skill Authoring

즐겨찾기 0GitHub 1.8k

property-based-testing

작성자 trailofbits

언어와 스마트 계약 전반에서 PBT를 작성, 검토, 개선하기 위한 property-based-testing 스킬 가이드입니다. 이 property-based-testing 가이드를 활용해 roundtrip, idempotence, invariant, parser, validator, normalization 사례를 찾고, generator를 선택하고, property-based-testing이 example-based tests보다 더 강력한지 판단해 보세요.

Skill Testing

즐겨찾기 0GitHub 5k

writing-skills

작성자 obra

writing-skills는 테스트 주도 워크플로로 에이전트 스킬을 만들고, 수정하고, 검증하는 Skill Authoring 가이드입니다. 핵심 파일, 사전 준비 사항, 그리고 압박 시나리오, 기준선 테스트, 간결한 SKILL.md 반복 개선에 필요한 실무 단계를 배울 수 있습니다.

Skill Authoring

즐겨찾기 0GitHub 121.9k

verification-loop

작성자 affaan-m

verification-loop는 코드 변경 후 build, type, lint, tests, security, diff를 점검하는 Claude Code 검증 워크플로입니다. 이 verification-loop 기술은 PR 전이나 리팩터링 후, 일반적인 프롬프트 대신 구조화된 변경 후 점검 가이드가 필요할 때 유용합니다.

Verification

즐겨찾기 0GitHub 156.3k

perl-testing

작성자 affaan-m

perl-testing은 Test2::V0, Test::More, prove, mocking, coverage, TDD를 사용해 Perl 테스트를 작성하고, 실행하고, 개선하는 데 도움이 되는 실용 가이드입니다. 설치 안내, 사용 패턴, 마이그레이션 지원, 실패한 테스트 스위트의 빠른 디버깅이 필요할 때 perl-testing 스킬을 활용하세요.

Skill Testing

즐겨찾기 0GitHub 156.2k

kotlin-testing

작성자 affaan-m

kotlin-testing은 Kotest, MockK, 코루틴 테스트, 속성 기반 테스트, Kover 커버리지를 활용한 Kotlin 테스트 자동화 실무 가이드입니다. 이 kotlin-testing 스킬을 사용하면 TDD 친화적인 워크플로를 따르고, 더 명확한 단위 테스트와 컴포넌트 테스트를 작성하며, 의존성 목 처리나 suspend 코드 테스트에서 시행착오를 줄일 수 있습니다.

Test Automation

즐겨찾기 0GitHub 156.2k

eval-harness

작성자 affaan-m

eval-harness 스킬은 Claude Code 세션과 eval-driven development를 위한 정식 평가 프레임워크입니다. 패스/실패 기준을 정의하고, capability 및 regression eval을 구축하며, 프롬프트나 워크플로 변경을 배포하기 전에 에이전트의 신뢰성을 측정하는 데 도움이 됩니다.

Model Evaluation

즐겨찾기 0GitHub 156.1k

context-budget

작성자 affaan-m

context-budget 스킬은 Claude Code에서 에이전트, 스킬, 규칙, MCP 서버 전반의 컨텍스트 사용량을 점검합니다. 불필요하게 커진 부분, 중복 콘텐츠, 비용이 큰 구성 요소를 찾아내고 우선순위가 정리된 정리 작업 항목을 제공합니다. 이 context-budget 가이드는 실무적인 context-budget 활용법이 필요하거나 더 큰 환경에서 Skill Testing을 검토할 때 유용합니다.

Skill Testing

즐겨찾기 0GitHub 156.1k

skill-judge

작성자 softaworks

skill-judge는 AI 스킬 패키지와 SKILL.md 파일을 점검하기 위한 리뷰·채점 스킬입니다. 작성자와 유지관리자가 지식 차별성, 활성화 명확성, 워크플로 품질, 공개 준비 상태를 평가하고, 바로 적용할 수 있는 개선 가이드를 얻는 데 도움이 됩니다.

Skill Validation

즐겨찾기 0GitHub 1.3k

playwright-testing

작성자 alinaqi

Playwright 엔드투엔드 테스트를 작성하고 디버깅하는 데 쓰는 playwright-testing 스킬입니다. 페이지 객체, 크로스브라우저 실행, CI 친화적 설정, 인증 처리, 안정적인 테스트 구조를 지원합니다.

Skill Testing

즐겨찾기 0GitHub 607

darwin-skill

작성자 alchaincyf

darwin-skill은 반복 가능한 루프로 SKILL.md 파일을 개선하는 데 도움을 줍니다: 평가하고, 수정하고, 테스트한 뒤, 변경 사항을 유지하거나 되돌립니다. Skill Authoring용으로 만들어졌으며, 루브릭 점수화와 프롬프트 기반 검증을 결합하고, repo templates와 assets를 활용한 시각적 결과 출력도 지원합니다.

Skill Authoring

즐겨찾기 0GitHub 549

tutor

작성자 RoundTable02

tutor는 진단 평가, 개념 단위 복습, 진행 상황 추적이 필요한 Obsidian StudyVault 사용자를 위한 퀴즈 기반 학습 스킬입니다. 언어를 감지하고, 볼트를 찾아내고, 대시보드를 읽은 다음, 구조화된 세션을 통해 취약한 영역을 집중적으로 훈련합니다. generic chat tutor 대신 반복 가능한 학습 점검이 필요할 때 tutor를 사용하세요.

Skill Authoring

즐겨찾기 0GitHub 0

skill-authoring-workflow

작성자 deanpeters

skill-authoring-workflow는 대략적인 메모, 워크숍 결과물, 초안 프롬프트를 규격에 맞는 `skills/<skill-name>/SKILL.md`로 바꾸는 데 도움을 줍니다. 이 skill-authoring-workflow 스킬을 사용하면 PM 스킬을 더 적은 시행착오로 만들거나 업데이트하고, 저장소 표준을 따르며, 커밋 전에 검증할 수 있습니다.

Skill Authoring

즐겨찾기 0GitHub 0