llm-evaluation

작성자 wshobson

llm-evaluation 스킬을 사용하면 메트릭, 사람 검토, 벤치마킹, 회귀 점검을 바탕으로 LLM 앱, 프롬프트, RAG 시스템, 모델 변경에 대한 반복 가능한 평가 계획을 설계할 수 있습니다.

Stars32.6k

즐겨찾기0

추가됨2026년 3월 30일

카테고리Model Evaluation

설치 명령어

npx skills add wshobson/agents --skill llm-evaluation

큐레이션 점수

이 스킬의 평점은 68/100입니다. LLM 앱 평가를 구조적으로 안내받고 싶은 디렉터리 사용자에게는 등재 가능한 수준이지만, 실행 가능한 자산이나 명확한 수행 단계가 갖춰진 운영형 스킬이라기보다 문서 중심의 프레임워크에 가깝다는 점을 감안해야 합니다.

68/100

강점

트리거 조건이 분명합니다. 회귀 테스트, 모델/프롬프트 비교, 프로덕션 검증 등 언제 이 스킬을 써야 하는지 명확하게 제시합니다.
워크플로 콘텐츠가 충실합니다. 자동 메트릭, 사람 평가, 벤치마킹, A/B 테스트 등 여러 평가 방식을 다루며, 단순한 자리표시자 수준에 머물지 않습니다.
개념적 활용도가 높습니다. 텍스트 생성, 분류, RAG 작업에 재사용할 수 있는 평가 체계를 제공해, 일반적인 프롬프트보다 더 구조적으로 활용할 수 있습니다.

주의점

설치/실행 가이드, 스크립트, 참조 지원 파일이 빠져 있어 운영 측면의 명확성은 제한적이며, 구현 세부사항은 여전히 에이전트가 추론해야 합니다.
명시적인 제약 조건이나 의사결정 규칙이 적어, 실제 프로젝트에서는 메트릭 선택과 실행 방식이 일관되지 않을 수 있습니다.

Llm Testing Ai Metrics Reliability Workflow

개요

`llm-evaluation` 스킬 개요

llm-evaluation 스킬은 LLM 앱, 프롬프트, 모델 변경 사항에 대한 평가를 설계할 때 쓰는 실전형 프레임워크입니다. “왠지 더 좋아진 것 같다” 수준을 넘어서, 품질을 반복 가능하게 측정하고, 여러 안을 비교하고, 배포 전에 회귀를 잡아내야 하는 빌더에게 특히 잘 맞습니다.

어떤 사람에게 `llm-evaluation` 스킬이 잘 맞나

이 llm-evaluation 스킬은 다음과 같은 작업을 하는 팀과 개인 개발자에게 적합합니다.

프롬프트 반복 개선
모델 비교
RAG 품질 점검
분류 또는 정보 추출 작업
LLM 기능의 운영 QA
지속적 릴리스를 위한 벤치마크 구축

“이번 변경이 시스템을 실제로 개선했나?”라는 질문에 답해야 한다면, 이 스킬은 매우 잘 맞습니다.

이 스킬이 해결해 주는 핵심 작업

실제로 해결하려는 문제는 막연한 품질 우려를 실행 가능한 평가 계획으로 바꾸는 것입니다. 일반적인 테스트 조언을 구하는 대신, llm-evaluation을 사용해 적절한 평가 유형을 고르고, 메트릭을 정의하고, 자동화가 약한 지점에는 사람 검토를 넣고, 시간에 따른 비교 구조를 설계할 수 있습니다.

`llm-evaluation`이 일반 프롬프트와 다른 점

일반적인 프롬프트라면 “BLEU, F1, 사람 검토를 쓰세요” 정도를 제안할 수 있습니다. 하지만 이 llm-evaluation skill은 평가 방법을 실제 애플리케이션 구조에 맞춰야 할 때 더 유용합니다.

텍스트 생성 작업은 분류 작업과 다른 메트릭이 필요합니다
RAG 시스템은 출력 평가만이 아니라 검색 메트릭이 필요합니다
유용성이나 톤처럼 일부 품질은 사람 평가가 필요합니다
A/B 테스트와 회귀 점검은 일회성 점수보다 기준선이 중요합니다

그래서 “내 LLM을 어떻게 평가하죠?” 같은 가벼운 질문보다, 실제 의사결정에 더 직접적으로 도움을 줍니다.

설치 전에 가장 먼저 분명히 해야 할 것

llm-evaluation을 쓰기 전에 아래 세 가지를 명확히 해두는 것이 좋습니다.

무엇을 평가하려는지
그 작업에서 “좋다”의 기준이 무엇인지
자동화 메트릭이 필요한지, 사람 검토가 필요한지, 혹은 둘 다 필요한지

이 부분이 아직 모호해도 스킬은 도움을 줄 수 있지만, 결과물은 높은 수준의 가이드에 머물 가능성이 큽니다.

주요 트레이드오프와 한계

이 스킬은 평가 전략을 제공하지, 패키징된 평가 실행기를 제공하는 것은 아닙니다. 프레임워크 설계와 방법 선택은 도와주지만, 데이터셋, 도구, 실행 환경은 직접 준비해야 합니다. 내장 파이프라인이 포함된 완전 자동화 프레임워크를 기대한다면, 이것은 바로 투입하는 인프라라기보다 평가 설계용 가이드로 보는 편이 맞습니다.

`llm-evaluation` 스킬 사용 방법

`llm-evaluation` 스킬 설치 방법

기본 스킬 설치 흐름을 사용하면 됩니다.

npx skills add https://github.com/wshobson/agents --skill llm-evaluation

설치 후에는 LLM 애플리케이션의 평가 계획을 설계하거나 개선하고 싶을 때 이 스킬을 호출하면 됩니다.

저장소에서 먼저 읽어볼 파일

이 스킬은 유난히 자체 완결적입니다. 먼저 아래 파일부터 보세요.

plugins/llm-application-dev/skills/llm-evaluation/SKILL.md

눈에 띄는 헬퍼 스크립트나 리소스 파일이 없기 때문에, 핵심 가치는 대부분 문서화된 프레임워크 자체에 있습니다. 우선 “When to Use This Skill”과 “Core Evaluation Types” 섹션부터 읽는 것이 좋습니다.

스킬이 유용해지려면 어떤 입력이 필요한가

llm-evaluation usage의 품질은 제공하는 입력에 크게 좌우됩니다. 가능하면 아래 정보를 함께 주세요.

애플리케이션 유형: summarization, chatbot, RAG, extraction, classification 등
평가하려는 변경 사항: 새 프롬프트, 모델 교체, retrieval 업데이트, 정책 변경
샘플 입력과 기대 출력
현재 실패 패턴
배포 제약: 속도, 비용, 안전성, 검토 인력 여유
offline benchmarking, human review, online testing 중 무엇이 필요한지

이 맥락이 없으면 스킬은 자연스럽게 일반론에 머무를 수밖에 없습니다.

대략적인 목표를 강한 프롬프트로 바꾸는 법

약한 목표:

“Help me evaluate my LLM app.”

더 강한 목표:

“Use the llm-evaluation skill to design an evaluation plan for a customer-support RAG assistant. We are comparing two prompts and one retriever change. We need offline metrics for retrieval quality, human review dimensions for answer quality, and a regression checklist we can run before deployment.”

이처럼 더 구체적으로 쓰면, 어떤 시스템이 바뀌는지, 어떤 평가가 필요한지, 그 평가가 어떤 의사결정을 뒷받침해야 하는지가 스킬에 명확히 전달됩니다.

`llm-evaluation` 사용을 위한 프롬프트 템플릿

아래 항목을 포함한 요청 형식을 추천합니다.

작업 유형
시스템 아키텍처
비교할 버전 또는 변형
평가 데이터셋의 크기와 출처
핵심 리스크
선호하는 메트릭
수용 가능한 트레이드오프

예시 구조:

“Use llm-evaluation for Model Evaluation of a RAG assistant. Recommend automated metrics, human evaluation criteria, and an A/B testing approach. We care most about factual accuracy, citation usefulness, and regression detection. Suggest a minimal first version and an expanded version.”

적절한 평가 유형 고르기

이 스킬은 여러 평가 방식에 대응합니다. 실무에서는 보통 이렇게 접근합니다.

반복 가능성과 확장성이 중요하면 자동화 메트릭을 사용
주관적이거나 섬세한 품질을 보려면 사람 평가를 사용
버전을 시간에 따라 비교하려면 벤치마킹을 사용
실제 사용자 행동이 중요하면 A/B 테스트를 사용

흔한 실수는 한 가지 방법만 과하게 믿는 것입니다. 예를 들어 생성 작업에 BLEU만 의존하거나, 대규모 회귀 점검에 사람 검토만 쓰는 식입니다.

작업별 메트릭 선택

메트릭은 작업 유형이 결정하도록 해야 합니다.

텍스트 생성: BLEU, ROUGE, METEOR, BERTScore, perplexity
분류: accuracy, precision, recall, F1, confusion matrix, AUC-ROC
검색 / RAG: MRR, NDCG, Precision@K, Recall@K

실무적으로 중요한 포인트는 이것입니다. 텍스트 생성 메트릭을 검색 문제에 억지로 적용하지 말고, 반대로 검색 메트릭을 생성 평가에 갖다 붙이지도 마세요. llm-evaluation guide는 테스트하려는 시스템 계층에 맞춰 메트릭을 매칭할 때 가장 큰 가치를 냅니다.

언제 사람 평가를 포함해야 하나

성공 기준에 아래와 같은 요소가 포함된다면 사람 검토를 넣는 것이 좋습니다.

개방형 답변에서의 사실 정확성
유용성
일관성
톤
지시 준수
안전성 또는 정책 준수

자동 점수는 좋아 보여도 실제 답변 품질이 여전히 나쁠 수 있기 때문에, 이런 경우 사람 평가는 특히 중요합니다.

추측을 줄여주는 실전 워크플로

llm-evaluation install 사용자라면, 첫 워크플로는 아래처럼 가볍게 시작하는 것이 좋습니다.

작업 하나와 사용자 결과 하나를 정의합니다
작지만 대표성 있는 테스트셋을 모읍니다
작업에 맞는 자동화 메트릭 2~4개를 고릅니다
사람 검토 차원 3~5개를 정의합니다
기준선 시스템을 먼저 점수화합니다
한 번에 하나의 변경만 비교합니다
평균값뿐 아니라 실패 사례도 기록합니다

이렇게 하면 도입 장벽은 낮추면서도 평가의 엄밀함은 유지할 수 있습니다.

이 스킬이 특히 잘하는 일

이 llm-evaluation skill은 다음이 필요할 때 가장 강합니다.

평가 방법 선택
벤치마크 구조 설계
사람 평가와 자동 평가의 결합
프롬프트 또는 모델 비교 계획 수립
배포 전 신뢰도 확보

반대로, 출력물을 “판정”하는 한 줄 프롬프트만 원하거나 이미 성숙한 평가 harness가 있고 구현 코드만 필요하다면 상대적으로 덜 유용합니다.

흔한 사용 실수: 기준선 없이 평가하기

많은 팀이 버전 B가 “좋은지”를 묻습니다. 하지만 더 유용한 질문은, 중요한 사례에서 버전 B가 버전 A보다 나은가입니다. 프롬프트에서 스킬에게 아래 항목을 정의해 달라고 요청하세요.

기준선 메트릭
비교 규칙
통과/실패 임계값
회귀 판정 기준

이렇게 해야 llm-evaluation for Model Evaluation이 훨씬 더 실행 가능한 결과로 이어집니다.

`llm-evaluation` 스킬 FAQ

`llm-evaluation`은 초보자에게도 괜찮은가

네, 자신의 앱 유형과 개선하려는 대상이 이미 어느 정도 분명하다면 충분히 유용합니다. 주요 평가 범주를 비교적 명확하게 설명해 줍니다. 다만 아직 작업, 데이터셋, 성공 기준이 정리되지 않았다면 초보자에게는 다소 어렵게 느껴질 수 있습니다.

먼저 정식 벤치마크 데이터셋이 꼭 필요한가

아니요. 하지만 사례 예시는 필요합니다. 매번 즉흥적인 프롬프트로 평가하는 것보다, 작더라도 선별된 테스트셋이 훨씬 낫습니다. 대표 사례와 기대 동작을 보여줄 수 있을 때 이 스킬의 효용이 가장 커집니다.

이 스킬은 학술식 평가에만 쓰는 건가

아닙니다. 저장소의 내용은 매우 실용적입니다. 모델 비교, 프롬프트 검증, 회귀 탐지, 운영 배포 전 확신 확보, A/B 테스트까지 다룹니다. 연구 워크플로뿐 아니라 제품 팀에도 적용 가능합니다.

언제 `llm-evaluation`을 쓰지 않는 편이 좋은가

필요가 순전히 구현 세부사항에 치우쳐 있다면 llm-evaluation은 건너뛰는 편이 낫습니다. 예를 들어 특정 평가 SDK를 연결하거나 특정 프레임워크 명령을 실행하는 문제처럼요. 이 스킬은 전략과 설계에 관한 것이지, 바로 붙여 쓸 수 있는 코드 통합 도구는 아닙니다.

LLM에게 자기 출력을 채점시키는 것과 `llm-evaluation`은 어떻게 다른가

자기 채점은 워크플로의 일부가 될 수는 있지만, 그 자체로 완전한 평가 전략은 아닙니다. llm-evaluation은 목적에 맞는 메트릭, 사람 판단, 기준선, 버전 비교를 함께 구성하도록 도와주기 때문에, 노이즈가 큰 단일 신호 하나에 의존하지 않게 해줍니다.

RAG 시스템에도 `llm-evaluation`을 쓸 수 있나

네. 오히려 매우 잘 맞는 편입니다. MRR, NDCG, Precision@K, Recall@K 같은 retrieval 메트릭을 명시적으로 다루기 때문입니다. 많은 부실한 평가는 답변 텍스트만 점수화하고 retrieval 품질은 놓치는데, 이 차이가 실제 성능 판단에 중요합니다.

`llm-evaluation` 스킬을 더 잘 활용하는 법

일반적인 앱 설명보다 작업 수준의 세부정보를 주기

더 나은 입력:

“Support chatbot that answers billing questions from a knowledge base”

덜 나은 입력:

“AI assistant”

작업을 구체적으로 규정할수록, 스킬은 더 적절한 메트릭과 검토 차원을 추천할 수 있습니다.

프롬프트에서 시스템 구성요소를 분리하기

더 강한 llm-evaluation usage를 원한다면, 스킬에게 계층별로 따로 평가하게 요청하세요.

retrieval quality
generation quality
classification accuracy
safety behavior

이렇게 해야 여러 실패 원인이 하나의 모호한 점수로 뭉개지는 일을 막을 수 있습니다.

실제 실패 사례를 제공하기

문제가 있었던 출력 5~10개를 넣고, 왜 실패인지 설명하세요. 예를 들면:

hallucinated product policy
missed relevant retrieved document
correct answer with poor tone
refusal when the query was actually safe

이 정보가 있어야 스킬이 실제 리스크에 맞는 평가 차원을 추천할 수 있습니다.

먼저 최소 기능 평가부터 요청하기

처음부터 거대한 프레임워크를 설계하려 하지 마세요. 대신 아래를 요청하세요.

가장 작은 규모로도 유효한 benchmark
추적할 가치가 있는 최소한의 metrics
최소 human review rubric
단순한 regression process

이 접근이 도입을 훨씬 쉽게 만들고, 그럴듯해 보이지만 실제로는 돌리지 않는 평가 계획을 피하게 해줍니다.

명시적 기준이 있는 점수표 사용하기

사람 평가를 요청한다면, 스킬에게 아래를 정의해 달라고 하세요.

평가 차원
점수 척도
통과/실패 예시
애매한 사례의 tie-break 규칙

이렇게 해야 리뷰어 간 편차를 줄이고, 반복 평가의 신뢰도를 높일 수 있습니다.

한 번에 한 가지 변경만 비교하기

흔한 실패 패턴은 프롬프트, 모델, retriever, 후처리를 한꺼번에 바꾸는 것입니다. 그러면 결과의 원인이 무엇인지 평가가 설명할 수 없습니다. 가능하면 각 테스트가 변수 하나만 분리하도록 llm-evaluation에 실험 구조를 짜 달라고 요청하세요.

평균 개선만 보지 말고 회귀를 추적하기

평균값은 중요한 손실을 가릴 수 있습니다. 스킬에게 아래 항목을 식별해 달라고 요청하세요.

최악의 케이스 범주
고위험 슬라이스
사용자에게 치명적인 시나리오
안전에 민감한 프롬프트

이 부분이 얕은 평가 계획과 실전형 평가 계획을 가르는 가장 큰 차이 중 하나입니다.

첫 평가 실행 후 다시 반복 개선하기

첫 번째 실행이 끝나면 결과를 다시 가져와 스킬에게 아래를 다듬어 달라고 하세요.

어떤 메트릭이 노이즈가 컸는지
어떤 사람 평가 차원이 서로 겹쳤는지
데이터셋이 어디서 너무 좁았는지
어떤 실패 군집에 새 테스트 케이스가 필요한지

이 두 번째 반복에서 llm-evaluation은 단순히 정보 제공용을 넘어, 실제로 가치 있는 도구가 되는 경우가 많습니다.

의사결정 중심 요청으로 `llm-evaluation` 결과 개선하기

막연한 개요를 요청하기보다, 바로 사용할 수 있는 의사결정 산출물을 요청하세요.

“Create a release-gate evaluation plan”
“Design a prompt-comparison benchmark”
“Build a human review rubric for hallucination risk”
“Recommend metrics for RAG retrieval regression checks”

의사결정 중심 프롬프트일수록 바로 실무에 투입할 수 있는 결과가 나옵니다.

이 스킬의 한계를 이해하기

llm-evaluation은 평가 계획의 품질을 높여주지만, 대표성 있는 데이터, 신중한 라벨링, 엄격한 검토를 대체할 수는 없습니다. 예시가 부실하거나 성공 기준이 서로 충돌하면 결과물도 약해질 수밖에 없습니다. 이 스킬의 효용을 가장 빠르게 끌어올리는 방법은 평가 브리프의 구체성과 현실성을 높이는 것입니다.

평점 및 리뷰

아직 평점이 없습니다

리뷰 남기기

이 스킬의 평점과 리뷰를 남기려면 로그인하세요.

0/10000

최신 리뷰

저장 중...

이 카테고리의 다른 스킬

evaluation-methodology

작성자 wshobson

evaluation-methodology 스킬은 Model Evaluation을 위한 PluginEval 점수 체계를 설명합니다. 평가 레이어, 루브릭, 종합 점수 산정, 배지 기준점은 물론, 결과를 해석하고 취약한 평가 차원을 개선하는 실무적인 방법까지 다룹니다.

Model Evaluation

즐겨찾기 0GitHub 32.6k

healthcare-eval-harness

작성자 affaan-m

healthcare-eval-harness는 의료 앱 배포를 위한 환자 안전 평가 하니스입니다. 릴리스 전에 팀이 CDSS 정확도, PHI 노출, 데이터 무결성, 임상 워크플로 동작, 통합 준수 여부를 검증하는 데 도움이 됩니다. 치명적 실패가 배포를 차단하므로, Model Evaluation과 CI 안전 게이트에서 healthcare-eval-harness를 활용하기에 유용합니다.

Model Evaluation

즐겨찾기 0GitHub 156.2k

eval-harness

작성자 affaan-m

eval-harness 스킬은 Claude Code 세션과 eval-driven development를 위한 정식 평가 프레임워크입니다. 패스/실패 기준을 정의하고, capability 및 regression eval을 구축하며, 프롬프트나 워크플로 변경을 배포하기 전에 에이전트의 신뢰성을 측정하는 데 도움이 됩니다.

Model Evaluation

즐겨찾기 0GitHub 156.1k

agent-eval

작성자 affaan-m

agent-eval은 재현 가능한 작업으로 코딩 에이전트를 일대일로 벤치마킹하는 스킬로, 통과율, 비용, 시간, 일관성을 비교합니다. 이 agent-eval 스킬을 사용하면 Claude Code, Aider, Codex 또는 다른 에이전트를 자신의 repo에서 평가할 수 있으며, 즉흥적인 프롬프트 실험보다 더 명확한 근거를 얻을 수 있습니다.

Model Evaluation

즐겨찾기 0GitHub 156k

huggingface-community-evals

작성자 huggingface

huggingface-community-evals는 inspect-ai 또는 lighteval로 Hugging Face Hub 모델 평가를 로컬에서 실행할 수 있게 도와줍니다. 백엔드 선택, 스모크 테스트, 그리고 vLLM, Transformers, accelerate 활용 가이드를 확인할 때 유용합니다. HF Jobs 오케스트레이션, model-card PR, .eval_results 게시, community-evals 자동화 용도에는 맞지 않습니다.

Model Evaluation

즐겨찾기 0GitHub 10.4k

huggingface-best

작성자 huggingface

huggingface-best 스킬은 Hugging Face 벤치마크 리더보드를 확인하고 기기 제한과 모델 크기를 기준으로 필터링해, 작업에 가장 적합한 모델을 찾는 데 도움을 줍니다. 코딩, 추론, 채팅, OCR, RAG, 음성, 비전, 멀티모달 작업에서, 일반적인 모델 목록이 아니라 실용적인 후보군이 필요할 때 사용하세요.

Model Evaluation

즐겨찾기 0GitHub 10.4k

libafl

작성자 trailofbits

libafl 스킬은 맞춤형 타깃, 변이 전략, 보안 감사 워크플로를 위한 LibAFL 기반 모듈형 퍼저를 계획하고 구축하는 데 도움을 줍니다. 이 libafl 가이드를 활용하면 타깃 세부 정보에서 실용적인 하니스, 피드백 모델, 실행 계획으로 더 적은 가정으로 이어갈 수 있습니다.

Security Audit

즐겨찾기 0GitHub 5k

evaluation

작성자 muratcankoylan

evaluation 스킬은 비결정적 시스템을 위한 에이전트 평가를 설계하고 실행하는 데 도움이 됩니다. 평가 설치 계획, 루브릭, 회귀 점검, 품질 게이트, Skill Testing용 평가에 활용하세요. LLM-as-judge 워크플로, 다차원 스코어링, 그리고 반복 가능한 결과가 필요할 때의 실용적인 평가 사용에 잘 맞습니다.

Skill Testing

즐겨찾기 0GitHub 0

judge-with-debate

작성자 NeoLabHQ

judge-with-debate는 공유된 사양, 근거 기반 반박, 최대 3라운드의 토론을 통해 다중 에이전트 토론 방식으로 솔루션을 평가합니다. 코드 리뷰, 루브릭 기반 평가, 그리고 Multi-Agent Systems 워크플로우에서의 judge-with-debate에 특히 적합합니다.

Multi-Agent Systems

즐겨찾기 0GitHub 982

gws-modelarmor

작성자 googleworkspace

gws-modelarmor는 googleworkspace/cli 생태계에서 Google Model Armor를 다룰 수 있게 도와줍니다. 프롬프트 정제, 모델 응답 정제, 템플릿 생성에 활용할 수 있으며, 일반적인 프롬프트보다 훨씬 적은 추측으로 작업할 수 있습니다. 반복 가능하고 정책을 고려한 사용, 그리고 Security Audit 워크플로에 맞게 설계되었습니다.

Security Audit

즐겨찾기 0GitHub 25.5k

analyzing-campaign-attribution-evidence

작성자 mukul975

analyzing-campaign-attribution-evidence는 분석가가 인프라 중복, ATT&CK 일관성, 멀웨어 유사성, 시점, 언어적 흔적을 함께 검토해 방어 가능한 캠페인 귀속 판단을 내리도록 돕습니다. CTI, 인시던트 분석, Security Audit 검토에 이 analyzing-campaign-attribution-evidence 가이드를 활용하세요.

Security Audit

즐겨찾기 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

작성자 mukul975

detecting-ai-model-prompt-injection-attacks는 LLM에 닿기 전에 신뢰할 수 없는 텍스트를 선별하는 보안 skill입니다. 레이어드 정규식, 휴리스틱 점수화, DeBERTa 기반 분류를 활용해 직접적·간접적 프롬프트 인젝션 공격을 탐지합니다. 챗봇 입력 검증, 문서 수집, 위협 모델링에 특히 유용합니다.

Threat Modeling

즐겨찾기 0GitHub 0

ai-prompt-engineering-safety-review

작성자 github

ai-prompt-engineering-safety-review는 운영 배포, 평가, 또는 고객 대상 사용 전에 LLM 프롬프트를 점검해 안전성, 편향, 보안 취약점, 출력 품질을 검토하는 프롬프트 감사 스킬입니다.

Model Evaluation

즐겨찾기 0GitHub 27.8k

agentic-eval

작성자 github

agentic-eval은 reflection, rubric 기반 비평, evaluator-optimizer 패턴을 활용해 AI 출력에 대한 evaluation loop를 구축하는 방법을 보여주는 GitHub Copilot 스킬입니다.

Model Evaluation

즐겨찾기 0GitHub 27.8k

ml-pipeline-workflow

작성자 wshobson

ml-pipeline-workflow는 데이터 준비, 학습, 검증, 배포, 모니터링까지 아우르는 엔드투엔드 MLOps 파이프라인을 설계할 때 참고하기 좋은 실무형 가이드입니다. 반복 가능한 워크플로 자동화를 위한 오케스트레이션 패턴도 함께 다룹니다.

Workflow Automation

즐겨찾기 0GitHub 0

frontend-design

작성자 anthropics

frontend-design은 막연한 UI 아이디어를 실제 프론트엔드 코드와 뚜렷한 미적 방향성으로 구현해, 생산 단계에 바로 쓸 수 있는 개성 있는 인터페이스를 만들고 흔한 AI 스타일링을 줄여줍니다.

UI Design

즐겨찾기 1GitHub 105.2k

llm-evaluation

llm-evaluation 스킬 개요

어떤 사람에게 llm-evaluation 스킬이 잘 맞나

이 스킬이 해결해 주는 핵심 작업

llm-evaluation이 일반 프롬프트와 다른 점

설치 전에 가장 먼저 분명히 해야 할 것

주요 트레이드오프와 한계

llm-evaluation 스킬 사용 방법

llm-evaluation 스킬 설치 방법

저장소에서 먼저 읽어볼 파일

스킬이 유용해지려면 어떤 입력이 필요한가

대략적인 목표를 강한 프롬프트로 바꾸는 법

llm-evaluation 사용을 위한 프롬프트 템플릿

적절한 평가 유형 고르기

작업별 메트릭 선택

언제 사람 평가를 포함해야 하나

추측을 줄여주는 실전 워크플로

이 스킬이 특히 잘하는 일

흔한 사용 실수: 기준선 없이 평가하기

llm-evaluation 스킬 FAQ

llm-evaluation은 초보자에게도 괜찮은가

먼저 정식 벤치마크 데이터셋이 꼭 필요한가

이 스킬은 학술식 평가에만 쓰는 건가

언제 llm-evaluation을 쓰지 않는 편이 좋은가

LLM에게 자기 출력을 채점시키는 것과 llm-evaluation은 어떻게 다른가

RAG 시스템에도 llm-evaluation을 쓸 수 있나

llm-evaluation 스킬을 더 잘 활용하는 법

일반적인 앱 설명보다 작업 수준의 세부정보를 주기

프롬프트에서 시스템 구성요소를 분리하기

실제 실패 사례를 제공하기

먼저 최소 기능 평가부터 요청하기

명시적 기준이 있는 점수표 사용하기

한 번에 한 가지 변경만 비교하기

평균 개선만 보지 말고 회귀를 추적하기

첫 평가 실행 후 다시 반복 개선하기

의사결정 중심 요청으로 llm-evaluation 결과 개선하기

이 스킬의 한계를 이해하기

평점 및 리뷰

`llm-evaluation` 스킬 개요

어떤 사람에게 `llm-evaluation` 스킬이 잘 맞나

`llm-evaluation`이 일반 프롬프트와 다른 점

`llm-evaluation` 스킬 사용 방법

`llm-evaluation` 스킬 설치 방법

`llm-evaluation` 사용을 위한 프롬프트 템플릿

`llm-evaluation` 스킬 FAQ

`llm-evaluation`은 초보자에게도 괜찮은가

언제 `llm-evaluation`을 쓰지 않는 편이 좋은가

LLM에게 자기 출력을 채점시키는 것과 `llm-evaluation`은 어떻게 다른가

RAG 시스템에도 `llm-evaluation`을 쓸 수 있나

`llm-evaluation` 스킬을 더 잘 활용하는 법

의사결정 중심 요청으로 `llm-evaluation` 결과 개선하기