Evaluation

Evaluation taxonomy generated by the site skill importer.

19 개 스킬

healthcare-eval-harness

작성자 affaan-m

healthcare-eval-harness는 의료 앱 배포를 위한 환자 안전 평가 하니스입니다. 릴리스 전에 팀이 CDSS 정확도, PHI 노출, 데이터 무결성, 임상 워크플로 동작, 통합 준수 여부를 검증하는 데 도움이 됩니다. 치명적 실패가 배포를 차단하므로, Model Evaluation과 CI 안전 게이트에서 healthcare-eval-harness를 활용하기에 유용합니다.

Model Evaluation

즐겨찾기 0GitHub 156.2k

eval-harness

작성자 affaan-m

eval-harness 스킬은 Claude Code 세션과 eval-driven development를 위한 정식 평가 프레임워크입니다. 패스/실패 기준을 정의하고, capability 및 regression eval을 구축하며, 프롬프트나 워크플로 변경을 배포하기 전에 에이전트의 신뢰성을 측정하는 데 도움이 됩니다.

Model Evaluation

즐겨찾기 0GitHub 156.1k

continuous-agent-loop

작성자 affaan-m

continuous-agent-loop는 에이전트가 품질 게이트, 평가, 복구 단계, 명확한 중지 규칙을 갖춘 반복 가능한 자율 루프를 안정적으로 실행하도록 돕습니다.

Agent Orchestration

즐겨찾기 0GitHub 156.1k

self-eval

작성자 alirezarezvani

self-eval은 작업 이후의 검토를 솔직하게 수행하도록 돕는 prompt-only Claude Code skill입니다. 작업, 코드 리뷰, 업무 세션이 끝난 뒤 AI 작업 품질을 평가하기 위해 두 축 점수화, devil's advocate reasoning, 점수 이력 저장, 점수 부풀림 방지 검사를 사용합니다.

Model Evaluation

즐겨찾기 0GitHub 22.2k

prompt-governance

작성자 alirezarezvani

prompt-governance는 프로덕션 prompt를 versioned, reviewed, tested 자산으로 관리하기 위한 Claude skill입니다. AI 기능을 위한 prompt registries, regression tests, A/B experiments, eval pipelines, release approvals, rollback workflows를 설계하고 운영할 때 활용할 수 있습니다.

Prompt Governance

즐겨찾기 0GitHub 22.2k

run

작성자 alirezarezvani

run은 Claude용 AgentHub orchestration 스킬로, /hub:run을 실행해 작업을 초기화하고 agent를 생성하며 결과를 평가한 뒤 우승 결과를 merge합니다. 명확한 task, agent, eval, metric, direction, template 파라미터가 있는 측정 가능한 코드 개선 작업이나 평가 기준이 있는 창의적 비교에 적합합니다.

Agent Orchestration

즐겨찾기 0GitHub 22.1k

eval

작성자 alirezarezvani

eval은 설정된 metrics, LLM judge review 또는 두 방식을 섞은 hybrid approach로 완료된 AgentHub agent 결과의 순위를 매깁니다. 승자를 정하기 전에 `/hub:eval`로 session branches, diffs, result posts를 비교할 때 사용하세요.

Model Evaluation

즐겨찾기 0GitHub 22.1k

context-degradation

작성자 muratcankoylan

context-degradation은 긴 작업 흐름에서 발생하는 컨텍스트 실패를 진단하는 실용적인 스킬입니다. lost-in-the-middle, poisoning, distraction, confusion, clash를 포함해 어디에서 컨텍스트가 끊기는지 찾아내고, 무엇을 먼저 바꿔야 하는지 결정한 뒤, Skill Authoring, 프롬프트 배치, 프로덕션 에이전트 디버깅에 바로 쓸 수 있는 반복 가능한 context-degradation 가이드를 적용할 수 있습니다.

Skill Authoring

즐겨찾기 0GitHub 15.6k

huggingface-community-evals

작성자 huggingface

huggingface-community-evals는 inspect-ai 또는 lighteval로 Hugging Face Hub 모델 평가를 로컬에서 실행할 수 있게 도와줍니다. 백엔드 선택, 스모크 테스트, 그리고 vLLM, Transformers, accelerate 활용 가이드를 확인할 때 유용합니다. HF Jobs 오케스트레이션, model-card PR, .eval_results 게시, community-evals 자동화 용도에는 맞지 않습니다.

Model Evaluation

즐겨찾기 0GitHub 10.4k

azure-ai-projects-py

작성자 microsoft

azure-ai-projects-py는 Microsoft Foundry 프로젝트 클라이언트를 위한 Azure AI Projects Python SDK 스킬입니다. 설치, 인증, 클라이언트 설정, PromptAgentDefinition을 사용하는 버전 관리 에이전트, 평가, 연결, 배포, 데이터 세트, 인덱스, OpenAI 호환 액세스에 활용하세요. Python 백엔드 개발 워크플로에 가장 적합합니다.

Backend Development

즐겨찾기 0GitHub 2.2k

skill-optimizer

작성자 mcollina

skill-optimizer는 작성된 AI 스킬의 활성화, 명확성, 그리고 모델 간 신뢰성을 높이는 데 도움을 줍니다. 스킬은 만들어졌지만 잘 따르지 않거나, 트리거가 약하거나, 회귀가 보이거나, 컨텍스트 비용을 줄여야 할 때 Skill Authoring에 사용하세요. 벤치마크 루프, 릴리스 게이트, 더 높은 사용 충실도를 지원합니다.

Skill Authoring

즐겨찾기 0GitHub 1.8k

tree-of-thoughts

작성자 NeoLabHQ

tree-of-thoughts는 여러 접근 방식을 탐색하고, 약한 분기를 가지치기하며, 더 나은 답을 합성하도록 돕는 추론 워크플로 스킬입니다. 까다로운 디버깅, 계획 수립, 아키텍처 트레이드오프, Agent Orchestration용 tree-of-thoughts에 특히 유용합니다.

Agent Orchestration

즐겨찾기 0GitHub 982

judge

작성자 NeoLabHQ

Judge는 2단계 평가 skill로, 먼저 메타-judge를 실행한 뒤 judge 하위 에이전트가 격리된 컨텍스트, 근거, 명확한 기준으로 결과를 채점합니다. 코드, 글쓰기, 분석, Skill Authoring을 보고용으로 검토해야 할 때, 가벼운 의견이 아니라 방어 가능한 judge 가이드가 필요하다면 사용하세요.

Skill Authoring

즐겨찾기 0GitHub 982

judge-with-debate

작성자 NeoLabHQ

judge-with-debate는 공유된 사양, 근거 기반 반박, 최대 3라운드의 토론을 통해 다중 에이전트 토론 방식으로 솔루션을 평가합니다. 코드 리뷰, 루브릭 기반 평가, 그리고 Multi-Agent Systems 워크플로우에서의 judge-with-debate에 특히 적합합니다.

Multi-Agent Systems

즐겨찾기 0GitHub 982

do-and-judge

작성자 NeoLabHQ

do-and-judge 스킬은 하위 에이전트의 구현 단계, 독립적인 판단자, 그리고 통과하거나 최대 재시도 횟수에 도달할 때까지 반복 검증을 통해 단일 작업을 실행합니다. 명확한 수용 기준, 분리된 실행, 그리고 일반적인 프롬프트보다 더 적은 추측이 필요할 때 워크플로 자동화에서 do-and-judge를 사용하세요.

Workflow Automation

즐겨찾기 0GitHub 982

do-competitively

작성자 NeoLabHQ

do-competitively는 병렬 후보 생성, 루브릭 기반 평가, 근거 중심 종합을 통해 중요한 작업을 해결하도록 돕습니다. 속도보다 품질, 견고성, 그리고 트레이드오프 처리가 더 중요한 Workflow Automation 및 기타 고위험 요청에 특히 적합합니다.

Workflow Automation

즐겨찾기 0GitHub 982

scholar-evaluation

작성자 K-Dense-AI

scholar-evaluation은 문제 설정, 방법론, 분석, 글쓰기, 출판 준비도까지 구조화된 채점으로 학술 및 연구 산출물을 평가하는 데 도움을 줍니다. 논문, 제안서, 문헌고찰, 기타 학술 초안의 검토, 수정 계획 수립, 일관된 피드백 제공에 활용할 수 있습니다.

Academic Research

즐겨찾기 0GitHub 0

evaluation

작성자 muratcankoylan

evaluation 스킬은 비결정적 시스템을 위한 에이전트 평가를 설계하고 실행하는 데 도움이 됩니다. 평가 설치 계획, 루브릭, 회귀 점검, 품질 게이트, Skill Testing용 평가에 활용하세요. LLM-as-judge 워크플로, 다차원 스코어링, 그리고 반복 가능한 결과가 필요할 때의 실용적인 평가 사용에 잘 맞습니다.

Skill Testing

즐겨찾기 0GitHub 0

critique

작성자 NeoLabHQ

critique는 여러 전문 심사자, 토론, 합의를 활용해 완료된 작업을 평가하는 보고 전용 리뷰 스킬입니다. Code Review의 critique, 정확성, 품질, 그리고 머지 전에 놓친 이슈를 점검하는 데 도움이 됩니다. NeoLabHQ context-engineering-kit에 critique를 설치하고 파일 경로, 커밋, 또는 컨텍스트와 함께 사용하세요.

Code Review

즐겨찾기 0GitHub 0