작성자 affaan-m
healthcare-eval-harness는 의료 앱 배포를 위한 환자 안전 평가 하니스입니다. 릴리스 전에 팀이 CDSS 정확도, PHI 노출, 데이터 무결성, 임상 워크플로 동작, 통합 준수 여부를 검증하는 데 도움이 됩니다. 치명적 실패가 배포를 차단하므로, Model Evaluation과 CI 안전 게이트에서 healthcare-eval-harness를 활용하기에 유용합니다.
작성자 affaan-m
healthcare-eval-harness는 의료 앱 배포를 위한 환자 안전 평가 하니스입니다. 릴리스 전에 팀이 CDSS 정확도, PHI 노출, 데이터 무결성, 임상 워크플로 동작, 통합 준수 여부를 검증하는 데 도움이 됩니다. 치명적 실패가 배포를 차단하므로, Model Evaluation과 CI 안전 게이트에서 healthcare-eval-harness를 활용하기에 유용합니다.
작성자 affaan-m
eval-harness 스킬은 Claude Code 세션과 eval-driven development를 위한 정식 평가 프레임워크입니다. 패스/실패 기준을 정의하고, capability 및 regression eval을 구축하며, 프롬프트나 워크플로 변경을 배포하기 전에 에이전트의 신뢰성을 측정하는 데 도움이 됩니다.
작성자 affaan-m
continuous-agent-loop는 에이전트가 품질 게이트, 평가, 복구 단계, 명확한 중지 규칙을 갖춘 반복 가능한 자율 루프를 안정적으로 실행하도록 돕습니다.
작성자 muratcankoylan
context-degradation은 긴 작업 흐름에서 발생하는 컨텍스트 실패를 진단하는 실용적인 스킬입니다. lost-in-the-middle, poisoning, distraction, confusion, clash를 포함해 어디에서 컨텍스트가 끊기는지 찾아내고, 무엇을 먼저 바꿔야 하는지 결정한 뒤, Skill Authoring, 프롬프트 배치, 프로덕션 에이전트 디버깅에 바로 쓸 수 있는 반복 가능한 context-degradation 가이드를 적용할 수 있습니다.
작성자 huggingface
huggingface-community-evals는 inspect-ai 또는 lighteval로 Hugging Face Hub 모델 평가를 로컬에서 실행할 수 있게 도와줍니다. 백엔드 선택, 스모크 테스트, 그리고 vLLM, Transformers, accelerate 활용 가이드를 확인할 때 유용합니다. HF Jobs 오케스트레이션, model-card PR, .eval_results 게시, community-evals 자동화 용도에는 맞지 않습니다.
작성자 microsoft
azure-ai-projects-py는 Microsoft Foundry 프로젝트 클라이언트를 위한 Azure AI Projects Python SDK 스킬입니다. 설치, 인증, 클라이언트 설정, PromptAgentDefinition을 사용하는 버전 관리 에이전트, 평가, 연결, 배포, 데이터 세트, 인덱스, OpenAI 호환 액세스에 활용하세요. Python 백엔드 개발 워크플로에 가장 적합합니다.
작성자 mcollina
skill-optimizer는 작성된 AI 스킬의 활성화, 명확성, 그리고 모델 간 신뢰성을 높이는 데 도움을 줍니다. 스킬은 만들어졌지만 잘 따르지 않거나, 트리거가 약하거나, 회귀가 보이거나, 컨텍스트 비용을 줄여야 할 때 Skill Authoring에 사용하세요. 벤치마크 루프, 릴리스 게이트, 더 높은 사용 충실도를 지원합니다.
작성자 NeoLabHQ
tree-of-thoughts는 여러 접근 방식을 탐색하고, 약한 분기를 가지치기하며, 더 나은 답을 합성하도록 돕는 추론 워크플로 스킬입니다. 까다로운 디버깅, 계획 수립, 아키텍처 트레이드오프, Agent Orchestration용 tree-of-thoughts에 특히 유용합니다.
작성자 NeoLabHQ
Judge는 2단계 평가 skill로, 먼저 메타-judge를 실행한 뒤 judge 하위 에이전트가 격리된 컨텍스트, 근거, 명확한 기준으로 결과를 채점합니다. 코드, 글쓰기, 분석, Skill Authoring을 보고용으로 검토해야 할 때, 가벼운 의견이 아니라 방어 가능한 judge 가이드가 필요하다면 사용하세요.
작성자 NeoLabHQ
judge-with-debate는 공유된 사양, 근거 기반 반박, 최대 3라운드의 토론을 통해 다중 에이전트 토론 방식으로 솔루션을 평가합니다. 코드 리뷰, 루브릭 기반 평가, 그리고 Multi-Agent Systems 워크플로우에서의 judge-with-debate에 특히 적합합니다.
작성자 NeoLabHQ
do-and-judge 스킬은 하위 에이전트의 구현 단계, 독립적인 판단자, 그리고 통과하거나 최대 재시도 횟수에 도달할 때까지 반복 검증을 통해 단일 작업을 실행합니다. 명확한 수용 기준, 분리된 실행, 그리고 일반적인 프롬프트보다 더 적은 추측이 필요할 때 워크플로 자동화에서 do-and-judge를 사용하세요.
작성자 NeoLabHQ
do-competitively는 병렬 후보 생성, 루브릭 기반 평가, 근거 중심 종합을 통해 중요한 작업을 해결하도록 돕습니다. 속도보다 품질, 견고성, 그리고 트레이드오프 처리가 더 중요한 Workflow Automation 및 기타 고위험 요청에 특히 적합합니다.
작성자 K-Dense-AI
scholar-evaluation은 문제 설정, 방법론, 분석, 글쓰기, 출판 준비도까지 구조화된 채점으로 학술 및 연구 산출물을 평가하는 데 도움을 줍니다. 논문, 제안서, 문헌고찰, 기타 학술 초안의 검토, 수정 계획 수립, 일관된 피드백 제공에 활용할 수 있습니다.
작성자 muratcankoylan
evaluation 스킬은 비결정적 시스템을 위한 에이전트 평가를 설계하고 실행하는 데 도움이 됩니다. 평가 설치 계획, 루브릭, 회귀 점검, 품질 게이트, Skill Testing용 평가에 활용하세요. LLM-as-judge 워크플로, 다차원 스코어링, 그리고 반복 가능한 결과가 필요할 때의 실용적인 평가 사용에 잘 맞습니다.
작성자 NeoLabHQ
critique는 여러 전문 심사자, 토론, 합의를 활용해 완료된 작업을 평가하는 보고 전용 리뷰 스킬입니다. Code Review의 critique, 정확성, 품질, 그리고 머지 전에 놓친 이슈를 점검하는 데 도움이 됩니다. NeoLabHQ context-engineering-kit에 critique를 설치하고 파일 경로, 커밋, 또는 컨텍스트와 함께 사용하세요.