Evaluation

Evaluation taxonomy generated by the site skill importer.

3 개 스킬
A
healthcare-eval-harness

작성자 affaan-m

healthcare-eval-harness는 의료 앱 배포를 위한 환자 안전 평가 하니스입니다. 릴리스 전에 팀이 CDSS 정확도, PHI 노출, 데이터 무결성, 임상 워크플로 동작, 통합 준수 여부를 검증하는 데 도움이 됩니다. 치명적 실패가 배포를 차단하므로, Model Evaluation과 CI 안전 게이트에서 healthcare-eval-harness를 활용하기에 유용합니다.

Model Evaluation
즐겨찾기 0GitHub 156.2k
A
eval-harness

작성자 affaan-m

eval-harness 스킬은 Claude Code 세션과 eval-driven development를 위한 정식 평가 프레임워크입니다. 패스/실패 기준을 정의하고, capability 및 regression eval을 구축하며, 프롬프트나 워크플로 변경을 배포하기 전에 에이전트의 신뢰성을 측정하는 데 도움이 됩니다.

Model Evaluation
즐겨찾기 0GitHub 156.1k
A
continuous-agent-loop

작성자 affaan-m

continuous-agent-loop는 에이전트가 품질 게이트, 평가, 복구 단계, 명확한 중지 규칙을 갖춘 반복 가능한 자율 루프를 안정적으로 실행하도록 돕습니다.

Agent Orchestration
즐겨찾기 0GitHub 156.1k