Evaluation

Evaluation taxonomy generated by the site skill importer.

3 skills
A
healthcare-eval-harness

por affaan-m

healthcare-eval-harness é um harness de avaliação de segurança do paciente para implantações de apps de saúde. Ele ajuda equipes a verificar a precisão de CDSS, exposição de PHI, integridade dos dados, comportamento do fluxo clínico e conformidade de integração antes do release. Falhas críticas bloqueiam a implantação, tornando o healthcare-eval-harness útil para Avaliação de Modelo e gates de segurança em CI.

Model Evaluation
Favoritos 0GitHub 156.2k
A
eval-harness

por affaan-m

A skill eval-harness é um framework formal de avaliação para sessões do Claude Code e desenvolvimento orientado por avaliação. Ela ajuda você a definir critérios de aprovação e reprovação, criar avaliações de capacidade e regressão e medir a confiabilidade do agente antes de publicar mudanças em prompts ou fluxos de trabalho.

Model Evaluation
Favoritos 0GitHub 156.1k
A
continuous-agent-loop

por affaan-m

continuous-agent-loop ajuda agentes a executar loops autônomos repetíveis com quality gates, evals, etapas de recuperação e regras claras de parada para concluir tarefas com confiabilidade.

Agent Orchestration
Favoritos 0GitHub 156.1k