Evaluation

Evaluation taxonomy generated by the site skill importer.

3 skills
A
healthcare-eval-harness

por affaan-m

healthcare-eval-harness es un entorno de evaluación de seguridad del paciente para despliegues de aplicaciones sanitarias. Ayuda a los equipos a verificar la precisión de CDSS, la exposición de PHI, la integridad de los datos, el comportamiento del flujo clínico y el cumplimiento de integraciones antes de publicar. Los fallos críticos bloquean el despliegue, por lo que resulta útil para healthcare-eval-harness en evaluaciones de modelos y como puerta de seguridad en CI.

Model Evaluation
Favoritos 0GitHub 156.2k
A
eval-harness

por affaan-m

La skill eval-harness es un marco formal de evaluación para sesiones de Claude Code y el desarrollo guiado por evals. Te ayuda a definir criterios de aprobado/reprobado, crear evals de capacidad y de regresión, y medir la fiabilidad del agente antes de publicar cambios en prompts o flujos de trabajo.

Model Evaluation
Favoritos 0GitHub 156.1k
A
continuous-agent-loop

por affaan-m

continuous-agent-loop ayuda a los agentes a ejecutar bucles autónomos repetibles con controles de calidad, evals, pasos de recuperación y reglas claras de parada para completar tareas de forma fiable.

Agent Orchestration
Favoritos 0GitHub 156.1k