Evaluation

Evaluation taxonomy generated by the site skill importer.

3 skills
A
healthcare-eval-harness

par affaan-m

healthcare-eval-harness est un cadre d’évaluation de la sécurité des patients pour les déploiements d’applications de santé. Il aide les équipes à vérifier la précision du CDSS, l’exposition des PHI, l’intégrité des données, le comportement des flux cliniques et la conformité des intégrations avant mise en production. Les échecs critiques bloquent le déploiement, ce qui en fait un outil utile pour healthcare-eval-harness dans l’évaluation de modèles et les garde-fous de sécurité CI.

Model Evaluation
Favoris 0GitHub 156.2k
A
eval-harness

par affaan-m

Le skill eval-harness est un cadre d’évaluation formel pour les sessions Claude Code et le développement guidé par l’évaluation. Il vous aide à définir des critères de réussite/échec, à construire des évaluations de capacités et de régression, et à mesurer la fiabilité de l’agent avant de déployer des changements de prompt ou de workflow.

Model Evaluation
Favoris 0GitHub 156.1k
A
continuous-agent-loop

par affaan-m

continuous-agent-loop aide les agents à exécuter des boucles autonomes répétables avec des garde-fous qualité, des évaluations, des étapes de reprise et des règles d’arrêt claires pour mener les tâches à bien de façon fiable.

Agent Orchestration
Favoris 0GitHub 156.1k