Evaluation

Evaluation taxonomy generated by the site skill importer.

3 Skills
A
healthcare-eval-harness

von affaan-m

healthcare-eval-harness ist ein Evaluierungs-Harness für Patientensicherheit bei Healthcare-App-Deployments. Er hilft Teams dabei, vor der Freigabe die Genauigkeit von CDSS, PHI-Offenlegung, Datenintegrität, das Verhalten klinischer Workflows und die Einhaltung von Integrationsvorgaben zu überprüfen. Kritische Fehler blockieren das Deployment, wodurch sich healthcare-eval-harness gut als Sicherheitsschranke für Model Evaluation und CI eignet.

Model Evaluation
Favoriten 0GitHub 156.2k
A
eval-harness

von affaan-m

Das eval-harness Skill ist ein formaler Evaluierungsrahmen für Claude Code-Sitzungen und eval-getriebene Entwicklung. Es hilft dir dabei, Pass/Fail-Kriterien zu definieren, Capability- und Regression-Evals aufzubauen und die Zuverlässigkeit von Agents vor dem Ausrollen von Prompt- oder Workflow-Änderungen zu messen.

Model Evaluation
Favoriten 0GitHub 156.1k
A
continuous-agent-loop

von affaan-m

continuous-agent-loop unterstützt Agents dabei, wiederholbare autonome Schleifen mit Qualitäts-Gates, Evals, Recovery-Schritten und klaren Stop-Regeln auszuführen, damit Aufgaben verlässlich abgeschlossen werden.

Agent Orchestration
Favoriten 0GitHub 156.1k