healthcare-eval-harness

von affaan-m

healthcare-eval-harness ist ein Evaluierungs-Harness für Patientensicherheit bei Healthcare-App-Deployments. Er hilft Teams dabei, vor der Freigabe die Genauigkeit von CDSS, PHI-Offenlegung, Datenintegrität, das Verhalten klinischer Workflows und die Einhaltung von Integrationsvorgaben zu überprüfen. Kritische Fehler blockieren das Deployment, wodurch sich healthcare-eval-harness gut als Sicherheitsschranke für Model Evaluation und CI eignet.

Stars156.2k

Favoriten0

Kommentare0

Hinzugefügt15. Apr. 2026

KategorieModel Evaluation

Installationsbefehl

npx skills add affaan-m/everything-claude-code --skill healthcare-eval-harness

Kurationswert

Diese Skill-Bewertung liegt bei 78/100 und ist damit eine solide Option für Verzeichnisnutzer, die einen Sicherheits-Harness für Healthcare-Deployments suchen. Das Repository zeigt einen echten, auslösbaren Workflow zur Bewertung von EMR/EHR-Änderungen mit klaren Safety Gates für CDSS-Genauigkeit, PHI-Offenlegung, Datenintegrität, klinische Workflows und Integrationskonformität. Es lohnt sich zu installieren, wenn Sie einen strukturierten Healthcare-Test-Harness statt eines generischen Prompts brauchen. Allerdings sollte man beachten, dass der Ansatz auf Test-Frameworks ausgerichtet ist und keine Hilfsskripte oder Referenzen mitliefert.

78/100

Stärken

Klare, Healthcare-spezifische Auslöser: vor EMR/EHR-Deployments, CDSS-Änderungen, Schema-Änderungen mit Patientendaten und Auth-Änderungen einsetzen.
Operativ aussagekräftige Gates: Kritische Fehler blockieren das Deployment, mit klaren Pass-Schwellen für sicherheitsrelevante Kategorien.
Gute Workflow-Orientierung: Der Inhalt beschreibt geordnete Testkategorien und framework-agnostische Anpassungshinweise, was einem Agenten die Ausführung mit weniger Rätselraten ermöglicht.

Hinweise

Es sind kein Installationsbefehl, keine Skripte und keine unterstützenden Referenzdateien enthalten; die Übernahme erfordert daher, den Harness in das eigene Test-Framework zu übertragen.
Das Repository ist mit experimentellen/Test-Signalen gekennzeichnet, daher sollten Nutzer vor der Verwendung prüfen, ob es zu ihren CI/CD- und klinischen Validierungsstandards passt.

Testing Evaluation Ci Cd Medical Regression Testing Jest

Überblick

Überblick über den Skill healthcare-eval-harness

Was healthcare-eval-harness ist

healthcare-eval-harness ist ein Deployment-Sicherheits-Skill für Teams im Gesundheitswesen, die patientenwirksame Änderungen vor dem Release absichern müssen. Der Fokus liegt auf modell- und regelbasierten Evaluierungen für Clinical Decision Support, PHI-Offenlegung, Datenintegrität, Workflow-Korrektheit und Integrationsverhalten. Es geht nicht um allgemeines QA; es geht darum, unsichere Änderungen im Gesundheitsbereich davon abzuhalten, live zu gehen.

Für wen sich das eignet

Dieser healthcare-eval-harness-Skill passt gut für Engineers, QA-Leads, MLOps-Teams und klinische Informatik-Teams, die an EMR-, EHR-, CDSS- oder angrenzenden Healthcare-Apps arbeiten. Besonders hilfreich ist er, wenn ein Fehler Dosierung, Triage, Zugriffskontrolle oder den Umgang mit regulierten Patientendaten beeinträchtigen könnte. Wenn Sie nur einen leichten Prompt für eine nicht-klinische App brauchen, ist das hier vermutlich zu streng.

Was den Skill unterscheidet

Das Repository behandelt Safety Gates als harte Release-Kriterien: Kritische Fehler blockieren das Deployment, statt nur als Warnungen protokolliert zu werden. Dadurch ist healthcare-eval-harness nützlich, wenn Sie ein installierbares Evaluierungs-Muster brauchen und nicht nur eine Checkliste. Außerdem erwartet es, dass Sie das Harness an Ihren Test Runner anpassen, sodass es portabel über Jest, Vitest, pytest oder PHPUnit bleibt.

So verwenden Sie den Skill healthcare-eval-harness

Den Skill installieren und prüfen

Installieren Sie ihn mit npx skills add affaan-m/everything-claude-code --skill healthcare-eval-harness. Lesen Sie dann zuerst skills/healthcare-eval-harness/SKILL.md und anschließend – falls Sie das breitere Paket verwenden – die verlinkten Hinweise im Repo-Root. Der eigentliche Mehrwert dieses Skills steckt in den Evaluierungsregeln und Schwellenwerten; überspringen Sie deshalb weder den Abschnitt „When to Use“ noch „How It Works“.

Verwandeln Sie Ihre Aufgabe in einen nützlichen Prompt

Ein starker Prompt für healthcare-eval-harness sollte das System under Test, die Art der Änderung, den Test Runner und das Safety-Thema benennen. Zum Beispiel: „Wende healthcare-eval-harness auf unseren EHR-Medication-Order-Flow in pytest an. Wir haben die Dosisvalidierung und rollenbasierte Zugriffssteuerung geändert, und ich brauche die kritischen Gates, damit bei PHI-Leakage oder unsicheren Dosierungsfehlern kein Release erfolgt.“ Das ist deutlich besser als „Führe den Healthcare-Skill aus“.

Empfohlener Workflow

Nutzen Sie den Skill immer dann, wenn eine Änderung Patientendaten, klinische Logik oder Deployment-Kontrollen berührt. Ordnen Sie Ihre Funktion zuerst den fünf Evaluierungskategorien zu und entscheiden Sie dann, welche davon kritisch und welche nur hoch priorisiert sind. Übersetzen Sie die Regeln anschließend in Ihr bestehendes Framework und Ihre CI-Pipeline, und führen Sie die Checks erst dann aus. Die wichtigste Frage ist, ob Ihre Testsuite tatsächlich das klinische Fehlermuster abbildet, das Sie verhindern wollen.

Was Sie zuerst lesen sollten

Beginnen Sie mit SKILL.md, um die Gate-Struktur, die Pass-Schwellen und die Einsatzgrenzen zu verstehen. Achten Sie besonders auf die Beispiele mit Jest, die nur als Referenz dienen; der Skill ist framework-agnostisch, daher sollten Sie Dateipfade, Befehle und Assertions an Ihren Stack anpassen. Wenn Ihr Repo eine eigene Testorganisation hat, übernehmen Sie diese Struktur, statt ein generisches Layout aufzuzwingen.

FAQ zum Skill healthcare-eval-harness

Ist healthcare-eval-harness nur für Jest?

Nein. Jest wird nur als Beispiel gezeigt, healthcare-eval-harness ist aber für jeden ernsthaften Test Runner gedacht. Entscheidend ist, dass Sie die Logik der kritischen Gates, die Kategorienreihenfolge und die Pass-Schwellen in Ihrem eigenen Tooling beibehalten.

Ist das dasselbe wie ein normaler Prompt für Healthcare-QA?

Nein. Ein normaler Prompt kann zwar Tests erzeugen, aber der healthcare-eval-harness-Skill liefert ein installierbares Evaluierungsmodell mit explizitem Blockierverhalten. Das ist wichtig, wenn Sie verlässliche Deployment-Entscheidungen für Änderungen an Healthcare-Anwendungen brauchen.

Wann sollte ich ihn nicht verwenden?

Verwenden Sie healthcare-eval-harness nicht für risikoarme Content-Änderungen, Marketingseiten oder Funktionen, die weder Patientensicherheit noch klinische Workflows noch regulierte Daten betreffen. Er ist oft überdimensioniert, wenn Ihr Team nicht die Disziplin hat, Tests zu pflegen, die reales klinisches Risiko tatsächlich abbilden.

Ist er anfängerfreundlich?

Ja, wenn Sie mit grundlegenden Test- und CI-Konzepten bereits vertraut sind. Es ist kein Tutorial zu Healthcare-Compliance, daher brauchen Einsteiger weiterhin fachliche Prüfung für Schwellenwerte, Edge Cases und die Frage, was als kritischer Fehler gilt.

So verbessern Sie den Skill healthcare-eval-harness

Geben Sie dem Skill einen präziseren klinischen Kontext

Die besten Ergebnisse mit healthcare-eval-harness entstehen durch konkrete Eingaben: den Patientenworkflow, den befürchteten Fehler, die betroffenen Datenfelder und das erwartete sichere Verhalten. „Testen Sie die App“ ist schwach; „testen Sie, dass eine Medication Order mit Allergy-Match die Übermittlung blockiert und den Grund protokolliert“ ist umsetzbar.

Machen Sie die Failure Gates explizit

Nennen Sie klar, welche Fehler das Deployment blockieren müssen und welche nur als hoch priorisierte Warnungen behandelt werden sollen. Wenn der Skill Healthcare AI für Model Evaluation bewerten soll, sagen Sie explizit, ob Ihnen Halluzinationsrisiko, PHI-Leakage, Leitlinienkonformität oder Workflow-Fehler wichtiger sind. Je klarer das Gate, desto weniger Rätselraten gibt es im Output.

Iterieren Sie anhand realer Fehlstellen

Vergleichen Sie den Output des Harness nach dem ersten Lauf mit echten Vorfällen, Beinahe-Fehlern oder Rückmeldungen von Clinicians. Schärfen Sie die Assertions dort nach, wo unsicheres Verhalten durchgerutscht ist, und lockern Sie nur die Checks, die Lärm erzeugen, ohne die Sicherheit zu verbessern. Genau dieser Feedback-Loop macht healthcare-eval-harness über einen einmaligen Prompt hinaus nützlich.

Bewertungen & Rezensionen

Noch keine Bewertungen

Teile deine Rezension

Melde dich an, um für diesen Skill eine Bewertung und einen Kommentar zu hinterlassen.

0/10000

Neueste Rezensionen

Wird gespeichert...

Mehr Skills in dieser Kategorie

evaluation-methodology

von wshobson

Die evaluation-methodology Skill erklärt das PluginEval-Scoring für Model Evaluation, einschließlich Ebenen, Rubriken, zusammengesetzter Bewertung, Badge-Schwellen und praxisnaher Hinweise zur Interpretation von Ergebnissen und zur Verbesserung schwacher Dimensionen.

Model Evaluation

Favoriten 0GitHub 32.6k

self-eval

von alirezarezvani

self-eval ist eine promptbasierte Claude Code Skill für ehrliche Reviews nach erledigter Arbeit. Sie nutzt Zwei-Achsen-Scoring, Devil's-Advocate-Reasoning, Score-Persistenz und Anti-Inflationschecks, um die Qualität von KI-Arbeit nach Aufgaben, Code Reviews oder Arbeitssitzungen zu bewerten.

Model Evaluation

Favoriten 0GitHub 22.2k

eval-harness

von affaan-m

Das eval-harness Skill ist ein formaler Evaluierungsrahmen für Claude Code-Sitzungen und eval-getriebene Entwicklung. Es hilft dir dabei, Pass/Fail-Kriterien zu definieren, Capability- und Regression-Evals aufzubauen und die Zuverlässigkeit von Agents vor dem Ausrollen von Prompt- oder Workflow-Änderungen zu messen.

Model Evaluation

Favoriten 0GitHub 156.1k

agent-eval

von affaan-m

agent-eval ist eine Skill zur direkten Bewertung von Coding-Agents anhand reproduzierbarer Aufgaben. Verglichen werden Erfolgsquote, Kosten, Zeit und Konsistenz. Mit der agent-eval Skill können Sie Claude Code, Aider, Codex oder einen anderen Agent in Ihrem eigenen Repo mit deutlich belastbareren Ergebnissen als bei ad hoc Prompts evaluieren.

Model Evaluation

Favoriten 0GitHub 156k

huggingface-community-evals

von huggingface

huggingface-community-evals hilft dir, Modelle aus dem Hugging Face Hub lokal mit inspect-ai oder lighteval zu evaluieren. Nutze es für die Auswahl des Backends, Smoke Tests und einen praxisnahen Einstieg in vLLM, Transformers oder accelerate. Nicht gedacht für HF Jobs-Orchestrierung, model-card-PRs, das Veröffentlichen von .eval_results oder community-evals-Automatisierung.

Model Evaluation

Favoriten 0GitHub 10.4k

huggingface-best

von huggingface

Die huggingface-best Skill hilft dir, das beste Modell für eine Aufgabe zu finden, indem sie Hugging Face-Benchmark-Leaderboards prüft und nach Gerätegrenzen sowie Modellgröße filtert. Nutze sie für Modell-Empfehlungen in Coding, Reasoning, Chat, OCR, RAG, Speech, Vision oder multimodalen Workflows, wenn du eine praktische Shortlist statt einer allgemeinen Modellliste brauchst.

Model Evaluation

Favoriten 0GitHub 10.4k

libafl

von trailofbits

Die libafl-Skill hilft Ihnen dabei, modulare Fuzzer mit LibAFL für eigene Targets, Mutationsstrategien und Security-Audit-Workflows zu planen und aufzubauen. Nutzen Sie diesen libafl-Leitfaden, um von den Target-Details zu einem praktikablen Harness, Feedback-Modell und Run-Plan zu kommen – mit weniger Annahmen.

Security Audit

Favoriten 0GitHub 5k

evaluation

von muratcankoylan

Die Evaluation-Skill hilft dir, Agent-Evaluierungen für nicht-deterministische Systeme zu entwerfen und auszuführen. Verwende sie für die Planung der Evaluation-Installation, Rubriken, Regressionstests, Quality Gates und Evaluationen für Skill Testing. Sie eignet sich für LLM-as-judge-Workflows, mehrdimensionale Bewertungen und den praktischen Einsatz von Evaluationen, wenn reproduzierbare Ergebnisse gefragt sind.

Skill Testing

Favoriten 0GitHub 0

judge-with-debate

von NeoLabHQ

judge-with-debate bewertet Lösungen durch strukturiertes Multi-Agenten-Debattieren – mit gemeinsamer Spezifikation, evidenzbasierten Gegenargumenten und bis zu 3 Runden, um zu einem Konsens zu gelangen. Das eignet sich besonders für Code-Reviews, rubrikbasierte Bewertungen und judge-with-debate in Workflows für Multi-Agent Systems.

Multi-Agent Systems

Favoriten 0GitHub 982

gws-modelarmor

von googleworkspace

gws-modelarmor hilft dir, mit Google Model Armor im googleworkspace/cli-Ökosystem zu arbeiten. Damit kannst du Prompts bereinigen, Modellantworten bereinigen und Templates mit weniger Rätselraten als bei einem generischen Prompt erstellen. Die Skill ist auf wiederholbare, richtlinienbewusste Nutzung und Security-Audit-Workflows ausgelegt.

Security Audit

Favoriten 0GitHub 25.5k

analyzing-campaign-attribution-evidence

von mukul975

analyzing-campaign-attribution-evidence hilft Analysten dabei, Infrastruktur-Überschneidungen, ATT&CK-Konsistenz, Malware-Ähnlichkeiten, Zeitbezug und sprachliche Artefakte abzuwägen, um belastbare Kampagnenzuschreibungen vorzunehmen. Nutzen Sie diesen analyzing-campaign-attribution-evidence-Leitfaden für CTI, Incident-Analysen und Security-Audit-Reviews.

Security Audit

Favoriten 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

von mukul975

detecting-ai-model-prompt-injection-attacks ist eine Cybersecurity-Skill zum Prüfen untrusted Texts, bevor er ein LLM erreicht. Sie nutzt gestaffelte Regex-Prüfungen, heuristische Bewertung und DeBERTa-basierte Klassifikation, um direkte und indirekte Prompt-Injection-Angriffe zu erkennen. Nützlich für die Eingabevalidierung von Chatbots, die Dokumentenaufnahme und Threat Modeling.

Threat Modeling

Favoriten 0GitHub 0

honeyhive-automation

von ComposioHQ

honeyhive-automation hilft Claude, Honeyhive-Workflows über Composio Rube MCP zu automatisieren – mit Setup-Prüfungen, Verifizierung aktiver Verbindungen und schemaorientierter Tool-Erkennung vor der Ausführung von Aktionen.

Workflow Automation

Favoriten 0GitHub 67.5k

llm-evaluation

von wshobson

Mit dem Skill llm-evaluation erstellen Sie wiederholbare Evaluationspläne für LLM-Apps, Prompts, RAG-Systeme und Modelländerungen – mit Metriken, menschlicher Bewertung, Benchmarking und Regressionsprüfungen.

Model Evaluation

Favoriten 0GitHub 32.6k

ai-prompt-engineering-safety-review

von github

ai-prompt-engineering-safety-review ist eine Skill zur Prompt-Prüfung, mit der LLM-Prompts vor dem Produktiveinsatz, vor Evaluationen oder vor kundennahen Anwendungen auf Sicherheit, Bias, Sicherheitslücken und Ausgabequalität überprüft werden.

Model Evaluation

Favoriten 0GitHub 27.8k

agentic-eval

von github

agentic-eval ist eine GitHub Copilot Skill, die zeigt, wie sich Evaluierungsschleifen für KI-Ausgaben mit Reflection, rubric-basierter Bewertung und Evaluator-Optimizer-Mustern aufbauen lassen.

Model Evaluation

Favoriten 0GitHub 27.8k