healthcare-eval-harness

par affaan-m

healthcare-eval-harness est un cadre d’évaluation de la sécurité des patients pour les déploiements d’applications de santé. Il aide les équipes à vérifier la précision du CDSS, l’exposition des PHI, l’intégrité des données, le comportement des flux cliniques et la conformité des intégrations avant mise en production. Les échecs critiques bloquent le déploiement, ce qui en fait un outil utile pour healthcare-eval-harness dans l’évaluation de modèles et les garde-fous de sécurité CI.

Étoiles156.2k

Favoris0

Commentaires0

Ajouté15 avr. 2026

CatégorieModel Evaluation

Commande d’installation

npx skills add affaan-m/everything-claude-code --skill healthcare-eval-harness

Score éditorial

Ce skill obtient 78/100, ce qui en fait une bonne candidate pour les utilisateurs d’un annuaire qui cherchent un cadre de sécurité pour les déploiements en santé. Le dépôt montre un vrai flux de travail déclenchable pour évaluer les changements EMR/EHR, avec des garde-fous explicites pour la précision du CDSS, l’exposition des PHI, l’intégrité des données, les flux cliniques et la conformité des intégrations. Il est suffisamment utile pour être installé si vous voulez un cadre de test santé structuré plutôt qu’un simple prompt générique, mais il faut noter qu’il est orienté framework de test et qu’il n’est pas fourni avec des scripts d’aide ni des fichiers de référence.

78/100

Points forts

Conditions de déclenchement claires et propres au secteur santé : à utiliser avant les déploiements EMR/EHR, les changements CDSS, les changements de schéma touchant des données patients et les changements d’authentification.
Garde-fous opérationnellement pertinents : les échecs critiques bloquent le déploiement, avec des seuils de réussite explicites pour les catégories axées sécurité.
Bonne orientation workflow : le contenu décrit des catégories de test ordonnées et des conseils d’adaptation indépendants du framework, ce qui aide un agent à l’exécuter avec moins d’hésitation.

Points de vigilance

Aucune commande d’installation, aucun script ni fichier de référence d’accompagnement n’est inclus, donc l’adoption demande de transposer le cadre dans votre propre framework de test.
Le dépôt est signalé comme expérimental/de test, donc il faut vérifier qu’il correspond à vos standards CI/CD et de validation clinique avant de s’y fier.

Testing Evaluation Ci Cd Medical Regression Testing Jest

Vue d’ensemble

Vue d’ensemble du skill healthcare-eval-harness

Ce qu’est healthcare-eval-harness

healthcare-eval-harness est un skill de sécurité au déploiement pour les équipes de logiciels de santé qui doivent vérifier des changements destinés aux patients avant mise en production. Il se concentre sur l’évaluation fondée sur les modèles et sur les règles pour l’aide à la décision clinique, l’exposition de PHI, l’intégrité des données, la conformité des workflows et le comportement des intégrations. L’objectif n’est pas le QA générique ; il s’agit d’empêcher la mise en production de changements de santé dangereux.

À qui s’adresse-t-il

Le skill healthcare-eval-harness convient particulièrement aux ingénieurs, aux responsables QA, aux équipes MLOps et aux équipes d’informatique clinique qui travaillent sur des applications EMR, EHR, CDSS ou des applications de santé proches. Il est surtout utile lorsqu’une défaillance peut affecter la posologie, le triage, les contrôles d’accès ou la gestion de données patient réglementées. Si vous cherchez une invite légère pour une application non clinique, ce skill est probablement trop strict.

En quoi il se distingue

Le dépôt considère les garde-fous de sécurité comme des critères de mise en production non négociables : les échecs critiques bloquent le déploiement au lieu d’être simplement consignés comme des avertissements. Cela rend healthcare-eval-harness utile quand vous avez besoin d’un modèle d’évaluation installable, et pas seulement d’une checklist. Le skill suppose aussi que vous adapterez le harness à votre framework de test, ce qui le rend portable entre Jest, Vitest, pytest ou PHPUnit.

Comment utiliser le skill healthcare-eval-harness

Installer et examiner le skill

Installez-le avec npx skills add affaan-m/everything-claude-code --skill healthcare-eval-harness. Lisez ensuite d’abord skills/healthcare-eval-harness/SKILL.md, puis toute consigne liée à la racine du dépôt si vous utilisez le package plus large. Pour ce skill, l’essentiel est dans les règles d’évaluation et les seuils ; ne sautez donc pas les sections “When to Use” et “How It Works”.

Transformer votre tâche en invite utile

Une bonne invite pour healthcare-eval-harness doit nommer le système testé, le type de changement, le framework de test et l’enjeu de sécurité. Par exemple : “Apply healthcare-eval-harness to our EHR medication order flow in pytest. We changed dose validation and role-based access, and I need the critical gates to block release on PHI leakage or unsafe dosing failures.” C’est bien plus utile que “Run the healthcare skill.”

Workflow recommandé

Utilisez le skill lorsqu’un changement touche les données patient, la logique clinique ou les contrôles de déploiement. Commencez par rattacher votre fonctionnalité aux cinq catégories d’évaluation, puis décidez lesquelles sont critiques et lesquelles sont prioritaires. Ensuite, traduisez les règles dans votre framework existant et votre pipeline CI, puis seulement après exécutez les contrôles. La décision la plus importante consiste à savoir si votre suite de tests reflète vraiment le mode de défaillance clinique que vous voulez empêcher.

FAQ sur le skill healthcare-eval-harness

healthcare-eval-harness est-il réservé à Jest ?

Non. Jest est présenté à titre d’exemple, mais healthcare-eval-harness est conçu pour fonctionner avec n’importe quel framework de test sérieux. L’important est de conserver dans vos outils la logique des garde-fous critiques, l’ordre des catégories et les seuils de réussite.

Est-ce la même chose qu’une invite de QA santé classique ?

Non. Une invite classique peut générer des tests, mais le skill healthcare-eval-harness fournit un modèle d’évaluation installable avec un comportement de blocage explicite. C’est essentiel quand vous avez besoin de décisions de déploiement fiables pour des changements d’applications de santé.

Quand ne faut-il pas l’utiliser ?

N’utilisez pas healthcare-eval-harness pour des changements de contenu à faible risque, des pages marketing ou des fonctionnalités qui ne touchent ni la sécurité des patients, ni les workflows cliniques, ni les données réglementées. Il peut être excessif si votre équipe n’a pas la discipline nécessaire pour maintenir des tests qui reflètent un risque clinique réel.

Est-il adapté aux débutants ?

Oui, si vous maîtrisez déjà les bases des tests et des concepts CI. Ce n’est pas un tutoriel sur la conformité en santé ; les débutants auront donc encore besoin d’une revue métier pour définir les seuils, les cas limites et ce qui constitue un échec critique.

Comment améliorer le skill healthcare-eval-harness

Donner au skill un contexte clinique plus précis

Les meilleurs résultats avec healthcare-eval-harness viennent d’entrées très concrètes : le workflow patient, la défaillance que vous redoutez, les champs de données concernés et le comportement sûr attendu. “Test the app” est trop vague ; “test that a medication order with an allergy match blocks submission and logs the reason” est exploitable.

Rendre les garde-fous d’échec explicites

Indiquez clairement quels échecs doivent bloquer le déploiement et lesquels peuvent rester de simples avertissements prioritaires. Si vous voulez que le skill évalue une IA de santé pour le Model Evaluation, précisez si vous vous souciez surtout du risque d’hallucination, de la fuite de PHI, de l’adhérence aux recommandations ou des ruptures de workflow. Plus le garde-fou est explicite, moins il y a d’interprétation dans le résultat.

Itérer à partir des ratés réels

Après la première exécution, comparez la sortie du harness aux incidents réels, aux quasi-accidents ou aux retours des cliniciens. Renforcez les assertions là où un comportement dangereux a échappé aux contrôles, et assouplissez seulement ceux qui génèrent du bruit sans améliorer la sécurité. C’est cette boucle de rétroaction qui rend healthcare-eval-harness utile au-delà d’une invite ponctuelle.

Notes et avis

Aucune note pour le moment

Partagez votre avis

Connectez-vous pour laisser une note et un commentaire sur cet outil.

0/10000

Derniers avis

Enregistrement...

Autres outils de cette catégorie

evaluation-methodology

par wshobson

La compétence evaluation-methodology explique le scoring PluginEval pour Model Evaluation, avec les couches d’évaluation, les rubrics, le score composite, les seuils de badges et des conseils pratiques pour interpréter les résultats et améliorer les dimensions faibles.

Model Evaluation

Favoris 0GitHub 32.6k

self-eval

par alirezarezvani

self-eval est un skill Claude Code prompt-only conçu pour une revue honnête du travail une fois la tâche terminée. Il s’appuie sur une notation à deux axes, un raisonnement en avocat du diable, la persistance des scores et des contrôles anti-inflation pour évaluer la qualité du travail de l’IA après des tâches, des revues de code ou des sessions de travail.

Model Evaluation

Favoris 0GitHub 22.2k

eval-harness

par affaan-m

Le skill eval-harness est un cadre d’évaluation formel pour les sessions Claude Code et le développement guidé par l’évaluation. Il vous aide à définir des critères de réussite/échec, à construire des évaluations de capacités et de régression, et à mesurer la fiabilité de l’agent avant de déployer des changements de prompt ou de workflow.

Model Evaluation

Favoris 0GitHub 156.1k

agent-eval

par affaan-m

agent-eval est une skill conçue pour benchmarker des agents de code en face à face sur des tâches reproductibles, en comparant le taux de réussite, le coût, le temps et la régularité. Utilisez la skill agent-eval pour évaluer Claude Code, Aider, Codex ou un autre agent dans votre propre dépôt, avec des éléments plus probants que de simples prompts ad hoc.

Model Evaluation

Favoris 0GitHub 156k

huggingface-community-evals

par huggingface

huggingface-community-evals vous aide à lancer स्थानीयement des évaluations de modèles du Hugging Face Hub avec inspect-ai ou lighteval. Servez-vous-en pour choisir le backend, effectuer des tests de fumée et disposer d’un guide pratique pour vLLM, Transformers ou accelerate. Ne convient pas à l’orchestration HF Jobs, aux PR de model-card, à la publication de .eval_results ni à l’automatisation de community-evals.

Model Evaluation

Favoris 0GitHub 10.4k

huggingface-best

par huggingface

La skill huggingface-best vous aide à trouver le meilleur modèle pour une tâche en consultant les classements de benchmarks de Hugging Face et en filtrant selon les limites de l’appareil et la taille du modèle. Utilisez-la pour obtenir des recommandations de modèles en codage, raisonnement, chat, OCR, RAG, voix, vision ou multimodalité lorsque vous avez besoin d’une short-list pratique, pas d’une liste générique de modèles.

Model Evaluation

Favoris 0GitHub 10.4k

libafl

par trailofbits

Le skill libafl vous aide à concevoir et à construire des fuzzers modulaires avec LibAFL pour des cibles personnalisées, des stratégies de mutation sur mesure et des workflows d’audit de sécurité. Utilisez ce guide libafl pour passer des détails de la cible à un harness pratique, à un modèle de feedback et à un plan d’exécution, avec moins d’hypothèses.

Security Audit

Favoris 0GitHub 5k

evaluation

par muratcankoylan

Le skill d’évaluation vous aide à concevoir et à exécuter des évaluations d’agents pour des systèmes non déterministes. Utilisez-le pour planifier l’installation des évaluations, définir des grilles de notation, effectuer des contrôles de régression, mettre en place des garde-fous qualité et réaliser des évaluations pour le test de skills. Il convient aux workflows LLM-as-judge, au scoring multidimensionnel et aux usages d’évaluation concrets lorsque vous avez besoin de résultats reproductibles.

Skill Testing

Favoris 0GitHub 0

judge-with-debate

par NeoLabHQ

judge-with-debate évalue des solutions au moyen d’un débat multi-agent structuré, en s’appuyant sur une spécification partagée, des contre-arguments fondés sur des preuves et jusqu’à 3 rounds pour parvenir à un consensus. Elle convient particulièrement à la revue de code, à l’évaluation basée sur une grille, et aux workflows judge-with-debate pour les systèmes multi-agents.

Multi-Agent Systems

Favoris 0GitHub 982

gws-modelarmor

par googleworkspace

gws-modelarmor vous aide à travailler avec Google Model Armor dans l’écosystème googleworkspace/cli. Utilisez-le pour assainir les prompts, assainir les réponses de modèle et créer des modèles avec moins d’approximations qu’un prompt générique. Il est conçu pour un usage répétable, conforme aux politiques, et pour les workflows de Security Audit.

Security Audit

Favoris 0GitHub 25.5k

analyzing-campaign-attribution-evidence

par mukul975

analyzing-campaign-attribution-evidence aide les analystes à évaluer le chevauchement d’infrastructure, la cohérence avec ATT&CK, la similarité des malwares, la chronologie et les indices linguistiques afin d’étayer une attribution de campagne défendable. Utilisez ce guide analyzing-campaign-attribution-evidence pour les revues CTI, l’analyse d’incidents et les audits de sécurité.

Security Audit

Favoris 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

par mukul975

detecting-ai-model-prompt-injection-attacks est une skill de cybersécurité destinée à filtrer les textes non fiables avant qu’ils n’atteignent un LLM. Elle combine des regex en couches, un scoring heuristique et une classification basée sur DeBERTa pour repérer les attaques de prompt injection directes et indirectes. Utile pour la validation des entrées de chatbot, l’ingestion de documents et la modélisation des menaces.

Threat Modeling

Favoris 0GitHub 0

honeyhive-automation

par ComposioHQ

honeyhive-automation aide Claude à automatiser des workflows Honeyhive via Composio Rube MCP, avec vérifications de configuration, contrôle de connexion active et découverte d’outils guidée par les schémas avant toute action.

Workflow Automation

Favoris 0GitHub 67.5k

llm-evaluation

par wshobson

Utilisez le skill llm-evaluation pour concevoir des plans d’évaluation reproductibles pour les applications LLM, les prompts, les systèmes RAG et les changements de modèle, avec des métriques, de la revue humaine, du benchmarking et des vérifications de régression.

Model Evaluation

Favoris 0GitHub 32.6k

ai-prompt-engineering-safety-review

par github

ai-prompt-engineering-safety-review est une skill d’audit de prompts conçue pour examiner les prompts de LLM sous l’angle de la sécurité, des biais, des faiblesses de sécurité et de la qualité des résultats avant une mise en production, une évaluation ou un usage en contact avec des clients.

Model Evaluation

Favoris 0GitHub 27.8k

agentic-eval

par github

agentic-eval est une compétence GitHub Copilot qui montre comment créer des boucles d’évaluation des sorties d’IA à l’aide de la réflexion, de critiques fondées sur des rubriques et de schémas evaluator-optimizer.

Model Evaluation

Favoris 0GitHub 27.8k

healthcare-eval-harness

Vue d’ensemble du skill healthcare-eval-harness

Ce qu’est healthcare-eval-harness

À qui s’adresse-t-il

En quoi il se distingue

Comment utiliser le skill healthcare-eval-harness

Installer et examiner le skill

Transformer votre tâche en invite utile

Workflow recommandé

À lire en premier

FAQ sur le skill healthcare-eval-harness

healthcare-eval-harness est-il réservé à Jest ?

Est-ce la même chose qu’une invite de QA santé classique ?

Quand ne faut-il pas l’utiliser ?

Est-il adapté aux débutants ?

Comment améliorer le skill healthcare-eval-harness

Donner au skill un contexte clinique plus précis

Rendre les garde-fous d’échec explicites

Itérer à partir des ratés réels

Notes et avis