healthcare-eval-harness

por affaan-m

healthcare-eval-harness es un entorno de evaluación de seguridad del paciente para despliegues de aplicaciones sanitarias. Ayuda a los equipos a verificar la precisión de CDSS, la exposición de PHI, la integridad de los datos, el comportamiento del flujo clínico y el cumplimiento de integraciones antes de publicar. Los fallos críticos bloquean el despliegue, por lo que resulta útil para healthcare-eval-harness en evaluaciones de modelos y como puerta de seguridad en CI.

Estrellas156.2k

Favoritos0

Comentarios0

Agregado15 abr 2026

CategoríaModel Evaluation

Comando de instalación

npx skills add affaan-m/everything-claude-code --skill healthcare-eval-harness

Puntuación editorial

Esta skill obtiene 78/100, así que es una candidata sólida para usuarios del directorio que necesitan un entorno de seguridad para despliegues sanitarios. El repositorio muestra un flujo real y ejecutable para evaluar cambios en EMR/EHR, con puertas de seguridad explícitas para precisión de CDSS, exposición de PHI, integridad de datos, flujo clínico y cumplimiento de integraciones. Merece la pena instalarla si buscas un harness sanitario estructurado en lugar de un prompt genérico, aunque conviene tener en cuenta que está orientada a framework de pruebas y no incluye scripts auxiliares ni archivos de referencia.

78/100

Puntos fuertes

Condiciones de activación claras y específicas del ámbito sanitario: uso antes de despliegues de EMR/EHR, cambios en CDSS, cambios de esquema que tocan datos de pacientes y cambios de autenticación.
Puertas con peso operativo real: los fallos críticos bloquean el despliegue, con umbrales de aprobación explícitos para categorías centradas en seguridad.
Buena orientación al flujo de trabajo: el contenido describe categorías de prueba ordenadas y una guía de adaptación agnóstica al framework, lo que ayuda a un agente a ejecutarlo con menos dudas.

Puntos a tener en cuenta

No incluye comando de instalación, scripts ni archivos de referencia de apoyo, así que su adopción exige traducir el harness al framework de pruebas propio.
El repositorio está etiquetado con señales de experimental/pruebas, por lo que conviene verificar que encaja con los estándares de CI/CD y validación clínica antes de confiar en él.

Testing Evaluation Ci Cd Medical Regression Testing Jest

Resumen

Descripción general de la skill `healthcare-eval-harness`

Qué es `healthcare-eval-harness`

healthcare-eval-harness es una skill de seguridad para despliegues en equipos de software sanitario que necesitan verificar cambios dirigidos al paciente antes de publicarlos. Se centra en la evaluación basada en modelos y reglas para soporte a decisiones clínicas, exposición de PHI, integridad de datos, corrección de flujos de trabajo y comportamiento de integración. El objetivo no es el QA genérico; es evitar que salgan a producción cambios sanitarios inseguros.

Quién debería usarla

Esta skill healthcare-eval-harness encaja bien con ingenieros, responsables de QA, equipos de MLOps y equipos de informática clínica que trabajan en EMR, EHR, CDSS o aplicaciones sanitarias afines. Resulta especialmente útil cuando un fallo puede afectar la dosificación, el triaje, el control de acceso o el manejo de datos de pacientes regulados. Si lo que necesitas es un prompt ligero para una app no clínica, probablemente sea demasiado estricta.

Qué la hace diferente

El repositorio trata las barreras de seguridad como criterios de salida obligatorios: los fallos críticos bloquean el despliegue en lugar de quedar registrados solo como avisos. Eso hace que healthcare-eval-harness sea útil cuando necesitas un patrón de evaluación que puedas instalar, no solo una lista de comprobación. Además, espera que adaptes el harness a tu runner de pruebas, lo que lo mantiene portable entre Jest, Vitest, pytest o PHPUnit.

Cómo usar la skill `healthcare-eval-harness`

Instalar e inspeccionar la skill

Instálala con npx skills add affaan-m/everything-claude-code --skill healthcare-eval-harness. Después, lee primero skills/healthcare-eval-harness/SKILL.md y, si vas a usar el paquete más amplio, consulta luego cualquier guía enlazada en la raíz del repositorio. En esta skill, el valor principal está en las reglas de evaluación y los umbrales, así que no saltes las secciones “When to Use” y “How It Works”.

Convertir tu tarea en un prompt útil

Un buen prompt para usar healthcare-eval-harness debe nombrar el sistema bajo prueba, el tipo de cambio, el runner de pruebas y la preocupación de seguridad. Por ejemplo: “Aplica healthcare-eval-harness a nuestro flujo de pedidos de medicación en EHR con pytest. Hemos cambiado la validación de dosis y el acceso basado en roles, y necesito que las barreras críticas bloqueen la release si hay fuga de PHI o fallos de dosificación peligrosos”. Eso es mucho mejor que “Ejecuta la skill de healthcare”.

Flujo de trabajo recomendado

Usa la skill cuando un cambio toque datos del paciente, lógica clínica o controles de despliegue. Primero mapea tu funcionalidad a las cinco categorías de evaluación, y luego decide cuáles son críticas y cuáles de alta prioridad. Después, traduce las reglas a tu framework y a tu pipeline de CI existentes, y solo entonces ejecuta las comprobaciones. La decisión más importante es si tu suite de pruebas realmente refleja el modo de fallo clínico que quieres impedir.

Qué leer primero

Empieza por SKILL.md para entender la estructura de barreras, los umbrales de aprobación y los límites de uso. Presta especial atención a los ejemplos que usan Jest solo como referencia; la skill es agnóstica al framework, así que debes adaptar las rutas de archivos, los comandos y las aserciones a tu stack. Si tu repositorio tiene su propia organización de pruebas, imita esa estructura en lugar de imponer un layout genérico.

Preguntas frecuentes sobre la skill `healthcare-eval-harness`

¿`healthcare-eval-harness` es solo para Jest?

No. Jest aparece como ejemplo, pero healthcare-eval-harness está pensada para funcionar con cualquier runner de pruebas serio. Lo importante es conservar en tu propia herramienta la lógica de barrera crítica, el orden de las categorías y los umbrales de aprobación.

¿Es lo mismo que un prompt normal para QA sanitaria?

No. Un prompt normal puede generar pruebas, pero la skill healthcare-eval-harness te da un modelo de evaluación instalable con comportamiento de bloqueo explícito. Eso importa cuando necesitas decisiones de despliegue fiables para cambios en aplicaciones sanitarias.

¿Cuándo no debería usarla?

No uses healthcare-eval-harness para cambios de contenido de bajo riesgo, páginas de marketing o funcionalidades que no toquen la seguridad del paciente, los flujos clínicos o datos regulados. Puede ser excesiva si tu equipo no tiene la disciplina para mantener pruebas que reflejen el riesgo clínico real.

¿Es apta para principiantes?

Sí, si ya conoces conceptos básicos de testing e integración continua. No es un tutorial sobre cumplimiento normativo sanitario, así que los principiantes seguirán necesitando revisión de dominio para definir umbrales, casos límite y qué cuenta como fallo crítico.

Cómo mejorar la skill `healthcare-eval-harness`

Darle un contexto clínico más preciso

Los mejores resultados con healthcare-eval-harness llegan con entradas concretas: el flujo del paciente, el fallo que temes, los campos de datos implicados y el comportamiento seguro esperado. “Prueba la app” es débil; “prueba que un pedido de medicación con coincidencia de alergia bloquee el envío y registre el motivo” sí es accionable.

Hacer explícitas las barreras de fallo

Indica qué fallos deben bloquear el despliegue y cuáles pueden quedar como avisos de alta prioridad. Si quieres que la skill evalúe IA sanitaria para Model Evaluation, di si te preocupa más el riesgo de alucinación, la fuga de PHI, la adhesión a guías o la rotura del flujo de trabajo. Cuanto más explícita sea la barrera, menos margen habrá para adivinar en la salida.

Iterar con fallos reales

Después de la primera ejecución, compara la salida del harness con incidentes reales, casi incidentes o comentarios de clínicos. Ajusta las aserciones donde el comportamiento inseguro se coló, y relaja solo las comprobaciones que generan ruido sin mejorar la seguridad. Ese ciclo de retroalimentación es lo que hace que healthcare-eval-harness sirva más allá de un prompt de una sola vez.

Calificaciones y reseñas

Aún no hay calificaciones

Comparte tu reseña

Inicia sesión para dejar una calificación y un comentario sobre esta skill.

0/10000

Reseñas más recientes

Guardando...

Más skills de esta categoría

evaluation-methodology

por wshobson

La skill evaluation-methodology explica la puntuación PluginEval para Model Evaluation, incluidas las capas, las rúbricas, la puntuación compuesta, los umbrales de insignias y la orientación práctica para interpretar resultados y mejorar las dimensiones más débiles.

Model Evaluation

Favoritos 0GitHub 32.6k

self-eval

por alirezarezvani

self-eval es una skill de Claude Code basada solo en prompts para revisar con honestidad el trabajo realizado. Usa scoring de dos ejes, razonamiento de abogado del diablo, persistencia de puntuaciones y controles antiinflación para evaluar la calidad del trabajo de IA después de tareas, revisiones de código o sesiones de trabajo.

Model Evaluation

Favoritos 0GitHub 22.2k

eval-harness

por affaan-m

La skill eval-harness es un marco formal de evaluación para sesiones de Claude Code y el desarrollo guiado por evals. Te ayuda a definir criterios de aprobado/reprobado, crear evals de capacidad y de regresión, y medir la fiabilidad del agente antes de publicar cambios en prompts o flujos de trabajo.

Model Evaluation

Favoritos 0GitHub 156.1k

agent-eval

por affaan-m

agent-eval es una skill para comparar agentes de código cara a cara en tareas reproducibles, midiendo tasa de éxito, coste, tiempo y consistencia. Usa la skill agent-eval para evaluar Claude Code, Aider, Codex u otro agente en tu propio repo con evidencia más clara que la que ofrecen los prompts ad hoc.

Model Evaluation

Favoritos 0GitHub 156k

huggingface-community-evals

por huggingface

huggingface-community-evals te ayuda a ejecutar localmente evaluaciones de modelos de Hugging Face Hub con inspect-ai o lighteval. Úsalo para elegir backend, hacer pruebas rápidas y consultar una guía práctica de vLLM, Transformers o accelerate. No sirve para orquestación de HF Jobs, PRs de model cards, publicación de .eval_results ni automatización de community-evals.

Model Evaluation

Favoritos 0GitHub 10.4k

huggingface-best

por huggingface

La skill huggingface-best te ayuda a encontrar el mejor modelo para una tarea revisando los rankings de referencia de Hugging Face y filtrando por límites del dispositivo y tamaño del modelo. Úsala para obtener recomendaciones de modelos en coding, reasoning, chat, OCR, RAG, speech, vision o trabajo multimodal cuando necesitas una shortlist práctica, no una lista genérica de modelos.

Model Evaluation

Favoritos 0GitHub 10.4k

libafl

por trailofbits

La skill de libafl te ayuda a planificar y construir fuzzers modulares con LibAFL para objetivos personalizados, estrategias de mutación y flujos de trabajo de auditoría de seguridad. Usa esta guía de libafl para pasar de los detalles del objetivo a un harness práctico, un modelo de feedback y un plan de ejecución con menos suposiciones.

Security Audit

Favoritos 0GitHub 5k

evaluation

por muratcankoylan

La skill evaluation te ayuda a diseñar y ejecutar evaluaciones de agentes para sistemas no deterministas. Úsala para planificar la instalación de evaluaciones, crear rúbricas, hacer comprobaciones de regresión, definir quality gates y realizar evaluation para Skill Testing. Encaja con flujos de trabajo LLM-as-judge, puntuación multidimensional y usos prácticos de evaluación cuando necesitas resultados repetibles.

Skill Testing

Favoritos 0GitHub 0

judge-with-debate

por NeoLabHQ

judge-with-debate evalúa soluciones mediante un debate multiagente estructurado, usando una especificación compartida, contraargumentos basados en evidencia y hasta 3 rondas para llegar a un consenso. Encaja bien para revisión de código, evaluación basada en rúbricas y flujos de trabajo de judge-with-debate para Multi-Agent Systems.

Multi-Agent Systems

Favoritos 0GitHub 982

gws-modelarmor

por googleworkspace

gws-modelarmor te ayuda a trabajar con Google Model Armor dentro del ecosistema googleworkspace/cli. Úsalo para sanitizar prompts, sanitizar respuestas del modelo y crear plantillas con menos improvisación que con un prompt genérico. Está pensado para un uso repetible, alineado con políticas, y para flujos de trabajo de Security Audit.

Security Audit

Favoritos 0GitHub 25.5k

analyzing-campaign-attribution-evidence

por mukul975

analyzing-campaign-attribution-evidence ayuda a los analistas a valorar el solapamiento de infraestructura, la coherencia con ATT&CK, la similitud del malware, la temporización y los artefactos lingüísticos para sustentar la atribución de campañas. Usa esta guía de analyzing-campaign-attribution-evidence para revisiones de CTI, análisis de incidentes y Security Audit.

Security Audit

Favoritos 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

por mukul975

detecting-ai-model-prompt-injection-attacks es una skill de ciberseguridad para filtrar texto no confiable antes de que llegue a un LLM. Usa regex en capas, puntuación heurística y clasificación basada en DeBERTa para detectar ataques directos e indirectos de prompt injection. Es útil para validación de entradas en chatbots, ingesta de documentos y threat modeling.

Threat Modeling

Favoritos 0GitHub 0

honeyhive-automation

por ComposioHQ

honeyhive-automation ayuda a Claude a automatizar flujos de trabajo de Honeyhive mediante Composio Rube MCP, con comprobaciones de configuración, verificación de conexión activa y detección de herramientas basada primero en el esquema antes de ejecutar acciones.

Workflow Automation

Favoritos 0GitHub 67.5k

llm-evaluation

por wshobson

Usa la skill llm-evaluation para diseñar planes de evaluación repetibles para apps con LLM, prompts, sistemas RAG y cambios de modelo, con métricas, revisión humana, benchmarking y controles de regresión.

Model Evaluation

Favoritos 0GitHub 32.6k

ai-prompt-engineering-safety-review

por github

ai-prompt-engineering-safety-review es una skill de auditoría de prompts para revisar prompts de LLM en busca de riesgos de seguridad, sesgos, debilidades de seguridad y problemas de calidad de salida antes de su uso en producción, evaluación o entornos de cara al cliente.

Model Evaluation

Favoritos 0GitHub 27.8k

agentic-eval

por github

agentic-eval es una skill de GitHub Copilot que muestra cómo crear bucles de evaluación para salidas de IA mediante reflexión, crítica basada en rúbricas y patrones evaluator-optimizer.

Model Evaluation

Favoritos 0GitHub 27.8k

healthcare-eval-harness

Descripción general de la skill healthcare-eval-harness

Qué es healthcare-eval-harness

Quién debería usarla

Qué la hace diferente

Cómo usar la skill healthcare-eval-harness

Instalar e inspeccionar la skill

Convertir tu tarea en un prompt útil

Flujo de trabajo recomendado

Qué leer primero

Preguntas frecuentes sobre la skill healthcare-eval-harness

¿healthcare-eval-harness es solo para Jest?

¿Es lo mismo que un prompt normal para QA sanitaria?

¿Cuándo no debería usarla?

¿Es apta para principiantes?

Cómo mejorar la skill healthcare-eval-harness

Darle un contexto clínico más preciso

Hacer explícitas las barreras de fallo

Iterar con fallos reales

Calificaciones y reseñas

Descripción general de la skill `healthcare-eval-harness`

Qué es `healthcare-eval-harness`

Cómo usar la skill `healthcare-eval-harness`

Preguntas frecuentes sobre la skill `healthcare-eval-harness`

¿`healthcare-eval-harness` es solo para Jest?

Cómo mejorar la skill `healthcare-eval-harness`