healthcare-eval-harness

por affaan-m

healthcare-eval-harness é um harness de avaliação de segurança do paciente para implantações de apps de saúde. Ele ajuda equipes a verificar a precisão de CDSS, exposição de PHI, integridade dos dados, comportamento do fluxo clínico e conformidade de integração antes do release. Falhas críticas bloqueiam a implantação, tornando o healthcare-eval-harness útil para Avaliação de Modelo e gates de segurança em CI.

Estrelas156.2k

Favoritos0

Comentários0

Adicionado15 de abr. de 2026

CategoriaModel Evaluation

Comando de instalação

npx skills add affaan-m/everything-claude-code --skill healthcare-eval-harness

Pontuação editorial

Esta skill recebe 78/100, o que a torna uma boa candidata para usuários do diretório que precisam de um harness de segurança para implantações em saúde. O repositório mostra um fluxo real e acionável para avaliar mudanças em EMR/EHR, com gates de segurança explícitos para precisão de CDSS, exposição de PHI, integridade dos dados, fluxo clínico e conformidade de integração. Vale a instalação se você quer um harness estruturado para testes em saúde, em vez de um prompt genérico, embora seja importante notar que ele é orientado a framework de testes e não vem acompanhado de scripts auxiliares ou arquivos de referência.

78/100

Pontos fortes

Condições de disparo claras e específicas de saúde: use antes de implantações de EMR/EHR, mudanças em CDSS, alterações de schema que afetem dados de pacientes e mudanças de autenticação.
Gates com relevância operacional: falhas críticas bloqueiam a implantação, com thresholds de aprovação explícitos para categorias voltadas à segurança.
Boa orientação de fluxo: o conteúdo descreve categorias de teste em ordem e oferece orientação de adaptação independente de framework, o que ajuda um agente a executar com menos improviso.

Pontos de atenção

Não há comando de instalação, scripts nem arquivos de referência de apoio, então a adoção exige adaptar o harness ao seu próprio framework de testes.
O repositório é marcado com sinais experimentais/de teste, então os usuários devem verificar se ele atende aos seus padrões de CI/CD e validação clínica antes de confiar nele.

Testing Evaluation Ci Cd Medical Regression Testing Jest

Visão geral

Visão geral da skill healthcare-eval-harness

O que é healthcare-eval-harness

healthcare-eval-harness é uma skill de segurança de implantação para equipes de software de saúde que precisam validar mudanças voltadas ao paciente antes do release. Ela foca em avaliação baseada em modelo e em regras para suporte à decisão clínica, exposição de PHI, integridade de dados, correção de workflow e comportamento de integração. O objetivo não é QA genérico; é impedir que mudanças inseguras em saúde cheguem à produção.

Quem deve usar

A skill healthcare-eval-harness é uma boa opção para engenheiros, líderes de QA, equipes de MLOps e times de informática clínica que trabalham com EMR, EHR, CDSS ou apps de saúde adjacentes. Ela é mais útil quando uma falha pode afetar dosagem, triagem, controle de acesso ou o tratamento de dados regulados de pacientes. Se você precisa de um prompt leve para um app não clínico, provavelmente isso é rígido demais.

O que a diferencia

O repositório trata os gates de segurança como critérios de release obrigatórios: falhas críticas bloqueiam a implantação em vez de serem apenas registradas como avisos. Isso torna o healthcare-eval-harness útil quando você precisa de um padrão de avaliação instalável, e não só de um checklist. Ele também espera que você adapte o harness ao seu test runner, o que o mantém portátil entre Jest, Vitest, pytest ou PHPUnit.

Como usar a skill healthcare-eval-harness

Instale e inspecione a skill

Instale com npx skills add affaan-m/everything-claude-code --skill healthcare-eval-harness. Em seguida, leia primeiro skills/healthcare-eval-harness/SKILL.md e, se estiver usando o pacote mais amplo, depois qualquer orientação vinculada na raiz do repositório. Para essa skill, o principal valor está nas regras e nos thresholds de avaliação, então não pule as seções “When to Use” e “How It Works”.

Transforme sua tarefa em um prompt útil

Um bom prompt para usar healthcare-eval-harness deve nomear o sistema sob teste, o tipo de mudança, o test runner e a preocupação de segurança. Por exemplo: “Aplique healthcare-eval-harness ao nosso fluxo de pedidos de medicação do EHR em pytest. Mudamos a validação de dose e o acesso baseado em função, e preciso que os gates críticos bloqueiem o release em caso de vazamento de PHI ou falhas de dosagem insegura.” Isso é muito melhor do que “Rode a skill de healthcare”.

Fluxo de trabalho recomendado

Use a skill quando uma mudança tocar dados do paciente, lógica clínica ou controles de implantação. Primeiro, mapeie sua funcionalidade nas cinco categorias de avaliação; depois, decida quais são críticas e quais são de alta prioridade. Em seguida, traduza as regras para o framework e o pipeline de CI que você já usa e, só então, execute as verificações. A decisão mais importante é se sua suíte de testes realmente reflete o modo de falha clínica que você quer impedir.

O que ler primeiro

Comece por SKILL.md para entender a estrutura dos gates, os thresholds de aprovação e os limites de uso. Preste atenção especial aos exemplos que usam Jest apenas como referência; a skill é agnóstica ao framework, então você deve adaptar caminhos de arquivo, comandos e assertions ao seu stack. Se o seu repositório já tiver sua própria organização de testes, espelhe essa estrutura em vez de forçar um layout genérico.

FAQ da skill healthcare-eval-harness

O healthcare-eval-harness é só para Jest?

Não. Jest aparece como exemplo, mas o healthcare-eval-harness foi pensado para funcionar com qualquer test runner sério. O importante é preservar a lógica dos gates críticos, a ordem das categorias e os thresholds de aprovação nas suas próprias ferramentas.

Isso é o mesmo que um prompt normal para QA em saúde?

Não. Um prompt normal pode gerar testes, mas a skill healthcare-eval-harness oferece um modelo de avaliação instalável com comportamento explícito de bloqueio. Isso faz diferença quando você precisa tomar decisões de implantação confiáveis para mudanças em aplicações de saúde.

Quando eu não devo usar?

Não use o healthcare-eval-harness para mudanças de baixo risco em conteúdo, páginas de marketing ou funcionalidades que não toquem segurança do paciente, workflows clínicos ou dados regulados. Ele pode ser exagero se seu time não tiver disciplina para manter testes que realmente reflitam risco clínico real.

É amigável para iniciantes?

Sim, se você já entende conceitos básicos de testes e CI. Não é um tutorial de compliance em saúde, então iniciantes ainda vão precisar de revisão de domínio para definir thresholds, edge cases e o que conta como falha crítica.

Como melhorar a skill healthcare-eval-harness

Dê mais contexto clínico à skill

Os melhores resultados com healthcare-eval-harness vêm de inputs específicos: o workflow do paciente, a falha que você teme, os campos de dados envolvidos e o comportamento seguro esperado. “Teste o app” é fraco; “teste se um pedido de medicamento com correspondência de alergia bloqueia o envio e registra o motivo” é acionável.

Deixe os gates de falha explícitos

Diga quais falhas precisam bloquear a implantação e quais podem ficar como avisos de alta prioridade. Se quiser que a skill avalie healthcare AI para Model Evaluation, especifique se a preocupação principal é risco de hallucination, vazamento de PHI, aderência a guidelines ou quebra de workflow. Quanto mais explícito o gate, menos adivinhação na saída.

Itere com base em falhas reais

Depois da primeira execução, compare a saída do harness com incidentes reais, quase incidentes ou feedback de clínicos. Aperfeiçoe as assertions onde comportamentos inseguros passaram despercebidos e alivie apenas os checks que geram ruído sem aumentar a segurança. É esse ciclo de feedback que torna o healthcare-eval-harness útil além de um prompt pontual.

Avaliações e comentários

Ainda não há avaliações

Compartilhe sua avaliação

Faça login para deixar uma nota e um comentário sobre esta skill.

0/10000

Avaliações mais recentes

Salvando...

Mais skills nesta categoria

evaluation-methodology

por wshobson

A skill evaluation-methodology explica a pontuação PluginEval para Model Evaluation, incluindo camadas, rubricas, pontuação composta, limites de badges e orientações práticas para interpretar resultados e melhorar dimensões fracas.

Model Evaluation

Favoritos 0GitHub 32.6k

eval-harness

por affaan-m

A skill eval-harness é um framework formal de avaliação para sessões do Claude Code e desenvolvimento orientado por avaliação. Ela ajuda você a definir critérios de aprovação e reprovação, criar avaliações de capacidade e regressão e medir a confiabilidade do agente antes de publicar mudanças em prompts ou fluxos de trabalho.

Model Evaluation

Favoritos 0GitHub 156.1k

agent-eval

por affaan-m

agent-eval é uma skill para fazer benchmarking de agentes de código, comparando-os diretamente em tarefas reproduzíveis e analisando taxa de acerto, custo, tempo e consistência. Use a skill agent-eval para avaliar Claude Code, Aider, Codex ou outro agente no seu próprio repositório, com evidências mais claras do que prompts improvisados.

Model Evaluation

Favoritos 0GitHub 156k

huggingface-community-evals

por huggingface

O huggingface-community-evals ajuda você a executar localmente avaliações de modelos do Hugging Face Hub com inspect-ai ou lighteval. Use-o para escolher o backend, fazer smoke tests e consultar um guia prático de vLLM, Transformers ou accelerate. Não é para orquestração de HF Jobs, PRs de model card, publicação de .eval_results ou automação de community-evals.

Model Evaluation

Favoritos 0GitHub 10.4k

huggingface-best

por huggingface

A skill huggingface-best ajuda você a encontrar o melhor modelo para uma tarefa, consultando rankings de benchmark do Hugging Face e filtrando por limites de dispositivo e tamanho do modelo. Use quando precisar de recomendações de modelos para coding, reasoning, chat, OCR, RAG, speech, vision ou trabalho multimodal, e quiser uma shortlist prática em vez de uma lista genérica de modelos.

Model Evaluation

Favoritos 0GitHub 10.4k

libafl

por trailofbits

A skill libafl ajuda você a planejar e criar fuzzers modulares com o LibAFL para alvos personalizados, estratégias de mutação e fluxos de trabalho de auditoria de segurança. Use este guia de libafl para sair dos detalhes do alvo e chegar a um harness prático, a um modelo de feedback e a um plano de execução com menos suposições.

Security Audit

Favoritos 0GitHub 5k

evaluation

por muratcankoylan

A skill de evaluation ajuda você a projetar e executar avaliações de agentes para sistemas não determinísticos. Use-a para planejar a instalação da avaliação, criar rubricas, fazer checagens de regressão, definir gates de qualidade e conduzir evaluation para Skill Testing. Ela se encaixa em fluxos LLM-as-judge, pontuação multidimensional e usos práticos de avaliação quando você precisa de resultados repetíveis.

Skill Testing

Favoritos 0GitHub 0

judge-with-debate

por NeoLabHQ

O judge-with-debate avalia soluções por meio de debate estruturado entre múltiplos agentes, usando uma especificação compartilhada, contra-argumentos baseados em evidências e até 3 rodadas para chegar a um consenso. É uma boa opção para revisão de código, avaliação com base em rubricas e fluxos de judge-with-debate em sistemas multiagente.

Multi-Agent Systems

Favoritos 0GitHub 982

gws-modelarmor

por googleworkspace

A gws-modelarmor ajuda você a trabalhar com o Google Model Armor no ecossistema googleworkspace/cli. Use-a para sanitizar prompts, sanitizar respostas de modelos e criar templates com menos tentativa e erro do que em um prompt genérico. Ela foi pensada para uso repetível, orientado a políticas, e para fluxos de trabalho de Auditoria de Segurança.

Security Audit

Favoritos 0GitHub 25.5k

analyzing-campaign-attribution-evidence

por mukul975

analyzing-campaign-attribution-evidence ajuda analistas a ponderar sobreposição de infraestrutura, consistência com ATT&CK, similaridade de malware, timing e traços de linguagem para uma atribuição de campanha defensável. Use este guia do analyzing-campaign-attribution-evidence em CTI, análise de incidentes e revisões de Security Audit.

Security Audit

Favoritos 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

por mukul975

detecting-ai-model-prompt-injection-attacks é uma skill de cibersegurança para filtrar texto não confiável antes que ele chegue a um LLM. Ela usa regex em camadas, pontuação heurística e classificação baseada em DeBERTa para sinalizar ataques diretos e indiretos de prompt injection. É útil para validação de entrada em chatbots, ingestão de documentos e Threat Modeling.

Threat Modeling

Favoritos 0GitHub 0

llm-evaluation

por wshobson

Use a skill llm-evaluation para criar planos de avaliação repetíveis para apps com LLM, prompts, sistemas RAG e mudanças de modelo, com métricas, revisão humana, benchmarking e verificações de regressão.

Model Evaluation

Favoritos 0GitHub 32.6k

ai-prompt-engineering-safety-review

por github

ai-prompt-engineering-safety-review é uma skill de auditoria de prompts para revisar prompts de LLM quanto a segurança, vieses, vulnerabilidades de segurança e qualidade de saída antes do uso em produção, avaliação ou contato com clientes.

Model Evaluation

Favoritos 0GitHub 27.8k

agentic-eval

por github

agentic-eval é uma skill do GitHub Copilot que mostra como criar loops de avaliação para saídas de IA usando reflexão, crítica com base em rubricas e padrões evaluator-optimizer.

Model Evaluation

Favoritos 0GitHub 27.8k

ml-pipeline-workflow

por wshobson

ml-pipeline-workflow é um guia prático para projetar pipelines de MLOps de ponta a ponta, cobrindo preparação de dados, treinamento, validação, implantação e monitoramento, com padrões de orquestração para automatizar fluxos de trabalho repetíveis.

Workflow Automation

Favoritos 0GitHub 0

frontend-design

por anthropics

frontend-design transforma ideias vagas de UI em interfaces marcantes e prontas para produção, com código frontend real, direção estética clara e menos visual genérico de IA.

UI Design

Favoritos 1GitHub 105.2k