eval-harness

por affaan-m

A skill eval-harness é um framework formal de avaliação para sessões do Claude Code e desenvolvimento orientado por avaliação. Ela ajuda você a definir critérios de aprovação e reprovação, criar avaliações de capacidade e regressão e medir a confiabilidade do agente antes de publicar mudanças em prompts ou fluxos de trabalho.

Estrelas156.1k

Favoritos0

Comentários0

Adicionado15 de abr. de 2026

CategoriaModel Evaluation

Comando de instalação

npx skills add affaan-m/everything-claude-code --skill eval-harness

Pontuação editorial

Esta skill recebe 78/100, o que indica um candidato sólido para o diretório, com valor real de fluxo de trabalho para agentes que fazem desenvolvimento orientado por avaliação. Os usuários devem conseguir acioná-la e entender seu propósito rapidamente, embora devam esperar uma skill mais centrada em documentação do que em scripts auxiliares ou referências integradas.

78/100

Pontos fortes

Casos de uso de ativação claros para configuração de EDD, critérios de aprovação/reprovação, evals de regressão e benchmarking
Conteúdo operacional robusto, com templates estruturados de eval e grader, além de várias seções de fluxo de trabalho
Alta acionabilidade pelo frontmatter e pela orientação explícita em 'When to Activate', o que facilita avaliar a intenção de instalação

Pontos de atenção

Não há comando de instalação, scripts nem arquivos de suporte, então a adoção depende de ler e aplicar manualmente as orientações em markdown
Não há referências, recursos ou testes incluídos, o que reduz os sinais de confiança para quem quer um evaluation harness pronto para usar

Claude Code Evaluation Testing Regression Testing Pr Github Code

Visão geral

Visão geral da skill eval-harness

O que a eval-harness faz

A skill eval-harness é uma estrutura formal de avaliação para sessões no Claude Code e para desenvolvimento guiado por evals. Ela ajuda você a definir o que significa “bom” antes de entregar, e depois medir se um agente, prompt ou fluxo de trabalho realmente atende a esse padrão.

Quem deve usar

Use a skill eval-harness se você precisa de verificações repetíveis para programação assistida por IA, mudanças de prompt ou comportamento de agente. Ela é especialmente útil para equipes que comparam versões de modelos, acompanham regressões ou transformam expectativas vagas de tarefas em critérios de aprovação/reprovação.

Por que isso importa

O principal valor de eval-harness for Model Evaluation é a confiabilidade: em vez de julgar resultados no feeling, você escreve evals que mostram quando o comportamento muda. Isso facilita depurar o desempenho do agente, comparar execuções e evitar publicar atualizações de prompt que degradam a qualidade de forma silenciosa.

Quando é uma boa escolha

Ela funciona melhor quando a tarefa pode ser expressa como critérios de sucesso observáveis, estrutura de saída ou comportamento verificado em etapas. É menos útil para trabalho criativo em aberto, a menos que ainda seja possível definir condições mensuráveis de aceitação.

Como usar a skill eval-harness

Instale e ative

Para eval-harness install, use o fluxo de instalação de skills do repositório no seu ambiente do Claude Code e depois abra o arquivo da skill diretamente. A skill fica em skills/eval-harness/SKILL.md, e esse é o primeiro arquivo a ler porque ele define quando ativar o framework e como estruturar os evals.

Monte um prompt que a skill consiga avaliar

Para um bom eval-harness usage, não comece com “teste meu agente”. Comece com um alvo concreto, por exemplo: qual tarefa o agente precisa concluir, o que conta como sucesso, como é uma falha e se você está verificando capacidade ou regressão. Uma entrada melhor seria: “Avalie se o agente consegue atualizar um formulário em React sem quebrar a validação e exija três critérios explícitos de sucesso.” Isso dá ao harness algo mensurável.

Leia primeiro os arquivos certos

Se você está adotando a abordagem eval-harness guide no seu próprio fluxo, leia primeiro SKILL.md e depois inspecione quaisquer notas do repositório que descrevam estilo de avaliação, lógica de pontuação ou convenções de saída. Neste repositório, não há scripts auxiliares nem pastas extras de suporte, então o próprio arquivo da skill é a fonte da verdade.

Use em um fluxo prático

Um bom fluxo é: defina o comportamento, escreva um eval para o caminho feliz, adicione um eval de regressão para uma falha já conhecida, depois rode o harness e refine os critérios. Isso mantém os evals pequenos o bastante para depurar e reduz a chance de criar testes amplos demais para interpretar.

FAQ da skill eval-harness

A eval-harness é só para Claude Code?

Não. A skill foi escrita em torno de sessões no Claude Code, mas o método por trás dela é útil em qualquer lugar em que você precise de avaliação estruturada de agentes. Se o seu stack usa outras ferramentas, você ainda pode adaptar o formato dos evals e a lógica de pontuação.

A eval-harness é a mesma coisa que um prompt normal?

Não. Um prompt normal pede uma resposta; eval-harness pede uma forma repetível de julgar respostas. Essa diferença importa quando você precisa de consistência entre versões, e não apenas de uma única resposta boa.

É amigável para iniciantes?

Sim, se você consegue descrever uma tarefa com clareza. A parte mais difícil não é a sintaxe; é escrever bons critérios de sucesso. Iniciantes costumam se dar bem quando começam com um único eval simples de capacidade, em vez de tentar modelar um fluxo inteiro de uma vez.

Quando eu não devo usar?

Evite eval-harness se o trabalho for altamente subjetivo, se a saída não puder ser verificada de forma consistente ou se você só precisar de uma resposta pontual. Ela é mais forte quando confiabilidade, acompanhamento de regressões ou comparação de modelos é o objetivo real.

Como melhorar a skill eval-harness

Torne os critérios observáveis

O maior ganho de qualidade vem de transformar opiniões em verificações. Troque “deixe melhor” por condições como “preserve a estrutura existente da API”, “retorne JSON válido” ou “passe nos três casos de regressão”. Quanto mais observáveis forem os critérios, mais fácil fica executar e confiar em eval-harness.

Separe capacidade de regressão

Se você misturar verificações de nova funcionalidade com verificações de comportamento antigo, as falhas ficam difíceis de interpretar. Mantenha os evals de capacidade focados em saber se o Claude consegue fazer algo novo, e os de regressão focados em verificar se uma base conhecida continua válida.

Dê casos-limite reais ao harness

Evals mais fortes incluem modos de falha, e não só caminhos felizes. Adicione entradas complicadas, contexto incompleto ou instruções ambíguas para que a eval-harness skill revele se o agente é robusto ou apenas teve sorte em exemplos limpos.

Itere depois da primeira execução

Trate a primeira execução como calibração, não como prova. Se o resultado ficar अस्प? Wait.

Avaliações e comentários

Ainda não há avaliações

Compartilhe sua avaliação

Faça login para deixar uma nota e um comentário sobre esta skill.

0/10000

Avaliações mais recentes

Salvando...

Mais skills nesta categoria

evaluation-methodology

por wshobson

A skill evaluation-methodology explica a pontuação PluginEval para Model Evaluation, incluindo camadas, rubricas, pontuação composta, limites de badges e orientações práticas para interpretar resultados e melhorar dimensões fracas.

Model Evaluation

Favoritos 0GitHub 32.6k

healthcare-eval-harness

por affaan-m

healthcare-eval-harness é um harness de avaliação de segurança do paciente para implantações de apps de saúde. Ele ajuda equipes a verificar a precisão de CDSS, exposição de PHI, integridade dos dados, comportamento do fluxo clínico e conformidade de integração antes do release. Falhas críticas bloqueiam a implantação, tornando o healthcare-eval-harness útil para Avaliação de Modelo e gates de segurança em CI.

Model Evaluation

Favoritos 0GitHub 156.2k

agent-eval

por affaan-m

agent-eval é uma skill para fazer benchmarking de agentes de código, comparando-os diretamente em tarefas reproduzíveis e analisando taxa de acerto, custo, tempo e consistência. Use a skill agent-eval para avaliar Claude Code, Aider, Codex ou outro agente no seu próprio repositório, com evidências mais claras do que prompts improvisados.

Model Evaluation

Favoritos 0GitHub 156k

huggingface-community-evals

por huggingface

O huggingface-community-evals ajuda você a executar localmente avaliações de modelos do Hugging Face Hub com inspect-ai ou lighteval. Use-o para escolher o backend, fazer smoke tests e consultar um guia prático de vLLM, Transformers ou accelerate. Não é para orquestração de HF Jobs, PRs de model card, publicação de .eval_results ou automação de community-evals.

Model Evaluation

Favoritos 0GitHub 10.4k

huggingface-best

por huggingface

A skill huggingface-best ajuda você a encontrar o melhor modelo para uma tarefa, consultando rankings de benchmark do Hugging Face e filtrando por limites de dispositivo e tamanho do modelo. Use quando precisar de recomendações de modelos para coding, reasoning, chat, OCR, RAG, speech, vision ou trabalho multimodal, e quiser uma shortlist prática em vez de uma lista genérica de modelos.

Model Evaluation

Favoritos 0GitHub 10.4k

libafl

por trailofbits

A skill libafl ajuda você a planejar e criar fuzzers modulares com o LibAFL para alvos personalizados, estratégias de mutação e fluxos de trabalho de auditoria de segurança. Use este guia de libafl para sair dos detalhes do alvo e chegar a um harness prático, a um modelo de feedback e a um plano de execução com menos suposições.

Security Audit

Favoritos 0GitHub 5k

evaluation

por muratcankoylan

A skill de evaluation ajuda você a projetar e executar avaliações de agentes para sistemas não determinísticos. Use-a para planejar a instalação da avaliação, criar rubricas, fazer checagens de regressão, definir gates de qualidade e conduzir evaluation para Skill Testing. Ela se encaixa em fluxos LLM-as-judge, pontuação multidimensional e usos práticos de avaliação quando você precisa de resultados repetíveis.

Skill Testing

Favoritos 0GitHub 0

judge-with-debate

por NeoLabHQ

O judge-with-debate avalia soluções por meio de debate estruturado entre múltiplos agentes, usando uma especificação compartilhada, contra-argumentos baseados em evidências e até 3 rodadas para chegar a um consenso. É uma boa opção para revisão de código, avaliação com base em rubricas e fluxos de judge-with-debate em sistemas multiagente.

Multi-Agent Systems

Favoritos 0GitHub 982

gws-modelarmor

por googleworkspace

A gws-modelarmor ajuda você a trabalhar com o Google Model Armor no ecossistema googleworkspace/cli. Use-a para sanitizar prompts, sanitizar respostas de modelos e criar templates com menos tentativa e erro do que em um prompt genérico. Ela foi pensada para uso repetível, orientado a políticas, e para fluxos de trabalho de Auditoria de Segurança.

Security Audit

Favoritos 0GitHub 25.5k

analyzing-campaign-attribution-evidence

por mukul975

analyzing-campaign-attribution-evidence ajuda analistas a ponderar sobreposição de infraestrutura, consistência com ATT&CK, similaridade de malware, timing e traços de linguagem para uma atribuição de campanha defensável. Use este guia do analyzing-campaign-attribution-evidence em CTI, análise de incidentes e revisões de Security Audit.

Security Audit

Favoritos 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

por mukul975

detecting-ai-model-prompt-injection-attacks é uma skill de cibersegurança para filtrar texto não confiável antes que ele chegue a um LLM. Ela usa regex em camadas, pontuação heurística e classificação baseada em DeBERTa para sinalizar ataques diretos e indiretos de prompt injection. É útil para validação de entrada em chatbots, ingestão de documentos e Threat Modeling.

Threat Modeling

Favoritos 0GitHub 0

llm-evaluation

por wshobson

Use a skill llm-evaluation para criar planos de avaliação repetíveis para apps com LLM, prompts, sistemas RAG e mudanças de modelo, com métricas, revisão humana, benchmarking e verificações de regressão.

Model Evaluation

Favoritos 0GitHub 32.6k

ai-prompt-engineering-safety-review

por github

ai-prompt-engineering-safety-review é uma skill de auditoria de prompts para revisar prompts de LLM quanto a segurança, vieses, vulnerabilidades de segurança e qualidade de saída antes do uso em produção, avaliação ou contato com clientes.

Model Evaluation

Favoritos 0GitHub 27.8k

agentic-eval

por github

agentic-eval é uma skill do GitHub Copilot que mostra como criar loops de avaliação para saídas de IA usando reflexão, crítica com base em rubricas e padrões evaluator-optimizer.

Model Evaluation

Favoritos 0GitHub 27.8k

ml-pipeline-workflow

por wshobson

ml-pipeline-workflow é um guia prático para projetar pipelines de MLOps de ponta a ponta, cobrindo preparação de dados, treinamento, validação, implantação e monitoramento, com padrões de orquestração para automatizar fluxos de trabalho repetíveis.

Workflow Automation

Favoritos 0GitHub 0

frontend-design

por anthropics

frontend-design transforma ideias vagas de UI em interfaces marcantes e prontas para produção, com código frontend real, direção estética clara e menos visual genérico de IA.

UI Design

Favoritos 1GitHub 105.2k