agent-eval

por affaan-m

agent-eval é uma skill para fazer benchmarking de agentes de código, comparando-os diretamente em tarefas reproduzíveis e analisando taxa de acerto, custo, tempo e consistência. Use a skill agent-eval para avaliar Claude Code, Aider, Codex ou outro agente no seu próprio repositório, com evidências mais claras do que prompts improvisados.

Estrelas156k

Favoritos0

Comentários0

Adicionado15 de abr. de 2026

CategoriaModel Evaluation

Comando de instalação

npx skills add affaan-m/everything-claude-code --skill agent-eval

Pontuação editorial

Esta skill recebe nota 78/100, o que a coloca como uma boa candidata para usuários de diretório que querem uma forma reproduzível de comparar agentes de código. O repositório traz detalhes operacionais suficientes para entender quando usar e como funciona, embora ainda valha revisar o código-fonte antes de instalar, já que não há scripts de apoio nem arquivos de referência.

78/100

Pontos fortes

Casos de uso de ativação bem claros para comparação de agentes, checagens de regressão e decisões de adoção de modelos/ferramentas.
Elementos concretos de fluxo de trabalho: definições de tarefas em YAML, verificações de juiz e isolamento com git worktree para comparações reproduzíveis.
Bom valor para decisão de instalação em equipes que querem escolher agentes com base em dados, em vez de comparações ad hoc.

Pontos de atenção

Não há comando de instalação, scripts nem arquivos de suporte, então a adoção ainda depende de ler o arquivo principal da skill.
O repositório parece focado em um fluxo leve de CLI; quem precisa de uma infraestrutura de avaliação mais ampla talvez queira mais ferramentas.

Claude Code Codex Aider Git Cli Testing Workflow

Visão geral

Visão geral da skill agent-eval

agent-eval é uma skill para comparar agentes de programação lado a lado na mesma tarefa e, depois, avaliar os resultados por taxa de sucesso, custo, tempo e consistência. Se você está decidindo se vale adotar Claude Code, Aider, Codex ou outro agente em um repositório real, a skill agent-eval ajuda a sair da opinião e chegar a evidências reproduzíveis.

Ela é mais indicada para times e usuários avançados que precisam de uma comparação justa, não de um teste genérico do tipo “faça um prompt e veja no que dá”. O trabalho real aqui é definir uma única tarefa, rodar vários agentes sobre a mesma base e julgar qual performa melhor dentro das suas restrições.

O que torna o agent-eval útil

O principal valor do agent-eval está na comparação controlada: mesmo repositório, mesma tarefa, mesmos critérios de sucesso, worktrees separados. Isso torna os resultados mais confiáveis do que testes improvisados ou prompts isolados.

Quando a skill se encaixa

Use a skill agent-eval quando você quiser:

comparar agentes antes de padronizar um fluxo de trabalho
verificar se uma atualização de modelo mudou os resultados
testar desempenho na sua própria base de código e nas suas regras
reunir evidências para uma decisão de time ou de compra

Quando talvez não se encaixe

Se você só precisa de uma resposta pontual de programação, um prompt normal é mais simples. O agent-eval é mais valioso quando você se importa com repetibilidade, critérios de avaliação e trade-offs entre velocidade, qualidade e custo.

Como usar a skill agent-eval

Instale e inspecione a skill

Para instalar o agent-eval, adicione a skill a partir do repositório e leia primeiro o arquivo principal da skill:
npx skills add affaan-m/everything-claude-code --skill agent-eval

Depois abra SKILL.md e qualquer contexto vinculado que faça parte do seu fluxo. Neste repositório, a fonte principal é o próprio arquivo da skill, então a decisão de instalação depende muito de o modelo de tarefa dele combinar com o seu processo de avaliação.

Transforme um objetivo vago em uma tarefa utilizável

O uso do agent-eval funciona melhor quando você define uma tarefa concreta, um repositório-alvo e verificações objetivas. Um prompt fraco seria “testar qual agente é melhor em refatoração”. Um prompt mais forte seria:

adicionar lógica de retry em src/http_client.py
fixar o repositório em um commit para garantir reprodutibilidade
especificar quais arquivos podem mudar
definir comandos de julgamento como pytest ou grep
informar o tempo ou custo máximo aceitável, se isso importar

Quanto mais a tarefa puder ser verificada automaticamente, mais útil será a comparação.

Fluxo de trabalho sugerido

Um guia prático para agent-eval é:

Escolha uma tarefa que reflita uma decisão real que você precisa tomar.
Escreva a tarefa em YAML com caminho do repositório, arquivos, prompt e judges.
Rode vários agentes na mesma tarefa.
Compare qualidade da saída, tempo de execução e custo.
Repita com outra tarefa antes de fechar a escolha.

A skill usa isolamento com git worktree, o que ajuda a evitar que os agentes interfiram nas alterações uns dos outros e deixa a avaliação lado a lado mais limpa.

Leia estes arquivos primeiro

Comece por:

SKILL.md para o formato da tarefa e o fluxo de trabalho
quaisquer arquivos locais do repositório que definam suas regras de teste ou julgamento
os arquivos mencionados na sua definição de tarefa em YAML

Se você estiver avaliando agent-eval especificamente para Model Evaluation, confirme que suas tarefas e judges são estáveis o suficiente para gerar execuções comparáveis antes de investir em benchmarks maiores.

FAQ da skill agent-eval

O agent-eval é só para benchmarks de agentes de programação?

Sim, principalmente. A skill foi pensada para comparação direta entre agentes de programação, não para testes gerais de prompt nem para benchmarking amplo de LLM.

Preciso de Docker para usar?

Não. A skill usa isolamento com git worktree, então você consegue manter as execuções separadas sem o overhead de contêiner.

É amigável para iniciantes?

É acessível se você conseguir definir uma tarefa com clareza e rodar um fluxo de trabalho na linha de comando. É menos indicada para quem quer um avaliador de um clique, sem configuração.

Em que isso é diferente de um prompt normal?

Um prompt normal pede que um agente resolva uma tarefa. A skill agent-eval pede que vários agentes resolvam a mesma tarefa, com judges fixos, para que você compare os resultados com menos viés.

Como melhorar a skill agent-eval

Use definições de tarefa mais fortes

Os melhores resultados com agent-eval vêm de tarefas com entradas claras, limites de edição bem definidos e judges objetivos. Se o prompt for aberto demais, a comparação vai medir mais diferenças de interpretação do que a qualidade dos agentes.

Adicione judges que reflitam o sucesso real

Prefira verificações que espelhem como seu time valida mudanças de verdade: testes, lint, diffs de arquivos ou checagens de padrão. Se o judge for frouxo demais, soluções fracas podem parecer boas; se for rígido demais, você pode premiar gambiarras frágeis.

Itere no benchmark, não na resposta

Se um agente vencer pelo motivo errado, revise a tarefa antes de tirar conclusões. Aperte a lista de arquivos, esclareça os critérios de aceite e fixe o commit para que a skill agent-eval meça o mesmo alvo todas as vezes.

Fique atento aos modos de falha comuns

Os erros mais comuns são prompts vagos, judges desalinhados e tarefas grandes demais para uma comparação justa. Para um uso melhor do agent-eval, mantenha o primeiro benchmark pequeno, reproduzível e representativo do tipo de trabalho que você realmente quer que os agentes façam.

Avaliações e comentários

Ainda não há avaliações

Compartilhe sua avaliação

Faça login para deixar uma nota e um comentário sobre esta skill.

0/10000

Avaliações mais recentes

Salvando...

Mais skills nesta categoria

evaluation-methodology

por wshobson

A skill evaluation-methodology explica a pontuação PluginEval para Model Evaluation, incluindo camadas, rubricas, pontuação composta, limites de badges e orientações práticas para interpretar resultados e melhorar dimensões fracas.

Model Evaluation

Favoritos 0GitHub 32.6k

healthcare-eval-harness

por affaan-m

healthcare-eval-harness é um harness de avaliação de segurança do paciente para implantações de apps de saúde. Ele ajuda equipes a verificar a precisão de CDSS, exposição de PHI, integridade dos dados, comportamento do fluxo clínico e conformidade de integração antes do release. Falhas críticas bloqueiam a implantação, tornando o healthcare-eval-harness útil para Avaliação de Modelo e gates de segurança em CI.

Model Evaluation

Favoritos 0GitHub 156.2k

eval-harness

por affaan-m

A skill eval-harness é um framework formal de avaliação para sessões do Claude Code e desenvolvimento orientado por avaliação. Ela ajuda você a definir critérios de aprovação e reprovação, criar avaliações de capacidade e regressão e medir a confiabilidade do agente antes de publicar mudanças em prompts ou fluxos de trabalho.

Model Evaluation

Favoritos 0GitHub 156.1k

huggingface-community-evals

por huggingface

O huggingface-community-evals ajuda você a executar localmente avaliações de modelos do Hugging Face Hub com inspect-ai ou lighteval. Use-o para escolher o backend, fazer smoke tests e consultar um guia prático de vLLM, Transformers ou accelerate. Não é para orquestração de HF Jobs, PRs de model card, publicação de .eval_results ou automação de community-evals.

Model Evaluation

Favoritos 0GitHub 10.4k

huggingface-best

por huggingface

A skill huggingface-best ajuda você a encontrar o melhor modelo para uma tarefa, consultando rankings de benchmark do Hugging Face e filtrando por limites de dispositivo e tamanho do modelo. Use quando precisar de recomendações de modelos para coding, reasoning, chat, OCR, RAG, speech, vision ou trabalho multimodal, e quiser uma shortlist prática em vez de uma lista genérica de modelos.

Model Evaluation

Favoritos 0GitHub 10.4k

libafl

por trailofbits

A skill libafl ajuda você a planejar e criar fuzzers modulares com o LibAFL para alvos personalizados, estratégias de mutação e fluxos de trabalho de auditoria de segurança. Use este guia de libafl para sair dos detalhes do alvo e chegar a um harness prático, a um modelo de feedback e a um plano de execução com menos suposições.

Security Audit

Favoritos 0GitHub 5k

evaluation

por muratcankoylan

A skill de evaluation ajuda você a projetar e executar avaliações de agentes para sistemas não determinísticos. Use-a para planejar a instalação da avaliação, criar rubricas, fazer checagens de regressão, definir gates de qualidade e conduzir evaluation para Skill Testing. Ela se encaixa em fluxos LLM-as-judge, pontuação multidimensional e usos práticos de avaliação quando você precisa de resultados repetíveis.

Skill Testing

Favoritos 0GitHub 0

judge-with-debate

por NeoLabHQ

O judge-with-debate avalia soluções por meio de debate estruturado entre múltiplos agentes, usando uma especificação compartilhada, contra-argumentos baseados em evidências e até 3 rodadas para chegar a um consenso. É uma boa opção para revisão de código, avaliação com base em rubricas e fluxos de judge-with-debate em sistemas multiagente.

Multi-Agent Systems

Favoritos 0GitHub 982

gws-modelarmor

por googleworkspace

A gws-modelarmor ajuda você a trabalhar com o Google Model Armor no ecossistema googleworkspace/cli. Use-a para sanitizar prompts, sanitizar respostas de modelos e criar templates com menos tentativa e erro do que em um prompt genérico. Ela foi pensada para uso repetível, orientado a políticas, e para fluxos de trabalho de Auditoria de Segurança.

Security Audit

Favoritos 0GitHub 25.5k

analyzing-campaign-attribution-evidence

por mukul975

analyzing-campaign-attribution-evidence ajuda analistas a ponderar sobreposição de infraestrutura, consistência com ATT&CK, similaridade de malware, timing e traços de linguagem para uma atribuição de campanha defensável. Use este guia do analyzing-campaign-attribution-evidence em CTI, análise de incidentes e revisões de Security Audit.

Security Audit

Favoritos 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

por mukul975

detecting-ai-model-prompt-injection-attacks é uma skill de cibersegurança para filtrar texto não confiável antes que ele chegue a um LLM. Ela usa regex em camadas, pontuação heurística e classificação baseada em DeBERTa para sinalizar ataques diretos e indiretos de prompt injection. É útil para validação de entrada em chatbots, ingestão de documentos e Threat Modeling.

Threat Modeling

Favoritos 0GitHub 0

llm-evaluation

por wshobson

Use a skill llm-evaluation para criar planos de avaliação repetíveis para apps com LLM, prompts, sistemas RAG e mudanças de modelo, com métricas, revisão humana, benchmarking e verificações de regressão.

Model Evaluation

Favoritos 0GitHub 32.6k

ai-prompt-engineering-safety-review

por github

ai-prompt-engineering-safety-review é uma skill de auditoria de prompts para revisar prompts de LLM quanto a segurança, vieses, vulnerabilidades de segurança e qualidade de saída antes do uso em produção, avaliação ou contato com clientes.

Model Evaluation

Favoritos 0GitHub 27.8k

agentic-eval

por github

agentic-eval é uma skill do GitHub Copilot que mostra como criar loops de avaliação para saídas de IA usando reflexão, crítica com base em rubricas e padrões evaluator-optimizer.

Model Evaluation

Favoritos 0GitHub 27.8k

ml-pipeline-workflow

por wshobson

ml-pipeline-workflow é um guia prático para projetar pipelines de MLOps de ponta a ponta, cobrindo preparação de dados, treinamento, validação, implantação e monitoramento, com padrões de orquestração para automatizar fluxos de trabalho repetíveis.

Workflow Automation

Favoritos 0GitHub 0

frontend-design

por anthropics

frontend-design transforma ideias vagas de UI em interfaces marcantes e prontas para produção, com código frontend real, direção estética clara e menos visual genérico de IA.

UI Design

Favoritos 1GitHub 105.2k