agentic-eval

por github

agentic-eval é uma skill do GitHub Copilot que mostra como criar loops de avaliação para saídas de IA usando reflexão, crítica com base em rubricas e padrões evaluator-optimizer.

Estrelas27.8k

Favoritos0

Comentários0

Adicionado31 de mar. de 2026

CategoriaModel Evaluation

Comando de instalação

npx skills add github/awesome-copilot --skill agentic-eval

Pontuação editorial

Esta skill recebe nota 68/100, o que significa que pode ser listada para usuários do diretório que buscam padrões de avaliação reutilizáveis, mas eles devem esperar um guia mais conceitual do que uma skill pronta para uso com recursos executáveis. O repositório traz conteúdo suficiente para entender quando vale acioná-la e que tipos de loops evaluator-refiner ela oferece, mas os usuários ainda precisarão adaptar esses padrões às próprias ferramentas e prompts.

68/100

Pontos fortes

Boa acionabilidade a partir do frontmatter e dos exemplos: o conteúdo cita explicitamente self-critique, pipelines evaluator-optimizer, avaliação baseada em rubricas e casos de uso de melhoria iterativa da qualidade.
Entrega valor real de fluxo de trabalho com vários padrões documentados, incluindo um loop básico de reflexão e outras abordagens de avaliação agentic, em vez de apenas uma descrição genérica.
A estrutura progressiva é razoável: visão geral, orientação sobre quando usar e exemplos em blocos de código ajudam agentes e usuários a entender rapidamente o loop de avaliação proposto.

Pontos de atenção

A clareza operacional é limitada pela ausência de instruções de instalação, arquivos de suporte ou referências executáveis, então a adoção exige adaptação manual.
A skill parece mais orientada a padrões do que a um ambiente específico, com pouca evidência sobre restrições, modos de falha ou como escolher entre os padrões na prática.

Copilot Testing Llm Ai Agents Workflow

Visão geral

Visão geral da skill agentic-eval

O que a agentic-eval faz

A skill agentic-eval é um guia enxuto para incorporar ciclos de avaliação em fluxos de trabalho com IA, em vez de aceitar a primeira versão gerada. Sua função principal é simples: pegar uma saída inicial, julgá-la com base em critérios explícitos e depois refiná-la em uma ou mais rodadas de melhoria. Se você trabalha com geração de código, análise estruturada, relatórios ou qualquer tarefa sensível à qualidade, agentic-eval ajuda a transformar “gerar uma vez” em “gerar, avaliar e melhorar”.

Quem deve instalar a agentic-eval

Esta skill é indicada para quem já usa IA em trabalho próximo de produção e precisa de mais confiabilidade do que um prompt simples costuma entregar. Ela é especialmente útil para:

desenvolvedores que querem adicionar autocrítica a agentes de código
equipes que estão desenhando pipelines de evaluator-optimizer
usuários que criam fluxos de revisão baseados em rubricas
qualquer pessoa que faça model evaluation e consiga verificar a qualidade da saída com base em padrões definidos

O problema real que ela resolve

A maioria dos usuários não precisa de mais um template genérico de prompting. Precisa de uma forma repetível de:

definir o que significa “bom”,
avaliar uma resposta contra esse padrão,
revisar com base em lacunas específicas,
parar quando a qualidade estiver aceitável ou quando o número máximo de iterações for atingido.

É aí que agentic-eval for Model Evaluation se mostra mais útil: ele oferece um padrão leve para ciclos controlados de melhoria.

O que diferencia esta skill

O valor de agentic-eval não está na abrangência, e sim no foco. O repositório se concentra em alguns padrões práticos de avaliação, em vez de virar um framework grande, o que facilita a adoção dentro de um agente ou fluxo de prompt já existente. Os principais diferenciais são:

ciclos explícitos de reflexão
raciocínio no estilo evaluator-optimizer
boa aderência a saídas guiadas por rubricas
aplicação direta em refinamento orientado por testes ou por padrões

Quando a agentic-eval é uma escolha forte

Use a agentic-eval skill quando a tarefa tiver critérios verificáveis, como:

passar em testes
cumprir restrições de formatação ou estilo
melhorar a completude factual com base em uma rubrica
fortalecer a qualidade do raciocínio em relatórios ou análises
elevar a qualidade do código antes da entrega final

Se o sucesso for vago, subjetivo ou impossível de pontuar nem que seja aproximadamente, esta skill tende a ficar menos confiável.

Como usar a skill agentic-eval

Contexto de instalação e caminho de acesso

Os sinais do repositório mostram apenas um único SKILL.md, então o agentic-eval install consiste basicamente em adicionar a skill ao seu ambiente com suporte a skills e, em seguida, ler o arquivo da skill diretamente. Se você usa o fluxo de skills do GitHub Copilot, adicione a skill a partir do repositório github/awesome-copilot e abra skills/agentic-eval/SKILL.md primeiro. Não há scripts auxiliares, regras ou arquivos de referência que façam o trabalho pesado por você, então o desenho do prompt importa mais do que o normal.

Leia este arquivo primeiro

Comece por:

SKILL.md

Como o repositório não inclui recursos auxiliares, o caminho de leitura importante é curto. Leia as seções:

Overview
When to Use
Pattern 1: Basic Reflection
Pattern 2: Evaluator-Optimizer

Essas seções formam a superfície de implementação da skill.

Quais entradas a agentic-eval precisa

O agentic-eval usage melhora muito quando você já fornece quatro coisas de saída:

a tarefa a ser concluída
os critérios de avaliação
o número máximo de rodadas de refinamento
a condição de parada

Um pedido fraco seria: “Melhore esta resposta.”
Um pedido mais forte seria: “Crie um plano de migração e depois avalie o resultado quanto a completude, cobertura de riscos, sequência e clareza de rollback. Revise até 3 vezes e devolva a versão final com as principais alterações.”

Transforme um objetivo vago em um prompt utilizável

Um prompt prático no estilo agentic-eval guide normalmente segue esta estrutura:

Task: o que precisa ser produzido
Context: fatos de origem, restrições, público
Criteria: como o resultado será julgado
Evaluation mode: autocrítica ou uma etapa separada de avaliação
Iteration limit: geralmente de 2 a 4
Output contract: apenas a resposta final, ou crítica + histórico de revisões

Exemplo de estrutura:

Task: “Write a design review memo for the API change.”
Context: “Audience is staff engineers; must mention backward compatibility risks.”
Criteria: “Accuracy, completeness, decision clarity, concrete risks, actionable recommendation.”
Loop: “Generate, evaluate against the rubric, revise, repeat up to 3 times.”
Output: “Return final memo and a short list of fixes made.”

O padrão de reflexão básica da agentic-eval na prática

O primeiro padrão em agentic-eval é a reflexão básica: o mesmo modelo critica a própria saída e a melhora. É o ponto de partida mais simples porque adiciona pouca sobrecarga operacional.

Use quando:

a tarefa tiver importância intermediária
você precisar elevar a qualidade rapidamente
você não quiser orquestrar múltiplos agentes ou modelos

Esse padrão funciona melhor quando a crítica é específica. Peça pontuação critério a critério ou detecção de lacunas, e não algo genérico como “revise isto”.

O padrão evaluator-optimizer da agentic-eval na prática

O segundo padrão é melhor para fluxos de trabalho em que a qualidade é crítica. Uma etapa cria o rascunho, outra avalia e uma etapa seguinte revisa. Essa separação costuma gerar saídas mais disciplinadas, porque a avaliação passa a ser tratada como uma etapa própria.

Use quando:

a saída precisa satisfazer uma rubrica
você quer uma trilha de auditoria mais clara sobre o motivo das revisões
você está fazendo agentic-eval for Model Evaluation de forma recorrente em muitos itens

Esse padrão também é mais fácil de comparar e medir, porque você consegue avaliar separadamente a qualidade do rascunho, da crítica e da versão final.

Bons critérios definem o sucesso ou o fracasso do resultado

O maior bloqueio de adoção costuma ser critério de avaliação fraco. Se você dá padrões vagos ao modelo, o ciclo só amplifica essa vagueza. Prefira critérios que sejam:

observáveis
específicos
relevantes para a tarefa
poucos o suficiente para serem aplicados com consistência

Melhor:

“Includes migration steps, risk analysis, rollback plan, and owner assignments”
Pior:
“Make it better and more professional”

Fluxo sugerido para tarefas reais

Um fluxo prático de agentic-eval usage é:

criar um primeiro rascunho com base na tarefa e no contexto
avaliar esse rascunho com uma rubrica curta
identificar falhas concretas, não impressões genéricas
revisar apenas em função dessas falhas
parar ao atingir o nível de qualidade desejado ou o limite de iterações

Isso evita ciclos infinitos e mantém as revisões ligadas a problemas mensuráveis.

Quando prompting comum já basta

Não use a agentic-eval skill para tudo. Se a tarefa tiver baixo risco, geração em uma única tentativa costuma ser mais barata e mais rápida. Brainstorming simples, ideação inicial ou rascunhos descartáveis muitas vezes não precisam de avaliação iterativa. A skill entrega mais valor quando uma saída ruim tem custo real.

Exemplo prático de prompt

Uma invocação forte se parece com isto:

“Create a Python function for CSV import validation. Then evaluate your solution against these criteria: correctness, edge-case coverage, error handling, readability, and testability. List the top 3 issues, revise the code, and stop after 2 refinement rounds or when all criteria are satisfied.”

Por que isso funciona:

o tipo de artefato está claro
a rubrica é explícita
a saída da avaliação tem limites definidos
a regra de parada evita iterações excessivas

FAQ da skill agentic-eval

A agentic-eval é boa para iniciantes?

Sim, desde que você já entenda o básico de prompting. A skill em si é conceitualmente simples, mas bons resultados dependem de escrever critérios utilizáveis. Iniciantes podem começar com reflexão básica antes de partir para configurações mais formais de evaluator-optimizer.

Qual é o principal benefício em relação a um prompt normal?

Um prompt comum pede uma resposta. agentic-eval acrescenta um ciclo de controle de qualidade. O ganho prático não é “mais texto”, e sim detectar melhor omissões, raciocínio fraco ou falhas no cumprimento de restrições antes da saída final.

Quando eu não devo usar a agentic-eval?

Evite quando:

a tarefa não tiver critérios claros de sucesso
velocidade importar mais do que qualidade
a saída for exploratória em vez de passível de julgamento
você não conseguir dizer se a revisão realmente melhorou algo

A agentic-eval serve apenas para código?

Não. Ela se encaixa em código, análise, relatórios e outras saídas estruturadas. O requisito em comum é a possibilidade de avaliar. Se você consegue definir uma rubrica, a agentic-eval skill normalmente pode ajudar.

A agentic-eval inclui tooling ou automação?

Não neste snapshot do repositório. A skill é guiada principalmente por orientação, com padrões e exemplos em SKILL.md, e não por uma biblioteca empacotada ou um conjunto de scripts. Muito provavelmente você vai adaptar o ciclo dentro do seu próprio agente, cadeia de prompts ou camada de orquestração.

Quantas iterações devo executar?

Normalmente, de 2 a 3 já basta. Mais rodadas podem ajudar em tarefas complexas, mas também aumentam drift, custo e críticas que apenas reforçam a própria saída anterior. Defina uma condição de parada em vez de assumir que mais ciclos sempre melhoram a qualidade.

Como melhorar a skill agentic-eval

Comece refinando a sua rubrica

A forma mais rápida de melhorar os resultados de agentic-eval é melhorar os critérios de avaliação, não o prompt de geração. Uma rubrica enxuta, com 4 a 6 dimensões, geralmente funciona melhor do que um checklist longo. Cada dimensão precisa ser acionável o suficiente para que o modelo consiga revisar com base nela.

Dê ao avaliador as restrições de origem

Se a saída precisa seguir requisitos, inclua esses requisitos na etapa de avaliação. Por exemplo:

seções obrigatórias
restrições de política
contratos de interface
testes de aceitação
exigências de público e tom

Sem isso, o avaliador pode otimizar para plausibilidade em vez de sucesso real na tarefa.

Peça diagnóstico de falhas antes da revisão

Um erro comum é pular da crítica para a reescrita rápido demais. Os resultados tendem a melhorar quando você pede primeiro que o modelo nomeie os problemas de maior impacto. Isso ajuda a revisão a focar em lacunas reais, em vez de reescrever tudo.

Evite autoconfiança superficial

Um modo de falha em agentic-eval for Model Evaluation é uma crítica fraca, do tipo “parece bom no geral”. Para neutralizar isso, exija:

avaliação critério por critério
elementos ausentes de forma explícita
classificação por severidade
evidências extraídas do rascunho

Isso força um comportamento de avaliação mais útil.

Separe qualidade do rascunho e qualidade da avaliação

Se as saídas ainda decepcionam, verifique se o problema está em:

rascunho inicial fraco
crítica fraca
disciplina ruim na revisão

Isso importa porque cada etapa pede correções diferentes. Um avaliador forte não consegue compensar contexto de origem ausente, e um rascunho forte ainda pode piorar com instruções vagas de revisão.

Melhore as entradas depois da primeira execução

Depois de uma passagem, refine o prompt com base no que falhou:

adicione contexto ausente
reescreva critérios fracos
aperte o formato da saída
remova instruções conflitantes
reduza a contagem de iterações se as revisões começarem a se perder

O melhor comportamento no estilo agentic-eval guide normalmente surge após um ou dois ajustes de prompt baseados nos modos de falha observados.

Use regras de parada explícitas

Para melhorar a qualidade e controlar o custo, defina quando o ciclo termina:

todos os critérios obrigatórios foram atendidos
não restam problemas críticos
máximo de 3 rodadas atingido

Isso evita ciclos de polimento que só mexem na redação sem melhorar a substância.

Combine o padrão com o nível de criticidade

Use reflexão básica para melhorias leves de qualidade. Use evaluator-optimizer para entregáveis mais críticos, fluxos repetidos ou revisão em estilo benchmark. Escolher o padrão mais simples quando ele for suficiente torna a decisão de agentic-eval install mais fácil e o fluxo mais simples de manter.

Avaliações e comentários

Ainda não há avaliações

Compartilhe sua avaliação

Faça login para deixar uma nota e um comentário sobre esta skill.

0/10000

Avaliações mais recentes

Salvando...

Mais skills nesta categoria

evaluation-methodology

por wshobson

A skill evaluation-methodology explica a pontuação PluginEval para Model Evaluation, incluindo camadas, rubricas, pontuação composta, limites de badges e orientações práticas para interpretar resultados e melhorar dimensões fracas.

Model Evaluation

Favoritos 0GitHub 32.6k

healthcare-eval-harness

por affaan-m

healthcare-eval-harness é um harness de avaliação de segurança do paciente para implantações de apps de saúde. Ele ajuda equipes a verificar a precisão de CDSS, exposição de PHI, integridade dos dados, comportamento do fluxo clínico e conformidade de integração antes do release. Falhas críticas bloqueiam a implantação, tornando o healthcare-eval-harness útil para Avaliação de Modelo e gates de segurança em CI.

Model Evaluation

Favoritos 0GitHub 156.2k

eval-harness

por affaan-m

A skill eval-harness é um framework formal de avaliação para sessões do Claude Code e desenvolvimento orientado por avaliação. Ela ajuda você a definir critérios de aprovação e reprovação, criar avaliações de capacidade e regressão e medir a confiabilidade do agente antes de publicar mudanças em prompts ou fluxos de trabalho.

Model Evaluation

Favoritos 0GitHub 156.1k

agent-eval

por affaan-m

agent-eval é uma skill para fazer benchmarking de agentes de código, comparando-os diretamente em tarefas reproduzíveis e analisando taxa de acerto, custo, tempo e consistência. Use a skill agent-eval para avaliar Claude Code, Aider, Codex ou outro agente no seu próprio repositório, com evidências mais claras do que prompts improvisados.

Model Evaluation

Favoritos 0GitHub 156k

huggingface-community-evals

por huggingface

O huggingface-community-evals ajuda você a executar localmente avaliações de modelos do Hugging Face Hub com inspect-ai ou lighteval. Use-o para escolher o backend, fazer smoke tests e consultar um guia prático de vLLM, Transformers ou accelerate. Não é para orquestração de HF Jobs, PRs de model card, publicação de .eval_results ou automação de community-evals.

Model Evaluation

Favoritos 0GitHub 10.4k

huggingface-best

por huggingface

A skill huggingface-best ajuda você a encontrar o melhor modelo para uma tarefa, consultando rankings de benchmark do Hugging Face e filtrando por limites de dispositivo e tamanho do modelo. Use quando precisar de recomendações de modelos para coding, reasoning, chat, OCR, RAG, speech, vision ou trabalho multimodal, e quiser uma shortlist prática em vez de uma lista genérica de modelos.

Model Evaluation

Favoritos 0GitHub 10.4k

libafl

por trailofbits

A skill libafl ajuda você a planejar e criar fuzzers modulares com o LibAFL para alvos personalizados, estratégias de mutação e fluxos de trabalho de auditoria de segurança. Use este guia de libafl para sair dos detalhes do alvo e chegar a um harness prático, a um modelo de feedback e a um plano de execução com menos suposições.

Security Audit

Favoritos 0GitHub 5k

evaluation

por muratcankoylan

A skill de evaluation ajuda você a projetar e executar avaliações de agentes para sistemas não determinísticos. Use-a para planejar a instalação da avaliação, criar rubricas, fazer checagens de regressão, definir gates de qualidade e conduzir evaluation para Skill Testing. Ela se encaixa em fluxos LLM-as-judge, pontuação multidimensional e usos práticos de avaliação quando você precisa de resultados repetíveis.

Skill Testing

Favoritos 0GitHub 0

judge-with-debate

por NeoLabHQ

O judge-with-debate avalia soluções por meio de debate estruturado entre múltiplos agentes, usando uma especificação compartilhada, contra-argumentos baseados em evidências e até 3 rodadas para chegar a um consenso. É uma boa opção para revisão de código, avaliação com base em rubricas e fluxos de judge-with-debate em sistemas multiagente.

Multi-Agent Systems

Favoritos 0GitHub 982

gws-modelarmor

por googleworkspace

A gws-modelarmor ajuda você a trabalhar com o Google Model Armor no ecossistema googleworkspace/cli. Use-a para sanitizar prompts, sanitizar respostas de modelos e criar templates com menos tentativa e erro do que em um prompt genérico. Ela foi pensada para uso repetível, orientado a políticas, e para fluxos de trabalho de Auditoria de Segurança.

Security Audit

Favoritos 0GitHub 25.5k

analyzing-campaign-attribution-evidence

por mukul975

analyzing-campaign-attribution-evidence ajuda analistas a ponderar sobreposição de infraestrutura, consistência com ATT&CK, similaridade de malware, timing e traços de linguagem para uma atribuição de campanha defensável. Use este guia do analyzing-campaign-attribution-evidence em CTI, análise de incidentes e revisões de Security Audit.

Security Audit

Favoritos 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

por mukul975

detecting-ai-model-prompt-injection-attacks é uma skill de cibersegurança para filtrar texto não confiável antes que ele chegue a um LLM. Ela usa regex em camadas, pontuação heurística e classificação baseada em DeBERTa para sinalizar ataques diretos e indiretos de prompt injection. É útil para validação de entrada em chatbots, ingestão de documentos e Threat Modeling.

Threat Modeling

Favoritos 0GitHub 0

llm-evaluation

por wshobson

Use a skill llm-evaluation para criar planos de avaliação repetíveis para apps com LLM, prompts, sistemas RAG e mudanças de modelo, com métricas, revisão humana, benchmarking e verificações de regressão.

Model Evaluation

Favoritos 0GitHub 32.6k

ai-prompt-engineering-safety-review

por github

ai-prompt-engineering-safety-review é uma skill de auditoria de prompts para revisar prompts de LLM quanto a segurança, vieses, vulnerabilidades de segurança e qualidade de saída antes do uso em produção, avaliação ou contato com clientes.

Model Evaluation

Favoritos 0GitHub 27.8k

ml-pipeline-workflow

por wshobson

ml-pipeline-workflow é um guia prático para projetar pipelines de MLOps de ponta a ponta, cobrindo preparação de dados, treinamento, validação, implantação e monitoramento, com padrões de orquestração para automatizar fluxos de trabalho repetíveis.

Workflow Automation

Favoritos 0GitHub 0

frontend-design

por anthropics

frontend-design transforma ideias vagas de UI em interfaces marcantes e prontas para produção, com código frontend real, direção estética clara e menos visual genérico de IA.

UI Design

Favoritos 1GitHub 105.2k