evaluation

por muratcankoylan

A skill de evaluation ajuda você a projetar e executar avaliações de agentes para sistemas não determinísticos. Use-a para planejar a instalação da avaliação, criar rubricas, fazer checagens de regressão, definir gates de qualidade e conduzir evaluation para Skill Testing. Ela se encaixa em fluxos LLM-as-judge, pontuação multidimensional e usos práticos de avaliação quando você precisa de resultados repetíveis.

Estrelas0

Favoritos0

Comentários0

Adicionado14 de mai. de 2026

CategoriaSkill Testing

Comando de instalação

npx skills add muratcankoylan/Agent-Skills-for-Context-Engineering --skill evaluation

Pontuação editorial

Esta skill recebe 78/100, o que a coloca como uma boa candidata para o diretório, com valor real de fluxo de trabalho para quem cria ou mede avaliações de agentes. O repositório traz detalhes operacionais suficientes para ajudar um agente a acionar e usar a skill com menos tentativa e erro do que um prompt genérico, embora a decisão de instalação deva considerar alguns sinais de caráter experimental e a ausência de um comando de instalação.

78/100

Pontos fortes

Intenção de ativação clara para evaluation, frameworks de teste, gates de qualidade e benchmarking de agentes, o que facilita a detecção do gatilho.
Conteúdo robusto de fluxo de trabalho: o SKILL.md é extenso, bem estruturado e apoiado por um documento de referências e um script Python de avaliador, o que melhora a clareza operacional e o aproveitamento pelo agente.
Orientação de avaliação multidimensional e definições concretas de métricas ajudam os agentes a executar um fluxo de avaliação real, em vez de improvisar uma rubrica do zero.

Pontos de atenção

O repositório é marcado com sinais de experimental/teste, então os usuários devem tratá-lo como um protótipo prático, e não como um pacote de produção totalmente refinado.
Não há comando de instalação no SKILL.md, o que deixa a adoção um pouco menos fluida para quem quer orientação imediata de setup no diretório.

Evaluation Agents Context Engineering Testing Workflow Quality Management Verification

Visão geral

Visão geral da skill de avaliação

O que a skill de avaliação faz

A skill evaluation ajuda você a projetar e executar avaliações para sistemas de agentes, especialmente quando as saídas são não determinísticas e não existe uma única resposta “correta”. Ela é mais indicada para quem precisa medir a performance do agente, comparar configurações ou criar critérios de qualidade para um pipeline, em vez de apenas escrever um prompt pontual.

Quem deve usar

Use esta skill de avaliação se você estiver testando mudanças de context engineering, acompanhando o comportamento do agente ao longo do tempo ou decidindo se um agente está pronto para produção. Ela é uma ótima opção para fluxos de trabalho com LLM-as-judge, scoring baseado em rubricas, checagens de regressão e testes de agentes em que a qualidade do resultado importa mais do que a execução exata passo a passo.

O que a torna diferente

O repositório dá ênfase à avaliação multidimensional, em vez de um único score geral, que é o formato certo para agentes que podem ter sucesso de maneiras diferentes. Ele também foca em suporte prático de implementação por meio de referências e de um script de avaliador executável, então a instalação da avaliação é útil tanto para o planejamento quanto para a execução.

Como usar a skill de avaliação

Instalar e ativar

Instale com:

npx skills add muratcankoylan/Agent-Skills-for-Context-Engineering --skill evaluation

Depois, use isso quando sua tarefa envolver planejamento da instalação da avaliação, rubricas de scoring ou a construção de um guia de avaliação para sistemas de agentes. A skill funciona melhor quando você descreve explicitamente o sistema que está sendo testado, os critérios de sucesso e os modos de falha que importam para você.

Dê as entradas certas para a skill

Um pedido fraco como “avalie este agente” deixa espaço demais para interpretação. Um prompt mais forte informa o sistema agente, o resultado esperado, as restrições e as necessidades de scoring: “Desenvolva uma avaliação para um agente de suporte que deve responder apenas com base na documentação do produto, evitar alucinações e ser pontuado por precisão factual, completude, precisão de citações e eficiência no uso de ferramentas.” Esse nível de detalhe permite que a skill de avaliação gere rubricas úteis, em vez de conselhos genéricos.

Leia primeiro estes arquivos do repositório

Comece com SKILL.md para entender o fluxo de trabalho e as regras de ativação, depois leia references/metrics.md para as definições dos scores e scripts/evaluator.py para os padrões de implementação. Se você estiver adaptando a skill para a sua própria stack, examine esses três arquivos antes de procurar qualquer outra coisa, porque eles mostram como a lógica de avaliação foi pensada para ser aplicada.

Aplique em um fluxo de trabalho real

Um fluxo prático de uso da avaliação é: definir a tarefa, escolher as dimensões, atribuir pesos, criar casos de teste, rodar o scorer e depois revisar as falhas em busca de padrões. Use a skill para criar ou refinar sua rubrica, não apenas para pontuar saídas depois do fato. Isso a torna mais útil para testes de regressão, comparação de modelos e avaliação para Skill Testing.

FAQ da skill de avaliação

A skill de avaliação serve só para benchmarks?

Não. Ela também é útil para critérios de qualidade do dia a dia, testes de regressão e melhoria de prompts ou políticas de agente depois de uma execução ruim. Se você precisa de critérios repetíveis para julgar saídas de agentes, a skill de avaliação é relevante mesmo sem um benchmark formal.

Quando eu não devo usá-la?

Evite usar se você só precisa de uma revisão subjetiva simples ou de um ajuste rápido no prompt. A skill de avaliação é mais valiosa quando a qualidade da saída importa o suficiente para justificar rubricas, conjuntos de teste e scoring repetível.

Ela é amigável para iniciantes?

Sim, desde que você já saiba o que o agente deveria fazer. A principal curva de aprendizado não é sintaxe; é definir boas dimensões de avaliação e evitar depender demais de um único score.

Em que isso difere de um prompt normal?

Um prompt normal pede uma opinião. A skill de avaliação é um fluxo de trabalho para transformar essa opinião em uma avaliação estruturada e repetível, com dimensões, pesos e casos de teste. Essa diferença importa quando você precisa de consistência entre execuções ou revisores.

Como melhorar a skill de avaliação

Comece com critérios de sucesso mais precisos

Os melhores resultados vêm de um comportamento-alvo explícito, e não de objetivos amplos. Em vez de “medir qualidade”, especifique o que qualidade significa: fatos corretos, cobertura completa, fidelidade às fontes, latência, comportamento de recusa ou uso de ferramentas. Quanto mais concretos forem os seus critérios, melhor a skill de avaliação consegue separar vitórias reais de sucessos acidentais.

Use dimensões que combinem com o seu risco

A ênfase padrão do repositório em precisão factual, completude, precisão de citações e qualidade da fonte é um bom ponto de partida, mas sua avaliação deve refletir o custo real da falha. Para um agente voltado ao cliente, alucinações podem pesar mais do que estilo; para um agente de pesquisa, a qualidade da fonte pode valer mais do que a concisão. Ajuste a rubrica em vez de aceitar um score genérico.

Itere sobre as falhas, não só sobre as médias

Depois da primeira rodada, revise os casos com nota baixa e procure causas recorrentes: contexto ausente, recuperação fraca, escolha ruim de ferramenta ou respostas confiantes demais. Use esses padrões para revisar seu conjunto de testes e os inputs do prompt. Essa é a forma mais rápida de melhorar o uso da avaliação e fazer a skill gerar retorno ao longo do tempo.

Avaliações e comentários

Ainda não há avaliações

Compartilhe sua avaliação

Faça login para deixar uma nota e um comentário sobre esta skill.

0/10000

Avaliações mais recentes

Salvando...

Mais skills nesta categoria

skill-creator

por anthropics

skill-creator é uma meta-skill de criação de Skills para rascunhar novas skills, revisar arquivos SKILL.md, rodar evals, comparar variantes e melhorar descrições de trigger com scripts e ferramentas de revisão do repositório.

Skill Authoring

Favoritos 2GitHub 105.1k

cpp-testing

por affaan-m

A skill cpp-testing ajuda você a escrever, executar e depurar testes em C++ com GoogleTest, GoogleMock, CMake e CTest. Use-a para cobertura, correção de testes instáveis, diagnósticos com sanitizers e uso prático de cpp-testing em projetos modernos de C++.

Test Automation

Favoritos 0GitHub 156.1k

test-driven-development

por addyosmani

A skill test-driven-development ajuda você a modificar código escrevendo primeiro um teste que falha e, depois, fazendo a menor correção possível para passar. Use em mudanças de lógica, correção de bugs, regressões e casos de borda em que a prova vale mais do que um conserto apenas plausível.

Skill Testing

Favoritos 0GitHub 18.8k

skill-optimizer

por mcollina

O skill-optimizer ajuda autores a melhorar skills de IA em ativação, clareza e confiabilidade entre modelos. Use em Skill Authoring quando uma skill está escrita, mas não é seguida de forma confiável; quando os gatilhos são fracos, aparecem regressões ou é preciso reduzir o custo de contexto. Ele dá suporte a ciclos de benchmark, gates de release e maior fidelidade de uso.

Skill Authoring

Favoritos 0GitHub 1.8k

property-based-testing

por trailofbits

Guia da skill property-based-testing para escrever, revisar e melhorar PBT em diferentes linguagens e smart contracts. Use este guia de property-based-testing para identificar casos de roundtrip, idempotência, invariantes, parser, validador e normalização, escolher geradores e decidir quando property-based-testing é mais forte do que testes baseados em exemplos.

Skill Testing

Favoritos 0GitHub 5k

writing-skills

por obra

writing-skills é um guia de Skill Authoring para criar, editar e validar skills de agentes com um fluxo orientado por testes. Entenda os arquivos principais, os pré-requisitos e as etapas práticas para cenários de pressão, testes de linha de base e iteração concisa de `SKILL.md`.

Skill Authoring

Favoritos 0GitHub 121.9k

verification-loop

por affaan-m

verification-loop é um fluxo de verificação para Claude Code que ajuda a checar build, tipos, lint, testes, segurança e diffs após mudanças no código. Este skill de verification-loop é útil antes de PRs e depois de refatorações, quando você quer um guia estruturado de pós-mudança em vez de um prompt genérico.

Verification

Favoritos 0GitHub 156.3k

perl-testing

por affaan-m

perl-testing é um guia prático para escrever, executar e aprimorar testes em Perl com Test2::V0, Test::More, prove, mocking, coverage e TDD. Use a skill perl-testing para orientação de instalação, padrões de uso, ajuda na migração e depuração mais rápida de suítes com falha.

Skill Testing

Favoritos 0GitHub 156.2k

kotlin-testing

por affaan-m

kotlin-testing é um guia prático para automação de testes em Kotlin com Kotest, MockK, testes de corrotinas, testes baseados em propriedades e cobertura com Kover. Use esta skill de kotlin-testing para seguir um fluxo de trabalho amigável ao TDD, escrever testes unitários e de componente mais claros e reduzir a incerteza ao simular dependências ou testar código suspenso.

Test Automation

Favoritos 0GitHub 156.2k

eval-harness

por affaan-m

A skill eval-harness é um framework formal de avaliação para sessões do Claude Code e desenvolvimento orientado por avaliação. Ela ajuda você a definir critérios de aprovação e reprovação, criar avaliações de capacidade e regressão e medir a confiabilidade do agente antes de publicar mudanças em prompts ou fluxos de trabalho.

Model Evaluation

Favoritos 0GitHub 156.1k

context-budget

por affaan-m

A skill context-budget audita o uso de contexto no Claude Code em agentes, skills, regras e servidores MCP. Ela ajuda a identificar excesso, conteúdo duplicado e componentes de alto custo, e depois retorna ações de limpeza priorizadas. Use este guia de context-budget para entender o uso prático da skill e aplicar Skill Testing em ambientes maiores.

Skill Testing

Favoritos 0GitHub 156.1k

skill-judge

por softaworks

skill-judge é uma skill de revisão e pontuação para auditar pacotes de skills de IA e arquivos SKILL.md. Ela ajuda autores e mantenedores a avaliar delta de conhecimento, clareza de ativação, qualidade do workflow e prontidão para publicação, com orientações práticas de melhoria.

Skill Validation

Favoritos 0GitHub 1.3k

playwright-testing

por alinaqi

skill playwright-testing para escrever e depurar testes end-to-end com Playwright, com page objects, execuções em múltiplos navegadores, configuração amigável para CI, tratamento de autenticação e estrutura de testes estável.

Skill Testing

Favoritos 0GitHub 607

darwin-skill

por alchaincyf

darwin-skill ajuda a melhorar arquivos SKILL.md com um ciclo repetível: avaliar, revisar, testar e então manter ou reverter as mudanças. Criado para Skill Authoring, ele combina pontuação por rubric com validação baseada em prompts e oferece suporte a saídas visuais geradas a partir de templates e assets do repositório.

Skill Authoring

Favoritos 0GitHub 549

tutor

por RoundTable02

tutor é uma skill de estudo guiada por quizzes para usuários do Obsidian StudyVault que querem avaliações diagnósticas, revisão por conceito e acompanhamento de progresso. Ela detecta o idioma, encontra o vault, lê o dashboard e trabalha os pontos fracos em sessões estruturadas. Use tutor quando você precisar de checagens de estudo repetíveis, em vez de um tutor genérico de chat.

Skill Authoring

Favoritos 0GitHub 0

skill-authoring-workflow

por deanpeters

O skill-authoring-workflow ajuda você a transformar anotações brutas, resultados de workshop ou prompts em rascunho em um `skills/<skill-name>/SKILL.md` compatível e pronto para o repositório. Use este skill-authoring-workflow para criar ou atualizar skills de PM com menos suposições, seguir os padrões do repo e validar tudo antes do commit.

Skill Authoring

Favoritos 0GitHub 0