llm-evaluation

por wshobson

Use a skill llm-evaluation para criar planos de avaliação repetíveis para apps com LLM, prompts, sistemas RAG e mudanças de modelo, com métricas, revisão humana, benchmarking e verificações de regressão.

Estrelas32.6k

Favoritos0

Comentários0

Adicionado30 de mar. de 2026

CategoriaModel Evaluation

Comando de instalação

npx skills add wshobson/agents --skill llm-evaluation

Pontuação editorial

Esta skill recebeu 68/100, o que significa que é adequada para entrar no diretório para usuários que buscam orientação estruturada sobre como avaliar apps com LLM, mas devem esperar um framework mais centrado em documentação do que uma skill operacional, com ativos executáveis ou etapas explícitas de execução.

68/100

Pontos fortes

Boa acionabilidade: a skill deixa claro quando deve ser usada, incluindo testes de regressão, comparação de modelos/prompts e validação em produção.
Conteúdo de workflow consistente: o documento cobre vários modos de avaliação, como métricas automatizadas, avaliação humana, benchmarking e testes A/B, em vez de ficar em um nível apenas introdutório.
Boa utilidade conceitual: oferece aos agentes uma taxonomia de avaliação reutilizável para tarefas de geração de texto, classificação e RAG, mais estruturada do que um prompt genérico.

Pontos de atenção

A clareza operacional é limitada pela ausência de orientações de instalação/execução, scripts e arquivos de suporte mencionados, então os agentes ainda precisam inferir detalhes de implementação.
As evidências mostram poucas restrições explícitas ou regras de decisão, o que pode tornar a escolha de métricas e a execução inconsistentes em projetos reais.

Llm Testing Ai Metrics Reliability Workflow

Visão geral

Visão geral da skill llm-evaluation

A skill llm-evaluation é um framework prático para desenhar avaliações de apps com LLM, prompts e mudanças de modelo. Ela é mais indicada para builders que precisam de algo além de “isso parece melhor” e querem uma forma repetível de medir qualidade, comparar variantes e detectar regressões antes do release.

Para quem é esta skill llm-evaluation

A skill llm-evaluation funciona bem para equipes e builders independentes que trabalham com:

iteração de prompts
comparação de modelos
checagens de qualidade de RAG
tarefas de classificação ou extração
QA de produção para recursos com LLM
criação de benchmarks para releases contínuos

Se você está tentando responder “Essa mudança realmente melhorou o sistema?”, esta skill é uma ótima escolha.

Que trabalho a skill ajuda você a realizar

O trabalho real aqui é transformar preocupações vagas sobre qualidade em um plano de avaliação utilizável. Em vez de pedir conselhos genéricos de teste, você usa llm-evaluation para escolher o tipo certo de avaliação, definir métricas, incluir revisão humana onde a automação é fraca e estruturar comparações ao longo do tempo.

O que torna llm-evaluation diferente de um prompt genérico

Um prompt genérico pode sugerir “use BLEU, F1 e revisão humana”. Esta llm-evaluation skill é mais útil quando você precisa mapear métodos de avaliação para o formato real da sua aplicação:

tarefas de geração de texto exigem métricas diferentes de classificação
sistemas RAG precisam de métricas de recuperação, não só de julgamentos sobre a saída
algumas qualidades, como utilidade ou tom, precisam de avaliação humana
testes A/B e checagens de regressão precisam de baselines, não de pontuações isoladas

Isso faz dela uma opção mais orientada à decisão do que um pedido casual de “como eu avalio meu LLM?”.

O que mais importa antes de instalar

Antes de usar llm-evaluation, tenha clareza sobre três pontos:

qual tarefa você está avaliando
o que significa “bom” para essa tarefa
se você precisa de métricas automatizadas, revisão humana ou ambos

Se isso ainda não estiver bem definido, a skill ainda pode ajudar, mas a saída continuará em um nível mais geral.

Principais tradeoffs e limitações

Esta skill entrega estratégia de avaliação, não um runner de avaliação pronto. Ela ajuda você a desenhar o framework e selecionar métodos, mas você ainda precisa do seu próprio dataset, ferramental e setup de execução. Se você quer um framework totalmente automatizado com pipelines embutidos, trate isso como orientação de planejamento, não como infraestrutura pronta para usar.

Como usar a skill llm-evaluation

Como instalar a skill llm-evaluation

Use o fluxo padrão de instalação de skills:

npx skills add https://github.com/wshobson/agents --skill llm-evaluation

Depois de instalar, invoque a skill quando quiser ajuda para desenhar ou melhorar um plano de avaliação para uma aplicação com LLM.

O que ler primeiro no repositório

Esta skill é incomumente autocontida. Comece por:

plugins/llm-application-dev/skills/llm-evaluation/SKILL.md

Como não há scripts auxiliares ou arquivos de recursos evidentes, a maior parte do valor está no próprio framework escrito. Leia primeiro as seções “When to Use This Skill” e “Core Evaluation Types”.

Quais inputs a skill precisa para ser útil

A qualidade do llm-evaluation usage depende muito dos inputs que você fornece. Inclua:

o tipo de aplicação: sumarização, chatbot, RAG, extração, classificação etc.
a mudança que está sendo avaliada: novo prompt, troca de modelo, atualização de retrieval, mudança de política
exemplos de entrada e saídas esperadas
modos de falha atuais
restrições de deploy: velocidade, custo, segurança, capacidade de revisão
se você precisa de benchmarking offline, revisão humana ou testes online

Sem esse contexto, a skill corretamente permanecerá genérica.

Como transformar um objetivo vago em um prompt forte

Objetivo fraco:

“Me ajude a avaliar meu app com LLM.”

Objetivo mais forte:

“Use a skill llm-evaluation para desenhar um plano de avaliação para um assistente RAG de suporte ao cliente. Estamos comparando dois prompts e uma mudança no retriever. Precisamos de métricas offline para qualidade de retrieval, dimensões de revisão humana para qualidade da resposta e um checklist de regressão que possamos rodar antes do deploy.”

Essa versão mais forte informa à skill que sistema está mudando, que tipo de avaliação é necessário e que decisão a avaliação precisa sustentar.

Template de prompt para uso de llm-evaluation

Use uma solicitação como esta:

tipo de tarefa
arquitetura do sistema
variantes que estão sendo comparadas
tamanho e origem do dataset de avaliação
riscos principais
métricas preferidas
tradeoffs aceitáveis

Exemplo de estrutura:

“Use llm-evaluation para Model Evaluation de um assistente RAG. Recomende métricas automatizadas, critérios de avaliação humana e uma abordagem de teste A/B. Nosso foco principal é precisão factual, utilidade das citações e detecção de regressão. Sugira uma primeira versão mínima e uma versão expandida.”

Como escolher o tipo certo de avaliação

A skill cobre vários modos de avaliação. Na prática:

use métricas automatizadas para repetibilidade e escala
use avaliação humana para qualidades subjetivas ou mais nuançadas
use benchmarking para comparar versões ao longo do tempo
use testes A/B quando o comportamento de usuários reais importa

Um erro comum é exagerar no uso de um método só. Por exemplo, depender apenas de BLEU em tarefas generativas ou só de revisão humana em checagens grandes de regressão.

Seleção de métricas por tarefa

Use a tarefa para orientar a escolha das métricas:

geração de texto: BLEU, ROUGE, METEOR, BERTScore, perplexity
classificação: accuracy, precision, recall, F1, confusion matrix, AUC-ROC
retrieval / RAG: MRR, NDCG, Precision@K, Recall@K

O ponto prático mais importante: não force métricas de geração de texto em problemas de retrieval, nem o contrário. O llm-evaluation guide é mais útil quando você alinha as métricas à camada real do sistema que está sendo testada.

Quando incluir avaliação humana

Adicione revisão humana quando seus critérios de sucesso incluírem coisas como:

precisão factual em respostas abertas
utilidade
coerência
tom
aderência a instruções
segurança ou conformidade com políticas

A revisão humana é especialmente importante quando as pontuações automatizadas parecem boas, mas as respostas reais ainda são ruins.

Um fluxo prático que reduz achismo

Um bom fluxo inicial para quem fez llm-evaluation install:

defina uma tarefa e um resultado de usuário
monte um conjunto de teste pequeno, mas representativo
escolha de 2 a 4 métricas automatizadas adequadas à tarefa
defina de 3 a 5 dimensões de revisão humana
pontue um sistema baseline
compare uma mudança por vez
registre falhas, não apenas médias

Isso mantém a avaliação leve o suficiente para ser adotada, sem perder rigor.

Em que a skill ajuda melhor

Esta llm-evaluation skill é mais forte quando você precisa de ajuda para:

selecionar métodos de avaliação
estruturar um benchmark
combinar avaliação humana e automatizada
planejar comparações entre prompts ou modelos
ganhar confiança antes do deploy

Ela é menos útil se você só precisa de um prompt de uma linha para “julgar saídas” ou se já tem um harness de avaliação maduro e só precisa de código de implementação.

Erro comum de uso: avaliar sem baseline

Muitas equipes perguntam se a versão B é “boa”. A pergunta mais útil é se a versão B é melhor do que a versão A nos casos que realmente importam. No seu prompt, peça para a skill definir:

métricas de baseline
regras de comparação
limites de aprovação/reprovação
critérios de regressão

Isso torna llm-evaluation for Model Evaluation muito mais acionável.

FAQ da skill llm-evaluation

llm-evaluation é boa para iniciantes?

Sim, se você já souber o tipo da sua aplicação e o que está tentando melhorar. A skill explica com clareza as principais categorias de avaliação. Ela é menos amigável para iniciantes se você ainda não definiu tarefa, dataset ou critérios de sucesso.

Eu preciso ter primeiro um dataset formal de benchmark?

Não, mas você precisa de exemplos. Mesmo um conjunto de teste pequeno e curado é melhor do que avaliar com prompts ad hoc toda vez. A skill é mais útil quando você já consegue mostrar casos representativos e o comportamento esperado.

Esta skill serve apenas para avaliação em estilo acadêmico?

Não. O conteúdo do repositório é prático: comparação de modelos, validação de prompts, detecção de regressão, confiança para produção e testes A/B. Ela se aplica a times de produto, não só a fluxos de pesquisa.

Quando eu não deveria usar llm-evaluation?

Evite llm-evaluation se sua necessidade for puramente de implementação, como integrar um SDK específico de avaliação ou rodar um comando de um framework específico. Esta skill trata de estratégia e desenho, não de uma integração de código pronta de ponta a ponta.

Como llm-evaluation se diferencia de pedir para um LLM se autoavaliar?

Autoavaliação pode fazer parte de um fluxo, mas não é uma estratégia completa de avaliação. llm-evaluation ajuda você a combinar métricas adequadas ao caso, julgamento humano, baselines e comparações para não depender de um único sinal ruidoso.

Posso usar llm-evaluation para sistemas RAG?

Sim. Na verdade, é uma ótima escolha porque a skill cobre explicitamente métricas de retrieval como MRR, NDCG, Precision@K e Recall@K. Isso importa porque muitas avaliações fracas pontuam apenas o texto da resposta e ignoram a qualidade da recuperação.

Como melhorar a skill llm-evaluation

Dê detalhes no nível da tarefa, não apenas uma descrição geral do app

Input melhor:

“Chatbot de suporte que responde dúvidas de cobrança com base em uma base de conhecimento”

Input pior:

“Assistente de IA”

Quanto mais específico for o enquadramento da tarefa, melhor a skill consegue recomendar as métricas e dimensões de revisão certas.

Separe os componentes do sistema no seu prompt

Para um llm-evaluation usage mais forte, peça que a skill avalie as camadas separadamente:

qualidade de retrieval
qualidade de geração
acurácia de classificação
comportamento de segurança

Isso evita misturar várias fontes de falha em uma pontuação vaga só.

Forneça exemplos reais de falha

Inclua de 5 a 10 saídas ruins e explique por que falharam. Por exemplo:

política de produto alucinada
documento recuperado relevante que foi ignorado
resposta correta com tom inadequado
recusa quando a consulta na verdade era segura

Isso ajuda a skill a recomendar dimensões de avaliação alinhadas aos seus riscos reais.

Peça primeiro uma avaliação mínima viável

Não comece com um framework enorme. Peça:

o menor benchmark útil
o menor conjunto de métricas que vale acompanhar
a rubrica mínima de revisão humana
um processo simples de regressão

Isso facilita muito a adoção e evita planos de avaliação que parecem impressionantes, mas nunca são executados.

Use scorecards com critérios explícitos

Se você pedir avaliação humana, peça que a skill defina:

dimensões de avaliação
escalas de pontuação
exemplos de aprovação/reprovação
regras de desempate para casos ambíguos

Isso reduz inconsistência entre revisores e torna avaliações recorrentes mais confiáveis.

Compare uma mudança por vez

Um modo de falha comum é mudar prompt, modelo, retriever e pós-processamento ao mesmo tempo. Aí a avaliação não consegue explicar o que causou o resultado. Peça ao llm-evaluation para estruturar experimentos de forma que cada teste isole uma variável, sempre que possível.

Acompanhe regressões, não só melhoria média

Médias podem esconder perdas importantes. Peça que a skill identifique:

categorias de pior caso
slices de alto risco
cenários críticos para o usuário
prompts sensíveis em termos de segurança

Esse é um dos maiores avanços práticos em relação a planos de avaliação superficiais.

Itere depois da primeira rodada de avaliação

Depois da primeira rodada, traga os resultados de volta e peça que a skill refine:

quais métricas estavam ruidosas
quais dimensões humanas se sobrepunham
onde o dataset estava estreito demais
quais clusters de falha merecem novos casos de teste

É nessa segunda iteração que llm-evaluation muitas vezes passa a gerar valor de verdade, em vez de apenas informação útil.

Melhore os outputs de llm-evaluation com pedidos orientados à decisão

Em vez de pedir uma visão geral ampla, peça um artefato de decisão:

“Crie um plano de avaliação para gate de release”
“Desenhe um benchmark de comparação de prompts”
“Monte uma rubrica de revisão humana para risco de alucinação”
“Recomende métricas para checagens de regressão de retrieval em RAG”

Prompts orientados à decisão produzem saídas que você consegue usar imediatamente.

Entenda o limite da skill

llm-evaluation melhora a qualidade do planejamento, mas não substitui dados representativos, rotulagem cuidadosa nem revisão disciplinada. Se seus exemplos forem fracos ou seus critérios de sucesso forem contraditórios, a saída também será fraca. A forma mais rápida de aumentar a utilidade da skill é melhorar a especificidade e o realismo do seu briefing de avaliação.

Avaliações e comentários

Ainda não há avaliações

Compartilhe sua avaliação

Faça login para deixar uma nota e um comentário sobre esta skill.

0/10000

Avaliações mais recentes

Salvando...

Mais skills nesta categoria

evaluation-methodology

por wshobson

A skill evaluation-methodology explica a pontuação PluginEval para Model Evaluation, incluindo camadas, rubricas, pontuação composta, limites de badges e orientações práticas para interpretar resultados e melhorar dimensões fracas.

Model Evaluation

Favoritos 0GitHub 32.6k

healthcare-eval-harness

por affaan-m

healthcare-eval-harness é um harness de avaliação de segurança do paciente para implantações de apps de saúde. Ele ajuda equipes a verificar a precisão de CDSS, exposição de PHI, integridade dos dados, comportamento do fluxo clínico e conformidade de integração antes do release. Falhas críticas bloqueiam a implantação, tornando o healthcare-eval-harness útil para Avaliação de Modelo e gates de segurança em CI.

Model Evaluation

Favoritos 0GitHub 156.2k

eval-harness

por affaan-m

A skill eval-harness é um framework formal de avaliação para sessões do Claude Code e desenvolvimento orientado por avaliação. Ela ajuda você a definir critérios de aprovação e reprovação, criar avaliações de capacidade e regressão e medir a confiabilidade do agente antes de publicar mudanças em prompts ou fluxos de trabalho.

Model Evaluation

Favoritos 0GitHub 156.1k

agent-eval

por affaan-m

agent-eval é uma skill para fazer benchmarking de agentes de código, comparando-os diretamente em tarefas reproduzíveis e analisando taxa de acerto, custo, tempo e consistência. Use a skill agent-eval para avaliar Claude Code, Aider, Codex ou outro agente no seu próprio repositório, com evidências mais claras do que prompts improvisados.

Model Evaluation

Favoritos 0GitHub 156k

huggingface-community-evals

por huggingface

O huggingface-community-evals ajuda você a executar localmente avaliações de modelos do Hugging Face Hub com inspect-ai ou lighteval. Use-o para escolher o backend, fazer smoke tests e consultar um guia prático de vLLM, Transformers ou accelerate. Não é para orquestração de HF Jobs, PRs de model card, publicação de .eval_results ou automação de community-evals.

Model Evaluation

Favoritos 0GitHub 10.4k

huggingface-best

por huggingface

A skill huggingface-best ajuda você a encontrar o melhor modelo para uma tarefa, consultando rankings de benchmark do Hugging Face e filtrando por limites de dispositivo e tamanho do modelo. Use quando precisar de recomendações de modelos para coding, reasoning, chat, OCR, RAG, speech, vision ou trabalho multimodal, e quiser uma shortlist prática em vez de uma lista genérica de modelos.

Model Evaluation

Favoritos 0GitHub 10.4k

libafl

por trailofbits

A skill libafl ajuda você a planejar e criar fuzzers modulares com o LibAFL para alvos personalizados, estratégias de mutação e fluxos de trabalho de auditoria de segurança. Use este guia de libafl para sair dos detalhes do alvo e chegar a um harness prático, a um modelo de feedback e a um plano de execução com menos suposições.

Security Audit

Favoritos 0GitHub 5k

evaluation

por muratcankoylan

A skill de evaluation ajuda você a projetar e executar avaliações de agentes para sistemas não determinísticos. Use-a para planejar a instalação da avaliação, criar rubricas, fazer checagens de regressão, definir gates de qualidade e conduzir evaluation para Skill Testing. Ela se encaixa em fluxos LLM-as-judge, pontuação multidimensional e usos práticos de avaliação quando você precisa de resultados repetíveis.

Skill Testing

Favoritos 0GitHub 0

judge-with-debate

por NeoLabHQ

O judge-with-debate avalia soluções por meio de debate estruturado entre múltiplos agentes, usando uma especificação compartilhada, contra-argumentos baseados em evidências e até 3 rodadas para chegar a um consenso. É uma boa opção para revisão de código, avaliação com base em rubricas e fluxos de judge-with-debate em sistemas multiagente.

Multi-Agent Systems

Favoritos 0GitHub 982

gws-modelarmor

por googleworkspace

A gws-modelarmor ajuda você a trabalhar com o Google Model Armor no ecossistema googleworkspace/cli. Use-a para sanitizar prompts, sanitizar respostas de modelos e criar templates com menos tentativa e erro do que em um prompt genérico. Ela foi pensada para uso repetível, orientado a políticas, e para fluxos de trabalho de Auditoria de Segurança.

Security Audit

Favoritos 0GitHub 25.5k

analyzing-campaign-attribution-evidence

por mukul975

analyzing-campaign-attribution-evidence ajuda analistas a ponderar sobreposição de infraestrutura, consistência com ATT&CK, similaridade de malware, timing e traços de linguagem para uma atribuição de campanha defensável. Use este guia do analyzing-campaign-attribution-evidence em CTI, análise de incidentes e revisões de Security Audit.

Security Audit

Favoritos 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

por mukul975

detecting-ai-model-prompt-injection-attacks é uma skill de cibersegurança para filtrar texto não confiável antes que ele chegue a um LLM. Ela usa regex em camadas, pontuação heurística e classificação baseada em DeBERTa para sinalizar ataques diretos e indiretos de prompt injection. É útil para validação de entrada em chatbots, ingestão de documentos e Threat Modeling.

Threat Modeling

Favoritos 0GitHub 0

ai-prompt-engineering-safety-review

por github

ai-prompt-engineering-safety-review é uma skill de auditoria de prompts para revisar prompts de LLM quanto a segurança, vieses, vulnerabilidades de segurança e qualidade de saída antes do uso em produção, avaliação ou contato com clientes.

Model Evaluation

Favoritos 0GitHub 27.8k

agentic-eval

por github

agentic-eval é uma skill do GitHub Copilot que mostra como criar loops de avaliação para saídas de IA usando reflexão, crítica com base em rubricas e padrões evaluator-optimizer.

Model Evaluation

Favoritos 0GitHub 27.8k

ml-pipeline-workflow

por wshobson

ml-pipeline-workflow é um guia prático para projetar pipelines de MLOps de ponta a ponta, cobrindo preparação de dados, treinamento, validação, implantação e monitoramento, com padrões de orquestração para automatizar fluxos de trabalho repetíveis.

Workflow Automation

Favoritos 0GitHub 0

frontend-design

por anthropics

frontend-design transforma ideias vagas de UI em interfaces marcantes e prontas para produção, com código frontend real, direção estética clara e menos visual genérico de IA.

UI Design

Favoritos 1GitHub 105.2k