evaluation-methodology

por wshobson

A skill evaluation-methodology explica a pontuação PluginEval para Model Evaluation, incluindo camadas, rubricas, pontuação composta, limites de badges e orientações práticas para interpretar resultados e melhorar dimensões fracas.

Estrelas32.6k

Favoritos0

Comentários0

Adicionado30 de mar. de 2026

CategoriaModel Evaluation

Comando de instalação

npx skills add wshobson/agents --skill evaluation-methodology

Pontuação editorial

Esta skill tem pontuação 83/100, o que a torna uma opção sólida no diretório para quem precisa de uma referência detalhada sobre como o PluginEval avalia skills e plugins. As evidências do repositório mostram um conteúdo metodológico substancial, sem texto genérico ou de preenchimento, com dimensões, fórmulas, limites, anti-patterns e orientações de melhoria explícitos, permitindo que um agente a use como apoio confiável para interpretação e calibração. Ela funciona menos como um fluxo prático executável e mais como uma referência operacional, portanto vale instalar quando a necessidade for entender a lógica de avaliação com consistência, e não obter automação passo a passo.

83/100

Pontos fortes

Boa ativação a partir de uma descrição específica que cobre interpretação de pontuação, calibração de limites e casos de uso voltados a melhoria
Alto valor operacional: o SKILL.md é extenso e cobre de forma explícita camadas de avaliação, dimensões, pesos de combinação, fórmulas, badges, sinalizadores de anti-patterns e ranking Elo
Estrutura de referência confiável, com um arquivo de rubricas com autoridade em references/rubrics.md para ancorar os padrões de pontuação

Pontos de atenção

É principalmente orientada por documentação; não há scripts nem comandos de instalação que transformem a metodologia em um fluxo diretamente executável
Alguns detalhes de implementação mencionados apontam para arquivos de análise como `layers/static.py`, mas a evidência apresentada aqui é majoritariamente de metodologia conceitual, e não de ferramentas de avaliação prontas para execução

Plugin Eval Testing Checklist Docs Workflow Metrics Ai Agents Llm

Visão geral

Visão geral da skill evaluation-methodology

O que a skill evaluation-methodology faz

A skill evaluation-methodology explica o sistema de pontuação por trás do PluginEval para Model Evaluation. Não é um prompt genérico de “como avaliar modelos”. É uma referência metodológica específica que cobre as três camadas de avaliação, as dimensões de pontuação, a lógica de combinação, a pontuação composta, os limiares de badges, os sinais de anti-patterns e os conceitos de ranking usados para avaliar a qualidade de plugins ou skills.

Para quem vale instalar a evaluation-methodology

Esta skill é mais indicada para quem precisa interpretar ou melhorar um resultado de avaliação, e não apenas gerar uma nota. Bons casos de uso incluem:

autores de skills ou plugins diagnosticando uma pontuação fraca
operadores de marketplace ou plataforma calibrando critérios de qualidade
reviewers que precisam de uma linguagem consistente para discutir contestação de pontuação
equipes que precisam explicar badges ou rankings para parceiros e stakeholders

Se a sua necessidade real é “por que essa pontuação aconteceu, e o que deve mudar primeiro?”, esta é uma ótima escolha.

Qual problema real ela resolve

Antes de adotar, os usuários normalmente querem entender quatro pontos:

quais dimensões mais importam
como as checagens estáticas diferem da pontuação baseada em judge
como Monte Carlo ou as camadas combinadas afetam o número final
quais mudanças aumentam a pontuação mais rápido

A skill evaluation-methodology é valiosa porque entrega essas respostas de forma estruturada, em vez de obrigar você a deduzi-las a partir de notas de rubrica espalhadas.

O que diferencia isso de um prompt comum de avaliação

Um prompt comum pode pedir a um LLM para “avaliar esta skill”, mas normalmente ele não traz:

separação explícita entre camadas
referências de rubrica ancoradas
lógica de peso por dimensão
interpretação de thresholds e badges
linguagem metodológica adequada para calibração ou resolução de divergências

Esta skill funciona melhor quando você precisa de raciocínio de avaliação consistente, especialmente em torno de Triggering Accuracy, qualidade de orquestração e interpretação de score.

O que ler antes de decidir

Leia primeiro o SKILL.md para ver a metodologia completa e, em seguida, o references/rubrics.md para entender os padrões ancorados usados pela camada de judge. Esses dois arquivos já bastam para decidir se a skill evaluation-methodology se encaixa no seu fluxo de Model Evaluation.

Como usar a skill evaluation-methodology

Contexto de instalação da evaluation-methodology

Instale a partir do repositório com:

npx skills add https://github.com/wshobson/agents --skill evaluation-methodology

Depois, invoque a skill no seu ambiente de AI coding da mesma forma que faria com qualquer skill instalada: passando uma tarefa que peça claramente interpretação de scoring do PluginEval, explicação da metodologia, orientação de calibração ou sugestões para melhorar a pontuação.

Quais entradas a skill precisa

A skill evaluation-methodology funciona melhor quando você fornece um contexto concreto de avaliação, como:

o SKILL.md ou o conteúdo do plugin que está sendo avaliado
a dimensão ou a pontuação que parece suspeita
se o foco é análise estática, saída do LLM judge ou scoring blended completo
seu objetivo: explicar, calibrar, melhorar ou defender uma pontuação
qualquer threshold de marketplace, cutoff de badge ou barra de aceitação que você use

Sem esse contexto, a resposta tende a ficar em um nível mais alto, porque a própria metodologia é ampla.

Como transformar um objetivo vago em um bom prompt

Prompt fraco:

Explain this evaluation score.

Prompt melhor:

Use the evaluation-methodology skill to interpret this PluginEval result. Focus on Triggering Accuracy and Orchestration Fitness, explain how the three evaluation layers likely contributed, identify which issues are static-document problems versus judge-layer reasoning problems, and suggest the smallest changes that would most improve the composite score.

Por que isso funciona:

nomeia a metodologia explicitamente
delimita as dimensões
pede uma análise consciente das camadas
solicita recomendações priorizadas de melhoria, e não apenas um resumo

Melhor padrão de prompt para uso da evaluation-methodology

Um prompt de evaluation-methodology usage de alta qualidade geralmente inclui:

o artefato que está sendo avaliado
a pontuação ou dimensão em questão
a decisão que você precisa tomar
o formato de saída desejado

Exemplo:

Apply the evaluation-methodology skill to this skill draft. Estimate which dimensions are most at risk, cite the likely rubric anchors behind that judgment, and recommend edits that improve triggering precision without making the description too narrow.

Fluxo prático para reduzir achismo

Use esta sequência:

leia o SKILL.md para entender o sistema de scoring como um todo
abra o references/rubrics.md para interpretar os anchors
identifique a dimensão sobre a qual você realmente precisa agir
peça um diagnóstico específico por camada
revise a skill ou o plugin
confira de novo se a mudança melhorou a dimensão certa, em vez de apenas deixar o documento mais longo

Isso importa porque muitos problemas de score são mal diagnosticados. Por exemplo, um problema de triggering muitas vezes vem de uma linguagem vaga na descrição do frontmatter, enquanto um problema de orquestração pode vir de contratos de entrada/saída pouco claros.

Arquivos do repositório para ler primeiro

Para este evaluation-methodology guide, priorize:

plugins/plugin-eval/skills/evaluation-methodology/SKILL.md
plugins/plugin-eval/skills/evaluation-methodology/references/rubrics.md

Leia o SKILL.md para entender o framework e use o references/rubrics.md quando precisar de uma interpretação de score mais fundamentada ou quiser comparar um rascunho com pontos de ancoragem.

O que as três camadas significam na prática

A metodologia organiza a avaliação em três camadas:

análise estática para verificações determinísticas do documento
pontuação do LLM judge para avaliação qualitativa baseada em rubrica
simulação Monte Carlo para comportamento de distribuição de prompts, especialmente em triggering

Essa separação é útil no dia a dia. Se você quer uma checagem rápida antes de publicar, a análise estática é o primeiro passo. Se precisa de uma explicação defensável para uma nota baixa, as rubricas do judge são mais importantes. Se o que importa é saber se a skill dispara nos prompts certos sob variações realistas, o enquadramento de Monte Carlo é o mais relevante para a decisão.

Quando usar evaluation-methodology para Model Evaluation

Use evaluation-methodology for Model Evaluation quando o foco não for apenas a qualidade da saída do modelo, mas também a qualidade da skill ou do plugin que envolve esse comportamento. Essa metodologia é especialmente relevante quando a pergunta principal é se uma skill é encontrável, acionada no momento certo, bem estruturada e operacionalmente confiável dentro de um ecossistema de agentes.

Ela é menos adequada se você só precisa desenhar benchmarks para desempenho bruto do modelo em tarefas não relacionadas à orquestração de plugins ou skills.

Bloqueios mais comuns na adoção

Muita gente hesita porque não sabe se esta skill é prática ou apenas descritiva. Na prática, ela é acionável quando você precisa:

rastrear uma pontuação até uma dimensão
entender o que cada dimensão recompensa
escolher edições que impactem o composite score
calibrar thresholds para publicação ou concessão de badge

Ela é menos acionável se você espera um script pronto de avaliação. Pelas evidências do repositório, o foco aqui é metodologia em primeiro lugar, com base mais forte no framework escrito e nas rubricas.

FAQ da skill evaluation-methodology

A evaluation-methodology é um scorer ou uma referência metodológica?

Principalmente uma referência metodológica. Ela explica como o PluginEval mede qualidade e como interpretar os resultados. Por isso, é especialmente útil para auditorias, calibração e planejamento de melhorias.

A skill evaluation-methodology é amigável para iniciantes?

Sim, desde que a pessoa iniciante já entenda o que é uma skill ou um plugin. A escrita é estruturada, mas os conceitos ficam bem mais claros quando você traz um exemplo real e pergunta sobre uma dimensão de cada vez, em vez de tentar absorver o framework inteiro de uma só vez.

Em que isso difere de pedir a um LLM para revisar minha skill?

Um prompt simples de review pode gerar boas sugestões, mas normalmente não vai se alinhar ao modelo de scoring em camadas do PluginEval nem aos anchors de rubrica. A evaluation-methodology skill oferece uma linguagem compartilhada de pontuação, o que é muito mais útil quando vários reviewers precisam manter consistência.

Quando eu não devo usar evaluation-methodology?

Evite usar quando:

você só precisa de uma crítica genérica de redação
está avaliando acurácia bruta do modelo em tarefas, e não qualidade de skill/plugin
você quer automação executável mais do que orientação metodológica
seu ecossistema não usa dimensões ou lógica de badges parecidas com as do PluginEval

Isso ajuda com pontuações baixas de Triggering Accuracy?

Sim. A referência de rubrica trata explicitamente triggering como um comportamento de precisão mais recall em um conjunto representativo de prompts. Isso torna a skill especialmente útil quando a descrição é vaga demais para acionar de forma confiável ou ampla demais e dispara em prompts irrelevantes.

Posso usar isso fora do PluginEval?

Sim, mas principalmente como um modelo de referência estruturado. As dimensões, a separação por camadas e a forma de pensar via rubricas são bem transferíveis. Os pesos exatos, thresholds e badges são mais úteis quando seu processo é próximo ao PluginEval.

Como melhorar o uso da skill evaluation-methodology

Comece pela dimensão que afeta a decisão

Ao usar a skill evaluation-methodology, não peça “qualidade geral” logo de início. Pergunte qual dimensão única tem mais chance de estar bloqueando sua decisão. Na prática, isso costuma revelar mais rápido onde está a maior alavanca, especialmente em Triggering Accuracy ou Orchestration Fitness.

Forneça entradas melhores para uma análise melhor

Entradas melhores:

score atual ou dimensão suspeita de estar fraca
o description exato do frontmatter
a seção relevante do SKILL.md
exemplos de prompts que deveriam e não deveriam acionar a skill
seu threshold de aceitação

Isso permite que a skill raciocine de forma mais alinhada ao que a metodologia pretende, especialmente em diagnósticos por dimensão.

Use exemplos positivos e negativos de triggering

Uma das melhorias de maior valor é fornecer ambos:

prompts em que a skill deve ativar
prompts em que ela deve permanecer silenciosa

Isso melhora diretamente a análise da qualidade de roteamento. Também espelha a preocupação da metodologia com precisão e recall, em vez de perguntar apenas “isso parece relevante?”.

Separe correções estáticas de correções da camada de judge

Nem toda melhoria tem o mesmo efeito. Use a skill para classificar os problemas em:

correções estruturais: frontmatter, contratos ausentes, progressive disclosure ruim
correções de rubrica: explicações fracas, orientação vaga, baixa acionabilidade
correções de adequação comportamental: provável desalinhamento de triggering sob variações realistas de prompt

Isso evita editar demais a parte errada da skill.

Evite o modo de falha mais comum

O erro mais comum é tornar a skill mais ampla na tentativa de melhorar a discoverability. Isso pode aumentar a cobertura aparente, mas prejudicar a precisão de triggering. Peça à evaluation-methodology skill para verificar se uma descrição revisada ficou genérica demais.

Faça iteração com anchors de rubrica, não só com intuição

Depois da primeira resposta, pergunte:

Which anchor in references/rubrics.md best matches this draft now, and what exact evidence keeps it from the next anchor?

Essa pergunta gera orientações de revisão mais úteis do que “como posso melhorar?” porque vincula as mudanças a um movimento específico de pontuação.

Peça recomendações de menor mudança possível

Para iterar mais rápido, peça edições mínimas:

Using the evaluation-methodology skill, recommend the three smallest wording or structure changes most likely to improve the composite score without changing scope.

Isso costuma ser melhor do que uma reescrita completa, porque preserva a intenção enquanto foca nas dimensões avaliadas.

Verifique de novo se as melhorias mudaram a métrica certa

Um documento mais limpo ainda pode falhar dentro da metodologia. Depois de revisar, peça para a skill comparar:

efeito esperado em Triggering Accuracy
efeito esperado em Orchestration Fitness
efeito provável no composite score
possíveis novos tradeoffs introduzidos pelas edições

É nessa checagem final que o evaluation-methodology guide se torna mais útil: não apenas explicando o framework, mas ajudando você a melhorar dentro dele.

Avaliações e comentários

Ainda não há avaliações

Compartilhe sua avaliação

Faça login para deixar uma nota e um comentário sobre esta skill.

0/10000

Avaliações mais recentes

Salvando...

Mais skills nesta categoria

healthcare-eval-harness

por affaan-m

healthcare-eval-harness é um harness de avaliação de segurança do paciente para implantações de apps de saúde. Ele ajuda equipes a verificar a precisão de CDSS, exposição de PHI, integridade dos dados, comportamento do fluxo clínico e conformidade de integração antes do release. Falhas críticas bloqueiam a implantação, tornando o healthcare-eval-harness útil para Avaliação de Modelo e gates de segurança em CI.

Model Evaluation

Favoritos 0GitHub 156.2k

eval-harness

por affaan-m

A skill eval-harness é um framework formal de avaliação para sessões do Claude Code e desenvolvimento orientado por avaliação. Ela ajuda você a definir critérios de aprovação e reprovação, criar avaliações de capacidade e regressão e medir a confiabilidade do agente antes de publicar mudanças em prompts ou fluxos de trabalho.

Model Evaluation

Favoritos 0GitHub 156.1k

agent-eval

por affaan-m

agent-eval é uma skill para fazer benchmarking de agentes de código, comparando-os diretamente em tarefas reproduzíveis e analisando taxa de acerto, custo, tempo e consistência. Use a skill agent-eval para avaliar Claude Code, Aider, Codex ou outro agente no seu próprio repositório, com evidências mais claras do que prompts improvisados.

Model Evaluation

Favoritos 0GitHub 156k

huggingface-community-evals

por huggingface

O huggingface-community-evals ajuda você a executar localmente avaliações de modelos do Hugging Face Hub com inspect-ai ou lighteval. Use-o para escolher o backend, fazer smoke tests e consultar um guia prático de vLLM, Transformers ou accelerate. Não é para orquestração de HF Jobs, PRs de model card, publicação de .eval_results ou automação de community-evals.

Model Evaluation

Favoritos 0GitHub 10.4k

huggingface-best

por huggingface

A skill huggingface-best ajuda você a encontrar o melhor modelo para uma tarefa, consultando rankings de benchmark do Hugging Face e filtrando por limites de dispositivo e tamanho do modelo. Use quando precisar de recomendações de modelos para coding, reasoning, chat, OCR, RAG, speech, vision ou trabalho multimodal, e quiser uma shortlist prática em vez de uma lista genérica de modelos.

Model Evaluation

Favoritos 0GitHub 10.4k

libafl

por trailofbits

A skill libafl ajuda você a planejar e criar fuzzers modulares com o LibAFL para alvos personalizados, estratégias de mutação e fluxos de trabalho de auditoria de segurança. Use este guia de libafl para sair dos detalhes do alvo e chegar a um harness prático, a um modelo de feedback e a um plano de execução com menos suposições.

Security Audit

Favoritos 0GitHub 5k

evaluation

por muratcankoylan

A skill de evaluation ajuda você a projetar e executar avaliações de agentes para sistemas não determinísticos. Use-a para planejar a instalação da avaliação, criar rubricas, fazer checagens de regressão, definir gates de qualidade e conduzir evaluation para Skill Testing. Ela se encaixa em fluxos LLM-as-judge, pontuação multidimensional e usos práticos de avaliação quando você precisa de resultados repetíveis.

Skill Testing

Favoritos 0GitHub 0

judge-with-debate

por NeoLabHQ

O judge-with-debate avalia soluções por meio de debate estruturado entre múltiplos agentes, usando uma especificação compartilhada, contra-argumentos baseados em evidências e até 3 rodadas para chegar a um consenso. É uma boa opção para revisão de código, avaliação com base em rubricas e fluxos de judge-with-debate em sistemas multiagente.

Multi-Agent Systems

Favoritos 0GitHub 982

gws-modelarmor

por googleworkspace

A gws-modelarmor ajuda você a trabalhar com o Google Model Armor no ecossistema googleworkspace/cli. Use-a para sanitizar prompts, sanitizar respostas de modelos e criar templates com menos tentativa e erro do que em um prompt genérico. Ela foi pensada para uso repetível, orientado a políticas, e para fluxos de trabalho de Auditoria de Segurança.

Security Audit

Favoritos 0GitHub 25.5k

analyzing-campaign-attribution-evidence

por mukul975

analyzing-campaign-attribution-evidence ajuda analistas a ponderar sobreposição de infraestrutura, consistência com ATT&CK, similaridade de malware, timing e traços de linguagem para uma atribuição de campanha defensável. Use este guia do analyzing-campaign-attribution-evidence em CTI, análise de incidentes e revisões de Security Audit.

Security Audit

Favoritos 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

por mukul975

detecting-ai-model-prompt-injection-attacks é uma skill de cibersegurança para filtrar texto não confiável antes que ele chegue a um LLM. Ela usa regex em camadas, pontuação heurística e classificação baseada em DeBERTa para sinalizar ataques diretos e indiretos de prompt injection. É útil para validação de entrada em chatbots, ingestão de documentos e Threat Modeling.

Threat Modeling

Favoritos 0GitHub 0

llm-evaluation

por wshobson

Use a skill llm-evaluation para criar planos de avaliação repetíveis para apps com LLM, prompts, sistemas RAG e mudanças de modelo, com métricas, revisão humana, benchmarking e verificações de regressão.

Model Evaluation

Favoritos 0GitHub 32.6k

ai-prompt-engineering-safety-review

por github

ai-prompt-engineering-safety-review é uma skill de auditoria de prompts para revisar prompts de LLM quanto a segurança, vieses, vulnerabilidades de segurança e qualidade de saída antes do uso em produção, avaliação ou contato com clientes.

Model Evaluation

Favoritos 0GitHub 27.8k

agentic-eval

por github

agentic-eval é uma skill do GitHub Copilot que mostra como criar loops de avaliação para saídas de IA usando reflexão, crítica com base em rubricas e padrões evaluator-optimizer.

Model Evaluation

Favoritos 0GitHub 27.8k

ml-pipeline-workflow

por wshobson

ml-pipeline-workflow é um guia prático para projetar pipelines de MLOps de ponta a ponta, cobrindo preparação de dados, treinamento, validação, implantação e monitoramento, com padrões de orquestração para automatizar fluxos de trabalho repetíveis.

Workflow Automation

Favoritos 0GitHub 0

frontend-design

por anthropics

frontend-design transforma ideias vagas de UI em interfaces marcantes e prontas para produção, com código frontend real, direção estética clara e menos visual genérico de IA.

UI Design

Favoritos 1GitHub 105.2k