evaluation-methodology

por wshobson

La skill evaluation-methodology explica la puntuación PluginEval para Model Evaluation, incluidas las capas, las rúbricas, la puntuación compuesta, los umbrales de insignias y la orientación práctica para interpretar resultados y mejorar las dimensiones más débiles.

Estrellas32.6k

Favoritos0

Comentarios0

Agregado30 mar 2026

CategoríaModel Evaluation

Comando de instalación

npx skills add wshobson/agents --skill evaluation-methodology

Puntuación editorial

Esta skill obtiene 83/100, lo que la convierte en una opción sólida del directorio para quienes necesitan una referencia detallada sobre cómo PluginEval puntúa skills y plugins. La evidencia del repositorio muestra un contenido metodológico sustancial y no de relleno, con dimensiones, fórmulas, umbrales, antipatrones y pautas de mejora explícitos, por lo que un agente puede usarla como apoyo fiable para interpretar y calibrar evaluaciones. Es menos un flujo práctico y ejecutable que una referencia operativa, así que conviene instalarla cuando se necesita una explicación consistente de la lógica de evaluación, más que una automatización paso a paso.

83/100

Puntos fuertes

Buena capacidad de activación a partir de una descripción específica que cubre interpretación de puntuaciones, calibración de umbrales y casos de uso orientados a la mejora
Alto contenido operativo: `SKILL.md` es amplio y cubre de forma explícita capas de evaluación, dimensiones, pesos de combinación, fórmulas, insignias, indicadores de antipatrones y ranking Elo
Estructura de referencia fiable, con un archivo de rúbricas con autoridad en `references/rubrics.md` que aporta criterios de puntuación bien anclados

Puntos a tener en cuenta

Está impulsada principalmente por documentación; no hay scripts ni comandos de instalación que conviertan la metodología en un flujo de trabajo directamente ejecutable
Algunos detalles de implementación apuntan a archivos del analizador como `layers/static.py`, pero la evidencia mostrada aquí es sobre todo metodología conceptual y no una herramienta de evaluación lista para ejecutarse

Plugin Eval Testing Checklist Docs Workflow Metrics Ai Agents Llm

Resumen

Visión general de la skill evaluation-methodology

Qué hace la skill evaluation-methodology

La skill evaluation-methodology explica el sistema de puntuación que hay detrás de PluginEval para Model Evaluation. No es un prompt genérico de “cómo evaluar modelos”. Es una referencia metodológica específica que cubre las tres capas de evaluación, las dimensiones de puntuación, la lógica de mezcla, la puntuación compuesta, los umbrales de badges, las señales de anti-patterns y los conceptos de ranking que se usan para evaluar la calidad de un plugin o una skill.

Quién debería instalar evaluation-methodology

Esta skill encaja mejor con quienes necesitan interpretar o mejorar un resultado de evaluación, no solo generar una puntuación. Suele ser una buena opción para:

autores de skills o plugins que están diagnosticando una puntuación débil
operadores de marketplaces o plataformas que calibran quality gates
reviewers que necesitan un lenguaje consistente para resolver disputas sobre puntuaciones
equipos que deben explicar badges o rankings a partners y stakeholders

Si tu necesidad real es “¿por qué salió esta puntuación y qué debería cambiar primero?”, evaluation-methodology encaja muy bien.

El trabajo real que resuelve

Antes de adoptarla, los usuarios suelen querer aclarar cuatro cosas:

qué dimensiones importan más
en qué se diferencian las comprobaciones estáticas de la puntuación basada en judge
cómo afectan Monte Carlo o las capas combinadas al número final
qué cambios harán subir la puntuación más rápido

La skill evaluation-methodology aporta valor porque responde a esas preguntas de forma estructurada, en vez de obligarte a deducirlo a partir de notas de rúbrica dispersas.

Qué la diferencia de un prompt de evaluación normal

Un prompt normal puede pedirle a un LLM que “evalúe esta skill”, pero normalmente le faltan:

separación explícita por capas
referencias de rúbrica ancladas
lógica de ponderación por dimensión
interpretación de umbrales y badges
lenguaje metodológico apto para calibración o resolución de disputas

evaluation-methodology funciona mejor cuando necesitas un razonamiento de evaluación consistente, especialmente en torno a Triggering Accuracy, calidad de orquestación e interpretación de la puntuación.

Qué leer antes de decidir

Lee primero SKILL.md para ver la metodología completa y después references/rubrics.md para entender los estándares anclados que usa la capa judge. Con esos dos archivos suele bastar para decidir si la skill evaluation-methodology encaja en tu flujo de Model Evaluation.

Cómo usar la skill evaluation-methodology

Contexto de instalación para evaluation-methodology

Instálala desde el repo con:

npx skills add https://github.com/wshobson/agents --skill evaluation-methodology

Después invócala desde tu entorno de AI coding igual que cualquier otra skill instalada: dale una tarea que pida claramente interpretación de puntuaciones de PluginEval, explicación metodológica, guía de calibración o recomendaciones para mejorar una puntuación.

Qué input necesita la skill

La skill evaluation-methodology funciona mejor cuando le das contexto de evaluación concreto, por ejemplo:

el SKILL.md o el contenido del plugin que se está evaluando
la dimensión o la puntuación que parece sospechosa
si te interesa análisis estático, salida del LLM judge o puntuación blended completa
tu objetivo: explicar, calibrar, mejorar o defender una puntuación
cualquier umbral de marketplace, corte de badge o barra de aceptación que uses

Sin ese contexto, la salida se quedará en un nivel alto, porque la metodología en sí cubre bastante terreno.

Cómo convertir un objetivo difuso en un prompt sólido

Prompt débil:

Explain this evaluation score.

Prompt más sólido:

Use the evaluation-methodology skill to interpret this PluginEval result. Focus on Triggering Accuracy and Orchestration Fitness, explain how the three evaluation layers likely contributed, identify which issues are static-document problems versus judge-layer reasoning problems, and suggest the smallest changes that would most improve the composite score.

Por qué funciona:

nombra la metodología de forma explícita
acota las dimensiones
pide razonamiento consciente de las capas
solicita recomendaciones priorizadas de mejora, no solo un resumen

Mejor patrón de prompt para usar evaluation-methodology

Un prompt de alta calidad para evaluation-methodology usage suele incluir:

el artefacto que se está evaluando
la puntuación o dimensión en cuestión
la decisión que necesitas tomar
el formato de salida deseado

Ejemplo:

Apply the evaluation-methodology skill to this skill draft. Estimate which dimensions are most at risk, cite the likely rubric anchors behind that judgment, and recommend edits that improve triggering precision without making the description too narrow.

Flujo de trabajo práctico para reducir las conjeturas

Usa esta secuencia:

lee SKILL.md para entender el sistema global de puntuación
abre references/rubrics.md para interpretar las anclas de la rúbrica
identifica la dimensión sobre la que realmente necesitas actuar
pide un diagnóstico específico por capa
revisa la skill o el plugin
vuelve a comprobar si el cambio mejoró la dimensión correcta en lugar de simplemente alargar el documento

Esto importa porque muchos problemas de puntuación se diagnostican mal. Por ejemplo, un problema de triggering suele venir de un lenguaje demasiado vago en la descripción del frontmatter, mientras que un problema de orquestación puede deberse a contratos de input/output poco claros.

Archivos del repositorio que conviene leer primero

Para esta evaluation-methodology guide, prioriza:

plugins/plugin-eval/skills/evaluation-methodology/SKILL.md
plugins/plugin-eval/skills/evaluation-methodology/references/rubrics.md

Lee SKILL.md para comprender el marco general y luego usa references/rubrics.md cuando necesites una interpretación de puntuación bien fundamentada o quieras comparar un borrador con puntos de anclaje concretos.

Qué significan en la práctica las tres capas

La metodología apila tres capas:

análisis estático para comprobaciones deterministas del documento
puntuación del LLM judge para evaluación cualitativa basada en rúbricas
simulación Monte Carlo para el comportamiento sobre distribuciones de prompts, especialmente en triggering

Esa separación resulta útil a nivel operativo. Si quieres una comprobación rápida previa a publicar, el primer paso es el análisis estático. Si necesitas una explicación defendible de una puntuación baja, las rúbricas del judge pesan más. Si te importa si una skill se activa con los prompts correctos bajo variaciones realistas, el marco de Monte Carlo es el más relevante para decidir.

Cuándo usar evaluation-methodology para Model Evaluation

Usa evaluation-methodology for Model Evaluation cuando tu objeto de análisis no sea solo la calidad de la salida del modelo, sino la calidad de la skill o del wrapper del plugin que organiza ese comportamiento. Esta metodología es especialmente relevante cuando la pregunta clave es si una skill se puede descubrir, se activa cuando corresponde, está bien estructurada y es operativamente fiable dentro de un ecosistema de agentes.

Encaja menos si solo necesitas diseño de benchmarks para rendimiento bruto del modelo en tareas no relacionadas con orquestación de plugins o skills.

Bloqueos habituales antes de adoptarla

Muchos usuarios dudan porque no tienen claro si esta skill es accionable o solo descriptiva. En la práctica, sí es accionable si necesitas:

rastrear una puntuación hasta una dimensión concreta
entender qué premia cada dimensión
elegir cambios que afecten a la puntuación compuesta
calibrar umbrales para publicación o badging

Es menos accionable si esperas un script evaluador listo para usar. La evidencia del repositorio aquí está centrada en la metodología, con su soporte más fuerte en el framework escrito y las rúbricas.

FAQ sobre la skill evaluation-methodology

¿evaluation-methodology es un scorer o una referencia metodológica?

Principalmente es una referencia metodológica. Te explica cómo PluginEval mide la calidad y cómo interpretar los resultados. Por eso resulta especialmente útil para auditorías, calibración y planificación de mejoras.

¿La skill evaluation-methodology es apta para principiantes?

Sí, siempre que la persona principiante ya entienda qué es una skill o un plugin. La redacción está bien estructurada, pero los conceptos se vuelven mucho más claros cuando llevas un ejemplo real y preguntas por una dimensión cada vez, en lugar de abordar todo el framework de golpe.

¿En qué se diferencia de pedirle a un LLM que revise mi skill?

Un prompt de revisión genérico puede dar consejos razonables, pero normalmente no se alineará con el modelo de puntuación por capas de PluginEval ni con sus anclas de rúbrica. La evaluation-methodology skill te da un lenguaje compartido de puntuación, y eso es más útil cuando varios reviewers necesitan mantener consistencia.

¿Cuándo no debería usar evaluation-methodology?

Sáltatela cuando:

solo necesites una crítica general de redacción
estés evaluando la precisión de tareas del modelo en bruto y no la calidad de una skill/plugin
busques más automatización ejecutable que guía metodológica
tu ecosistema no use dimensiones o lógica de badges parecidas a PluginEval

¿Sirve para puntuaciones bajas de Triggering Accuracy?

Sí. La referencia de rúbrica trata explícitamente el triggering como un comportamiento de precisión más recall a través de prompts representativos. Eso hace que la skill sea especialmente útil cuando una descripción es demasiado vaga para activarse de forma fiable o demasiado amplia y se dispara con prompts irrelevantes.

¿Puedo usarla fuera de PluginEval?

Sí, pero sobre todo como modelo de referencia estructurado. Las dimensiones, la separación por capas y la forma de pensar con rúbricas se trasladan bien. Los pesos exactos, umbrales y badges resultan más útiles cuando tu proceso se parece bastante a PluginEval.

Cómo mejorar el uso de la skill evaluation-methodology

Empieza por la dimensión que realmente afecta la decisión

Al usar la skill evaluation-methodology, no pidas primero una “calidad general”. Pregunta qué dimensión concreta es la que más probablemente está bloqueando tu decisión. En la práctica, eso suele sacar a la luz antes el mayor punto de palanca, especialmente en Triggering Accuracy o Orchestration Fitness.

Proporciona mejores inputs para obtener un análisis mejor

Mejor input:

la puntuación actual o la dimensión que sospechas que está débil
el description exacto del frontmatter
la sección relevante de SKILL.md
ejemplos de prompts que sí deberían activar la skill y de los que no
tu umbral de aceptación

Esto permite que la skill razone de una forma más alineada con lo que pretende la metodología, especialmente en diagnósticos específicos por dimensión.

Usa ejemplos positivos y negativos de trigger

Una de las mejoras de más valor es aportar ambos tipos:

prompts en los que la skill debería activarse
prompts en los que debería permanecer en silencio

Eso mejora directamente el análisis de la calidad del enrutamiento. Refleja la preocupación de la metodología por precisión y recall, en lugar de limitarse a preguntar “¿suena relevante?”.

Separa las correcciones estáticas de las correcciones de la capa judge

No todas las mejoras valen lo mismo. Usa la skill para clasificar los problemas en:

correcciones estructurales: frontmatter, contratos ausentes, poor progressive disclosure
correcciones de rúbrica: explicaciones débiles, guía vaga, baja accionabilidad
correcciones de ajuste de comportamiento: probable desajuste de triggering bajo variación realista de prompts

Esto evita sobreeditar la parte equivocada de la skill.

Evita el modo de fallo más común

El error más frecuente es hacer la skill más amplia para intentar mejorar su discoverability. Eso puede aumentar la cobertura aparente, pero empeorar la precisión de triggering. Pídele a la evaluation-methodology skill que compruebe si una descripción revisada se volvió demasiado genérica.

Itera con anclas de rúbrica, no solo con intuición

Después de la primera salida, pregunta:

Which anchor in references/rubrics.md best matches this draft now, and what exact evidence keeps it from the next anchor?

Esa pregunta produce una guía de revisión más útil que “¿cómo puedo mejorarlo?” porque vincula los cambios con movimientos concretos de puntuación.

Pide recomendaciones de cambio mínimo

Para iterar más rápido, pide ediciones mínimas:

Using the evaluation-methodology skill, recommend the three smallest wording or structure changes most likely to improve the composite score without changing scope.

Esto suele ser mejor que una reescritura completa, porque preserva la intención mientras apunta directamente a las dimensiones evaluadas.

Vuelve a comprobar si las mejoras cambiaron la métrica correcta

Un documento más limpio puede seguir fallando según la metodología. Después de revisar, pídele a la skill que compare:

el efecto esperado sobre Triggering Accuracy
el efecto esperado sobre Orchestration Fitness
el efecto probable sobre la puntuación compuesta
los posibles nuevos tradeoffs introducidos por las ediciones

Esa comprobación final es donde la evaluation-methodology guide resulta más útil: no solo para explicar el framework, sino para ayudarte a mejorar dentro de él.

Calificaciones y reseñas

Aún no hay calificaciones

Comparte tu reseña

Inicia sesión para dejar una calificación y un comentario sobre esta skill.

0/10000

Reseñas más recientes

Guardando...

Más skills de esta categoría

healthcare-eval-harness

por affaan-m

healthcare-eval-harness es un entorno de evaluación de seguridad del paciente para despliegues de aplicaciones sanitarias. Ayuda a los equipos a verificar la precisión de CDSS, la exposición de PHI, la integridad de los datos, el comportamiento del flujo clínico y el cumplimiento de integraciones antes de publicar. Los fallos críticos bloquean el despliegue, por lo que resulta útil para healthcare-eval-harness en evaluaciones de modelos y como puerta de seguridad en CI.

Model Evaluation

Favoritos 0GitHub 156.2k

eval-harness

por affaan-m

La skill eval-harness es un marco formal de evaluación para sesiones de Claude Code y el desarrollo guiado por evals. Te ayuda a definir criterios de aprobado/reprobado, crear evals de capacidad y de regresión, y medir la fiabilidad del agente antes de publicar cambios en prompts o flujos de trabajo.

Model Evaluation

Favoritos 0GitHub 156.1k

agent-eval

por affaan-m

agent-eval es una skill para comparar agentes de código cara a cara en tareas reproducibles, midiendo tasa de éxito, coste, tiempo y consistencia. Usa la skill agent-eval para evaluar Claude Code, Aider, Codex u otro agente en tu propio repo con evidencia más clara que la que ofrecen los prompts ad hoc.

Model Evaluation

Favoritos 0GitHub 156k

huggingface-community-evals

por huggingface

huggingface-community-evals te ayuda a ejecutar localmente evaluaciones de modelos de Hugging Face Hub con inspect-ai o lighteval. Úsalo para elegir backend, hacer pruebas rápidas y consultar una guía práctica de vLLM, Transformers o accelerate. No sirve para orquestación de HF Jobs, PRs de model cards, publicación de .eval_results ni automatización de community-evals.

Model Evaluation

Favoritos 0GitHub 10.4k

huggingface-best

por huggingface

La skill huggingface-best te ayuda a encontrar el mejor modelo para una tarea revisando los rankings de referencia de Hugging Face y filtrando por límites del dispositivo y tamaño del modelo. Úsala para obtener recomendaciones de modelos en coding, reasoning, chat, OCR, RAG, speech, vision o trabajo multimodal cuando necesitas una shortlist práctica, no una lista genérica de modelos.

Model Evaluation

Favoritos 0GitHub 10.4k

libafl

por trailofbits

La skill de libafl te ayuda a planificar y construir fuzzers modulares con LibAFL para objetivos personalizados, estrategias de mutación y flujos de trabajo de auditoría de seguridad. Usa esta guía de libafl para pasar de los detalles del objetivo a un harness práctico, un modelo de feedback y un plan de ejecución con menos suposiciones.

Security Audit

Favoritos 0GitHub 5k

evaluation

por muratcankoylan

La skill evaluation te ayuda a diseñar y ejecutar evaluaciones de agentes para sistemas no deterministas. Úsala para planificar la instalación de evaluaciones, crear rúbricas, hacer comprobaciones de regresión, definir quality gates y realizar evaluation para Skill Testing. Encaja con flujos de trabajo LLM-as-judge, puntuación multidimensional y usos prácticos de evaluación cuando necesitas resultados repetibles.

Skill Testing

Favoritos 0GitHub 0

judge-with-debate

por NeoLabHQ

judge-with-debate evalúa soluciones mediante un debate multiagente estructurado, usando una especificación compartida, contraargumentos basados en evidencia y hasta 3 rondas para llegar a un consenso. Encaja bien para revisión de código, evaluación basada en rúbricas y flujos de trabajo de judge-with-debate para Multi-Agent Systems.

Multi-Agent Systems

Favoritos 0GitHub 982

gws-modelarmor

por googleworkspace

gws-modelarmor te ayuda a trabajar con Google Model Armor dentro del ecosistema googleworkspace/cli. Úsalo para sanitizar prompts, sanitizar respuestas del modelo y crear plantillas con menos improvisación que con un prompt genérico. Está pensado para un uso repetible, alineado con políticas, y para flujos de trabajo de Security Audit.

Security Audit

Favoritos 0GitHub 25.5k

analyzing-campaign-attribution-evidence

por mukul975

analyzing-campaign-attribution-evidence ayuda a los analistas a valorar el solapamiento de infraestructura, la coherencia con ATT&CK, la similitud del malware, la temporización y los artefactos lingüísticos para sustentar la atribución de campañas. Usa esta guía de analyzing-campaign-attribution-evidence para revisiones de CTI, análisis de incidentes y Security Audit.

Security Audit

Favoritos 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

por mukul975

detecting-ai-model-prompt-injection-attacks es una skill de ciberseguridad para filtrar texto no confiable antes de que llegue a un LLM. Usa regex en capas, puntuación heurística y clasificación basada en DeBERTa para detectar ataques directos e indirectos de prompt injection. Es útil para validación de entradas en chatbots, ingesta de documentos y threat modeling.

Threat Modeling

Favoritos 0GitHub 0

llm-evaluation

por wshobson

Usa la skill llm-evaluation para diseñar planes de evaluación repetibles para apps con LLM, prompts, sistemas RAG y cambios de modelo, con métricas, revisión humana, benchmarking y controles de regresión.

Model Evaluation

Favoritos 0GitHub 32.6k

ai-prompt-engineering-safety-review

por github

ai-prompt-engineering-safety-review es una skill de auditoría de prompts para revisar prompts de LLM en busca de riesgos de seguridad, sesgos, debilidades de seguridad y problemas de calidad de salida antes de su uso en producción, evaluación o entornos de cara al cliente.

Model Evaluation

Favoritos 0GitHub 27.8k

agentic-eval

por github

agentic-eval es una skill de GitHub Copilot que muestra cómo crear bucles de evaluación para salidas de IA mediante reflexión, crítica basada en rúbricas y patrones evaluator-optimizer.

Model Evaluation

Favoritos 0GitHub 27.8k

ml-pipeline-workflow

por wshobson

ml-pipeline-workflow es una guía práctica para diseñar pipelines MLOps de extremo a extremo para preparación de datos, entrenamiento, validación, despliegue y monitorización, con patrones de orquestación para automatizar flujos de trabajo repetibles.

Workflow Automation

Favoritos 0GitHub 0

frontend-design

por anthropics

frontend-design convierte ideas vagas de UI en interfaces distintivas y listas para producción, con código frontend real, una dirección estética clara y menos estilo genérico de IA.

UI Design

Favoritos 1GitHub 105.2k