llm-evaluation

por wshobson

Usa la skill llm-evaluation para diseñar planes de evaluación repetibles para apps con LLM, prompts, sistemas RAG y cambios de modelo, con métricas, revisión humana, benchmarking y controles de regresión.

Estrellas32.6k

Favoritos0

Comentarios0

Agregado30 mar 2026

CategoríaModel Evaluation

Comando de instalación

npx skills add wshobson/agents --skill llm-evaluation

Puntuación editorial

Esta skill obtiene 68/100, lo que significa que es una opción aceptable para usuarios del directorio que buscan orientación estructurada para evaluar apps con LLM, aunque deben esperar un marco más centrado en documentación que una skill operativa con recursos ejecutables o pasos de ejecución explícitos.

68/100

Puntos fuertes

Buena activación: la skill deja claro cuándo conviene usarla, incluidos tests de regresión, comparación de modelos o prompts y validación en producción.
Contenido de flujo de trabajo sustancial: el documento cubre varios modos de evaluación, como métricas automatizadas, evaluación humana, benchmarking y pruebas A/B, en lugar de quedarse en un nivel meramente esquemático.
Aporte conceptual útil: ofrece a los agentes una taxonomía de evaluación reutilizable para tareas de generación de texto, clasificación y RAG, más estructurada que un prompt genérico.

Puntos a tener en cuenta

La claridad operativa es limitada por la falta de guías de instalación o ejecución, scripts y archivos de apoyo mencionados, por lo que los agentes aún deben inferir detalles de implementación.
La evidencia muestra pocas restricciones o reglas de decisión explícitas, lo que puede hacer que la selección de métricas y la ejecución sean inconsistentes entre proyectos reales.

Llm Testing Ai Metrics Reliability Workflow

Resumen

Visión general de la skill llm-evaluation

La skill llm-evaluation es un marco práctico para diseñar evaluaciones de apps con LLM, prompts y cambios de modelo. Encaja especialmente bien para equipos y builders que necesitan algo más sólido que “esto se siente mejor” y quieren una forma repetible de medir la calidad, comparar variantes y detectar regresiones antes de lanzar.

Para quién es esta skill llm-evaluation

La skill llm-evaluation encaja para equipos y personas que trabajan por su cuenta en:

iteración de prompts
comparación de modelos
controles de calidad de RAG
tareas de clasificación o extracción
QA de producción para funcionalidades con LLM
creación de benchmarks para lanzamientos continuos

Si estás intentando responder a la pregunta “¿Este cambio realmente mejoró el sistema?”, esta skill es una opción muy adecuada.

Qué trabajo te ayuda a resolver la skill

El trabajo real que resuelve es convertir preocupaciones difusas sobre la calidad en un plan de evaluación útil. En lugar de pedir consejos genéricos de testing, usas llm-evaluation para elegir el tipo de evaluación correcto, definir métricas, añadir revisión humana donde la automatización se queda corta y estructurar comparaciones a lo largo del tiempo.

Qué hace diferente a llm-evaluation frente a un prompt genérico

Un prompt genérico podría sugerir “usa BLEU, F1 y revisión humana”. Esta llm-evaluation skill resulta más útil cuando necesitas relacionar los métodos de evaluación con la forma real de tu aplicación:

las tareas de generación de texto necesitan métricas distintas a las de clasificación
los sistemas RAG necesitan métricas de recuperación, no solo juicios sobre la salida
algunas cualidades, como la utilidad o el tono, requieren evaluación humana
los tests A/B y las comprobaciones de regresión necesitan líneas base, no puntuaciones aisladas

Por eso está más orientada a la toma de decisiones que una consulta casual del tipo “¿cómo evalúo mi LLM?”.

Qué conviene tener claro antes de instalarla

Antes de usar llm-evaluation, conviene tener claras tres cosas:

qué tarea estás evaluando
qué significa “bueno” para esa tarea
si necesitas métricas automáticas, revisión humana o ambas

Si eso todavía no está bien definido, la skill puede seguir ayudando, pero el resultado se mantendrá en un nivel más general.

Principales tradeoffs y límites

Esta skill ofrece estrategia de evaluación, no un runner de evaluación empaquetado. Te ayuda a diseñar el marco y a seleccionar métodos, pero sigues necesitando tu propio dataset, tooling y entorno de ejecución. Si buscas un framework totalmente automatizado con pipelines integrados, tómala como una guía de planificación, no como infraestructura lista para usar.

Cómo usar la skill llm-evaluation

Cómo instalar la skill llm-evaluation

Usa el flujo estándar de instalación de skills:

npx skills add https://github.com/wshobson/agents --skill llm-evaluation

Después de instalarla, invócala cuando quieras ayuda para diseñar o mejorar un plan de evaluación para una aplicación con LLM.

Qué leer primero en el repositorio

Esta skill es inusualmente autocontenida. Empieza por:

plugins/llm-application-dev/skills/llm-evaluation/SKILL.md

Como no hay scripts auxiliares ni archivos de recursos evidentes, casi todo el valor está en el propio marco escrito. Lee primero las secciones “When to Use This Skill” y “Core Evaluation Types”.

Qué inputs necesita la skill para resultar útil

La calidad de uso de llm-evaluation depende mucho de los inputs que le des. Incluye:

el tipo de aplicación: summarization, chatbot, RAG, extraction, classification, etc.
el cambio que se está evaluando: nuevo prompt, cambio de modelo, actualización del retrieval, cambio de política
ejemplos de entradas y salidas esperadas
modos de fallo actuales
restricciones de despliegue: velocidad, coste, seguridad, capacidad de revisión
si necesitas benchmarking offline, revisión humana o testing online

Sin ese contexto, la skill hará bien en mantenerse genérica.

Cómo convertir un objetivo difuso en un prompt sólido

Objetivo débil:

“Help me evaluate my LLM app.”

Objetivo más sólido:

“Use the llm-evaluation skill to design an evaluation plan for a customer-support RAG assistant. We are comparing two prompts and one retriever change. We need offline metrics for retrieval quality, human review dimensions for answer quality, and a regression checklist we can run before deployment.”

Esa versión más sólida le indica a la skill qué sistema está cambiando, qué tipo de evaluación hace falta y qué decisión debe respaldar la evaluación.

Plantilla de prompt para usar llm-evaluation

Usa una solicitud como esta:

tipo de tarea
arquitectura del sistema
variantes que se van a comparar
tamaño y origen del dataset de evaluación
riesgos clave
métricas preferidas
tradeoffs aceptables

Estructura de ejemplo:

“Use llm-evaluation for Model Evaluation of a RAG assistant. Recommend automated metrics, human evaluation criteria, and an A/B testing approach. We care most about factual accuracy, citation usefulness, and regression detection. Suggest a minimal first version and an expanded version.”

Cómo elegir el tipo de evaluación adecuado

La skill cubre varios modos de evaluación. En la práctica:

usa métricas automáticas para ganar repetibilidad y escala
usa evaluación humana para cualidades subjetivas o con matices
usa benchmarking para comparar versiones a lo largo del tiempo
usa tests A/B cuando importa el comportamiento de usuarios reales

Un error común es abusar de un solo método. Por ejemplo, apoyarse solo en BLEU para tareas generativas o solo en revisión humana para comprobaciones de regresión a gran escala.

Selección de métricas según la tarea

Deja que la tarea guíe la elección de métricas:

generación de texto: BLEU, ROUGE, METEOR, BERTScore, perplexity
clasificación: accuracy, precision, recall, F1, confusion matrix, AUC-ROC
retrieval / RAG: MRR, NDCG, Precision@K, Recall@K

El punto práctico importante es este: no fuerces métricas de generación de texto sobre problemas de retrieval, ni al revés. La llm-evaluation guide es más útil cuando alineas las métricas con la capa real del sistema que se está poniendo a prueba.

Cuándo incluir evaluación humana

Añade revisión humana cuando tus criterios de éxito incluyan aspectos como:

precisión factual en respuestas abiertas
utilidad
coherencia
tono
seguimiento de instrucciones
seguridad o cumplimiento de políticas

La revisión humana es especialmente importante cuando las puntuaciones automáticas pueden parecer buenas aunque las respuestas reales sigan siendo pobres.

Un flujo de trabajo práctico que reduce las suposiciones

Un buen flujo inicial para quienes usan llm-evaluation install:

define una tarea y un resultado de usuario
reúne un conjunto de prueba pequeño pero representativo
elige entre 2 y 4 métricas automáticas adecuadas para la tarea
define entre 3 y 5 dimensiones de revisión humana
puntúa un sistema base
compara un cambio cada vez
registra los fallos, no solo los promedios

Esto mantiene la evaluación lo bastante ligera como para adoptarla sin dejar de ser rigurosa.

En qué ayuda mejor la skill

Esta llm-evaluation skill destaca especialmente cuando necesitas ayuda para:

seleccionar métodos de evaluación
estructurar un benchmark
combinar evaluación humana y automatizada
planificar comparaciones entre prompts o modelos
ganar confianza antes del despliegue

Resulta menos útil si solo necesitas un prompt de una línea para “juzgar salidas”, o si ya tienes un harness de evaluación maduro y solo te falta código de implementación.

Error de uso habitual: evaluar sin una línea base

Muchos equipos preguntan si la versión B es “buena”. La pregunta más útil es si la versión B es mejor que la versión A en los casos que realmente importan. En tu prompt, pídele a la skill que defina:

métricas de línea base
reglas de comparación
umbrales de aprobado/suspenso
criterios de regresión

Eso hace que llm-evaluation for Model Evaluation sea mucho más accionable.

Preguntas frecuentes sobre la skill llm-evaluation

¿llm-evaluation es buena para principiantes?

Sí, siempre que ya sepas qué tipo de app tienes y qué intentas mejorar. La skill explica con claridad las grandes categorías de evaluación. Es menos amigable para principiantes si todavía no has definido la tarea, el dataset o los criterios de éxito.

¿Necesito primero un dataset de benchmark formal?

No, pero sí necesitas ejemplos. Incluso un conjunto de prueba pequeño y curado es mejor que evaluar cada vez con prompts improvisados. La skill resulta más útil cuando ya puedes mostrar casos representativos y el comportamiento esperado.

¿Esta skill sirve solo para evaluaciones de estilo académico?

No. El contenido del repositorio es práctico: comparación de modelos, validación de prompts, detección de regresiones, confianza para producción y tests A/B. Es aplicable a equipos de producto, no solo a flujos de trabajo de investigación.

¿Cuándo no debería usar llm-evaluation?

Omite llm-evaluation si lo que necesitas es algo puramente específico de implementación, como conectar un SDK de evaluación concreto o ejecutar un comando de un framework determinado. Esta skill trata de estrategia y diseño, no de una integración de código lista para usar.

¿En qué se diferencia llm-evaluation de pedirle a un LLM que se evalúe a sí mismo?

La autoevaluación puede formar parte de un flujo, pero no es una estrategia de evaluación completa. llm-evaluation te ayuda a combinar métricas adecuadas para el propósito, juicio humano, líneas base y comparaciones para que no dependas de una sola señal ruidosa.

¿Puedo usar llm-evaluation para sistemas RAG?

Sí. De hecho, encaja muy bien porque cubre explícitamente métricas de retrieval como MRR, NDCG, Precision@K y Recall@K. Eso importa porque muchas evaluaciones flojas solo puntúan el texto de respuesta e ignoran la calidad de la recuperación.

Cómo mejorar la skill llm-evaluation

Dale a la skill detalle a nivel de tarea, no solo una descripción general de la app

Mejor input:

“Support chatbot that answers billing questions from a knowledge base”

Peor input:

“AI assistant”

Cuanto más específico sea el planteamiento de la tarea, mejor podrá la skill recomendar las métricas y dimensiones de revisión adecuadas.

Separa los componentes del sistema en tu prompt

Para un uso más sólido de llm-evaluation, pídele a la skill que evalúe las capas por separado:

calidad del retrieval
calidad de la generación
precisión de la clasificación
comportamiento de seguridad

Así evitas mezclar varias fuentes de fallo en una sola puntuación vaga.

Aporta ejemplos reales de fallos

Incluye entre 5 y 10 salidas malas y explica por qué fallaron. Por ejemplo:

política de producto alucinada
documento recuperado relevante que no se encontró
respuesta correcta con mal tono
rechazo de una consulta que en realidad era segura

Esto ayuda a la skill a recomendar dimensiones de evaluación alineadas con tus riesgos reales.

Pide primero una evaluación mínima viable

No empieces con un framework enorme. Pide:

el benchmark más pequeño que siga siendo útil
el menor número de métricas que merezca la pena seguir
la rúbrica mínima de revisión humana
un proceso simple de regresión

Eso facilita mucho la adopción y evita planes de evaluación que impresionan sobre el papel pero nunca llegan a ejecutarse.

Usa scorecards con criterios explícitos

Si solicitas evaluación humana, pídele a la skill que defina:

dimensiones de valoración
escalas de puntuación
ejemplos de aprobado/suspenso
reglas de desempate para casos ambiguos

Esto reduce la inconsistencia entre revisores y hace que las evaluaciones repetidas sean más fiables.

Compara un solo cambio cada vez

Un modo de fallo habitual es cambiar a la vez el prompt, el modelo, el retriever y el post-processing. Entonces la evaluación no puede explicar qué causó el resultado. Pide a llm-evaluation que estructure los experimentos de forma que cada prueba aísle una variable siempre que sea posible.

Haz seguimiento de regresiones, no solo de la mejora media

Los promedios pueden ocultar pérdidas importantes. Pide a la skill que identifique:

categorías de peor caso
segmentos de alto riesgo
escenarios críticos para el usuario
prompts sensibles desde el punto de vista de la seguridad

Esta es una de las mejoras prácticas más importantes frente a los planes de evaluación superficiales.

Itera después de la primera ejecución de evaluación

Después de la primera pasada, vuelve con los resultados y pide a la skill que refine:

qué métricas fueron ruidosas
qué dimensiones humanas se solapaban
en qué puntos el dataset era demasiado estrecho
qué grupos de fallos merecen nuevos casos de prueba

Esa segunda iteración es muchas veces donde llm-evaluation pasa de ser simplemente informativa a volverse realmente valiosa.

Mejora las salidas de llm-evaluation con solicitudes orientadas a decisiones

En lugar de pedir una visión general amplia, pide un entregable para decidir:

“Create a release-gate evaluation plan”
“Design a prompt-comparison benchmark”
“Build a human review rubric for hallucination risk”
“Recommend metrics for RAG retrieval regression checks”

Los prompts orientados a decisiones producen resultados que puedes usar de inmediato.

Conoce el techo de la skill

llm-evaluation mejora la calidad de la planificación, pero no puede sustituir datos representativos, etiquetado cuidadoso ni una revisión disciplinada. Si tus ejemplos son débiles o tus criterios de éxito se contradicen, la salida también será débil. La forma más rápida de aumentar la utilidad de la skill es mejorar la especificidad y el realismo de tu briefing de evaluación.

Calificaciones y reseñas

Aún no hay calificaciones

Comparte tu reseña

Inicia sesión para dejar una calificación y un comentario sobre esta skill.

0/10000

Reseñas más recientes

Guardando...

Más skills de esta categoría

evaluation-methodology

por wshobson

La skill evaluation-methodology explica la puntuación PluginEval para Model Evaluation, incluidas las capas, las rúbricas, la puntuación compuesta, los umbrales de insignias y la orientación práctica para interpretar resultados y mejorar las dimensiones más débiles.

Model Evaluation

Favoritos 0GitHub 32.6k

healthcare-eval-harness

por affaan-m

healthcare-eval-harness es un entorno de evaluación de seguridad del paciente para despliegues de aplicaciones sanitarias. Ayuda a los equipos a verificar la precisión de CDSS, la exposición de PHI, la integridad de los datos, el comportamiento del flujo clínico y el cumplimiento de integraciones antes de publicar. Los fallos críticos bloquean el despliegue, por lo que resulta útil para healthcare-eval-harness en evaluaciones de modelos y como puerta de seguridad en CI.

Model Evaluation

Favoritos 0GitHub 156.2k

eval-harness

por affaan-m

La skill eval-harness es un marco formal de evaluación para sesiones de Claude Code y el desarrollo guiado por evals. Te ayuda a definir criterios de aprobado/reprobado, crear evals de capacidad y de regresión, y medir la fiabilidad del agente antes de publicar cambios en prompts o flujos de trabajo.

Model Evaluation

Favoritos 0GitHub 156.1k

agent-eval

por affaan-m

agent-eval es una skill para comparar agentes de código cara a cara en tareas reproducibles, midiendo tasa de éxito, coste, tiempo y consistencia. Usa la skill agent-eval para evaluar Claude Code, Aider, Codex u otro agente en tu propio repo con evidencia más clara que la que ofrecen los prompts ad hoc.

Model Evaluation

Favoritos 0GitHub 156k

huggingface-community-evals

por huggingface

huggingface-community-evals te ayuda a ejecutar localmente evaluaciones de modelos de Hugging Face Hub con inspect-ai o lighteval. Úsalo para elegir backend, hacer pruebas rápidas y consultar una guía práctica de vLLM, Transformers o accelerate. No sirve para orquestación de HF Jobs, PRs de model cards, publicación de .eval_results ni automatización de community-evals.

Model Evaluation

Favoritos 0GitHub 10.4k

huggingface-best

por huggingface

La skill huggingface-best te ayuda a encontrar el mejor modelo para una tarea revisando los rankings de referencia de Hugging Face y filtrando por límites del dispositivo y tamaño del modelo. Úsala para obtener recomendaciones de modelos en coding, reasoning, chat, OCR, RAG, speech, vision o trabajo multimodal cuando necesitas una shortlist práctica, no una lista genérica de modelos.

Model Evaluation

Favoritos 0GitHub 10.4k

libafl

por trailofbits

La skill de libafl te ayuda a planificar y construir fuzzers modulares con LibAFL para objetivos personalizados, estrategias de mutación y flujos de trabajo de auditoría de seguridad. Usa esta guía de libafl para pasar de los detalles del objetivo a un harness práctico, un modelo de feedback y un plan de ejecución con menos suposiciones.

Security Audit

Favoritos 0GitHub 5k

evaluation

por muratcankoylan

La skill evaluation te ayuda a diseñar y ejecutar evaluaciones de agentes para sistemas no deterministas. Úsala para planificar la instalación de evaluaciones, crear rúbricas, hacer comprobaciones de regresión, definir quality gates y realizar evaluation para Skill Testing. Encaja con flujos de trabajo LLM-as-judge, puntuación multidimensional y usos prácticos de evaluación cuando necesitas resultados repetibles.

Skill Testing

Favoritos 0GitHub 0

judge-with-debate

por NeoLabHQ

judge-with-debate evalúa soluciones mediante un debate multiagente estructurado, usando una especificación compartida, contraargumentos basados en evidencia y hasta 3 rondas para llegar a un consenso. Encaja bien para revisión de código, evaluación basada en rúbricas y flujos de trabajo de judge-with-debate para Multi-Agent Systems.

Multi-Agent Systems

Favoritos 0GitHub 982

gws-modelarmor

por googleworkspace

gws-modelarmor te ayuda a trabajar con Google Model Armor dentro del ecosistema googleworkspace/cli. Úsalo para sanitizar prompts, sanitizar respuestas del modelo y crear plantillas con menos improvisación que con un prompt genérico. Está pensado para un uso repetible, alineado con políticas, y para flujos de trabajo de Security Audit.

Security Audit

Favoritos 0GitHub 25.5k

analyzing-campaign-attribution-evidence

por mukul975

analyzing-campaign-attribution-evidence ayuda a los analistas a valorar el solapamiento de infraestructura, la coherencia con ATT&CK, la similitud del malware, la temporización y los artefactos lingüísticos para sustentar la atribución de campañas. Usa esta guía de analyzing-campaign-attribution-evidence para revisiones de CTI, análisis de incidentes y Security Audit.

Security Audit

Favoritos 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

por mukul975

detecting-ai-model-prompt-injection-attacks es una skill de ciberseguridad para filtrar texto no confiable antes de que llegue a un LLM. Usa regex en capas, puntuación heurística y clasificación basada en DeBERTa para detectar ataques directos e indirectos de prompt injection. Es útil para validación de entradas en chatbots, ingesta de documentos y threat modeling.

Threat Modeling

Favoritos 0GitHub 0

ai-prompt-engineering-safety-review

por github

ai-prompt-engineering-safety-review es una skill de auditoría de prompts para revisar prompts de LLM en busca de riesgos de seguridad, sesgos, debilidades de seguridad y problemas de calidad de salida antes de su uso en producción, evaluación o entornos de cara al cliente.

Model Evaluation

Favoritos 0GitHub 27.8k

agentic-eval

por github

agentic-eval es una skill de GitHub Copilot que muestra cómo crear bucles de evaluación para salidas de IA mediante reflexión, crítica basada en rúbricas y patrones evaluator-optimizer.

Model Evaluation

Favoritos 0GitHub 27.8k

ml-pipeline-workflow

por wshobson

ml-pipeline-workflow es una guía práctica para diseñar pipelines MLOps de extremo a extremo para preparación de datos, entrenamiento, validación, despliegue y monitorización, con patrones de orquestación para automatizar flujos de trabajo repetibles.

Workflow Automation

Favoritos 0GitHub 0

frontend-design

por anthropics

frontend-design convierte ideas vagas de UI en interfaces distintivas y listas para producción, con código frontend real, una dirección estética clara y menos estilo genérico de IA.

UI Design

Favoritos 1GitHub 105.2k