eval-harness

por affaan-m

La skill eval-harness es un marco formal de evaluación para sesiones de Claude Code y el desarrollo guiado por evals. Te ayuda a definir criterios de aprobado/reprobado, crear evals de capacidad y de regresión, y medir la fiabilidad del agente antes de publicar cambios en prompts o flujos de trabajo.

Estrellas156.1k

Favoritos0

Comentarios0

Agregado15 abr 2026

CategoríaModel Evaluation

Comando de instalación

npx skills add affaan-m/everything-claude-code --skill eval-harness

Puntuación editorial

Esta skill obtiene 78/100, así que es una candidata sólida para el directorio y aporta valor real al flujo de trabajo de agentes que hacen desarrollo guiado por evals. Los usuarios deberían poder activarla y entender su propósito con rapidez, aunque conviene esperar una skill sobre todo documental, más que una apoyada en scripts auxiliares o recursos empaquetados.

78/100

Puntos fuertes

Casos de uso de activación claros para configurar EDD, definir criterios de aprobado/reprobado, ejecutar evals de regresión y hacer benchmarking
Contenido operativo amplio, con plantillas estructuradas de evals y evaluadores, además de varias secciones de flujo de trabajo
Alta facilidad de activación gracias al frontmatter y a la guía explícita de 'When to Activate', lo que facilita evaluar la intención de instalación

Puntos a tener en cuenta

No incluye comando de instalación, scripts ni archivos de soporte, así que la adopción depende de leer y aplicar manualmente la guía en markdown
No trae referencias, recursos ni tests incluidos, lo que reduce las señales de confianza para quienes buscan un framework de evaluación listo para usar

Claude Code Evaluation Testing Regression Testing Pr Github Code

Resumen

Descripción general de la habilidad eval-harness

Qué hace eval-harness

La habilidad eval-harness es un marco formal de evaluación para sesiones de Claude Code y para el desarrollo guiado por evaluaciones. Te ayuda a definir qué significa “hacerlo bien” antes de publicar, y luego medir si un agente, un prompt o un flujo de trabajo realmente cumple ese nivel.

Quién debería usarla

Usa la habilidad eval-harness si necesitas comprobaciones repetibles para código asistido por IA, cambios en prompts o comportamiento de agentes. Es especialmente útil para equipos que comparan versiones de modelo, hacen seguimiento de regresiones o convierten expectativas de tareas vagas en criterios de aprobado/suspenso.

Por qué importa

El valor principal de eval-harness for Model Evaluation es la fiabilidad: en vez de juzgar los resultados por intuición, escribes evaluaciones que muestran cuándo cambia el comportamiento. Eso facilita depurar el rendimiento del agente, comparar ejecuciones y evitar publicar actualizaciones de prompts que degraden la calidad en silencio.

Cuándo encaja bien

Encaja mejor cuando la tarea puede expresarse como criterios observables de éxito, estructura de salida o comportamiento con puntos de control. Es menos útil para trabajos creativos abiertos, salvo que todavía puedas definir condiciones de aceptación medibles.

Cómo usar la habilidad eval-harness

Instalar y activar

Para eval-harness install, usa el flujo de instalación de skills del repositorio en tu entorno de Claude Code y luego abre el archivo de la habilidad directamente. La habilidad está en skills/eval-harness/SKILL.md, y ese es el primer archivo que debes leer porque define cuándo activar el marco y cómo estructurar las evaluaciones.

Construir un prompt que la habilidad pueda evaluar

Para un buen eval-harness usage, no empieces con “prueba mi agente”. Empieza con un objetivo concreto, por ejemplo: qué tarea debe completar el agente, qué cuenta como éxito, cómo se ve un fallo y si estás comprobando capacidad o regresión. Una mejor entrada sería: “Evalúa si el agente puede actualizar un formulario de React sin romper la validación, y exige tres criterios explícitos de éxito”. Eso le da al harness algo medible.

Leer primero los archivos correctos

Si estás adoptando el enfoque de eval-harness guide dentro de tu propio flujo de trabajo, lee primero SKILL.md y luego revisa cualquier nota del repositorio que describa el estilo de evaluación, la lógica de puntuación o las convenciones de salida. En este repo no hay scripts auxiliares ni carpetas extra de soporte, así que el archivo de la habilidad es la fuente de verdad.

Usarlo en un flujo de trabajo práctico

Un buen flujo es: definir el comportamiento, escribir una evaluación para el caso feliz, añadir una evaluación de regresión para un fallo conocido, y luego ejecutar el harness y refinar los criterios. Esto mantiene las evaluaciones lo bastante pequeñas como para depurarlas y reduce el riesgo de escribir pruebas demasiado amplias para interpretarlas.

Preguntas frecuentes sobre la habilidad eval-harness

¿eval-harness es solo para Claude Code?

No. La habilidad está pensada para sesiones de Claude Code, pero el método subyacente resulta útil en cualquier entorno donde necesites una evaluación estructurada de agentes. Si tu stack usa otras herramientas, aun así puedes adaptar el formato de evaluación y la lógica de puntuación.

¿eval-harness es lo mismo que un prompt normal?

No. Un prompt normal pide una respuesta; eval-harness pide una forma repetible de juzgar respuestas. Esa diferencia importa cuando necesitas consistencia entre versiones, no solo una respuesta buena aislada.

¿Es apta para principiantes?

Sí, si puedes describir una tarea con claridad. Lo difícil no es la sintaxis, sino redactar buenos criterios de éxito. Las personas que empiezan suelen ir bien si arrancan con una sola evaluación simple de capacidad en lugar de intentar modelar todo un flujo de trabajo de una vez.

¿Cuándo no debería usarla?

Sáltate eval-harness si el trabajo es muy subjetivo, si la salida no puede comprobarse de forma consistente o si solo necesitas una respuesta puntual. Es más útil cuando la fiabilidad, el seguimiento de regresiones o la comparación de modelos es el objetivo real.

Cómo mejorar la habilidad eval-harness

Hacer que los criterios sean observables

La mayor mejora de calidad llega cuando conviertes opiniones en comprobaciones. Sustituye “hazlo mejor” por condiciones como “conserva la forma existente de la API”, “devuelve JSON válido” o “supera los tres casos de regresión”. Cuanto más observables sean los criterios, más fácil será ejecutar eval-harness y confiar en él.

Separar capacidad de regresión

Si mezclas comprobaciones de nuevas funciones con comprobaciones de comportamiento antiguo, los fallos se vuelven difíciles de interpretar. Mantén las evaluaciones de capacidad centradas en si Claude puede hacer algo nuevo, y las de regresión centradas en si sigue cumpliéndose una base conocida.

Darle al harness casos límite reales

Las mejores evaluaciones incluyen modos de fallo, no solo casos felices. Añade entradas complicadas, contexto incompleto o instrucciones ambiguas para que la eval-harness skill pueda mostrar si el agente es robusto o simplemente tuvo suerte con ejemplos limpios.

Iterar después de la primera ejecución

Trata la primera ejecución como calibración, no como prueba definitiva. Si el resultado no está claro, ajusta los criterios de éxito, añade una referencia base o divide una evaluación amplia en comprobaciones más pequeñas. Suele ser la forma más rápida de mejorar eval-harness usage y obtener resultados sobre los que puedas actuar.

Calificaciones y reseñas

Aún no hay calificaciones

Comparte tu reseña

Inicia sesión para dejar una calificación y un comentario sobre esta skill.

0/10000

Reseñas más recientes

Guardando...

Más skills de esta categoría

evaluation-methodology

por wshobson

La skill evaluation-methodology explica la puntuación PluginEval para Model Evaluation, incluidas las capas, las rúbricas, la puntuación compuesta, los umbrales de insignias y la orientación práctica para interpretar resultados y mejorar las dimensiones más débiles.

Model Evaluation

Favoritos 0GitHub 32.6k

healthcare-eval-harness

por affaan-m

healthcare-eval-harness es un entorno de evaluación de seguridad del paciente para despliegues de aplicaciones sanitarias. Ayuda a los equipos a verificar la precisión de CDSS, la exposición de PHI, la integridad de los datos, el comportamiento del flujo clínico y el cumplimiento de integraciones antes de publicar. Los fallos críticos bloquean el despliegue, por lo que resulta útil para healthcare-eval-harness en evaluaciones de modelos y como puerta de seguridad en CI.

Model Evaluation

Favoritos 0GitHub 156.2k

agent-eval

por affaan-m

agent-eval es una skill para comparar agentes de código cara a cara en tareas reproducibles, midiendo tasa de éxito, coste, tiempo y consistencia. Usa la skill agent-eval para evaluar Claude Code, Aider, Codex u otro agente en tu propio repo con evidencia más clara que la que ofrecen los prompts ad hoc.

Model Evaluation

Favoritos 0GitHub 156k

huggingface-community-evals

por huggingface

huggingface-community-evals te ayuda a ejecutar localmente evaluaciones de modelos de Hugging Face Hub con inspect-ai o lighteval. Úsalo para elegir backend, hacer pruebas rápidas y consultar una guía práctica de vLLM, Transformers o accelerate. No sirve para orquestación de HF Jobs, PRs de model cards, publicación de .eval_results ni automatización de community-evals.

Model Evaluation

Favoritos 0GitHub 10.4k

huggingface-best

por huggingface

La skill huggingface-best te ayuda a encontrar el mejor modelo para una tarea revisando los rankings de referencia de Hugging Face y filtrando por límites del dispositivo y tamaño del modelo. Úsala para obtener recomendaciones de modelos en coding, reasoning, chat, OCR, RAG, speech, vision o trabajo multimodal cuando necesitas una shortlist práctica, no una lista genérica de modelos.

Model Evaluation

Favoritos 0GitHub 10.4k

libafl

por trailofbits

La skill de libafl te ayuda a planificar y construir fuzzers modulares con LibAFL para objetivos personalizados, estrategias de mutación y flujos de trabajo de auditoría de seguridad. Usa esta guía de libafl para pasar de los detalles del objetivo a un harness práctico, un modelo de feedback y un plan de ejecución con menos suposiciones.

Security Audit

Favoritos 0GitHub 5k

evaluation

por muratcankoylan

La skill evaluation te ayuda a diseñar y ejecutar evaluaciones de agentes para sistemas no deterministas. Úsala para planificar la instalación de evaluaciones, crear rúbricas, hacer comprobaciones de regresión, definir quality gates y realizar evaluation para Skill Testing. Encaja con flujos de trabajo LLM-as-judge, puntuación multidimensional y usos prácticos de evaluación cuando necesitas resultados repetibles.

Skill Testing

Favoritos 0GitHub 0

judge-with-debate

por NeoLabHQ

judge-with-debate evalúa soluciones mediante un debate multiagente estructurado, usando una especificación compartida, contraargumentos basados en evidencia y hasta 3 rondas para llegar a un consenso. Encaja bien para revisión de código, evaluación basada en rúbricas y flujos de trabajo de judge-with-debate para Multi-Agent Systems.

Multi-Agent Systems

Favoritos 0GitHub 982

gws-modelarmor

por googleworkspace

gws-modelarmor te ayuda a trabajar con Google Model Armor dentro del ecosistema googleworkspace/cli. Úsalo para sanitizar prompts, sanitizar respuestas del modelo y crear plantillas con menos improvisación que con un prompt genérico. Está pensado para un uso repetible, alineado con políticas, y para flujos de trabajo de Security Audit.

Security Audit

Favoritos 0GitHub 25.5k

analyzing-campaign-attribution-evidence

por mukul975

analyzing-campaign-attribution-evidence ayuda a los analistas a valorar el solapamiento de infraestructura, la coherencia con ATT&CK, la similitud del malware, la temporización y los artefactos lingüísticos para sustentar la atribución de campañas. Usa esta guía de analyzing-campaign-attribution-evidence para revisiones de CTI, análisis de incidentes y Security Audit.

Security Audit

Favoritos 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

por mukul975

detecting-ai-model-prompt-injection-attacks es una skill de ciberseguridad para filtrar texto no confiable antes de que llegue a un LLM. Usa regex en capas, puntuación heurística y clasificación basada en DeBERTa para detectar ataques directos e indirectos de prompt injection. Es útil para validación de entradas en chatbots, ingesta de documentos y threat modeling.

Threat Modeling

Favoritos 0GitHub 0

llm-evaluation

por wshobson

Usa la skill llm-evaluation para diseñar planes de evaluación repetibles para apps con LLM, prompts, sistemas RAG y cambios de modelo, con métricas, revisión humana, benchmarking y controles de regresión.

Model Evaluation

Favoritos 0GitHub 32.6k

ai-prompt-engineering-safety-review

por github

ai-prompt-engineering-safety-review es una skill de auditoría de prompts para revisar prompts de LLM en busca de riesgos de seguridad, sesgos, debilidades de seguridad y problemas de calidad de salida antes de su uso en producción, evaluación o entornos de cara al cliente.

Model Evaluation

Favoritos 0GitHub 27.8k

agentic-eval

por github

agentic-eval es una skill de GitHub Copilot que muestra cómo crear bucles de evaluación para salidas de IA mediante reflexión, crítica basada en rúbricas y patrones evaluator-optimizer.

Model Evaluation

Favoritos 0GitHub 27.8k

ml-pipeline-workflow

por wshobson

ml-pipeline-workflow es una guía práctica para diseñar pipelines MLOps de extremo a extremo para preparación de datos, entrenamiento, validación, despliegue y monitorización, con patrones de orquestación para automatizar flujos de trabajo repetibles.

Workflow Automation

Favoritos 0GitHub 0

frontend-design

por anthropics

frontend-design convierte ideas vagas de UI en interfaces distintivas y listas para producción, con código frontend real, una dirección estética clara y menos estilo genérico de IA.

UI Design

Favoritos 1GitHub 105.2k