agent-eval

por affaan-m

agent-eval es una skill para comparar agentes de código cara a cara en tareas reproducibles, midiendo tasa de éxito, coste, tiempo y consistencia. Usa la skill agent-eval para evaluar Claude Code, Aider, Codex u otro agente en tu propio repo con evidencia más clara que la que ofrecen los prompts ad hoc.

Estrellas156k

Favoritos0

Comentarios0

Agregado15 abr 2026

CategoríaModel Evaluation

Comando de instalación

npx skills add affaan-m/everything-claude-code --skill agent-eval

Puntuación editorial

Esta skill obtiene una puntuación de 78/100, lo que la convierte en una opción sólida en el directorio para quienes buscan una forma reproducible de comparar agentes de código. El repositorio ofrece suficiente detalle operativo para entender cuándo usarla y cómo funciona, aunque conviene revisar el código fuente antes de instalarla, ya que no incluye scripts de apoyo ni archivos de referencia.

78/100

Puntos fuertes

Casos de uso de activación claros para comparar agentes, hacer comprobaciones de regresión y apoyar decisiones de adopción de modelos o herramientas.
Elementos de flujo de trabajo concretos: definiciones de tareas en YAML, comprobaciones con judge y aislamiento con git worktree para comparaciones reproducibles.
Aporta un claro valor para decidir la instalación en equipos que buscan seleccionar agentes con datos, en lugar de comparaciones ad hoc.

Puntos a tener en cuenta

No se proporcionan comando de instalación, scripts ni archivos de soporte, por lo que la adopción sigue dependiendo de leer el archivo principal de la skill.
El repositorio parece centrarse en un único flujo de trabajo CLI y ligero; quienes necesiten una infraestructura de evaluación más amplia quizá prefieran más tooling.

Claude Code Codex Aider Git Cli Testing Workflow

Resumen

Visión general de la skill agent-eval

agent-eval es una skill para comparar agentes de programación cara a cara sobre la misma tarea y luego contrastar los resultados por tasa de éxito, coste, tiempo y consistencia. Si estás decidiendo si adoptar Claude Code, Aider, Codex u otro agente en un repositorio real, la skill agent-eval te ayuda a pasar de la opinión a la evidencia reproducible.

Es especialmente útil para equipos y usuarios avanzados que necesitan una comparación justa, no una prueba genérica de “dale un prompt y mira qué pasa”. El trabajo real que resuelve es definir una tarea una sola vez, ejecutar varios agentes contra la misma base y juzgar cuál rinde mejor dentro de tus restricciones.

Qué hace útil a agent-eval

El valor principal de agent-eval es la comparación controlada: mismo repo, misma tarea, mismas comprobaciones de éxito, worktrees separados. Eso hace que los resultados sean más fiables que pruebas improvisadas o prompts puntuales.

Cuándo encaja la skill

Usa la skill agent-eval cuando quieras:

comparar agentes antes de estandarizar un flujo de trabajo
comprobar si una actualización de modelo cambió los resultados
probar el rendimiento en tu propia base de código y tus propias reglas
reunir evidencia para una decisión de equipo o de compra

Cuándo puede no encajar

Si solo necesitas una respuesta puntual de programación, un prompt normal es más simple. agent-eval aporta más valor cuando te importan la repetibilidad, los criterios de evaluación y las compensaciones entre velocidad, calidad y coste.

Cómo usar la skill agent-eval

Instala e inspecciona la skill

Para instalar agent-eval, añade la skill desde el repo y lee primero el archivo principal de la skill:
npx skills add affaan-m/everything-claude-code --skill agent-eval

Después abre SKILL.md y cualquier contexto enlazado que uses en tu flujo de trabajo. En este repositorio, la fuente principal es el propio archivo de la skill, así que la decisión de instalación depende mucho de si su modelo de tareas encaja con tu proceso de evaluación.

Convierte un objetivo vago en una tarea utilizable

El uso de agent-eval funciona mejor cuando defines una tarea concreta, un repo objetivo y comprobaciones objetivas. Un prompt débil sería “prueba qué agente es mejor refactorizando”. Un prompt más sólido sería:

añadir lógica de reintentos a src/http_client.py
fijar el repo a un commit para que sea reproducible
especificar qué archivos pueden cambiar
definir comandos de juez como pytest o grep
indicar el tiempo o el coste máximo aceptable, si eso importa

Cuanto más se pueda verificar automáticamente la tarea, más útil será la comparación.

Flujo de trabajo recomendado

Una guía práctica para agent-eval es:

Elige una tarea que refleje una decisión real que necesites tomar.
Escribe la tarea en YAML con la ruta del repo, los archivos, el prompt y los jueces.
Ejecuta varios agentes sobre la misma tarea.
Compara la calidad del resultado, el tiempo de ejecución y el coste.
Repite con otra tarea antes de tomar una decisión final.

La skill usa aislamiento con git worktree, lo que ayuda a evitar que los agentes se pisen entre sí y hace más limpia la evaluación en paralelo.

Lee primero estos archivos

Empieza por:

SKILL.md para el formato de la tarea y el flujo de trabajo
cualquier archivo local del repo que defina tus reglas de prueba o de evaluación
los archivos mencionados en la definición YAML de tu tarea

Si estás evaluando agent-eval para Model Evaluation específicamente, confirma que tus tareas y tus jueces sean lo bastante estables como para producir ejecuciones comparables antes de invertir en benchmarks más grandes.

Preguntas frecuentes sobre la skill agent-eval

¿agent-eval es solo para benchmarks de agentes de programación?

Sí, principalmente. La skill está diseñada para comparar agentes de programación cara a cara, no para pruebas generales de prompts ni para benchmarks amplios de LLM.

¿Necesito Docker para usarla?

No. La skill usa aislamiento con git worktree, así que puedes mantener las ejecuciones separadas sin el sobrecoste de contenedores.

¿Es apta para principiantes?

Es accesible si puedes definir una tarea con claridad y ejecutar un flujo de trabajo desde la línea de comandos. Encaja menos con usuarios que quieren un evaluador de un solo clic sin configuración.

¿En qué se diferencia de un prompt normal?

Un prompt normal pide a un agente que resuelva una tarea. La skill agent-eval pide a varios agentes que resuelvan la misma tarea con jueces fijos, para que puedas comparar resultados con menos sesgo.

Cómo mejorar la skill agent-eval

Usa definiciones de tarea más sólidas

Los mejores resultados de agent-eval salen de tareas con entradas claras, límites de edición bien definidos y jueces objetivos. Si el prompt es demasiado abierto, la comparación medirá sobre todo diferencias de interpretación, no la calidad del agente.

Añade jueces que reflejen el éxito real

Prioriza comprobaciones que imiten cómo valida realmente tu equipo los cambios: tests, lint, diffs de archivos o comprobaciones de patrones. Si el juez es demasiado laxo, soluciones débiles pueden parecer buenas; si es demasiado estricto, puedes premiar trucos frágiles.

Itera sobre el benchmark, no sobre la respuesta

Si un agente gana por el motivo equivocado, revisa la tarea antes de sacar conclusiones. Ajusta la lista de archivos, aclara los criterios de aceptación y fija el commit para que la skill agent-eval mida siempre el mismo objetivo.

Vigila los fallos más comunes

Los errores más habituales son prompts vagos, jueces desalineados y tareas demasiado grandes para una comparación justa. Para un mejor uso de agent-eval, mantén el primer benchmark pequeño, reproducible y representativo del trabajo que de verdad quieres que hagan los agentes.

Calificaciones y reseñas

Aún no hay calificaciones

Comparte tu reseña

Inicia sesión para dejar una calificación y un comentario sobre esta skill.

0/10000

Reseñas más recientes

Guardando...

Más skills de esta categoría

evaluation-methodology

por wshobson

La skill evaluation-methodology explica la puntuación PluginEval para Model Evaluation, incluidas las capas, las rúbricas, la puntuación compuesta, los umbrales de insignias y la orientación práctica para interpretar resultados y mejorar las dimensiones más débiles.

Model Evaluation

Favoritos 0GitHub 32.6k

healthcare-eval-harness

por affaan-m

healthcare-eval-harness es un entorno de evaluación de seguridad del paciente para despliegues de aplicaciones sanitarias. Ayuda a los equipos a verificar la precisión de CDSS, la exposición de PHI, la integridad de los datos, el comportamiento del flujo clínico y el cumplimiento de integraciones antes de publicar. Los fallos críticos bloquean el despliegue, por lo que resulta útil para healthcare-eval-harness en evaluaciones de modelos y como puerta de seguridad en CI.

Model Evaluation

Favoritos 0GitHub 156.2k

eval-harness

por affaan-m

La skill eval-harness es un marco formal de evaluación para sesiones de Claude Code y el desarrollo guiado por evals. Te ayuda a definir criterios de aprobado/reprobado, crear evals de capacidad y de regresión, y medir la fiabilidad del agente antes de publicar cambios en prompts o flujos de trabajo.

Model Evaluation

Favoritos 0GitHub 156.1k

huggingface-community-evals

por huggingface

huggingface-community-evals te ayuda a ejecutar localmente evaluaciones de modelos de Hugging Face Hub con inspect-ai o lighteval. Úsalo para elegir backend, hacer pruebas rápidas y consultar una guía práctica de vLLM, Transformers o accelerate. No sirve para orquestación de HF Jobs, PRs de model cards, publicación de .eval_results ni automatización de community-evals.

Model Evaluation

Favoritos 0GitHub 10.4k

huggingface-best

por huggingface

La skill huggingface-best te ayuda a encontrar el mejor modelo para una tarea revisando los rankings de referencia de Hugging Face y filtrando por límites del dispositivo y tamaño del modelo. Úsala para obtener recomendaciones de modelos en coding, reasoning, chat, OCR, RAG, speech, vision o trabajo multimodal cuando necesitas una shortlist práctica, no una lista genérica de modelos.

Model Evaluation

Favoritos 0GitHub 10.4k

libafl

por trailofbits

La skill de libafl te ayuda a planificar y construir fuzzers modulares con LibAFL para objetivos personalizados, estrategias de mutación y flujos de trabajo de auditoría de seguridad. Usa esta guía de libafl para pasar de los detalles del objetivo a un harness práctico, un modelo de feedback y un plan de ejecución con menos suposiciones.

Security Audit

Favoritos 0GitHub 5k

evaluation

por muratcankoylan

La skill evaluation te ayuda a diseñar y ejecutar evaluaciones de agentes para sistemas no deterministas. Úsala para planificar la instalación de evaluaciones, crear rúbricas, hacer comprobaciones de regresión, definir quality gates y realizar evaluation para Skill Testing. Encaja con flujos de trabajo LLM-as-judge, puntuación multidimensional y usos prácticos de evaluación cuando necesitas resultados repetibles.

Skill Testing

Favoritos 0GitHub 0

judge-with-debate

por NeoLabHQ

judge-with-debate evalúa soluciones mediante un debate multiagente estructurado, usando una especificación compartida, contraargumentos basados en evidencia y hasta 3 rondas para llegar a un consenso. Encaja bien para revisión de código, evaluación basada en rúbricas y flujos de trabajo de judge-with-debate para Multi-Agent Systems.

Multi-Agent Systems

Favoritos 0GitHub 982

gws-modelarmor

por googleworkspace

gws-modelarmor te ayuda a trabajar con Google Model Armor dentro del ecosistema googleworkspace/cli. Úsalo para sanitizar prompts, sanitizar respuestas del modelo y crear plantillas con menos improvisación que con un prompt genérico. Está pensado para un uso repetible, alineado con políticas, y para flujos de trabajo de Security Audit.

Security Audit

Favoritos 0GitHub 25.5k

analyzing-campaign-attribution-evidence

por mukul975

analyzing-campaign-attribution-evidence ayuda a los analistas a valorar el solapamiento de infraestructura, la coherencia con ATT&CK, la similitud del malware, la temporización y los artefactos lingüísticos para sustentar la atribución de campañas. Usa esta guía de analyzing-campaign-attribution-evidence para revisiones de CTI, análisis de incidentes y Security Audit.

Security Audit

Favoritos 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

por mukul975

detecting-ai-model-prompt-injection-attacks es una skill de ciberseguridad para filtrar texto no confiable antes de que llegue a un LLM. Usa regex en capas, puntuación heurística y clasificación basada en DeBERTa para detectar ataques directos e indirectos de prompt injection. Es útil para validación de entradas en chatbots, ingesta de documentos y threat modeling.

Threat Modeling

Favoritos 0GitHub 0

llm-evaluation

por wshobson

Usa la skill llm-evaluation para diseñar planes de evaluación repetibles para apps con LLM, prompts, sistemas RAG y cambios de modelo, con métricas, revisión humana, benchmarking y controles de regresión.

Model Evaluation

Favoritos 0GitHub 32.6k

ai-prompt-engineering-safety-review

por github

ai-prompt-engineering-safety-review es una skill de auditoría de prompts para revisar prompts de LLM en busca de riesgos de seguridad, sesgos, debilidades de seguridad y problemas de calidad de salida antes de su uso en producción, evaluación o entornos de cara al cliente.

Model Evaluation

Favoritos 0GitHub 27.8k

agentic-eval

por github

agentic-eval es una skill de GitHub Copilot que muestra cómo crear bucles de evaluación para salidas de IA mediante reflexión, crítica basada en rúbricas y patrones evaluator-optimizer.

Model Evaluation

Favoritos 0GitHub 27.8k

ml-pipeline-workflow

por wshobson

ml-pipeline-workflow es una guía práctica para diseñar pipelines MLOps de extremo a extremo para preparación de datos, entrenamiento, validación, despliegue y monitorización, con patrones de orquestación para automatizar flujos de trabajo repetibles.

Workflow Automation

Favoritos 0GitHub 0

frontend-design

por anthropics

frontend-design convierte ideas vagas de UI en interfaces distintivas y listas para producción, con código frontend real, una dirección estética clara y menos estilo genérico de IA.

UI Design

Favoritos 1GitHub 105.2k