A
agent-eval
por affaan-m
agent-eval es una skill para comparar agentes de código cara a cara en tareas reproducibles, midiendo tasa de éxito, coste, tiempo y consistencia. Usa la skill agent-eval para evaluar Claude Code, Aider, Codex u otro agente en tu propio repo con evidencia más clara que la que ofrecen los prompts ad hoc.
Model Evaluation
Favoritos 0GitHub 156k
