A
agent-eval
por affaan-m
agent-eval é uma skill para fazer benchmarking de agentes de código, comparando-os diretamente em tarefas reproduzíveis e analisando taxa de acerto, custo, tempo e consistência. Use a skill agent-eval para avaliar Claude Code, Aider, Codex ou outro agente no seu próprio repositório, com evidências mais claras do que prompts improvisados.
Model Evaluation
Favoritos 0GitHub 156k
