A
agent-eval
par affaan-m
agent-eval est une skill conçue pour benchmarker des agents de code en face à face sur des tâches reproductibles, en comparant le taux de réussite, le coût, le temps et la régularité. Utilisez la skill agent-eval pour évaluer Claude Code, Aider, Codex ou un autre agent dans votre propre dépôt, avec des éléments plus probants que de simples prompts ad hoc.
Model Evaluation
Favoris 0GitHub 156k
