Aagent-eval作者 affaan-magent-eval 是一项用于对编码 agent 进行基准测试的技能,支持在可复现任务上让多个 agent 直接对比,评估通过率、成本、耗时和一致性。你可以用 agent-eval 在自己的 repo 中评估 Claude Code、Aider、Codex 或其他 agent,并获得比临时提问更清晰的证据。模型评测收藏 0GitHub 156k