agent-eval
作者 affaan-magent-eval 是一项用于对编码 agent 进行基准测试的技能,支持在可复现任务上让多个 agent 直接对比,评估通过率、成本、耗时和一致性。你可以用 agent-eval 在自己的 repo 中评估 Claude Code、Aider、Codex 或其他 agent,并获得比临时提问更清晰的证据。
该技能评分为 78/100,说明它是一个不错的目录收录候选,适合希望用可复现方法比较编码 agent 的用户。仓库提供了足够的运行细节,能帮助判断何时使用以及工作方式,但由于没有配套脚本或参考文件,用户在安装前仍应先阅读源码。
- 激活场景清晰:适合做 agent 对比、回归检查,以及模型/工具选型决策。
- 工作流要素具体:包含 YAML 任务定义、judge 检查,以及通过 git worktree 隔离环境以实现可复现比较。
- 对需要用数据而非临时对比来选择 agent 的团队,安装决策价值很高。
- 没有提供安装命令、脚本或支持文件,因此是否采用仍取决于先阅读主技能文件。
- 仓库看起来主要面向一个轻量级 CLI 工作流;如果需要更完整的评测基础设施,可能还要额外补充工具。
agent-eval 技能概览
agent-eval 是一项用于把多个 coding agent 在同一任务上正面对比的技能,然后按通过率、成本、耗时和一致性来比较结果。如果你正在评估是否要在真实仓库里采用 Claude Code、Aider、Codex 或其他 agent,agent-eval skill 可以帮你把主观判断转成可复现的证据。
它最适合需要公平对比的团队和重度用户,而不是那种“随便发个 prompt 看看”的泛测试场景。它真正要解决的任务是:只定义一次任务,让多个 agent 在同一个基线下运行,再结合你的约束条件判断谁表现最好。
agent-eval 的价值在哪里
agent-eval 的核心价值是可控对比:同一个 repo、同一个任务、同一组成功检查、彼此分离的 worktree。这样得到的结果,比临时试跑或一次性 prompt 更值得信赖。
agent-eval skill 适合什么场景
在你想要以下目标时,使用 agent-eval skill:
- 在标准化工作流之前比较不同 agent
- 检查模型更新是否改变了结果
- 在自己的代码库和规则上测试表现
- 为团队决策或采购选择收集依据
agent-eval skill 什么时候不太适合
如果你只需要一个单独的编码答案,普通 prompt 会更简单。agent-eval 的价值主要体现在你关心可重复性、评估标准,以及速度、质量和成本之间的权衡时。
如何使用 agent-eval skill
安装并检查 agent-eval skill
要进行 agent-eval 安装,先从 repo 里添加这个 skill,并先阅读核心 skill 文件:
npx skills add affaan-m/everything-claude-code --skill agent-eval
然后打开 SKILL.md 以及你工作流中会用到的任何关联上下文。在这个 repository 里,主要信息源就是 skill 文件本身,所以是否值得安装,关键取决于它的任务模型是否符合你的评估流程。
把模糊目标变成可用任务
agent-eval usage 最有效的方式,是把任务定义得足够具体:明确任务、目标 repo 和客观检查项。一个弱 prompt 是“测试哪个 agent 更擅长重构”。一个更强的 prompt 会像这样:
- 给
src/http_client.py增加重试逻辑 - 将 repo 锁定到某个 commit 以保证可复现
- 指定允许修改的文件
- 定义诸如
pytest或grep之类的 judge 命令 - 如果有时间或成本上限,也要写清楚
任务越能被自动验证,这种对比就越有用。
推荐工作流
一个实用的 agent-eval guide 可以这样做:
- 选一个能反映你真实决策需求的任务。
- 用 YAML 写出任务,包括 repo path、文件、prompt 和 judges。
- 在同一任务上运行多个 agent。
- 对比输出质量、执行时间和成本。
- 在做最终选择前,再用另一个任务重复一轮。
这个 skill 使用 git worktree isolation,能避免不同 agent 互相覆盖改动,也让并排评估更干净。
先读这些文件
先从这些内容开始:
SKILL.md,了解任务格式和工作流- 任何定义测试或判定规则的 repo-local 文件
- 你的 YAML 任务定义里点名的文件
如果你是在为 Model Evaluation 评估 agent-eval,那么在投入更大规模 benchmark 之前,先确认你的任务和 judges 足够稳定,能够产出可比较的运行结果。
agent-eval skill 常见问题
agent-eval 只是给 coding-agent benchmark 用的吗?
是的,主要就是如此。这个 skill 设计的目标是 coding agent 的正面对比,不是通用 prompt 测试,也不是大范围的 LLM benchmarking。
使用它需要 Docker 吗?
不需要。这个 skill 依赖 git worktree isolation,所以你可以在不增加 container 开销的情况下把不同运行分开。
它适合新手吗?
如果你能清楚定义任务,并能跑命令行工作流,它就比较容易上手。对于想要“一键评估器”、而且完全不想做任何设置的用户来说,它没那么合适。
它和普通 prompt 有什么区别?
普通 prompt 是让一个 agent 解一个任务。agent-eval skill 是让多个 agent 在固定 judges 下解同一个任务,这样你就能用更少偏差比较结果。
如何改进 agent-eval skill
用更强的任务定义
agent-eval 最好的结果,来自输入明确、编辑边界清晰、judge 客观的任务。如果 prompt 过于开放,对比结果大概率只是在测解释差异,而不是 agent 本身的能力。
添加能反映真实成功标准的 judges
优先使用能贴近团队真实验证方式的检查:测试、lint、文件 diff 或模式匹配检查。如果 judge 太宽松,弱方案也可能看起来不错;如果 judge 太苛刻,又可能奖励脆弱的投机改法。
优化 benchmark 本身,而不是急着下结论
如果某个 agent 以错误理由胜出,先改任务,再下结论。收紧文件列表,明确验收标准,并锁定 commit,这样 agent-eval skill 每次测到的都是同一个目标。
关注常见失败模式
最常见的问题是:prompt 太模糊、judges 不匹配、任务太大,导致无法公平比较。想更好地使用 agent-eval,就把第一轮 benchmark 做得小、可复现,并且能代表你真正希望 agent 去做的工作。
