agent-eval

作者 affaan-m

agent-eval 是一项用于对编码 agent 进行基准测试的技能，支持在可复现任务上让多个 agent 直接对比，评估通过率、成本、耗时和一致性。你可以用 agent-eval 在自己的 repo 中评估 Claude Code、Aider、Codex 或其他 agent，并获得比临时提问更清晰的证据。

Stars156k

收录时间2026年4月15日

分类模型评测

安装命令

npx skills add affaan-m/everything-claude-code --skill agent-eval

编辑评分

该技能评分为 78/100，说明它是一个不错的目录收录候选，适合希望用可复现方法比较编码 agent 的用户。仓库提供了足够的运行细节，能帮助判断何时使用以及工作方式，但由于没有配套脚本或参考文件，用户在安装前仍应先阅读源码。

78/100

亮点

激活场景清晰：适合做 agent 对比、回归检查，以及模型/工具选型决策。
工作流要素具体：包含 YAML 任务定义、judge 检查，以及通过 git worktree 隔离环境以实现可复现比较。
对需要用数据而非临时对比来选择 agent 的团队，安装决策价值很高。

注意点

没有提供安装命令、脚本或支持文件，因此是否采用仍取决于先阅读主技能文件。
仓库看起来主要面向一个轻量级 CLI 工作流；如果需要更完整的评测基础设施，可能还要额外补充工具。

Claude Code Codex Aider Git Cli 测试工作流

概览

agent-eval 技能概览

agent-eval 是一项用于把多个 coding agent 在同一任务上正面对比的技能，然后按通过率、成本、耗时和一致性来比较结果。如果你正在评估是否要在真实仓库里采用 Claude Code、Aider、Codex 或其他 agent，agent-eval skill 可以帮你把主观判断转成可复现的证据。

它最适合需要公平对比的团队和重度用户，而不是那种“随便发个 prompt 看看”的泛测试场景。它真正要解决的任务是：只定义一次任务，让多个 agent 在同一个基线下运行，再结合你的约束条件判断谁表现最好。

agent-eval 的价值在哪里

agent-eval 的核心价值是可控对比：同一个 repo、同一个任务、同一组成功检查、彼此分离的 worktree。这样得到的结果，比临时试跑或一次性 prompt 更值得信赖。

agent-eval skill 适合什么场景

在你想要以下目标时，使用 agent-eval skill：

在标准化工作流之前比较不同 agent
检查模型更新是否改变了结果
在自己的代码库和规则上测试表现
为团队决策或采购选择收集依据

agent-eval skill 什么时候不太适合

如果你只需要一个单独的编码答案，普通 prompt 会更简单。agent-eval 的价值主要体现在你关心可重复性、评估标准，以及速度、质量和成本之间的权衡时。

如何使用 agent-eval skill

安装并检查 agent-eval skill

要进行 agent-eval 安装，先从 repo 里添加这个 skill，并先阅读核心 skill 文件：
npx skills add affaan-m/everything-claude-code --skill agent-eval

然后打开 SKILL.md 以及你工作流中会用到的任何关联上下文。在这个 repository 里，主要信息源就是 skill 文件本身，所以是否值得安装，关键取决于它的任务模型是否符合你的评估流程。

把模糊目标变成可用任务

agent-eval usage 最有效的方式，是把任务定义得足够具体：明确任务、目标 repo 和客观检查项。一个弱 prompt 是“测试哪个 agent 更擅长重构”。一个更强的 prompt 会像这样：

给 src/http_client.py 增加重试逻辑
将 repo 锁定到某个 commit 以保证可复现
指定允许修改的文件
定义诸如 pytest 或 grep 之类的 judge 命令
如果有时间或成本上限，也要写清楚

任务越能被自动验证，这种对比就越有用。

先读这些文件

先从这些内容开始：

SKILL.md，了解任务格式和工作流
任何定义测试或判定规则的 repo-local 文件
你的 YAML 任务定义里点名的文件

如果你是在为 Model Evaluation 评估 agent-eval，那么在投入更大规模 benchmark 之前，先确认你的任务和 judges 足够稳定，能够产出可比较的运行结果。

agent-eval skill 常见问题

agent-eval 只是给 coding-agent benchmark 用的吗？

是的，主要就是如此。这个 skill 设计的目标是 coding agent 的正面对比，不是通用 prompt 测试，也不是大范围的 LLM benchmarking。

使用它需要 Docker 吗？

不需要。这个 skill 依赖 git worktree isolation，所以你可以在不增加 container 开销的情况下把不同运行分开。

它适合新手吗？

如果你能清楚定义任务，并能跑命令行工作流，它就比较容易上手。对于想要“一键评估器”、而且完全不想做任何设置的用户来说，它没那么合适。

它和普通 prompt 有什么区别？

普通 prompt 是让一个 agent 解一个任务。agent-eval skill 是让多个 agent 在固定 judges 下解同一个任务，这样你就能用更少偏差比较结果。

如何改进 agent-eval skill

用更强的任务定义

agent-eval 最好的结果，来自输入明确、编辑边界清晰、judge 客观的任务。如果 prompt 过于开放，对比结果大概率只是在测解释差异，而不是 agent 本身的能力。

添加能反映真实成功标准的 judges

优先使用能贴近团队真实验证方式的检查：测试、lint、文件 diff 或模式匹配检查。如果 judge 太宽松，弱方案也可能看起来不错；如果 judge 太苛刻，又可能奖励脆弱的投机改法。

优化 benchmark 本身，而不是急着下结论

如果某个 agent 以错误理由胜出，先改任务，再下结论。收紧文件列表，明确验收标准，并锁定 commit，这样 agent-eval skill 每次测到的都是同一个目标。

关注常见失败模式

最常见的问题是：prompt 太模糊、judges 不匹配、任务太大，导致无法公平比较。想更好地使用 agent-eval，就把第一轮 benchmark 做得小、可复现，并且能代表你真正希望 agent 去做的工作。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

evaluation-methodology

作者 wshobson

evaluation-methodology 技能说明了用于 Model Evaluation 的 PluginEval 评分方法，包括评估层级、评分 rubric、综合评分、徽章阈值，以及如何解读结果并改进薄弱维度的实用建议。

模型评测

收藏 0GitHub 32.6k

healthcare-eval-harness

作者 affaan-m

healthcare-eval-harness 是面向医疗应用部署的患者安全评估 harness。它帮助团队在发布前验证 CDSS 准确性、PHI 暴露、数据完整性、临床工作流行为以及集成合规性。严重失败会阻止部署，因此它很适合用于 Model Evaluation 和 CI 安全门禁中的 healthcare-eval-harness。

模型评测

收藏 0GitHub 156.2k

eval-harness

作者 affaan-m

eval-harness 技能是面向 Claude Code 会话和 eval 驱动开发的正式评估框架。它可以帮助你定义通过/失败标准，构建能力评估和回归评估，并在发布 prompt 或工作流变更前衡量 agent 的可靠性。

模型评测

收藏 0GitHub 156.1k

huggingface-community-evals

作者 huggingface

huggingface-community-evals 可帮助你在本地使用 inspect-ai 或 lighteval 运行 Hugging Face Hub 模型评测。适合做后端选择、冒烟测试，以及了解 vLLM、Transformers 或 accelerate 的实用选型指引。不适用于 HF Jobs 编排、model-card PR、.eval_results 发布或 community-evals 自动化。

模型评测

收藏 0GitHub 10.4k

huggingface-best

作者 huggingface

huggingface-best 技能通过查看 Hugging Face 基准排行榜，并结合设备限制和模型大小进行筛选，帮助你为具体任务找到最合适的模型。适用于编码、推理、聊天、OCR、RAG、语音、视觉或多模态场景下的模型推荐，尤其是在你需要一份实用的候选清单，而不是泛泛的模型列表时。

模型评测

收藏 0GitHub 10.4k

libafl

作者 trailofbits

libafl 技能可帮助你使用 LibAFL 为自定义目标、变异策略和安全审计流程规划并构建模块化 fuzzers。借助这份 libafl 指南，你可以更少假设地，从目标细节推进到可落地的 harness、反馈模型和运行计划。

安全审计

收藏 0GitHub 5k

evaluation

作者 muratcankoylan

evaluation 技能可帮助你为非确定性系统设计并执行 agent 评估。适用于评估安装规划、评分标准、回归检查、质量门禁，以及 Skill Testing 场景下的评估；也适合 LLM-as-judge 工作流、多维度打分，以及需要可重复结果的实际评估使用。

Skill 测试

收藏 0GitHub 0

judge-with-debate

作者 NeoLabHQ

judge-with-debate 通过结构化的多智能体辩论来评估解决方案，使用共享规范、基于证据的反驳，以及最多 3 轮讨论达成共识。它非常适合代码审查、基于评分标准的评估，以及 Multi-Agent Systems 工作流中的 judge-with-debate。

多 Agent 系统

收藏 0GitHub 982

gws-modelarmor

作者 googleworkspace

gws-modelarmor 帮助你在 googleworkspace/cli 生态中使用 Google Model Armor。它可用于净化提示词、净化模型响应，并以比通用 prompt 更少的猜测来创建模板。该技能面向可重复、符合策略要求的使用场景，以及 Security Audit 工作流。

安全审计

收藏 0GitHub 25.5k

analyzing-campaign-attribution-evidence

作者 mukul975

analyzing-campaign-attribution-evidence 帮助分析师综合评估基础设施重叠、ATT&CK 一致性、恶意软件相似性、时间线和语言痕迹，以形成更有依据的 campaign 归因结论。适用于 CTI、事件分析和 Security Audit 复核的 analyzing-campaign-attribution-evidence 指南。

安全审计

收藏 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

作者 mukul975

detecting-ai-model-prompt-injection-attacks 是一项网络安全技能，用于在未受信文本进入 LLM 之前进行筛查。它结合分层 regex、启发式评分和基于 DeBERTa 的分类，识别直接和间接的 prompt injection 攻击。适用于 chatbot 输入校验、文档摄取和 Threat Modeling。

威胁建模

收藏 0GitHub 0

llm-evaluation

作者 wshobson

使用 llm-evaluation skill，为 LLM 应用、提示词、RAG 系统和模型变更设计可重复执行的评估方案，覆盖指标、人审、基准测试与回归检查。

模型评测

收藏 0GitHub 32.6k

ai-prompt-engineering-safety-review

作者 github

ai-prompt-engineering-safety-review 是一项用于提示词审计的技能，可在生产环境、评估流程或面向客户使用前，审查 LLM 提示词在安全性、偏见、安全弱点和输出质量方面的风险。

模型评测

收藏 0GitHub 27.8k

agentic-eval

作者 github

agentic-eval 是一个 GitHub Copilot skill，展示如何通过反思、基于 rubric 的评审，以及 evaluator-optimizer 模式，为 AI 输出构建评估循环。

模型评测

收藏 0GitHub 27.8k

ml-pipeline-workflow

作者 wshobson

ml-pipeline-workflow 是一份实用指南，帮助你设计覆盖数据准备、训练、验证、部署与监控的端到端 MLOps 流水线，并提供适合构建可重复工作流自动化的编排模式。

工作流自动化

收藏 0GitHub 0

frontend-design

作者 anthropics

frontend-design 帮你把模糊的 UI 想法，转化为有审美导向的量产级界面，实现真实可用的前端代码，而不是千篇一律的 AI 风格。

UI 设计

收藏 1GitHub 105.2k

agent-eval

agent-eval 技能概览

agent-eval 的价值在哪里

agent-eval skill 适合什么场景

agent-eval skill 什么时候不太适合

如何使用 agent-eval skill

安装并检查 agent-eval skill

把模糊目标变成可用任务

推荐工作流

先读这些文件

agent-eval skill 常见问题

agent-eval 只是给 coding-agent benchmark 用的吗？

使用它需要 Docker 吗？

它适合新手吗？

它和普通 prompt 有什么区别？

如何改进 agent-eval skill

用更强的任务定义

添加能反映真实成功标准的 judges

优化 benchmark 本身，而不是急着下结论

关注常见失败模式

评分与评论