eval-harness

作者 affaan-m

eval-harness 技能是面向 Claude Code 会话和 eval 驱动开发的正式评估框架。它可以帮助你定义通过/失败标准，构建能力评估和回归评估，并在发布 prompt 或工作流变更前衡量 agent 的可靠性。

Stars156.1k

收录时间2026年4月15日

分类模型评测

安装命令

npx skills add affaan-m/everything-claude-code --skill eval-harness

编辑评分

该技能得分 78/100，说明它是一个相当扎实的目录候选项，对进行 eval 驱动开发的 agent 有实际工作价值。用户通常能快速触发并理解它的用途，不过它更偏文档型技能，而不是依赖辅助脚本或内置参考资料的方案。

78/100

亮点

面向 EDD 搭建、通过/失败标准、回归评估和基准测试的触发场景清晰
包含较丰富的操作内容，提供结构化的评估与评分模板，以及多个工作流部分
frontmatter 和明确的“何时激活”指引触发性强，便于快速判断安装意图

注意点

没有安装命令、脚本或支持文件，因此采用与落地主要依赖手动阅读并执行 markdown 指引
未附带参考资料/资源/测试，这会降低那些希望直接拿来用的 evaluation harness 用户的信任感

Claude Code Evaluation 测试 Regression Testing Pr Github Code

概览

eval-harness 技能概览

eval-harness 的作用

eval-harness 技能是一套面向 Claude Code 会话和 eval 驱动开发的正式评估框架。它帮助你在发布前先定义“什么算好”，再衡量某个 agent、prompt 或工作流是否真的达到这个标准。

谁适合使用它

如果你需要对 AI 辅助编码、prompt 调整或 agent 行为做可重复的检查，就适合使用 eval-harness 技能。它尤其适合用来比较不同模型版本、追踪回归问题，或者把模糊的任务预期转成明确的通过/失败标准。

为什么它重要

eval-harness for Model Evaluation 的核心价值是可靠性：它不是凭感觉判断结果，而是通过编写 eval 来暴露行为变化。这样更容易排查 agent 性能问题、对比不同运行结果，也能避免发布那些会悄悄拉低质量的 prompt 更新。

什么时候最适合用

当任务可以表达为可观察的成功标准、输出结构，或者带检查点的行为时，它最有用。若是开放式创意工作，除非你仍然能定义可衡量的验收条件，否则它的作用会明显下降。

如何使用 eval-harness 技能

安装并启用

进行 eval-harness install 时，先在你的 Claude Code 环境里走仓库提供的技能安装流程，然后直接打开技能文件。该技能位于 skills/eval-harness/SKILL.md，这是第一份要读的文件，因为它定义了何时启用这个框架，以及 eval 应该如何组织。

先构建一个技能可以评估的 prompt

如果要做好 eval-harness usage，不要一上来就说“测试我的 agent”。先给出具体目标，比如：agent 必须完成什么任务，什么算成功，什么算失败，以及你是在检查能力还是回归。更好的输入可以是：“评估 agent 能否在不破坏校验逻辑的前提下更新一个 React 表单，并要求给出三个明确的成功标准。”这样 harness 才有可衡量的内容。

先读对的文件

如果你是在自己的工作流里采用 eval-harness guide 这种方式，先读 SKILL.md，再查看仓库中任何描述评估风格、评分逻辑或输出约定的说明。在这个仓库里，没有辅助脚本或额外的支持目录，所以技能文件本身就是唯一的事实来源。

在实际工作流中使用它

一个比较稳妥的工作流是：先定义行为，再为 happy path 写一个 eval，接着为已知失败点补一个回归 eval，然后运行 harness 并收紧标准。这样既能让 eval 保持足够小、便于调试，也能减少把测试写得过于宽泛、最后难以解释的风险。

eval-harness 技能 FAQ

eval-harness 只适用于 Claude Code 吗？

不是。这个技能是围绕 Claude Code 会话编写的，但其底层方法在任何需要结构化 agent 评估的场景里都适用。如果你的技术栈使用的是别的工具，也可以沿用相同的 eval 格式和评分逻辑。

eval-harness 和普通 prompt 是一回事吗？

不是。普通 prompt 是要求给出一个答案；eval-harness 要求的是一套可重复判断答案的方法。当你需要的是跨版本的一致性，而不只是某一次答得好，这个区别就非常关键。

它适合新手吗？

适合，只要你能把任务描述清楚。真正难的不是语法，而是如何写出好的成功标准。新手通常从一个简单的能力 eval 开始，会比试图一次性建模整个工作流更容易上手。

什么时候不该用它？

如果工作高度主观、输出无法稳定一致地检查，或者你只需要一次性答案，就可以跳过 eval-harness。当真正目标是可靠性、回归追踪或模型比较时，它的优势才最明显。

如何改进 eval-harness 技能

让标准变得可观察

最大的质量提升来自把判断变成检查。把“做得更好”改成类似“保留现有 API 形状”“返回合法 JSON”“通过全部三个回归用例”这样的条件。标准越可观察，eval-harness 就越容易运行，也越值得信任。

区分能力和回归

如果把新功能检查和旧行为检查混在一起，失败结果就会很难解读。能力 eval 应该聚焦 Claude 能不能做成某个新事情，回归 eval 则应该聚焦某个已知基线是否仍然成立。

给 harness 真正的边界案例

更强的 eval 不只包含 happy path，也要包含失败模式。加入棘手输入、上下文不完整或指令含糊的情况，才能让 eval-harness skill 暴露出 agent 到底是真稳健，还是只是在干净样例上运气好。

第一次运行后继续迭代

把第一次运行当作校准，而不是结论。如果结果不够清楚，就收紧成功标准、补一个基线，或者把一个过宽的 eval 拆成更小的检查项。通常这也是提升 eval-harness usage、拿到真正可行动结果的最快方式。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

evaluation-methodology

作者 wshobson

evaluation-methodology 技能说明了用于 Model Evaluation 的 PluginEval 评分方法，包括评估层级、评分 rubric、综合评分、徽章阈值，以及如何解读结果并改进薄弱维度的实用建议。

模型评测

收藏 0GitHub 32.6k

self-eval

作者 alirezarezvani

self-eval 是一个纯 prompt 的 Claude Code skill，用于在工作完成后进行诚实复盘。它通过双轴评分、devil's advocate reasoning、评分持久化和反膨胀检查，在任务、代码审查或工作会话结束后评估 AI 工作质量。

模型评测

收藏 0GitHub 22.2k

healthcare-eval-harness

作者 affaan-m

healthcare-eval-harness 是面向医疗应用部署的患者安全评估 harness。它帮助团队在发布前验证 CDSS 准确性、PHI 暴露、数据完整性、临床工作流行为以及集成合规性。严重失败会阻止部署，因此它很适合用于 Model Evaluation 和 CI 安全门禁中的 healthcare-eval-harness。

模型评测

收藏 0GitHub 156.2k

agent-eval

作者 affaan-m

agent-eval 是一项用于对编码 agent 进行基准测试的技能，支持在可复现任务上让多个 agent 直接对比，评估通过率、成本、耗时和一致性。你可以用 agent-eval 在自己的 repo 中评估 Claude Code、Aider、Codex 或其他 agent，并获得比临时提问更清晰的证据。

模型评测

收藏 0GitHub 156k

huggingface-community-evals

作者 huggingface

huggingface-community-evals 可帮助你在本地使用 inspect-ai 或 lighteval 运行 Hugging Face Hub 模型评测。适合做后端选择、冒烟测试，以及了解 vLLM、Transformers 或 accelerate 的实用选型指引。不适用于 HF Jobs 编排、model-card PR、.eval_results 发布或 community-evals 自动化。

模型评测

收藏 0GitHub 10.4k

huggingface-best

作者 huggingface

huggingface-best 技能通过查看 Hugging Face 基准排行榜，并结合设备限制和模型大小进行筛选，帮助你为具体任务找到最合适的模型。适用于编码、推理、聊天、OCR、RAG、语音、视觉或多模态场景下的模型推荐，尤其是在你需要一份实用的候选清单，而不是泛泛的模型列表时。

模型评测

收藏 0GitHub 10.4k

libafl

作者 trailofbits

libafl 技能可帮助你使用 LibAFL 为自定义目标、变异策略和安全审计流程规划并构建模块化 fuzzers。借助这份 libafl 指南，你可以更少假设地，从目标细节推进到可落地的 harness、反馈模型和运行计划。

安全审计

收藏 0GitHub 5k

evaluation

作者 muratcankoylan

evaluation 技能可帮助你为非确定性系统设计并执行 agent 评估。适用于评估安装规划、评分标准、回归检查、质量门禁，以及 Skill Testing 场景下的评估；也适合 LLM-as-judge 工作流、多维度打分，以及需要可重复结果的实际评估使用。

Skill 测试

收藏 0GitHub 0

judge-with-debate

作者 NeoLabHQ

judge-with-debate 通过结构化的多智能体辩论来评估解决方案，使用共享规范、基于证据的反驳，以及最多 3 轮讨论达成共识。它非常适合代码审查、基于评分标准的评估，以及 Multi-Agent Systems 工作流中的 judge-with-debate。

多 Agent 系统

收藏 0GitHub 982

gws-modelarmor

作者 googleworkspace

gws-modelarmor 帮助你在 googleworkspace/cli 生态中使用 Google Model Armor。它可用于净化提示词、净化模型响应，并以比通用 prompt 更少的猜测来创建模板。该技能面向可重复、符合策略要求的使用场景，以及 Security Audit 工作流。

安全审计

收藏 0GitHub 25.5k

analyzing-campaign-attribution-evidence

作者 mukul975

analyzing-campaign-attribution-evidence 帮助分析师综合评估基础设施重叠、ATT&CK 一致性、恶意软件相似性、时间线和语言痕迹，以形成更有依据的 campaign 归因结论。适用于 CTI、事件分析和 Security Audit 复核的 analyzing-campaign-attribution-evidence 指南。

安全审计

收藏 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

作者 mukul975

detecting-ai-model-prompt-injection-attacks 是一项网络安全技能，用于在未受信文本进入 LLM 之前进行筛查。它结合分层 regex、启发式评分和基于 DeBERTa 的分类，识别直接和间接的 prompt injection 攻击。适用于 chatbot 输入校验、文档摄取和 Threat Modeling。

威胁建模

收藏 0GitHub 0

honeyhive-automation

作者 ComposioHQ

honeyhive-automation 可帮助 Claude 通过 Composio Rube MCP 自动化 Honeyhive 工作流，并在执行操作前完成设置检查、有效连接验证以及基于 schema 优先的工具发现。

工作流自动化

收藏 0GitHub 67.5k

llm-evaluation

作者 wshobson

使用 llm-evaluation skill，为 LLM 应用、提示词、RAG 系统和模型变更设计可重复执行的评估方案，覆盖指标、人审、基准测试与回归检查。

模型评测

收藏 0GitHub 32.6k

ai-prompt-engineering-safety-review

作者 github

ai-prompt-engineering-safety-review 是一项用于提示词审计的技能，可在生产环境、评估流程或面向客户使用前，审查 LLM 提示词在安全性、偏见、安全弱点和输出质量方面的风险。

模型评测

收藏 0GitHub 27.8k

agentic-eval

作者 github

agentic-eval 是一个 GitHub Copilot skill，展示如何通过反思、基于 rubric 的评审，以及 evaluator-optimizer 模式，为 AI 输出构建评估循环。

模型评测

收藏 0GitHub 27.8k