agentic-eval

agentic-eval 是一个 GitHub Copilot skill，展示如何通过反思、基于 rubric 的评审，以及 evaluator-optimizer 模式，为 AI 输出构建评估循环。

Stars27.8k

收录时间2026年3月31日

分类模型评测

安装命令

npx skills add github/awesome-copilot --skill agentic-eval

编辑评分

该 skill 评分为 68/100，意味着对于想查找可复用评估模式的目录用户来说，它值得收录；但你应预期这更像一份偏概念的方法指南，而不是开箱即用、附带可执行资源的 skill。仓库提供了足够的信息，帮助理解何时调用它，以及它支持哪些 evaluator-refiner 循环类型；不过用户仍需要把这些模式自行转化为适合自身工具链和 prompts 的实现。

68/100

亮点

触发线索清晰，frontmatter 和示例都很有帮助：它明确提到 self-critique、evaluator-optimizer pipelines、基于 rubric 的判定，以及迭代式质量改进等使用场景。
通过多种已文档化的模式提供了实际工作流价值，包括基础的 reflection loop 以及其他 agentic evaluation 方法，而不只是停留在占位式说明。
结构具备渐进性：概览、适用场景说明以及带代码围栏的示例，有助于代理和用户快速理解预期的评估循环。

注意点

由于缺少安装说明、配套支持文件或可直接运行的参考内容，实际落地的操作清晰度有限，采用时需要手动适配。
该 skill 看起来更偏向模式说明而非特定环境实现，几乎没有提供关于约束条件、失败模式，或在实践中如何选择不同模式的明确信息。

Copilot 测试 Llm Ai Agents 工作流

概览

agentic-eval skill 概览

agentic-eval 的作用是什么

agentic-eval skill 是一份很精炼的指南，核心在于把“评估循环”嵌入 AI 工作流，而不是拿到第一版结果就直接接受。它做的事情其实很直接：先生成初始输出，按照明确标准进行判断，再经过一轮或多轮改进优化。如果你在做代码生成、结构化分析、报告撰写，或任何对质量较敏感的任务，agentic-eval 能帮助你把“一次生成”升级为“生成、评估、改进”。

谁适合安装 agentic-eval

这个 skill 更适合已经在生产相关场景中使用 AI、并且需要比普通 prompt 更高可靠性的构建者。尤其适合：

给 coding agents 加入自我审查能力的开发者
设计 evaluator-optimizer 流水线的团队
搭建基于 rubric 的审阅流程的用户
进行模型评估，且输出质量可以依据明确标准检查的使用者

它真正解决的工作问题

大多数用户并不缺一个通用的 prompting 模板，他们真正需要的是一套可重复的方法，用来：

定义什么叫“好”
按照这个标准评估答案
根据具体缺口进行修订
在达到可接受质量或固定迭代次数后停止

这正是 agentic-eval for Model Evaluation 最有价值的地方：它提供了一种轻量、可控的改进循环模式。

这个 skill 的不同之处

agentic-eval 的价值不在于“大而全”，而在于“聚焦”。这个仓库并没有做成一个庞大的框架，而是围绕几种实用的评估模式展开，因此很容易快速接入你现有的 agent 或 prompt 工作流。它的主要差异点包括：

显式的反思循环
evaluator-optimizer 的思路
适合 rubric 驱动的输出
能直接用于类似测试或标准约束下的迭代优化

什么时候 agentic-eval 特别适合

当任务有可检查的成功标准时，就很适合使用 agentic-eval skill，例如：

通过测试
满足格式或风格约束
按 rubric 提升事实完整性
提高报告或分析中的推理质量
在最终输出前提升代码质量

如果“成功”本身很模糊、很主观，或者根本无法进行哪怕粗略的评分，那这个 skill 的可靠性就会明显下降。

如何使用 agentic-eval skill

安装背景与访问路径

从仓库信号来看，这里只有一个 SKILL.md，所以 agentic-eval install 的重点，主要是把这个 skill 加到支持 skill 的环境里，然后直接阅读 skill 文件本身。如果你使用 GitHub Copilot skills 工作流，可以从 github/awesome-copilot 仓库添加这个 skill，并优先打开 skills/agentic-eval/SKILL.md。这里没有额外的脚本、规则文件或参考资料替你完成主要工作，因此 prompt 设计会比平时更关键。

先读这个文件

从这里开始：

SKILL.md

由于仓库里没有辅助资源，关键阅读路径很短。优先看这些部分：

Overview
When to Use
Pattern 1: Basic Reflection
Pattern 2: Evaluator-Optimizer

这些部分就是这个 skill 的实际使用界面。

agentic-eval 需要什么输入

如果你一开始就提供以下四项内容，agentic-eval usage 的效果会明显更好：

要完成的任务
评估标准
最大优化轮数
停止条件

一个较弱的请求是：“Improve this answer.”
一个更强的请求是：“Draft a migration plan, then evaluate it for completeness, risk coverage, sequencing, and rollback clarity. Revise up to 3 times and return the final version plus the main changes.”

把模糊目标改写成可用 prompt

一个实用的 agentic-eval guide prompt，通常可以按这个结构组织：

Task：要产出什么
Context：事实来源、约束条件、目标受众
Criteria：如何判断结果好坏
Evaluation mode：自我审查，还是单独 evaluator 评估
Iteration limit：通常为 2 到 4 轮
Output contract：只返回最终答案，还是同时返回 critique + revision history

示例结构：

Task: “Write a design review memo for the API change.”
Context: “Audience is staff engineers; must mention backward compatibility risks.”
Criteria: “Accuracy, completeness, decision clarity, concrete risks, actionable recommendation.”
Loop: “Generate, evaluate against the rubric, revise, repeat up to 3 times.”
Output: “Return final memo and a short list of fixes made.”

agentic-eval 的基础反思模式怎么用

agentic-eval 的第一种模式是 basic reflection：由同一个模型先批评自己的输出，再自行改进。这是最容易上手的起点，因为它几乎不增加额外的流程开销。

适合在这些情况下使用：

任务风险中等
你希望快速提高质量
你不想编排多个 agent 或多个模型

这种模式在 critique 足够具体时效果最好。与其笼统地说“review this”，不如要求模型逐条标准打分，或明确指出缺口。

agentic-eval 的 evaluator-optimizer 模式怎么用

第二种模式更适合质量要求高的工作流。先由一个环节生成草稿，再由另一个环节评估，最后再进行修订。由于评估被单独拆成一步，这种方式通常能带来更有纪律性的输出。

适合在这些情况下使用：

输出必须满足某个 rubric
你希望更清楚地追踪“为什么会发生这些修改”
你需要在多个项目上重复进行 agentic-eval for Model Evaluation

这种模式也更容易做 benchmark，因为你可以分别比较草稿质量、critique 质量和最终结果质量。

好的标准决定 agentic-eval 结果成败

采用 agentic-eval 最大的障碍，往往不是模型能力，而是评估标准太弱。如果你给出的标准本身就很模糊，这个循环只会把模糊进一步放大。更好的标准应当具备这些特征：

可观察
具体明确
与任务直接相关
数量适中，能稳定执行

更好：

“Includes migration steps, risk analysis, rollback plan, and owner assignments”
更差：
“Make it better and more professional”

面向真实任务的建议工作流

一个实用的 agentic-eval usage 工作流通常是：

基于任务与上下文先生成一版草稿
用一个简短 rubric 进行评估
找出具体失败点，而不是泛泛印象
只针对这些失败点做修订
达到质量门槛或迭代上限后停止

这样可以避免无休止地循环，也能让每一次修订都对应可衡量的问题。

什么情况下普通 prompting 就够了

不要把 agentic-eval skill 用在所有任务上。如果任务风险低，一次生成通常更便宜、也更快。像简单头脑风暴、粗略构思，或者一次性草稿，通常都不需要迭代式评估。这个 skill 的价值，主要体现在错误输出会带来真实成本的场景。

实用 prompt 示例

一个比较强的调用方式如下：

“Create a Python function for CSV import validation. Then evaluate your solution against these criteria: correctness, edge-case coverage, error handling, readability, and testability. List the top 3 issues, revise the code, and stop after 2 refinement rounds or when all criteria are satisfied.”

为什么这个写法有效：

产物类型很明确
rubric 清晰具体
评估输出范围受控
停止规则避免过度迭代

agentic-eval skill 常见问题

agentic-eval 适合新手吗

适合，但前提是你已经理解 prompting 的基础。这个 skill 的概念本身并不复杂，不过想得到好的结果，关键在于能写出可执行的评估标准。新手可以先从 basic reflection 开始，再逐步尝试更正式的 evaluator-optimizer 配置。

相比普通 prompt，它的主要优势是什么

普通 prompt 只要求模型给出一次答案。agentic-eval 则增加了一层质量控制循环。它带来的实际收益不是“字更多了”，而是在最终输出之前，更容易发现遗漏、薄弱推理，或未满足约束的地方。

什么时候不该使用 agentic-eval

遇到以下情况就应跳过：

任务没有明确的成功标准
速度比质量更重要
输出偏探索性，而不是要被评判
你根本无法判断修订是否真的带来了提升

agentic-eval 只适用于代码吗

不是。它同样适用于代码、分析、报告以及其他结构化输出。它们的共同前提是：结果必须可评估。只要你能定义 rubric，agentic-eval skill 通常就能派上用场。

agentic-eval 自带工具或自动化吗

就当前这个仓库快照来看，没有。这个 skill 更偏向 guidance-first：它在 SKILL.md 中提供模式和示例，而不是一个打包好的 library 或脚本集合。你大概率需要把这个循环接入到自己的 agent、prompt chain 或 orchestration layer 中。

应该跑多少轮迭代

通常 2 到 3 轮就够了。更复杂的任务确实可能从更多轮次中受益，但同时也会增加偏移、成本，以及“自我确认式 critique”的风险。与其默认轮数越多越好，不如明确设置停止条件。

如何改进 agentic-eval skill

先从收紧 rubric 开始

想提升 agentic-eval 的效果，最快的方法通常不是改 generation prompt，而是改进评估标准。一个包含 4 到 6 个维度的精炼 rubric，往往比冗长的检查清单更有效。每个维度都要足够可执行，模型才能据此真正修订结果。

在 evaluator 阶段提供源约束

如果输出必须符合具体要求，那就在评估阶段把这些要求一并给进去。例如：

必需章节
policy 约束
interface contracts
acceptance tests
受众与语气要求

否则，evaluator 很可能优化的是“看起来合理”，而不是真正完成任务。

先做失败诊断，再进入修订

一个常见错误是：critique 完就立刻重写，过渡太快。更好的做法是先让模型指出影响最大的几个问题。这样后续修订才能聚焦真正的缺口，而不是把整份内容从头改写一遍。

避免浅层自我表扬

agentic-eval for Model Evaluation 的一个典型失效模式，是给出类似“looks good overall”这种很弱的 critique。要抑制这种情况，可以强制要求：

按标准逐项评估
明确列出缺失项
给出严重程度排序
提供来自草稿的证据

这会迫使模型进入更有用的评估行为。

把草稿质量和评估质量分开看

如果结果依然不理想，就要检查问题到底出在：

初稿质量差
critique 质量差
修订执行不够严格

这点很重要，因为每个环节的修复方法并不一样。再强的 evaluator 也救不了缺失的源上下文；而一个本来不错的草稿，也可能在模糊的修订指令下被改坏。

在第一轮之后再优化输入

跑完一轮后，应该根据实际失败点来调整 prompt：

补充缺失上下文
重写薄弱标准
收紧输出格式
删除彼此冲突的指令
如果修订开始跑偏，就降低迭代次数

最好的 agentic-eval guide 效果，通常都来自基于实际失效模式做一到两轮 prompt 调整，而不是一开始就写得极其复杂。

使用明确的停止规则

为了同时提升质量并控制成本，要提前定义循环何时结束：

所有必须满足的标准都已达成
不再存在关键问题
最多进行 3 轮

这样可以避免进入那种只改措辞、不提升实质内容的“打磨循环”。

按任务风险选择合适模式

轻量级质量提升，用 basic reflection 就够了。更高风险的交付物、重复性工作流，或 benchmark 风格的审查，则更适合 evaluator-optimizer。能用简单模式时就不要过度复杂化，这会让 agentic-eval install 的决策更容易，也让整个工作流更容易维护。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

evaluation-methodology

作者 wshobson

evaluation-methodology 技能说明了用于 Model Evaluation 的 PluginEval 评分方法，包括评估层级、评分 rubric、综合评分、徽章阈值，以及如何解读结果并改进薄弱维度的实用建议。

模型评测

收藏 0GitHub 32.6k

healthcare-eval-harness

作者 affaan-m

healthcare-eval-harness 是面向医疗应用部署的患者安全评估 harness。它帮助团队在发布前验证 CDSS 准确性、PHI 暴露、数据完整性、临床工作流行为以及集成合规性。严重失败会阻止部署，因此它很适合用于 Model Evaluation 和 CI 安全门禁中的 healthcare-eval-harness。

模型评测

收藏 0GitHub 156.2k

eval-harness

作者 affaan-m

eval-harness 技能是面向 Claude Code 会话和 eval 驱动开发的正式评估框架。它可以帮助你定义通过/失败标准，构建能力评估和回归评估，并在发布 prompt 或工作流变更前衡量 agent 的可靠性。

模型评测

收藏 0GitHub 156.1k

agent-eval

作者 affaan-m

agent-eval 是一项用于对编码 agent 进行基准测试的技能，支持在可复现任务上让多个 agent 直接对比，评估通过率、成本、耗时和一致性。你可以用 agent-eval 在自己的 repo 中评估 Claude Code、Aider、Codex 或其他 agent，并获得比临时提问更清晰的证据。

模型评测

收藏 0GitHub 156k

huggingface-community-evals

作者 huggingface

huggingface-community-evals 可帮助你在本地使用 inspect-ai 或 lighteval 运行 Hugging Face Hub 模型评测。适合做后端选择、冒烟测试，以及了解 vLLM、Transformers 或 accelerate 的实用选型指引。不适用于 HF Jobs 编排、model-card PR、.eval_results 发布或 community-evals 自动化。

模型评测

收藏 0GitHub 10.4k

huggingface-best

作者 huggingface

huggingface-best 技能通过查看 Hugging Face 基准排行榜，并结合设备限制和模型大小进行筛选，帮助你为具体任务找到最合适的模型。适用于编码、推理、聊天、OCR、RAG、语音、视觉或多模态场景下的模型推荐，尤其是在你需要一份实用的候选清单，而不是泛泛的模型列表时。

模型评测

收藏 0GitHub 10.4k

libafl

作者 trailofbits

libafl 技能可帮助你使用 LibAFL 为自定义目标、变异策略和安全审计流程规划并构建模块化 fuzzers。借助这份 libafl 指南，你可以更少假设地，从目标细节推进到可落地的 harness、反馈模型和运行计划。

安全审计

收藏 0GitHub 5k

evaluation

作者 muratcankoylan

evaluation 技能可帮助你为非确定性系统设计并执行 agent 评估。适用于评估安装规划、评分标准、回归检查、质量门禁，以及 Skill Testing 场景下的评估；也适合 LLM-as-judge 工作流、多维度打分，以及需要可重复结果的实际评估使用。

Skill 测试

收藏 0GitHub 0

judge-with-debate

作者 NeoLabHQ

judge-with-debate 通过结构化的多智能体辩论来评估解决方案，使用共享规范、基于证据的反驳，以及最多 3 轮讨论达成共识。它非常适合代码审查、基于评分标准的评估，以及 Multi-Agent Systems 工作流中的 judge-with-debate。

多 Agent 系统

收藏 0GitHub 982

gws-modelarmor

作者 googleworkspace

gws-modelarmor 帮助你在 googleworkspace/cli 生态中使用 Google Model Armor。它可用于净化提示词、净化模型响应，并以比通用 prompt 更少的猜测来创建模板。该技能面向可重复、符合策略要求的使用场景，以及 Security Audit 工作流。

安全审计

收藏 0GitHub 25.5k

analyzing-campaign-attribution-evidence

作者 mukul975

analyzing-campaign-attribution-evidence 帮助分析师综合评估基础设施重叠、ATT&CK 一致性、恶意软件相似性、时间线和语言痕迹，以形成更有依据的 campaign 归因结论。适用于 CTI、事件分析和 Security Audit 复核的 analyzing-campaign-attribution-evidence 指南。

安全审计

收藏 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

作者 mukul975

detecting-ai-model-prompt-injection-attacks 是一项网络安全技能，用于在未受信文本进入 LLM 之前进行筛查。它结合分层 regex、启发式评分和基于 DeBERTa 的分类，识别直接和间接的 prompt injection 攻击。适用于 chatbot 输入校验、文档摄取和 Threat Modeling。

威胁建模

收藏 0GitHub 0

llm-evaluation

作者 wshobson

使用 llm-evaluation skill，为 LLM 应用、提示词、RAG 系统和模型变更设计可重复执行的评估方案，覆盖指标、人审、基准测试与回归检查。

模型评测

收藏 0GitHub 32.6k

ai-prompt-engineering-safety-review

作者 github

ai-prompt-engineering-safety-review 是一项用于提示词审计的技能，可在生产环境、评估流程或面向客户使用前，审查 LLM 提示词在安全性、偏见、安全弱点和输出质量方面的风险。

模型评测

收藏 0GitHub 27.8k

ml-pipeline-workflow

作者 wshobson

ml-pipeline-workflow 是一份实用指南，帮助你设计覆盖数据准备、训练、验证、部署与监控的端到端 MLOps 流水线，并提供适合构建可重复工作流自动化的编排模式。

工作流自动化

收藏 0GitHub 0

frontend-design

作者 anthropics

frontend-design 帮你把模糊的 UI 想法，转化为有审美导向的量产级界面，实现真实可用的前端代码，而不是千篇一律的 AI 风格。

UI 设计

收藏 1GitHub 105.2k