llm-evaluation

作者 wshobson

使用 llm-evaluation skill，为 LLM 应用、提示词、RAG 系统和模型变更设计可重复执行的评估方案，覆盖指标、人审、基准测试与回归检查。

Stars32.6k

收录时间2026年3月30日

分类模型评测

安装命令

npx skills add wshobson/agents --skill llm-evaluation

编辑评分

该 skill 评分为 68/100，说明它适合收录给希望获得 LLM 应用评估结构化指导的目录用户；但用户应预期这更偏向文档型框架，而不是一个自带可运行资源或明确执行步骤的强操作型 skill。

68/100

亮点

触发条件明确：skill 清楚说明了适用场景，包括回归测试、模型/提示词对比以及生产环境验证。
工作流内容扎实：文档覆盖了自动化指标、人工评估、基准测试和 A/B 测试等多种评估方式，而不是停留在占位式说明层面。
概念框架有实用价值：它为文本生成、分类和 RAG 任务提供了可复用的评估分类体系，比通用提示词更有结构性。

注意点

由于缺少安装/运行指引、脚本和被引用的配套文件，实际落地时的操作清晰度有限，代理仍需自行推断实现细节。
现有证据中几乎没有明确的约束条件或决策规则，这可能导致在真实项目中，指标选择与执行方式出现不一致。

Llm 测试 Ai Metrics Reliability 工作流

概览

`llm-evaluation` skill 概览

llm-evaluation skill 是一套用于为 LLM 应用、prompt 和模型变更设计评估方案的实用框架。它特别适合那些不满足于“感觉更好了”这种主观判断、而是希望用可复用的方法衡量质量、比较不同方案，并在发布前发现回归问题的开发者和团队。

哪些人适合使用 `llm-evaluation` skill

这个 llm-evaluation skill 很适合正在做以下工作的团队或独立开发者：

prompt 迭代
模型对比
RAG 质量检查
分类或信息抽取任务
面向生产环境的 LLM 功能 QA
为持续发布建立 benchmark

如果你想回答的是“这次改动到底有没有让系统变好？”那么这个 skill 会非常契合。

这个 skill 主要帮你完成什么工作

llm-evaluation 真正解决的问题，是把模糊的“质量担忧”变成一套可执行的评估计划。你不是去泛泛地询问测试建议，而是借助 llm-evaluation 选择合适的评估类型、定义指标、在自动化不足的地方加入人工评审，并把不同版本之间的对比流程结构化下来。

`llm-evaluation` 和普通 prompt 最大的区别是什么

一个普通 prompt 可能只会建议你“用 BLEU、F1 和人工评审”。但当你需要把评估方法真正映射到应用的具体形态时，这个 llm-evaluation skill 会更有价值：

文本生成任务需要的指标，与分类任务并不相同
RAG 系统需要检索指标，而不只是输出结果的主观打分
像 helpfulness 或 tone 这样的维度，往往需要人工评估
A/B 测试和回归检查需要 baseline，而不是一次性的分数

因此，相比随口问一句“我该怎么评估 LLM？”，它更偏向帮助你做出实际决策。

安装前最需要先想清楚什么

在使用 llm-evaluation 之前，先明确三件事：

你要评估的是什么任务
对这个任务来说，“好”具体意味着什么
你需要自动化指标、人工评审，还是两者都要

如果这些问题目前还不够清晰，这个 skill 依然能帮上忙，但输出通常会停留在较高层次。

主要取舍与限制

这个 skill 提供的是评估策略，不是开箱即用的评估执行器。它会帮助你设计框架、选择方法，但数据集、工具链和实际执行环境仍然需要你自己准备。如果你想找的是带内置 pipeline 的全自动评估框架，那它更适合作为前期规划指导，而不是可直接落地的基础设施。

如何使用 `llm-evaluation` skill

如何安装 `llm-evaluation` skill

使用标准的 skill 安装流程：

npx skills add https://github.com/wshobson/agents --skill llm-evaluation

安装完成后，当你需要为某个 LLM 应用设计或改进评估方案时，就可以调用它。

仓库里优先看什么

这个 skill 的内容高度自包含。建议先看：

plugins/llm-application-dev/skills/llm-evaluation/SKILL.md

由于仓库里没有明显的辅助脚本或资源文件，核心价值基本都在这份书面框架本身。优先阅读其中的 “When to Use This Skill” 和 “Core Evaluation Types” 两个部分。

要让这个 skill 真正有用，需要提供哪些输入

llm-evaluation usage 的效果，很大程度上取决于你给出的上下文。建议提供：

你的应用类型：summarization、chatbot、RAG、extraction、classification 等
正在评估的改动：新 prompt、模型替换、检索更新、策略变更
示例输入与期望输出
当前已知的失败模式
部署约束：速度、成本、安全、评审带宽
你是否需要离线 benchmark、人工评审，或在线测试

如果缺少这些背景信息，这个 skill 的回答就会合理地保持在泛化层面。

如何把一个模糊目标变成高质量 prompt

较弱的目标：

“Help me evaluate my LLM app.”

更强的目标：

“Use the llm-evaluation skill to design an evaluation plan for a customer-support RAG assistant. We are comparing two prompts and one retriever change. We need offline metrics for retrieval quality, human review dimensions for answer quality, and a regression checklist we can run before deployment.”

这个更强的版本，明确告诉 skill：系统变了什么、需要哪类评估，以及评估最终要支撑什么决策。

`llm-evaluation` 使用的 prompt 模板

你可以按下面这种结构发起请求：

task type
system architecture
variants being compared
evaluation dataset size and source
key risks
preferred metrics
acceptable tradeoffs

示例结构：

“Use llm-evaluation for Model Evaluation of a RAG assistant. Recommend automated metrics, human evaluation criteria, and an A/B testing approach. We care most about factual accuracy, citation usefulness, and regression detection. Suggest a minimal first version and an expanded version.”

如何选择合适的评估类型

这个 skill 覆盖多种评估模式。实际使用中通常可以这样理解：

需要可重复性和规模化时，用自动化指标
需要判断主观或细腻质量时，用人工评估
需要长期对比版本时，用 benchmark
需要观察真实用户行为时，用 A/B testing

常见错误是过度依赖单一方法。比如在生成任务里只看 BLEU，或者在大规模回归检查里只依赖人工评审。

按任务选择指标

指标应该由任务类型来驱动：

text generation: BLEU, ROUGE, METEOR, BERTScore, perplexity
classification: accuracy, precision, recall, F1, confusion matrix, AUC-ROC
retrieval / RAG: MRR, NDCG, Precision@K, Recall@K

最关键的实践原则是：不要把文本生成指标硬套到检索问题上，反之亦然。llm-evaluation guide 在你把指标与实际被测系统层对应起来时，价值才会最大化。

什么情况下要加入人工评估

如果你的成功标准包括以下这些维度，就应该加入人工评审：

开放式回答中的 factual accuracy
helpfulness
coherence
tone
instruction-following
safety 或 policy compliance

尤其是在自动化分数看起来不错，但真实回答质量依然不佳时，人工评估非常关键。

一套能减少拍脑袋判断的实用工作流

对于初次使用 llm-evaluation install 的用户，一个很好的起步流程是：

定义一个任务和一个用户结果
收集一小批但具有代表性的测试集
选择 2–4 个符合任务特点的自动化指标
定义 3–5 个人工评审维度
先给 baseline 系统打分
每次只比较一个改动
不仅记录平均表现，也记录失败案例

这样既足够轻量、容易落地，也能保持必要的严谨性。

这个 skill 最擅长帮你解决什么问题

当你需要以下帮助时，这个 llm-evaluation skill 最有价值：

选择评估方法
搭建 benchmark 结构
组合人工评估与自动化评估
规划 prompt 或模型之间的对比
在上线前建立信心

如果你只是想要一句“帮我判断输出好不好”的 prompt，或者你已经有成熟的评估 harness，只差实现代码，那它的帮助就相对有限。

常见使用错误：没有 baseline 就开始评估

很多团队会问版本 B “好不好”。但更有价值的问题其实是：在真正重要的场景里，版本 B 是否比版本 A 更好。你在 prompt 里应该要求 skill 明确：

baseline metrics
comparison rules
pass/fail thresholds
regression criteria

这样一来，llm-evaluation for Model Evaluation 才会真正变得可执行。

`llm-evaluation` skill 常见问题

`llm-evaluation` 适合新手吗？

适合，但前提是你已经知道自己的应用类型，以及希望优化什么。这个 skill 对主要评估类别的解释很清晰；但如果你连任务、数据集或成功标准都还没定义好，它对新手就没那么友好。

我是不是必须先有正式的 benchmark 数据集？

不需要，但你至少要有样例。哪怕只是一个小而精的人工整理测试集，也比每次用临时想到的 prompts 来评估要强得多。只要你能展示有代表性的案例和预期行为，这个 skill 就会更有用。

这个 skill 只适合学术风格的评估吗？

不只。仓库里的内容很偏实战，包括模型对比、prompt 验证、回归检测、上线前信心建立，以及 A/B testing。它适用于产品团队，而不只是研究型流程。

什么情况下不该用 `llm-evaluation`？

如果你的需求纯粹是实现层面的，比如接入某个特定评估 SDK，或者执行某个框架的具体命令，那就不太适合用 llm-evaluation。这个 skill 聚焦的是策略和设计，而不是 turnkey 的代码集成。

`llm-evaluation` 和直接让 LLM 给自己打分有什么不同？

自评分可以是工作流的一部分，但它并不能构成完整的评估策略。llm-evaluation 的价值在于，它会帮助你把适配任务的指标、人工判断、baseline 和版本比较组合起来，避免把决策建立在单一且噪声很大的信号上。

我可以用 `llm-evaluation` 来评估 RAG 系统吗？

可以，而且它非常适合这类场景，因为它明确覆盖了 MRR、NDCG、Precision@K 和 Recall@K 等检索指标。这一点很重要，因为很多薄弱的评估方案只给答案文本打分，却忽略了检索质量本身。

如何提升 `llm-evaluation` skill 的使用效果

给 skill 提供任务级细节，而不是泛泛的应用描述

更好的输入：

“Support chatbot that answers billing questions from a knowledge base”

更差的输入：

“AI assistant”

你的任务定义越具体，这个 skill 就越能推荐合适的指标和评审维度。

在 prompt 里拆开不同系统组件

想获得更强的 llm-evaluation usage 效果，可以要求 skill 按层分别评估：

retrieval quality
generation quality
classification accuracy
safety behavior

这样可以避免把多个失败来源混成一个模糊分数。

提供真实的失败样例

给出 5–10 个坏输出，并解释它们为什么失败。例如：

hallucinated product policy
missed relevant retrieved document
correct answer with poor tone
refusal when the query was actually safe

这会帮助 skill 推荐真正贴合你风险点的评估维度。

先要求一个 minimum viable evaluation

不要一开始就追求庞大的评估体系。先让它给你：

最小可用 benchmark
最值得跟踪的最少指标
最低限度的人审 rubric
一个简单的回归流程

这样更容易真正落地，也能避免方案看起来很完整、实际却从不执行。

用带明确标准的 scorecard

如果你要做人审，可以要求 skill 明确：

rating dimensions
scoring scales
examples of pass/fail
tie-break rules for ambiguous cases

这能降低评审者之间的不一致，让重复评估更可信。

一次只比较一个改动

一个常见失败模式是同时改了 prompt、模型、retriever 和 post-processing。这样即使评估结果变了，你也无法判断到底是哪一项导致的。让 llm-evaluation 帮你设计实验时，应尽量让每次测试只隔离一个变量。

不要只看平均提升，也要跟踪回归

平均值很容易掩盖关键损失。你应该让 skill 帮你识别：

worst-case categories
high-risk slices
user-critical scenarios
safety-sensitive prompts

这也是它相比浅层评估方案最有实际价值的升级之一。

跑完第一轮评估后继续迭代

第一次评估结束后，把结果再带回来，让 skill 帮你进一步优化：

哪些指标噪声太大
哪些人工维度彼此重叠
数据集在哪些方面过窄
哪些失败簇值得补充新的测试案例

很多时候，到了第二轮迭代，llm-evaluation 才会真正从“提供信息”变成“产生实际价值”。

用面向决策的请求来提升 `llm-evaluation` 输出质量

不要只让它做宽泛概述，而是直接要求它产出一个可用于决策的交付物，例如：

“Create a release-gate evaluation plan”
“Design a prompt-comparison benchmark”
“Build a human review rubric for hallucination risk”
“Recommend metrics for RAG retrieval regression checks”

这类面向决策的 prompt，通常会生成你可以直接拿来使用的结果。

了解这个 skill 的上限

llm-evaluation 可以提升规划质量，但不能替代有代表性的数据、严谨的标注，或有纪律的评审流程。如果你的样例很弱，或者成功标准彼此冲突，那么输出质量也会随之变差。想最快提升这个 skill 的实用性，最有效的方法就是把你的评估 brief 写得更具体、更真实。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

evaluation-methodology

作者 wshobson

evaluation-methodology 技能说明了用于 Model Evaluation 的 PluginEval 评分方法，包括评估层级、评分 rubric、综合评分、徽章阈值，以及如何解读结果并改进薄弱维度的实用建议。

模型评测

收藏 0GitHub 32.6k

healthcare-eval-harness

作者 affaan-m

healthcare-eval-harness 是面向医疗应用部署的患者安全评估 harness。它帮助团队在发布前验证 CDSS 准确性、PHI 暴露、数据完整性、临床工作流行为以及集成合规性。严重失败会阻止部署，因此它很适合用于 Model Evaluation 和 CI 安全门禁中的 healthcare-eval-harness。

模型评测

收藏 0GitHub 156.2k

eval-harness

作者 affaan-m

eval-harness 技能是面向 Claude Code 会话和 eval 驱动开发的正式评估框架。它可以帮助你定义通过/失败标准，构建能力评估和回归评估，并在发布 prompt 或工作流变更前衡量 agent 的可靠性。

模型评测

收藏 0GitHub 156.1k

agent-eval

作者 affaan-m

agent-eval 是一项用于对编码 agent 进行基准测试的技能，支持在可复现任务上让多个 agent 直接对比，评估通过率、成本、耗时和一致性。你可以用 agent-eval 在自己的 repo 中评估 Claude Code、Aider、Codex 或其他 agent，并获得比临时提问更清晰的证据。

模型评测

收藏 0GitHub 156k

huggingface-community-evals

作者 huggingface

huggingface-community-evals 可帮助你在本地使用 inspect-ai 或 lighteval 运行 Hugging Face Hub 模型评测。适合做后端选择、冒烟测试，以及了解 vLLM、Transformers 或 accelerate 的实用选型指引。不适用于 HF Jobs 编排、model-card PR、.eval_results 发布或 community-evals 自动化。

模型评测

收藏 0GitHub 10.4k

huggingface-best

作者 huggingface

huggingface-best 技能通过查看 Hugging Face 基准排行榜，并结合设备限制和模型大小进行筛选，帮助你为具体任务找到最合适的模型。适用于编码、推理、聊天、OCR、RAG、语音、视觉或多模态场景下的模型推荐，尤其是在你需要一份实用的候选清单，而不是泛泛的模型列表时。

模型评测

收藏 0GitHub 10.4k

libafl

作者 trailofbits

libafl 技能可帮助你使用 LibAFL 为自定义目标、变异策略和安全审计流程规划并构建模块化 fuzzers。借助这份 libafl 指南，你可以更少假设地，从目标细节推进到可落地的 harness、反馈模型和运行计划。

安全审计

收藏 0GitHub 5k

judge-with-debate

作者 NeoLabHQ

judge-with-debate 通过结构化的多智能体辩论来评估解决方案，使用共享规范、基于证据的反驳，以及最多 3 轮讨论达成共识。它非常适合代码审查、基于评分标准的评估，以及 Multi-Agent Systems 工作流中的 judge-with-debate。

多 Agent 系统

收藏 0GitHub 982

gws-modelarmor

作者 googleworkspace

gws-modelarmor 帮助你在 googleworkspace/cli 生态中使用 Google Model Armor。它可用于净化提示词、净化模型响应，并以比通用 prompt 更少的猜测来创建模板。该技能面向可重复、符合策略要求的使用场景，以及 Security Audit 工作流。

安全审计

收藏 0GitHub 25.5k

analyzing-campaign-attribution-evidence

作者 mukul975

analyzing-campaign-attribution-evidence 帮助分析师综合评估基础设施重叠、ATT&CK 一致性、恶意软件相似性、时间线和语言痕迹，以形成更有依据的 campaign 归因结论。适用于 CTI、事件分析和 Security Audit 复核的 analyzing-campaign-attribution-evidence 指南。

安全审计

收藏 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

作者 mukul975

detecting-ai-model-prompt-injection-attacks 是一项网络安全技能，用于在未受信文本进入 LLM 之前进行筛查。它结合分层 regex、启发式评分和基于 DeBERTa 的分类，识别直接和间接的 prompt injection 攻击。适用于 chatbot 输入校验、文档摄取和 Threat Modeling。

威胁建模

收藏 0GitHub 0

ai-prompt-engineering-safety-review

作者 github

ai-prompt-engineering-safety-review 是一项用于提示词审计的技能，可在生产环境、评估流程或面向客户使用前，审查 LLM 提示词在安全性、偏见、安全弱点和输出质量方面的风险。

模型评测

收藏 0GitHub 27.8k

agentic-eval

作者 github

agentic-eval 是一个 GitHub Copilot skill，展示如何通过反思、基于 rubric 的评审，以及 evaluator-optimizer 模式，为 AI 输出构建评估循环。

模型评测

收藏 0GitHub 27.8k

ml-pipeline-workflow

作者 wshobson

ml-pipeline-workflow 是一份实用指南，帮助你设计覆盖数据准备、训练、验证、部署与监控的端到端 MLOps 流水线，并提供适合构建可重复工作流自动化的编排模式。

工作流自动化

收藏 0GitHub 0

frontend-design

作者 anthropics

frontend-design 帮你把模糊的 UI 想法，转化为有审美导向的量产级界面，实现真实可用的前端代码，而不是千篇一律的 AI 风格。

UI 设计

收藏 1GitHub 105.2k

create-colleague

作者 titanwings

create-colleague 可将同事文档、聊天记录、邮件、截图、Feishu 和 DingTalk 数据整理为可编辑的 AI 技能，并分别产出工作风格与人物画像内容，还提供持续迭代的更新流程。

Skill 编写

收藏 1GitHub 747

llm-evaluation

llm-evaluation skill 概览

哪些人适合使用 llm-evaluation skill

这个 skill 主要帮你完成什么工作

llm-evaluation 和普通 prompt 最大的区别是什么

安装前最需要先想清楚什么

主要取舍与限制

如何使用 llm-evaluation skill

如何安装 llm-evaluation skill

仓库里优先看什么

要让这个 skill 真正有用，需要提供哪些输入

如何把一个模糊目标变成高质量 prompt

llm-evaluation 使用的 prompt 模板

如何选择合适的评估类型

按任务选择指标

什么情况下要加入人工评估

一套能减少拍脑袋判断的实用工作流

这个 skill 最擅长帮你解决什么问题

常见使用错误：没有 baseline 就开始评估

llm-evaluation skill 常见问题

llm-evaluation 适合新手吗？

我是不是必须先有正式的 benchmark 数据集？

这个 skill 只适合学术风格的评估吗？

什么情况下不该用 llm-evaluation？

llm-evaluation 和直接让 LLM 给自己打分有什么不同？

我可以用 llm-evaluation 来评估 RAG 系统吗？

如何提升 llm-evaluation skill 的使用效果

给 skill 提供任务级细节，而不是泛泛的应用描述

在 prompt 里拆开不同系统组件

提供真实的失败样例

先要求一个 minimum viable evaluation

用带明确标准的 scorecard

一次只比较一个改动

不要只看平均提升，也要跟踪回归

跑完第一轮评估后继续迭代

用面向决策的请求来提升 llm-evaluation 输出质量

了解这个 skill 的上限

评分与评论

`llm-evaluation` skill 概览

哪些人适合使用 `llm-evaluation` skill

`llm-evaluation` 和普通 prompt 最大的区别是什么

如何使用 `llm-evaluation` skill

如何安装 `llm-evaluation` skill

`llm-evaluation` 使用的 prompt 模板

`llm-evaluation` skill 常见问题

`llm-evaluation` 适合新手吗？

什么情况下不该用 `llm-evaluation`？

`llm-evaluation` 和直接让 LLM 给自己打分有什么不同？

我可以用 `llm-evaluation` 来评估 RAG 系统吗？

如何提升 `llm-evaluation` skill 的使用效果

用面向决策的请求来提升 `llm-evaluation` 输出质量