W
llm-evaluation
作者 wshobson通过自动化指标、人工反馈和基准测试,构建稳健的 LLM 应用评估流程。适合测试 LLM 性能、模型对比或验证 AI 改进的团队使用。
Stars0
收藏0
评论0
收录时间2026年3月28日
分类Skill 测试
安装命令
npx skills add https://github.com/wshobson/agents --skill llm-evaluation
概览
概览
什么是 llm-evaluation?
llm-evaluation 是一款专门用于系统化测试和基准评测大型语言模型(LLM)应用的技能。它帮助 AI 和机器学习团队通过自动化指标和人工反馈来衡量 LLM 性能、比较模型或提示词、检测回归并验证改进。该技能是维护高质量 AI 系统和建立可靠评估框架的关键工具。
谁适合使用此技能?
- 开发基于 LLM 应用的 AI/ML 工程师和数据科学家
- 负责提示词工程或模型选择的团队
- 在部署前验证 LLM 输出的质量保证专业人员
- 需要跟踪 LLM 性能变化或调试异常模型行为的任何人
它解决了哪些问题
- 提供可重复的 LLM 评估流程
- 支持模型、提示词或系统版本间的对比
- 有助于发现回归并验证性能提升
- 增强生产环境 AI 系统的信心
使用指南
安装步骤
-
将技能添加到你的 agent 环境中:
npx skills add https://github.com/wshobson/agents --skill llm-evaluation -
阅读
SKILL.md中的主要文档,了解整体工作流程和评估策略。 -
浏览
README.md、AGENTS.md和metadata.json等支持文件,获取集成细节和背景信息。 -
查看
rules/、resources/、references/和scripts/目录,获取可复用的评估组件和辅助脚本。
核心评估类型
自动化指标
- 文本生成: BLEU、ROUGE、METEOR、BERTScore、Perplexity
- 分类: 准确率、精确率/召回率/F1、混淆矩阵、AUC-ROC
- 检索(RAG): MRR、NDCG、Precision@K、Recall@K
人工评估
- 手动审核准确性、相关性、流畅度及其他主观标准
- 适用于自动指标难以覆盖的评估维度
适配你的工作流程
- 以提供的评估策略为模板,结合你的代码库、工具和运营需求进行调整。
- 建立基线并持续跟踪进展,确保不断优化。
常见问题
什么时候适合使用 llm-evaluation?
当你需要系统地测试、比较或验证 LLM 应用性能,尤其是在生产环境变更前,llm-evaluation 是理想选择。
我应该先查看哪些文件?
建议先从 SKILL.md 了解整体概况,再查看 README.md 和 metadata.json 获取集成细节。rules/ 和 scripts/ 目录中有实用示例。
llm-evaluation 是否支持自动化和人工评估?
支持,它提供了自动指标和人工审核的指导与模板,满足多样化的 LLM 评估需求。
如何定制评估流程?
根据你的具体模型、提示词和应用需求,调整策略和脚本。该技能设计灵活,适配不同 AI 工作流程。
哪里可以找到更多资源?
浏览仓库文件结构,获取更多参考资料、辅助脚本和支持文档。
评分与评论
暂无评分
分享你的评价
登录后即可为这个技能评分并发表评论。
G
0/10000
最新评论
保存中...
