W

llm-evaluation

作者 wshobson

通过自动化指标、人工反馈和基准测试,构建稳健的 LLM 应用评估流程。适合测试 LLM 性能、模型对比或验证 AI 改进的团队使用。

Stars0
收藏0
评论0
收录时间2026年3月28日
分类Skill 测试
安装命令
npx skills add https://github.com/wshobson/agents --skill llm-evaluation
概览

概览

什么是 llm-evaluation?

llm-evaluation 是一款专门用于系统化测试和基准评测大型语言模型(LLM)应用的技能。它帮助 AI 和机器学习团队通过自动化指标和人工反馈来衡量 LLM 性能、比较模型或提示词、检测回归并验证改进。该技能是维护高质量 AI 系统和建立可靠评估框架的关键工具。

谁适合使用此技能?

  • 开发基于 LLM 应用的 AI/ML 工程师和数据科学家
  • 负责提示词工程或模型选择的团队
  • 在部署前验证 LLM 输出的质量保证专业人员
  • 需要跟踪 LLM 性能变化或调试异常模型行为的任何人

它解决了哪些问题

  • 提供可重复的 LLM 评估流程
  • 支持模型、提示词或系统版本间的对比
  • 有助于发现回归并验证性能提升
  • 增强生产环境 AI 系统的信心

使用指南

安装步骤

  1. 将技能添加到你的 agent 环境中:

    npx skills add https://github.com/wshobson/agents --skill llm-evaluation

  2. 阅读 SKILL.md 中的主要文档,了解整体工作流程和评估策略。

  3. 浏览 README.mdAGENTS.mdmetadata.json 等支持文件,获取集成细节和背景信息。

  4. 查看 rules/resources/references/scripts/ 目录,获取可复用的评估组件和辅助脚本。

核心评估类型

自动化指标

  • 文本生成: BLEU、ROUGE、METEOR、BERTScore、Perplexity
  • 分类: 准确率、精确率/召回率/F1、混淆矩阵、AUC-ROC
  • 检索(RAG): MRR、NDCG、Precision@K、Recall@K

人工评估

  • 手动审核准确性、相关性、流畅度及其他主观标准
  • 适用于自动指标难以覆盖的评估维度

适配你的工作流程

  • 以提供的评估策略为模板,结合你的代码库、工具和运营需求进行调整。
  • 建立基线并持续跟踪进展,确保不断优化。

常见问题

什么时候适合使用 llm-evaluation?

当你需要系统地测试、比较或验证 LLM 应用性能,尤其是在生产环境变更前,llm-evaluation 是理想选择。

我应该先查看哪些文件?

建议先从 SKILL.md 了解整体概况,再查看 README.mdmetadata.json 获取集成细节。rules/scripts/ 目录中有实用示例。

llm-evaluation 是否支持自动化和人工评估?

支持,它提供了自动指标和人工审核的指导与模板,满足多样化的 LLM 评估需求。

如何定制评估流程?

根据你的具体模型、提示词和应用需求,调整策略和脚本。该技能设计灵活,适配不同 AI 工作流程。

哪里可以找到更多资源?

浏览仓库文件结构,获取更多参考资料、辅助脚本和支持文档。

评分与评论

暂无评分
分享你的评价
登录后即可为这个技能评分并发表评论。
G
0/10000
最新评论
保存中...