模型评测

浏览 安全 下与 模型评测 相关的 Agent Skill,并比较相近工作流、工具与使用场景。

3 个技能
W
evaluation-methodology

作者 wshobson

evaluation-methodology 技能说明了用于 Model Evaluation 的 PluginEval 评分方法,包括评估层级、评分 rubric、综合评分、徽章阈值,以及如何解读结果并改进薄弱维度的实用建议。

模型评测
收藏 0GitHub 32.6k
W
llm-evaluation

作者 wshobson

使用 llm-evaluation skill,为 LLM 应用、提示词、RAG 系统和模型变更设计可重复执行的评估方案,覆盖指标、人审、基准测试与回归检查。

模型评测
收藏 0GitHub 32.6k
W
ml-pipeline-workflow

作者 wshobson

ml-pipeline-workflow 是一份实用指南,帮助你设计覆盖数据准备、训练、验证、部署与监控的端到端 MLOps 流水线,并提供适合构建可重复工作流自动化的编排模式。

工作流自动化
收藏 0GitHub 0