W
evaluation-methodology
作者 wshobson
evaluation-methodology 技能说明了用于 Model Evaluation 的 PluginEval 评分方法,包括评估层级、评分 rubric、综合评分、徽章阈值,以及如何解读结果并改进薄弱维度的实用建议。
模型评测
收藏 0GitHub 32.6k
作者 wshobson
evaluation-methodology 技能说明了用于 Model Evaluation 的 PluginEval 评分方法,包括评估层级、评分 rubric、综合评分、徽章阈值,以及如何解读结果并改进薄弱维度的实用建议。
作者 wshobson
使用 llm-evaluation skill,为 LLM 应用、提示词、RAG 系统和模型变更设计可重复执行的评估方案,覆盖指标、人审、基准测试与回归检查。
作者 wshobson
ml-pipeline-workflow 是一份实用指南,帮助你设计覆盖数据准备、训练、验证、部署与监控的端到端 MLOps 流水线,并提供适合构建可重复工作流自动化的编排模式。