模型評測

瀏覽 安全 下與 模型評測 相關的 Agent Skill,並比較相近工作流、工具與使用情境。

3 个技能
W
evaluation-methodology

作者 wshobson

evaluation-methodology 技能說明 Model Evaluation 中的 PluginEval 評分方法,涵蓋評估層級、評分規準、綜合計分、徽章門檻,以及如何解讀結果並改善較弱面向的實務建議。

模型評測
收藏 0GitHub 32.6k
W
llm-evaluation

作者 wshobson

使用 llm-evaluation skill,為 LLM 應用、提示詞、RAG 系統與模型變更設計可重複執行的評估方案,涵蓋指標、人工作業審查、基準測試與回歸檢查。

模型評測
收藏 0GitHub 32.6k
W
ml-pipeline-workflow

作者 wshobson

ml-pipeline-workflow 是一份實用指南,聚焦如何設計涵蓋資料準備、訓練、驗證、部署與監控的端到端 MLOps pipeline,並提供可重複執行的工作流程自動化編排模式。

工作流自動化
收藏 0GitHub 0