W
evaluation-methodology
by wshobson
evaluation-methodologyは、Model EvaluationにおけるPluginEvalの採点方法を解説するスキルです。評価レイヤー、ルーブリック、合成スコア、バッジ閾値に加え、結果の読み解き方や弱い評価軸の改善に役立つ実践的な指針を確認できます。
Model Evaluation
Favorites 0GitHub 32.6k
by wshobson
evaluation-methodologyは、Model EvaluationにおけるPluginEvalの採点方法を解説するスキルです。評価レイヤー、ルーブリック、合成スコア、バッジ閾値に加え、結果の読み解き方や弱い評価軸の改善に役立つ実践的な指針を確認できます。
by wshobson
llm-evaluation スキルを使うと、LLMアプリ、プロンプト、RAGシステム、モデル変更に対して、指標設計、人手レビュー、ベンチマーク、リグレッションチェックを組み合わせた再現性のある評価計画を設計できます。
by wshobson
ml-pipeline-workflow は、データ準備、学習、検証、デプロイ、監視までを含むエンドツーエンドの MLOps パイプライン設計を実践的に案内するガイドです。再現性のあるワークフロー自動化に向けたオーケストレーションの設計パターンも整理されています。