llm-evaluation
作成者 wshobson自動化された指標、人間のフィードバック、ベンチマークを活用して、LLMアプリケーションの堅牢な評価ワークフローを実装します。LLMの性能テスト、モデル比較、AI改善の検証を行うチームに最適です。
概要
llm-evaluationとは?
llm-evaluationは、大規模言語モデル(LLM)アプリケーションの体系的なテストとベンチマークを行うための専門的なスキルです。AIや機械学習チームがLLMの性能を測定し、モデルやプロンプトを比較し、性能低下を検出し、改善を検証するために、自動化された指標と人間のフィードバックの両方を活用できます。このスキルは、高品質なAIシステムの維持と信頼性の高い評価フレームワークの構築に不可欠です。
どのような方におすすめ?
- LLMを活用したアプリケーションを開発するAI/MLエンジニアやデータサイエンティスト
- プロンプトエンジニアリングやモデル選定を担当するチーム
- LLMの出力を展開前に検証するQA担当者
- LLMの性能を継続的に追跡したい方や予期しないモデル挙動のデバッグが必要な方
解決できる課題
- LLM評価の再現可能なプロセスを提供
- モデル、プロンプト、システムバージョン間の比較をサポート
- 性能低下の検出と改善の検証を支援
- 本番環境のAIシステムへの信頼構築を促進
使い方
インストール手順
-
エージェント環境にスキルを追加します:
npx skills add https://github.com/wshobson/agents --skill llm-evaluation -
SKILL.mdのメインドキュメントで、高レベルのワークフローと評価戦略を確認してください。 -
統合の詳細や背景情報については、
README.md、AGENTS.md、metadata.jsonなどの補助ファイルを参照してください。 -
再利用可能な評価コンポーネントやヘルパースクリプトは、
rules/、resources/、references/、scripts/ディレクトリにあります。
主な評価タイプ
自動化指標
- テキスト生成: BLEU、ROUGE、METEOR、BERTScore、Perplexity
- 分類: Accuracy、Precision/Recall/F1、Confusion Matrix、AUC-ROC
- 検索(RAG): MRR、NDCG、Precision@K、Recall@K
人間による評価
- 正確性、関連性、流暢さなどの主観的基準を手動でレビュー
- 自動指標では捉えにくい側面の評価に有用
ワークフローへの適応
- 提供される評価戦略をテンプレートとして活用し、自身のリポジトリやツール、運用要件に合わせてカスタマイズしてください。
- ベースラインを設定し、継続的な改善を追跡しましょう。
よくある質問
llm-evaluationはどんな時に適していますか?
LLMアプリケーションの性能を体系的にテスト、比較、検証したい場合、特に本番環境への変更展開前におすすめです。
まずどのファイルを確認すればいいですか?
概要はSKILL.mdから始め、統合の詳細はREADME.mdやmetadata.jsonを参照してください。実践例はrules/やscripts/にあります。
自動評価と人間評価の両方に対応していますか?
はい、自動指標と手動レビューの両方のガイダンスとテンプレートを提供し、幅広いLLM評価ニーズに対応しています。
評価プロセスはどのようにカスタマイズできますか?
モデルやプロンプト、アプリケーション要件に合わせて戦略やスクリプトを調整してください。このスキルは多様なAIワークフローに柔軟に対応できるよう設計されています。
追加のリソースはどこで見つけられますか?
リポジトリのファイルツリーを参照すると、参考資料やヘルパースクリプト、補助ドキュメントが見つかります。
