Wllm-evaluationby wshobson自動化された指標、人間のフィードバック、ベンチマークを活用して、LLMアプリケーションの堅牢な評価ワークフローを実装します。LLMの性能テスト、モデル比較、AI改善の検証を行うチームに最適です。Skill TestingFavorites 0GitHub 0