llm-evaluation

作成者 wshobson

llm-evaluation スキルを使うと、LLMアプリ、プロンプト、RAGシステム、モデル変更に対して、指標設計、人手レビュー、ベンチマーク、リグレッションチェックを組み合わせた再現性のある評価計画を設計できます。

スター32.6k

お気に入り0

追加日2026年3月30日

カテゴリーModel Evaluation

インストールコマンド

npx skills add wshobson/agents --skill llm-evaluation

編集スコア

このスキルの評価は68/100です。LLMアプリ評価の進め方を体系立てて把握したいディレクトリ利用者にとっては掲載に値しますが、すぐに実行できるアセットや明確な実行手順を備えた実務寄りのスキルというより、ドキュメント中心のフレームワークとして捉えるのが適切です。

68/100

強み

発動条件が明確です。回帰テスト、モデル／プロンプト比較、本番前の妥当性確認など、どの場面で使うべきかがはっきり示されています。
ワークフローの中身がしっかりしています。自動指標、人手評価、ベンチマーク、A/Bテストなど複数の評価方法を扱っており、単なる雛形レベルにとどまりません。
概念設計の再利用性があります。テキスト生成、分類、RAGタスク向けに、汎用的なプロンプトよりも構造化された評価タクソノミーをエージェントに与えられます。

注意点

導入方法や実行方法の案内、スクリプト、参照される補助ファイルが不足しているため、運用面の明確さには限界があり、実装の詳細はエージェント側で補う必要があります。
明示的な制約条件や判断ルールの記載は少なく、実案件では指標の選定や実行方法にばらつきが出る可能性があります。

Llm Testing Ai Metrics Reliability Workflow

概要

llm-evaluation skill の概要

llm-evaluation skill は、LLM アプリ、プロンプト、モデル変更に対する評価設計を実務レベルで組み立てるためのフレームワークです。llm-evaluation は、「なんとなく良くなった気がする」で済ませず、品質を継続的に測定し、案を比較し、リリース前にリグレッションを検知したい開発者やチームに特に向いています。

この llm-evaluation skill が向いている人

この llm-evaluation skill は、次のような作業に取り組むチームや個人開発者に適しています。

プロンプトの改善サイクル
モデル比較
RAG の品質チェック
分類・抽出タスク
LLM 機能の本番 QA
継続リリース向けベンチマーク作成

「この変更で本当にシステムは改善したのか？」に答えたいなら、この skill はかなり相性が良いです。

この skill が解決してくれる仕事

本質的な job-to-be-done は、あいまいな品質上の不安を、実際に使える評価計画に落とし込むことです。単に一般論のテスト方法を聞くのではなく、llm-evaluation を使って評価タイプを選び、指標を定義し、自動化が弱い部分には人手評価を加え、継続比較しやすい形に整理できます。

汎用的なプロンプトと比べて llm-evaluation が違う点

一般的なプロンプトなら「BLEU、F1、人手評価を使いましょう」といった答えになりがちです。ですが、この llm-evaluation skill は、評価方法を実際のアプリ構成に合わせて設計したい場面でより役立ちます。

テキスト生成タスクには分類とは別の指標が必要
RAG システムでは出力評価だけでなく検索指標が必要
有用性やトーンのような性質は人手評価が必要なことが多い
A/B テストやリグレッション検査には単発スコアではなくベースラインが必要

そのため、「LLM をどう評価すればいい？」という軽い相談よりも、意思決定に直結する形で使えるのが強みです。

インストール前に最初に明確にしておきたいこと

llm-evaluation を使う前に、次の 3 点を明確にしておくのが重要です。

何のタスクを評価するのか
そのタスクにおける「良い」とは何か
自動指標、人手評価、その両方のどれが必要か

このあたりがまだ曖昧でも skill 自体は使えますが、出てくる内容はどうしても高レベル寄りになります。

主なトレードオフと限界

この skill が提供するのは評価戦略であって、すぐ実行できる評価ランナーではありません。評価の枠組み設計や手法選定には役立ちますが、実際に回すには自前のデータセット、ツール、実行環境が必要です。組み込み済みパイプラインを備えた完全自動フレームワークを求めているなら、これは即導入できる基盤というより、設計・計画のガイドとして捉えるのが適切です。

llm-evaluation skill の使い方

llm-evaluation skill のインストール方法

標準の skill インストール手順を使います。

npx skills add https://github.com/wshobson/agents --skill llm-evaluation

インストール後は、LLM アプリの評価計画を設計・改善したいタイミングで呼び出してください。

リポジトリで最初に読むべきファイル

この skill はかなり自己完結型です。まずは次を確認してください。

plugins/llm-application-dev/skills/llm-evaluation/SKILL.md

目立った補助スクリプトやリソースファイルは見当たらないため、価値の中心は書かれているフレームワークそのものにあります。最初は “When to Use This Skill” と “Core Evaluation Types” を読むのがおすすめです。

skill を有用にするために必要な入力

llm-evaluation usage の質は、渡す情報にかなり左右されます。最低でも次は入れておくと効果的です。

アプリの種類: summarization、chatbot、RAG、extraction、classification など
評価対象の変更点: 新しい prompt、model の切り替え、retrieval 更新、policy 変更
サンプル入力と期待出力
現在の失敗パターン
デプロイ制約: 速度、コスト、安全性、レビュー可能な工数
必要な評価形態: offline benchmarking、人手評価、online testing のどれか

この文脈がないと、skill は正しくてもどうしても汎用的な返答にとどまります。

あいまいな目的を強いプロンプトに変える方法

弱い依頼:

“Help me evaluate my LLM app.”

より良い依頼:

“Use the llm-evaluation skill to design an evaluation plan for a customer-support RAG assistant. We are comparing two prompts and one retriever change. We need offline metrics for retrieval quality, human review dimensions for answer quality, and a regression checklist we can run before deployment.”

このように書くと、何が変わるのか、どんな評価が必要か、その評価で何を判断したいのかが skill に伝わります。

llm-evaluation usage 向けのプロンプト雛形

次のような要素を含めて依頼すると使いやすいです。

task type
system architecture
variants being compared
evaluation dataset size and source
key risks
preferred metrics
acceptable tradeoffs

例:

“Use llm-evaluation for Model Evaluation of a RAG assistant. Recommend automated metrics, human evaluation criteria, and an A/B testing approach. We care most about factual accuracy, citation usefulness, and regression detection. Suggest a minimal first version and an expanded version.”

適切な評価タイプの選び方

この skill は複数の評価モードをカバーしています。実務では次の使い分けが基本です。

再現性とスケールを重視するなら自動指標
主観的・ニュアンス依存の品質を見るなら人手評価
バージョンを継続比較するならベンチマーク
実ユーザー行動が重要なら A/B テスト

ありがちな失敗は、1 つの方法に寄りすぎることです。たとえば生成タスクなのに BLEU だけを見る、あるいは大規模なリグレッション確認を人手評価だけに頼る、といったケースです。

タスク別の指標選定

使う指標はタスクから逆算して選ぶべきです。

text generation: BLEU, ROUGE, METEOR, BERTScore, perplexity
classification: accuracy, precision, recall, F1, confusion matrix, AUC-ROC
retrieval / RAG: MRR, NDCG, Precision@K, Recall@K

実務上いちばん重要なのは、生成向け指標を retrieval 問題に無理に当てはめないこと、その逆もしないことです。llm-evaluation guide は、どのシステム層を検証しているのかに合わせて指標を選ぶときに最も役立ちます。

人手評価を入れるべきタイミング

成功条件に次のような要素が含まれるなら、人手レビューを入れるべきです。

自由記述回答の factual accuracy
helpfulness
coherence
tone
instruction-following
safety や policy compliance

自動スコアは高く見えても、実際の回答品質は低いことがあります。そうしたズレが起こりやすい場面では、人手評価が特に重要です。

手探りを減らす実践的な llm-evaluation ワークフロー

llm-evaluation install 後に最初に回すなら、次の流れが現実的です。

1 つのタスクと 1 つのユーザー成果を定義する
小さくても代表性のあるテストセットを集める
タスクに合う自動指標を 2〜4 個選ぶ
人手レビューの観点を 3〜5 個定義する
ベースラインとなるシステムを採点する
変更は 1 回に 1 つずつ比較する
平均値だけでなく失敗事例も記録する

このやり方なら、導入しやすい軽さを保ちつつ、評価としての厳密さも確保できます。

この skill が特に得意なこと

この llm-evaluation skill が最も力を発揮するのは、次のような場面です。

評価手法の選定
ベンチマーク構造の設計
人手評価と自動評価の組み合わせ
プロンプトやモデル間比較の計画
デプロイ前の判断材料づくり

逆に、「出力を判定する 1 行プロンプトだけ欲しい」という場合や、すでに成熟した評価ハーネスがあり実装コードだけ必要な場合には、そこまで相性は良くありません。

よくある使い方の失敗: ベースラインなしで評価する

多くのチームは、バージョン B が「良いか」を知りたがります。ですが本当に有用なのは、重要なケースにおいて version B が version A より良いのかを問うことです。プロンプトでは、次を定義するよう skill に依頼してください。

baseline metrics
comparison rules
pass/fail thresholds
regression criteria

これを入れるだけで、llm-evaluation for Model Evaluation はかなり実務で使いやすくなります。

llm-evaluation skill の FAQ

llm-evaluation は初心者にも向いていますか？

はい。ただし、自分のアプリ種別と改善したい対象がすでにある程度わかっているなら、という条件つきです。主要な評価カテゴリの説明は明快です。一方で、タスク、データセット、成功条件がまだ未定義なら、初心者にはやや使いこなしにくい面があります。

先に正式な benchmark dataset を用意する必要はありますか？

いいえ。ただし、具体例は必要です。毎回その場しのぎのプロンプトで評価するよりも、小さくてもキュレーションされたテストセットのほうがはるかに有効です。代表的なケースと期待される振る舞いを見せられる状態になると、この skill の価値が大きく出ます。

この skill は学術的な評価にしか使えませんか？

いいえ。リポジトリ内容はかなり実務寄りです。model 比較、prompt 検証、regression 検知、本番投入前の信頼性確認、A/B testing まで含まれています。研究用途だけでなく、プロダクトチームにも十分適用できます。

どんなときは llm-evaluation を使わないほうがいいですか？

特定の評価 SDK をどう配線するか、あるフレームワークの特定コマンドをどう実行するか、といった実装依存の課題だけが目的なら llm-evaluation は向きません。この skill が扱うのは戦略と設計であり、すぐ使えるコード統合ではありません。

LLM に自己採点させるのと llm-evaluation は何が違いますか？

自己採点はワークフローの一部にはなりますが、それだけでは評価戦略として不十分です。llm-evaluation は、目的に合った指標、人の判断、ベースライン、比較設計を組み合わせて、ノイズの大きい 1 つのシグナルに依存しない形へ持っていけます。

llm-evaluation は RAG システムにも使えますか？

はい。むしろ相性の良い用途です。MRR、NDCG、Precision@K、Recall@K といった retrieval 指標を明示的に扱っているためです。これは重要で、弱い評価設計では answer text だけを採点して retrieval quality を見落としがちだからです。

llm-evaluation skill を改善する方法

一般的なアプリ説明ではなく、タスク単位の詳細を渡す

良い入力:

“Support chatbot that answers billing questions from a knowledge base”

悪い入力:

“AI assistant”

タスク定義が具体的であるほど、skill は適切な指標やレビュー観点を提案しやすくなります。

プロンプト内でシステム要素を分けて書く

より良い llm-evaluation usage のためには、層ごとに分けて評価するよう依頼してください。

retrieval quality
generation quality
classification accuracy
safety behavior

こうすることで、複数の失敗要因が 1 つの曖昧なスコアに混ざるのを防げます。

実際の失敗例を入れる

5〜10 件ほどの悪い出力例を示し、なぜ失敗なのかを説明してください。たとえば次のようなものです。

hallucinated product policy
missed relevant retrieved document
correct answer with poor tone
refusal when the query was actually safe

これにより、skill は実際のリスクに合った評価観点を提案しやすくなります。

まずは最小構成の評価から始める

最初から大規模なフレームワークを求めないでください。まずは次を聞くのが効果的です。

最小限で有効な benchmark
追跡する価値がある最少の metrics
最低限の human review rubric
シンプルな regression process

この進め方のほうが導入しやすく、見栄えだけ良くて結局運用されない評価計画を避けられます。

明示的な基準を持つ scorecard を使う

人手評価を頼むなら、skill に次を定義させると有効です。

rating dimensions
scoring scales
examples of pass/fail
tie-break rules for ambiguous cases

これによりレビュアー間のばらつきが減り、繰り返し評価の信頼性が上がります。

変更は 1 回に 1 つずつ比較する

よくある失敗は、prompt、model、retriever、post-processing を一度に変えてしまうことです。これでは何が結果を生んだのか評価で説明できません。可能な限り 1 つの変数だけを切り分けるよう、llm-evaluation に実験設計を依頼してください。

平均改善だけでなくリグレッションも追う

平均値だけでは重要な悪化が隠れます。skill には次を特定させてください。

worst-case categories
high-risk slices
user-critical scenarios
safety-sensitive prompts

これは、浅い評価設計から実務的な評価設計へ進めるうえで、特に効果の大きい改善点です。

1 回目の評価実行後に見直す

最初の実行結果を持ち帰って、次の点をさらに詰めてもらうと効果的です。

どの metrics が noisy だったか
どの human dimensions が重複していたか
データセットのどこが狭すぎたか
どの failure cluster に新しいテストケースを足すべきか

この 2 周目で、llm-evaluation は「参考になる」段階から「実際に使える」段階へ進みやすくなります。

判断に直結する依頼にすると llm-evaluation の出力は良くなる

広い概要説明を求めるより、意思決定に使う成果物を指定してください。

“Create a release-gate evaluation plan”
“Design a prompt-comparison benchmark”
“Build a human review rubric for hallucination risk”
“Recommend metrics for RAG retrieval regression checks”

このような判断中心の依頼のほうが、すぐ使える出力になりやすいです。

この skill の上限も理解しておく

llm-evaluation は計画の質を上げることはできますが、代表性のあるデータ、丁寧なラベリング、規律あるレビューの代わりにはなりません。例が弱い、あるいは成功条件が矛盾していれば、出力も弱くなります。この skill の有用性を最も速く高める方法は、評価ブリーフの具体性と現実性を上げることです。

評価とレビュー

まだ評価がありません

レビューを投稿

このスキルの評価やコメントを投稿するにはサインインしてください。

0/10000

新着レビュー

保存中...

このカテゴリーの他のスキル

evaluation-methodology

作成者 wshobson

evaluation-methodologyは、Model EvaluationにおけるPluginEvalの採点方法を解説するスキルです。評価レイヤー、ルーブリック、合成スコア、バッジ閾値に加え、結果の読み解き方や弱い評価軸の改善に役立つ実践的な指針を確認できます。

Model Evaluation

お気に入り 0GitHub 32.6k

healthcare-eval-harness

作成者 affaan-m

healthcare-eval-harness は、医療アプリのデプロイ向け患者安全評価ハーネスです。リリース前に、CDSS の精度、PHI の露出、データ整合性、臨床ワークフローの挙動、統合コンプライアンスをチームで検証できます。重大な失敗はデプロイをブロックするため、Model Evaluation や CI の安全ゲートとして healthcare-eval-harness を使いたい場合に有用です。

Model Evaluation

お気に入り 0GitHub 156.2k

eval-harness

作成者 affaan-m

eval-harness は、Claude Code セッションと eval 主導開発のための正式な評価フレームワークです。合格/不合格の基準を定義し、機能評価や回帰評価を構築し、プロンプトやワークフローの変更を公開する前にエージェントの信頼性を測定するのに役立ちます。

Model Evaluation

お気に入り 0GitHub 156.1k

agent-eval

作成者 affaan-m

agent-eval は、coding agent を再現性のあるタスクで一対一比較し、pass rate、cost、time、consistency を評価するための skill です。自分の repo で Claude Code、Aider、Codex などの agent を比較したいときに使えば、場当たり的なプロンプトよりも明確な根拠を得られます。

Model Evaluation

お気に入り 0GitHub 156k

huggingface-community-evals

作成者 huggingface

huggingface-community-evals は、inspect-ai または lighteval を使って Hugging Face Hub のモデル評価をローカルで実行するのに役立ちます。バックエンドの選定、スモークテスト、vLLM・Transformers・accelerate の実践的な使い分けガイドに適しています。HF Jobs のオーケストレーション、model-card の PR、.eval_results の公開、community-evals の自動化には向きません。

Model Evaluation

お気に入り 0GitHub 10.4k

huggingface-best

作成者 huggingface

huggingface-best skill は、Hugging Face のベンチマーク順位表を確認し、デバイス制約やモデルサイズで絞り込むことで、タスクに最適なモデルを見つけるのに役立ちます。コーディング、推論、チャット、OCR、RAG、音声、画像、マルチモーダルなどで、汎用的なモデル一覧ではなく、実用的な候補を絞り込みたいときのモデル推薦に向いています。

Model Evaluation

お気に入り 0GitHub 10.4k

libafl

作成者 trailofbits

libaflスキルは、LibAFLを使ってカスタム対象、ミューテーション戦略、セキュリティ監査のワークフローに対応するモジュール式ファuzzerを計画・構築するのに役立ちます。このlibaflガイドでは、対象の詳細情報から実用的なハーネス、フィードバックモデル、実行計画へ、前提をできるだけ少なくして進められます。

Security Audit

お気に入り 0GitHub 5k

judge-with-debate

作成者 NeoLabHQ

judge-with-debate は、共通の仕様、証拠に基づく反論、最大3ラウンドの議論を用いて、構造化されたマルチエージェント討論で解決策を評価します。コードレビュー、ルーブリックベースの評価、Multi-Agent Systems ワークフローにおける judge-with-debate に特に適しています。

Multi-Agent Systems

お気に入り 0GitHub 982

gws-modelarmor

作成者 googleworkspace

gws-modelarmor は、googleworkspace/cli エコシステムで Google Model Armor を扱うのに役立ちます。プロンプトのサニタイズ、モデル応答のサニタイズ、テンプレート作成を、汎用的なプロンプトよりも少ない試行錯誤で進められます。繰り返し使う前提の、ポリシーを意識した運用や Security Audit ワークフロー向けに設計されています。

Security Audit

お気に入り 0GitHub 25.5k

analyzing-campaign-attribution-evidence

作成者 mukul975

analyzing-campaign-attribution-evidence は、インフラの重なり、ATT&CK との整合性、マルウェア類似性、タイミング、言語的痕跡を総合的に評価し、根拠を持ってキャンペーン帰属判断を行うための支援スキルです。CTI、インシデント分析、Security Audit のレビューに向けて、この analyzing-campaign-attribution-evidence ガイドを活用できます。

Security Audit

お気に入り 0GitHub 6.1k

ai-prompt-engineering-safety-review

作成者 github

ai-prompt-engineering-safety-review は、LLMプロンプトを本番導入前、評価時、または顧客向け利用前に見直し、安全性・バイアス・セキュリティ上の弱点・出力品質を監査するためのプロンプトレビュー用スキルです。

Model Evaluation

お気に入り 0GitHub 27.8k

agentic-eval

作成者 github

agentic-eval は、reflection、rubric ベースの批評、evaluator-optimizer パターンを使って、AI 出力の評価ループをどう構築するかを示す GitHub Copilot スキルです。

Model Evaluation

お気に入り 0GitHub 27.8k

ml-pipeline-workflow

作成者 wshobson

ml-pipeline-workflow は、データ準備、学習、検証、デプロイ、監視までを含むエンドツーエンドの MLOps パイプライン設計を実践的に案内するガイドです。再現性のあるワークフロー自動化に向けたオーケストレーションの設計パターンも整理されています。

Workflow Automation

お気に入り 0GitHub 0

frontend-design

作成者 anthropics

frontend-designは、曖昧なUIアイデアから、汎用的でないスタイリングと明確な美的指針を備えた、個性的なプロダクション品質のフロントエンド実装を生成するのに役立つスキルです。

UI Design

お気に入り 1GitHub 105.2k

create-colleague

作成者 titanwings

create-colleague は、同僚に関するドキュメント、チャット、メール、スクリーンショット、Feishu、DingTalk のデータをもとに、編集可能な AI スキルを生成します。業務面と人物像を分けて出力でき、継続的に磨き込むための更新フローにも対応しています。

Skill Authoring

お気に入り 1GitHub 747

hyperframes

作成者 heygen-com

hyperframes は、HyperFrames で HTML ベースの動画コンポジションを構築するためのワークフロースキルです。タイトルカード、オーバーレイ、字幕、ナレーション、音に反応するモーション、シーン遷移など、Video Editing 向けに構造化されたコードファーストの hyperframes が必要なときに使えます。汎用的なプロンプトだけの動画依頼よりも、レイアウト、タイミング、アニメーションの設計を重視します。

Video Editing

お気に入り 0GitHub 2.7k