evaluation-methodology

作成者 wshobson

evaluation-methodologyは、Model EvaluationにおけるPluginEvalの採点方法を解説するスキルです。評価レイヤー、ルーブリック、合成スコア、バッジ閾値に加え、結果の読み解き方や弱い評価軸の改善に役立つ実践的な指針を確認できます。

スター32.6k

お気に入り0

追加日2026年3月30日

カテゴリーModel Evaluation

インストールコマンド

npx skills add wshobson/agents --skill evaluation-methodology

編集スコア

このスキルの評価は83/100で、PluginEvalがスキルやプラグインをどう採点するかを詳しく確認したいユーザーにとって、十分に信頼できるディレクトリ掲載内容です。リポジトリ上の根拠からは、明確な評価軸、計算式、閾値、アンチパターン、改善ガイダンスを備えた、ダミーではない充実した方法論コンテンツが確認でき、エージェントが解釈や評価基準の調整に使える実用的な参考資料になっています。一方で、実行可能なハンズオン手順というよりは運用上のリファレンス寄りの内容なので、段階的な自動化フローを求める場合ではなく、評価ロジックを一貫して理解したい場面での導入が適しています。

83/100

強み

採点の解釈、閾値の調整、改善用途まで具体的に示した説明があり、用途を想定して起動しやすい
運用面での中身が濃く、SKILL.mdで評価レイヤー、各次元、重み付け、計算式、バッジ、アンチパターンのフラグ、Eloランキングまで明示的に扱っている
references/rubrics.md に権威性のあるルーブリックファイルがあり、採点基準を確認しやすい信頼性の高い参照構成になっている

注意点

主にドキュメント中心で、方法論をそのまま実行可能なワークフローに変えるスクリプトやインストールコマンドは用意されていない
実装に関する一部の参照は `layers/static.py` のような analyzer ファイルを指しているが、ここで確認できる根拠の中心は、実行可能な評価ツールというより概念的な方法論である

Plugin Eval Testing Checklist Docs Workflow Metrics Ai Agents Llm

概要

evaluation-methodology スキルの概要

evaluation-methodology スキルでできること

evaluation-methodology スキルは、Model Evaluation における PluginEval の採点体系を解説するためのスキルです。一般的な「モデルをどう評価するか」を教えるプロンプトではありません。プラグインやスキルの品質を評価する際に使われる、3つの評価レイヤー、採点ディメンション、ブレンドロジック、複合スコア、バッジ閾値、アンチパターンのフラグ、ランキングの考え方までをカバーする、特定の方法論リファレンスです。

evaluation-methodology を導入すべき人

このスキルは、単にスコアを1つ出したい人よりも、評価結果を解釈したり改善につなげたりしたい人に向いています。特に相性がよいのは次のようなケースです。

低いスコアの原因を切り分けたいスキル作者・プラグイン作者
品質ゲートを調整したいマーケットプレイス運営者・プラットフォーム運営者
スコアをめぐる認識差や異議対応で、一貫した説明言語が必要なレビュアー
バッジやランキングの意味をパートナーや社内関係者に説明するチーム

実際の課題が「なぜこのスコアになったのか」「まず何を直すべきか」を明らかにすることなら、evaluation-methodology はかなり有力な選択肢です。

実際に解決したい仕事

導入前に多くのユーザーが気にするのは、だいたい次の4点です。

どのディメンションが特に重要なのか
静的チェックと judge ベースの採点はどう違うのか
Monte Carlo やブレンドされた各レイヤーが最終スコアにどう効くのか
どんな変更をすれば最短でスコアが上がるのか

evaluation-methodology スキルの価値は、こうした疑問に対して、散在した rubric の断片から推測させるのではなく、構造化された形で答えを返せる点にあります。

通常の評価プロンプトとの違い

一般的なプロンプトでも、LLM に「このスキルを評価して」と頼むこと自体はできます。ただし、通常は次の要素が不足しがちです。

レイヤーごとの明確な分離
根拠となる rubric 参照
ディメンション別の重み付けロジック
閾値やバッジの解釈
キャリブレーションや異議対応に使える方法論の言葉づかい

特に Triggering Accuracy、Orchestration Fitness、スコア解釈のように、評価理由の一貫性が重要な場面では、このスキルのほうが適しています。

判断前に読むべきファイル

まず SKILL.md を読んで評価手法の全体像をつかみ、次に references/rubrics.md で judge レイヤーが依拠する基準を確認してください。evaluation-methodology スキルが自分の Model Evaluation ワークフローに合うかどうかは、この2ファイルで十分に判断できます。

evaluation-methodology スキルの使い方

evaluation-methodology の導入方法

リポジトリからのインストールは次のコマンドです。

npx skills add https://github.com/wshobson/agents --skill evaluation-methodology

導入後は、ほかのインストール済みスキルと同じように、AI コーディング環境から呼び出せます。PluginEval のスコア解釈、方法論の説明、キャリブレーションの支援、スコア改善の助言を明示したタスクとして依頼するのが基本です。

このスキルに必要な入力

evaluation-methodology スキルは、次のような具体的な評価コンテキストがあると最も機能します。

評価対象となる SKILL.md またはプラグインの内容
不自然に見えるディメンションやスコア
静的解析を見たいのか、LLM judge の出力を見たいのか、ブレンド後の総合スコアを見たいのか
目的が説明・調整・改善・弁護のどれか
自分たちが運用している marketplace の閾値、badge cutoff、合格基準

こうした前提がないと、方法論自体の対象範囲が広いため、出力も抽象度の高い説明にとどまりやすくなります。

あいまいな依頼を強いプロンプトに変える

弱いプロンプト:

Explain this evaluation score.

より強いプロンプト:

Use the evaluation-methodology skill to interpret this PluginEval result. Focus on Triggering Accuracy and Orchestration Fitness, explain how the three evaluation layers likely contributed, identify which issues are static-document problems versus judge-layer reasoning problems, and suggest the smallest changes that would most improve the composite score.

この聞き方が有効な理由は次のとおりです。

方法論を明示的に指定している
対象ディメンションを絞っている
レイヤーを意識した説明を求めている
単なる要約ではなく、優先度付きの改善案を求めている

evaluation-methodology の活用で使いやすいプロンプト型

質の高い evaluation-methodology usage プロンプトには、通常次の4点が入ります。

評価対象の成果物
問題になっているスコアまたはディメンション
その評価をもとに下したい判断
欲しい出力形式

例:

Apply the evaluation-methodology skill to this skill draft. Estimate which dimensions are most at risk, cite the likely rubric anchors behind that judgment, and recommend edits that improve triggering precision without making the description too narrow.

推測を減らせる実践的な進め方

次の順で進めると、見当違いを減らせます。

SKILL.md を読んで採点体系の全体像を把握する
references/rubrics.md を開いて anchor レベルの解釈を確認する
実際に手を打つべきディメンションを特定する
レイヤー別の診断を依頼する
スキルまたはプラグインを修正する
変更で文書が長くなっただけではなく、本当に狙ったディメンションが改善したかを再確認する

これは重要です。多くのスコア問題は、原因の見立てがずれています。たとえば triggering の問題は frontmatter の説明文が曖昧なことから起きやすく、orchestration の問題は入出力契約が不明確なことから起きる場合があります。

先に読むべきリポジトリ内ファイル

この evaluation-methodology guide を見るなら、まず優先したいのは次のファイルです。

plugins/plugin-eval/skills/evaluation-methodology/SKILL.md
plugins/plugin-eval/skills/evaluation-methodology/references/rubrics.md

全体フレームワークの理解には SKILL.md、スコアの根拠をより具体的に読み解いたり、ドラフトを anchor point と照らし合わせたりしたいときは references/rubrics.md を使うのがよいです。

3つのレイヤーを実務でどう見るか

この方法論は、3つのレイヤーを積み上げる形になっています。

決定的な文書チェックを行う static analysis
rubric ベースの定性的評価を行う LLM judge scoring
特に triggering を中心に、プロンプト分布上の挙動を見る Monte Carlo simulation

この分離は実務上かなり有用です。公開前にまず雑な不備がないかを素早く見たいなら、最初に見るべきは static analysis です。低スコアの理由を説明可能な形で整理したいなら、judge rubric の重みが増します。現実的にばらつきのあるプロンプトに対して、スキルが適切に発火するかを知りたいなら、意思決定に最も直結するのは Monte Carlo の見方です。

Model Evaluation で evaluation-methodology を使うべき場面

evaluation-methodology for Model Evaluation が有効なのは、単なるモデル出力の良し悪しではなく、そのモデル挙動を包むスキルやプラグインの品質を見たいときです。とくに、スキルが見つけられやすいか、適切なタイミングで発火するか、足場となる説明や構造が整っているか、エージェントの生態系の中で運用上信頼できるか、といった論点では相性がよいです。

一方で、プラグインやスキルのオーケストレーションとは無関係な、純粋なモデル性能ベンチマーク設計だけが目的なら、この方法論はあまり向いていません。

導入時によくある迷い

「これは実際に改善に使えるのか、それとも説明用なのか」が、導入時によくある迷いです。実際には、次の目的なら十分に実用的です。

スコアをディメンションまでさかのぼって追いたい
各ディメンションが何を評価しているか理解したい
複合スコアに効く修正を選びたい
公開やバッジ付与の閾値を調整したい

逆に、すぐ動く評価スクリプトのようなものを期待しているなら、期待はずれになる可能性があります。このリポジトリで強いのは実装済み自動化ではなく、方法論と rubric を文章でしっかり定義している点です。

evaluation-methodology スキル FAQ

evaluation-methodology は採点ツールですか、それとも方法論リファレンスですか？

主軸は方法論リファレンスです。PluginEval がどう品質を測り、結果をどう読むべきかを示してくれます。そのため、監査、キャリブレーション、改善計画には特に役立ちます。

evaluation-methodology スキルは初心者向けですか？

はい。ただし、少なくともスキルやプラグインが何かを理解している初心者向けです。文章構成自体は整理されていますが、いきなり全体フレームワークをまとめて読むより、実例を持ち込み、1回につき1ディメンションずつ尋ねたほうが理解しやすくなります。

LLM に自分のスキルをレビューさせるのと何が違いますか？

通常のレビュー用プロンプトでも、そこそこ有益な助言は返ってきます。ただし、PluginEval のレイヤー構造や rubric anchor に沿った評価にはなりにくいのが実情です。evaluation-methodology skill は、複数のレビュアー間で評価の言葉をそろえたいときに効く、共通の採点言語を提供してくれます。

evaluation-methodology を使わないほうがよいのはどんなときですか？

次のような場合は見送って問題ありません。

一般的な文章レビューだけが欲しい
評価したいのが skill/plugin の品質ではなく、生のモデルタスク精度である
方法論のガイドより、実行可能な自動化を求めている
自分たちのエコシステムが PluginEval に近いディメンション設計や badge logic を採っていない

Triggering Accuracy の低スコア対策にも使えますか？

はい。rubric の参照では、triggering を代表的なプロンプト集合に対する precision と recall の両面で扱っています。説明文が曖昧すぎて安定して発火しない場合にも、逆に広すぎて関係ないプロンプトで発火してしまう場合にも、特に有効です。

PluginEval 以外でも使えますか？

はい。ただし主に、構造化された参照モデルとして使う形になります。ディメンション設計、レイヤー分離、rubric 的な考え方は他の文脈にも移しやすいです。一方で、重み、閾値、バッジの定義そのものは、運用プロセスが PluginEval に近い場合に最も活きます。

evaluation-methodology スキルを改善するには

まずは判断に効くディメンションから見る

evaluation-methodology スキルを使うとき、最初から「全体品質」を聞かないでください。まずは「どの単一ディメンションが意思決定のボトルネックになっているか」を聞くほうが有効です。実務上は、特に Triggering Accuracy や Orchestration Fitness で、改善余地の大きい論点が早く見つかりやすくなります。

より良い分析のために入力を強くする

入力として望ましいもの:

現在のスコア、または弱いと疑っているディメンション
正確な description frontmatter
関連する SKILL.md の該当箇所
発火してほしいプロンプト例と、発火してほしくないプロンプト例
自分たちの合格基準

こうした情報があると、特にディメンション別の診断において、この方法論が意図する形に近い推論をさせやすくなります。

発火する例と発火しない例を両方出す

改善効果が大きい入力のひとつが、次の両方をそろえて渡すことです。

スキルが発火すべきプロンプト
スキルが黙っているべきプロンプト

これはルーティング品質の分析に直結します。単に「関連ありそうか」を問うのではなく、precision と recall の両方を見るという、この方法論の考え方にも合っています。

static の修正と judge レイヤーの修正を分ける

すべての改善が同じ種類とは限りません。問題を次のように分類してもらうと有効です。

structural fixes: frontmatter、欠けている契約、弱い progressive disclosure
rubric fixes: 説明不足、ガイダンスの曖昧さ、実行可能性の弱さ
behavior-fit fixes: 現実的なプロンプトの揺れに対して起こりそうな triggering ミスマッチ

こうしておくと、違う箇所を過剰に直してしまうのを防げます。

もっとも多い失敗パターンを避ける

よくある失敗は、見つけられやすさを上げようとしてスキルの範囲を広げすぎることです。見かけ上のカバレッジは上がっても、triggering precision を落とすことがあります。説明文を改訂したあと、evaluation-methodology skill に「汎用化しすぎていないか」を確認させるのが有効です。

勘だけでなく rubric anchor で反復する

最初の出力を得たら、次のように聞いてみてください。

Which anchor in references/rubrics.md best matches this draft now, and what exact evidence keeps it from the next anchor?

この質問のほうが、単に「どう改善できますか」と聞くよりも、どの修正が実際のスコア変動につながるかを具体的に引き出しやすくなります。

最小変更での改善案を求める

素早く回したいなら、全面改稿ではなく最小修正を求めるのが効果的です。

Using the evaluation-methodology skill, recommend the three smallest wording or structure changes most likely to improve the composite score without changing scope.

意図やスコープを保ちながら、評価対象となるディメンションに絞って改善できるため、フルリライトより実用的なことが多いです。

改善が狙った指標に効いたかを再確認する

文書が読みやすくなっても、この方法論で見たときに改善していないことはあります。修正後は、次の点を比較するよう依頼してください。

Triggering Accuracy への想定効果
Orchestration Fitness への想定効果
composite score への見込み影響
編集によって新たに生まれたトレードオフの可能性

evaluation-methodology guide が本当に効いてくるのはこの最終確認です。フレームワークを説明するだけでなく、その枠組みの中でどう改善するかまで支援してくれます。

評価とレビュー

まだ評価がありません

レビューを投稿

このスキルの評価やコメントを投稿するにはサインインしてください。

0/10000

新着レビュー

保存中...

このカテゴリーの他のスキル

healthcare-eval-harness

作成者 affaan-m

healthcare-eval-harness は、医療アプリのデプロイ向け患者安全評価ハーネスです。リリース前に、CDSS の精度、PHI の露出、データ整合性、臨床ワークフローの挙動、統合コンプライアンスをチームで検証できます。重大な失敗はデプロイをブロックするため、Model Evaluation や CI の安全ゲートとして healthcare-eval-harness を使いたい場合に有用です。

Model Evaluation

お気に入り 0GitHub 156.2k

eval-harness

作成者 affaan-m

eval-harness は、Claude Code セッションと eval 主導開発のための正式な評価フレームワークです。合格/不合格の基準を定義し、機能評価や回帰評価を構築し、プロンプトやワークフローの変更を公開する前にエージェントの信頼性を測定するのに役立ちます。

Model Evaluation

お気に入り 0GitHub 156.1k

agent-eval

作成者 affaan-m

agent-eval は、coding agent を再現性のあるタスクで一対一比較し、pass rate、cost、time、consistency を評価するための skill です。自分の repo で Claude Code、Aider、Codex などの agent を比較したいときに使えば、場当たり的なプロンプトよりも明確な根拠を得られます。

Model Evaluation

お気に入り 0GitHub 156k

huggingface-community-evals

作成者 huggingface

huggingface-community-evals は、inspect-ai または lighteval を使って Hugging Face Hub のモデル評価をローカルで実行するのに役立ちます。バックエンドの選定、スモークテスト、vLLM・Transformers・accelerate の実践的な使い分けガイドに適しています。HF Jobs のオーケストレーション、model-card の PR、.eval_results の公開、community-evals の自動化には向きません。

Model Evaluation

お気に入り 0GitHub 10.4k

huggingface-best

作成者 huggingface

huggingface-best skill は、Hugging Face のベンチマーク順位表を確認し、デバイス制約やモデルサイズで絞り込むことで、タスクに最適なモデルを見つけるのに役立ちます。コーディング、推論、チャット、OCR、RAG、音声、画像、マルチモーダルなどで、汎用的なモデル一覧ではなく、実用的な候補を絞り込みたいときのモデル推薦に向いています。

Model Evaluation

お気に入り 0GitHub 10.4k

libafl

作成者 trailofbits

libaflスキルは、LibAFLを使ってカスタム対象、ミューテーション戦略、セキュリティ監査のワークフローに対応するモジュール式ファuzzerを計画・構築するのに役立ちます。このlibaflガイドでは、対象の詳細情報から実用的なハーネス、フィードバックモデル、実行計画へ、前提をできるだけ少なくして進められます。

Security Audit

お気に入り 0GitHub 5k

evaluation

作成者 muratcankoylan

evaluation スキルは、非決定論的なシステムに対してエージェント評価を設計・実行するためのものです。評価の導入計画、ルーブリック作成、回帰チェック、品質ゲート、Skill Testing の評価に使えます。LLM-as-judge のワークフロー、多面的なスコアリング、再現性のある結果が必要な実用的な評価運用に向いています。

Skill Testing

お気に入り 0GitHub 0

judge-with-debate

作成者 NeoLabHQ

judge-with-debate は、共通の仕様、証拠に基づく反論、最大3ラウンドの議論を用いて、構造化されたマルチエージェント討論で解決策を評価します。コードレビュー、ルーブリックベースの評価、Multi-Agent Systems ワークフローにおける judge-with-debate に特に適しています。

Multi-Agent Systems

お気に入り 0GitHub 982

gws-modelarmor

作成者 googleworkspace

gws-modelarmor は、googleworkspace/cli エコシステムで Google Model Armor を扱うのに役立ちます。プロンプトのサニタイズ、モデル応答のサニタイズ、テンプレート作成を、汎用的なプロンプトよりも少ない試行錯誤で進められます。繰り返し使う前提の、ポリシーを意識した運用や Security Audit ワークフロー向けに設計されています。

Security Audit

お気に入り 0GitHub 25.5k

analyzing-campaign-attribution-evidence

作成者 mukul975

analyzing-campaign-attribution-evidence は、インフラの重なり、ATT&CK との整合性、マルウェア類似性、タイミング、言語的痕跡を総合的に評価し、根拠を持ってキャンペーン帰属判断を行うための支援スキルです。CTI、インシデント分析、Security Audit のレビューに向けて、この analyzing-campaign-attribution-evidence ガイドを活用できます。

Security Audit

お気に入り 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

作成者 mukul975

detecting-ai-model-prompt-injection-attacks は、LLM に届く前の信頼できないテキストを選別するためのサイバーセキュリティスキルです。階層化された正規表現、ヒューリスティック評価、DeBERTa ベースの分類を使って、直接的・間接的なプロンプトインジェクション攻撃を検出します。チャットボットの入力検証、文書取り込み、Threat Modeling に役立ちます。

Threat Modeling

お気に入り 0GitHub 0

llm-evaluation

作成者 wshobson

llm-evaluation スキルを使うと、LLMアプリ、プロンプト、RAGシステム、モデル変更に対して、指標設計、人手レビュー、ベンチマーク、リグレッションチェックを組み合わせた再現性のある評価計画を設計できます。

Model Evaluation

お気に入り 0GitHub 32.6k

ai-prompt-engineering-safety-review

作成者 github

ai-prompt-engineering-safety-review は、LLMプロンプトを本番導入前、評価時、または顧客向け利用前に見直し、安全性・バイアス・セキュリティ上の弱点・出力品質を監査するためのプロンプトレビュー用スキルです。

Model Evaluation

お気に入り 0GitHub 27.8k

agentic-eval

作成者 github

agentic-eval は、reflection、rubric ベースの批評、evaluator-optimizer パターンを使って、AI 出力の評価ループをどう構築するかを示す GitHub Copilot スキルです。

Model Evaluation

お気に入り 0GitHub 27.8k

ml-pipeline-workflow

作成者 wshobson

ml-pipeline-workflow は、データ準備、学習、検証、デプロイ、監視までを含むエンドツーエンドの MLOps パイプライン設計を実践的に案内するガイドです。再現性のあるワークフロー自動化に向けたオーケストレーションの設計パターンも整理されています。

Workflow Automation

お気に入り 0GitHub 0

frontend-design

作成者 anthropics

frontend-designは、曖昧なUIアイデアから、汎用的でないスタイリングと明確な美的指針を備えた、個性的なプロダクション品質のフロントエンド実装を生成するのに役立つスキルです。

UI Design

お気に入り 1GitHub 105.2k