agentic-eval

作成者 github

agentic-eval は、reflection、rubric ベースの批評、evaluator-optimizer パターンを使って、AI 出力の評価ループをどう構築するかを示す GitHub Copilot スキルです。

スター27.8k

お気に入り0

追加日2026年3月31日

カテゴリーModel Evaluation

インストールコマンド

npx skills add github/awesome-copilot --skill agentic-eval

編集スコア

このスキルの評価は 68/100 です。再利用しやすい評価パターンを探しているディレクトリ利用者には掲載価値がありますが、すぐ使える実装付きスキルというより、概念理解が中心のガイドだと見ておくべきです。リポジトリには、どの場面で呼び出すべきか、どのような evaluator-refiner ループに対応しているかを理解するだけの内容があります。一方で、実際に使うには各パターンを自分のツールやプロンプトに落とし込む作業が必要です。

68/100

強み

frontmatter と examples による起動性が高く、self-critique、evaluator-optimizer パイプライン、rubric ベースの判定、反復的な品質改善のユースケースが明示されています。
単なるプレースホルダー説明ではなく、基本的な reflection ループを含む複数の documented pattern を備えており、実際のワークフローに役立つ内容があります。
構成は段階的でわかりやすく、overview、when-to-use の案内、コードフェンス付き examples によって、エージェントや利用者が意図された評価ループを素早く把握できます。

注意点

install 手順、補助ファイル、実行可能な reference がないため、運用面の明確さは限定的で、導入には手作業での適応が必要です。
このスキルは環境依存の実装というよりパターン志向に見え、制約、失敗パターン、実運用でどのパターンを選ぶべきかについての根拠はあまり示されていません。

Copilot Testing Llm Ai Agents Workflow

概要

agentic-eval skill の概要

agentic-eval ができること

agentic-eval skill は、AIワークフローで最初のドラフトをそのまま採用せず、評価ループを組み込むためのコンパクトなガイドです。役割は明快で、まず初回出力を明示的な基準で評価し、その後に1回以上の改善パスで磨いていきます。コード生成、構造化された分析、レポート作成、あるいは品質が重要なタスクに取り組むなら、agentic-eval は「一度生成して終わり」を「生成 → 評価 → 改善」の流れに変えるのに向いています。

agentic-eval を導入すべき人

この skill は、すでにAIを実務寄りの作業に使っていて、単純なプロンプト以上の安定性が必要なビルダーに適しています。特に相性がよいのは次のようなケースです。

コーディングエージェントに自己批評を組み込みたい開発者
evaluator-optimizer パイプラインを設計するチーム
ルーブリックベースのレビュー導線を作りたいユーザー
定義済みの基準で出力品質を検証できる model evaluation に取り組む人

本当に解決したい仕事

多くのユーザーに必要なのは、汎用的なプロンプトテンプレートをもう1つ増やすことではありません。必要なのは、次を繰り返せる再現性のある進め方です。

何をもって「良い」とするかを定義する
その基準に照らして回答を評価する
具体的な不足点に基づいて修正する
十分な品質に達した時点、または所定の反復回数で止める

agentic-eval for Model Evaluation が特に役立つのはこの場面です。制御しやすい改善ループの軽量な型を提供してくれます。

この skill がほかと違う点

agentic-eval の価値は、幅広さではなく焦点の絞り方にあります。このリポジトリは大きなフレームワークではなく、実践的な評価パターンに絞っているため、既存のエージェントやプロンプトの流れに素早く組み込みやすいのが特徴です。主な差別化ポイントは次のとおりです。

明示的な reflection loop
evaluator-optimizer 的な考え方
ルーブリック駆動の出力との相性
テスト型・基準準拠型の改善にそのまま使いやすいこと

agentic-eval が強くハマる場面

agentic-eval skill は、成否をチェック可能な基準で判断できるタスクで使うと効果的です。たとえば以下のようなケースです。

テストに通す
フォーマットや文体の制約を満たす
ルーブリックに照らして事実の抜け漏れを減らす
レポートや分析の推論の質を引き締める
最終出力前にコード品質を引き上げる

逆に、成功条件が曖昧・主観的で、おおまかにでも採点できない場合は、この skill の信頼性は下がります。

agentic-eval skill の使い方

導入時の前提とアクセス経路

リポジトリ上のシグナルとしては SKILL.md が単独で置かれているだけなので、agentic-eval install の実態は、skill 対応環境に追加したうえで、その skill ファイルを直接読むことが中心になります。GitHub Copilot の skills workflow を使っているなら、github/awesome-copilot リポジトリから skill を追加し、まず skills/agentic-eval/SKILL.md を開いてください。補助スクリプト、ルール、参照ファイルのように処理を肩代わりしてくれるものはないため、普段以上にプロンプト設計の良し悪しが効きます。

最初に読むべきファイル

まず確認すべきなのは次です。

SKILL.md

このリポジトリには補助アセットがないため、読むべき導線は短く済みます。特に以下のセクションを先に押さえておくのがおすすめです。

Overview
When to Use
Pattern 1: Basic Reflection
Pattern 2: Evaluator-Optimizer

このあたりが、この skill の実装面での中核です。

agentic-eval に必要な入力

agentic-eval usage は、最初に次の4点を渡すだけでかなり使いやすくなります。

完了させたいタスク
評価基準
改善ラウンドの最大回数
停止条件

弱い依頼の例:
“Improve this answer.”

より強い依頼の例:
“Draft a migration plan, then evaluate it for completeness, risk coverage, sequencing, and rollback clarity. Revise up to 3 times and return the final version plus the main changes.”

ざっくりした目標を使えるプロンプトに落とし込む

実用的な agentic-eval guide のプロンプトは、たいてい次の形にすると扱いやすくなります。

Task: 何を作る必要があるか
Context: 元になる事実、制約、想定読者
Criteria: 何を基準に結果を評価するか
Evaluation mode: self-critique にするか、別の evaluator pass にするか
Iteration limit: 通常は 2〜4 回
Output contract: 最終回答だけ返すか、批評と改訂履歴も返すか

構成例:

Task: “Write a design review memo for the API change.”
Context: “Audience is staff engineers; must mention backward compatibility risks.”
Criteria: “Accuracy, completeness, decision clarity, concrete risks, actionable recommendation.”
Loop: “Generate, evaluate against the rubric, revise, repeat up to 3 times.”
Output: “Return final memo and a short list of fixes made.”

Basic Reflection パターンを実務で使う

agentic-eval の最初のパターンは basic reflection です。同じモデルが自分の出力を批評し、そのまま改善します。運用上のオーバーヘッドが小さいので、最初の一歩としては最も入りやすい方法です。

向いているのは次のような場面です。

タスクの重要度が中程度
短時間で品質を上げたい
複数のエージェントやモデルをオーケストレーションしたくない

機能させるコツは、批評を具体的にさせることです。単に “review this” と頼むのではなく、基準ごとの採点や不足点の特定を求めたほうがうまく回ります。

Evaluator-Optimizer パターンを実務で使う

2つ目のパターンは、品質が重要なワークフローにより向いています。1回目でドラフトを作成し、次のパスで評価し、その後のパスで修正します。評価を独立した工程として切り出すため、出力の規律が保ちやすくなるのが利点です。

向いているのは次のようなケースです。

出力がルーブリックを満たす必要がある
なぜ改訂が発生したかの監査証跡をより明確に残したい
多数の項目に対して agentic-eval for Model Evaluation を繰り返し回す

このパターンはベンチマークもしやすく、ドラフトの品質、批評の品質、最終成果物の品質を別々に比較できます。

良い評価基準が結果を左右する

導入時に最もつまずきやすいのは、評価基準が弱いことです。基準が曖昧だと、ループは曖昧さを増幅するだけになりがちです。基準は次の性質を優先してください。

観察可能である
具体的である
タスクに直結している
一貫して適用できる程度に絞られている

良い例:

“Includes migration steps, risk analysis, rollback plan, and owner assignments”

悪い例:

“Make it better and more professional”

実タスク向けのおすすめワークフロー

実務での agentic-eval usage は、次の流れにすると扱いやすいです。

タスクと文脈からまず1回ドラフトする
短いルーブリックで評価する
漠然とした感想ではなく、具体的な失敗点を特定する
その失敗点に対してだけ修正する
品質しきい値に達するか、反復上限に達したら止める

これならループがだらだら続くのを防げますし、修正を測定可能な問題に結びつけたまま進められます。

通常のプロンプトで十分な場面

agentic-eval skill を何にでも使う必要はありません。低リスクなタスクなら、一発生成のほうが普通は速くて安価です。単純なブレインストーミング、粗いアイデア出し、使い捨てのドラフトには、反復評価が不要なことも多いです。この skill の真価が出るのは、質の低い出力に実際のコストがある場面です。

実践的なプロンプト例

強い呼び出し方の例は次のようになります。

“Create a Python function for CSV import validation. Then evaluate your solution against these criteria: correctness, edge-case coverage, error handling, readability, and testability. List the top 3 issues, revise the code, and stop after 2 refinement rounds or when all criteria are satisfied.”

この形が機能する理由:

何を作るのかが明確
ルーブリックが明示されている
評価結果の出力範囲が限定されている
停止ルールがあり、過剰な反復を防げる

agentic-eval skill の FAQ

agentic-eval は初心者にも向いているか

はい。プロンプティングの基本をすでに理解しているなら使えます。skill 自体の考え方はシンプルですが、結果の良し悪しは使える評価基準を書けるかに左右されます。初心者は、より形式的な evaluator-optimizer 構成に進む前に、basic reflection から始めるのがおすすめです。

通常のプロンプトに対する最大の利点は何か

通常のプロンプトは、1つの回答を求めます。agentic-eval はそこに品質管理のループを足します。実務上の利点は、単に「文章量が増える」ことではなく、最終出力の前に抜け漏れ、弱い推論、制約違反を見つけやすくなることです。

agentic-eval を使わないほうがよいのはいつか

次のような場合は見送るべきです。

タスクに明確な成功基準がない
品質よりスピードのほうが重要
出力が評価されるものではなく探索的なもの
改訂で本当に改善したかを判断できない

agentic-eval はコード専用か

いいえ。コードだけでなく、分析、レポート、そのほかの構造化出力にも向いています。共通して必要なのは「評価できること」です。ルーブリックを定義できるなら、agentic-eval skill はたいてい役に立ちます。

agentic-eval にはツールや自動化が含まれているか

このリポジトリのスナップショットでは含まれていません。この skill は guidance-first の作りで、SKILL.md にパターンと例がまとまっているタイプです。パッケージ化されたライブラリやスクリプト群ではないため、自分のエージェント、prompt chain、または orchestration layer の中にループを組み込んで使う前提になります。

反復回数は何回くらいがよいか

通常は 2〜3 回で十分です。複雑なタスクでは回数を増やす価値もありますが、そのぶんドリフト、コスト、自己正当化的な批評も増えます。回数を増やせば必ず良くなると考えるのではなく、停止条件を明示するほうが安全です。

agentic-eval skill を改善する方法

まずはルーブリックを引き締める

agentic-eval の結果を最短で改善する方法は、生成プロンプトをいじることではなく、評価基準を改善することです。長いチェックリストより、4〜6項目程度に絞った簡潔なルーブリックのほうが、たいてい機能します。各項目は、モデルがその基準に沿って修正できる程度には具体的にしてください。

evaluator に元の制約を渡す

出力を要件に沿わせたいなら、評価ステップにもその要件を含めてください。たとえば次のような内容です。

必須セクション
ポリシー上の制約
interface contracts
acceptance tests
想定読者とトーンの要件

これがないと、evaluator は実際のタスク達成ではなく、もっともらしさの最適化に流れがちです。

修正の前に失敗診断をさせる

ありがちなミスは、批評からすぐ全面的な書き直しに飛んでしまうことです。まず影響の大きい問題を先に挙げさせたほうが、結果は良くなります。そうすることで、改訂の焦点が本当のギャップに向き、何もかも書き換える動きになりにくくなります。

表面的な自己評価を防ぐ

agentic-eval for Model Evaluation で起こりがちな失敗のひとつが、“looks good overall” のような弱い批評です。これを防ぐには、次を必須にすると効果的です。

基準ごとの評価
明確に欠けている要素
重大度の順位付け
ドラフトからの根拠

こうすることで、評価行動をより実用的な方向に強制できます。

ドラフト品質と評価品質を分けて見る

まだ満足できない場合は、問題がどこにあるのかを切り分けてください。

初稿が弱い
批評が弱い
改訂の規律が弱い

ここを分けるのは重要です。必要な改善策が段階ごとに違うからです。強い evaluator でも元の文脈不足までは救えませんし、初稿が良くても、改訂指示が曖昧だと品質が落ちることはあります。

1回回した後に入力を改善する

1回実行したら、うまくいかなかった点を見てプロンプトを調整します。

足りなかった文脈を追加する
弱い評価基準を書き直す
出力形式を引き締める
競合する指示を取り除く
修正が迷走するなら反復回数を減らす

最も良い agentic-eval guide の挙動は、たいてい1〜2回のプロンプト調整を経て、実際に観測した失敗パターンに合わせ込んだときに出てきます。

明示的な停止ルールを置く

品質を上げつつコストも抑えたいなら、ループをどこで止めるかを定義しておきます。

すべての必須基準を満たした
重大な問題が残っていない
最大 3 ラウンドに達した

これにより、中身は改善しないのに表現だけを磨き続けるようなループを避けられます。

重要度に応じてパターンを使い分ける

軽量な品質改善なら basic reflection、高リスクな成果物・繰り返し業務・ベンチマーク的なレビューなら evaluator-optimizer を使うのが基本です。可能な限り単純なパターンを選ぶことで、agentic-eval install の判断もしやすくなり、運用の保守負荷も下げられます。

評価とレビュー

まだ評価がありません

レビューを投稿

このスキルの評価やコメントを投稿するにはサインインしてください。

0/10000

新着レビュー

保存中...

このカテゴリーの他のスキル

evaluation-methodology

作成者 wshobson

evaluation-methodologyは、Model EvaluationにおけるPluginEvalの採点方法を解説するスキルです。評価レイヤー、ルーブリック、合成スコア、バッジ閾値に加え、結果の読み解き方や弱い評価軸の改善に役立つ実践的な指針を確認できます。

Model Evaluation

お気に入り 0GitHub 32.6k

healthcare-eval-harness

作成者 affaan-m

healthcare-eval-harness は、医療アプリのデプロイ向け患者安全評価ハーネスです。リリース前に、CDSS の精度、PHI の露出、データ整合性、臨床ワークフローの挙動、統合コンプライアンスをチームで検証できます。重大な失敗はデプロイをブロックするため、Model Evaluation や CI の安全ゲートとして healthcare-eval-harness を使いたい場合に有用です。

Model Evaluation

お気に入り 0GitHub 156.2k

eval-harness

作成者 affaan-m

eval-harness は、Claude Code セッションと eval 主導開発のための正式な評価フレームワークです。合格/不合格の基準を定義し、機能評価や回帰評価を構築し、プロンプトやワークフローの変更を公開する前にエージェントの信頼性を測定するのに役立ちます。

Model Evaluation

お気に入り 0GitHub 156.1k

agent-eval

作成者 affaan-m

agent-eval は、coding agent を再現性のあるタスクで一対一比較し、pass rate、cost、time、consistency を評価するための skill です。自分の repo で Claude Code、Aider、Codex などの agent を比較したいときに使えば、場当たり的なプロンプトよりも明確な根拠を得られます。

Model Evaluation

お気に入り 0GitHub 156k

huggingface-community-evals

作成者 huggingface

huggingface-community-evals は、inspect-ai または lighteval を使って Hugging Face Hub のモデル評価をローカルで実行するのに役立ちます。バックエンドの選定、スモークテスト、vLLM・Transformers・accelerate の実践的な使い分けガイドに適しています。HF Jobs のオーケストレーション、model-card の PR、.eval_results の公開、community-evals の自動化には向きません。

Model Evaluation

お気に入り 0GitHub 10.4k

huggingface-best

作成者 huggingface

huggingface-best skill は、Hugging Face のベンチマーク順位表を確認し、デバイス制約やモデルサイズで絞り込むことで、タスクに最適なモデルを見つけるのに役立ちます。コーディング、推論、チャット、OCR、RAG、音声、画像、マルチモーダルなどで、汎用的なモデル一覧ではなく、実用的な候補を絞り込みたいときのモデル推薦に向いています。

Model Evaluation

お気に入り 0GitHub 10.4k

libafl

作成者 trailofbits

libaflスキルは、LibAFLを使ってカスタム対象、ミューテーション戦略、セキュリティ監査のワークフローに対応するモジュール式ファuzzerを計画・構築するのに役立ちます。このlibaflガイドでは、対象の詳細情報から実用的なハーネス、フィードバックモデル、実行計画へ、前提をできるだけ少なくして進められます。

Security Audit

お気に入り 0GitHub 5k

evaluation

作成者 muratcankoylan

evaluation スキルは、非決定論的なシステムに対してエージェント評価を設計・実行するためのものです。評価の導入計画、ルーブリック作成、回帰チェック、品質ゲート、Skill Testing の評価に使えます。LLM-as-judge のワークフロー、多面的なスコアリング、再現性のある結果が必要な実用的な評価運用に向いています。

Skill Testing

お気に入り 0GitHub 0

judge-with-debate

作成者 NeoLabHQ

judge-with-debate は、共通の仕様、証拠に基づく反論、最大3ラウンドの議論を用いて、構造化されたマルチエージェント討論で解決策を評価します。コードレビュー、ルーブリックベースの評価、Multi-Agent Systems ワークフローにおける judge-with-debate に特に適しています。

Multi-Agent Systems

お気に入り 0GitHub 982

gws-modelarmor

作成者 googleworkspace

gws-modelarmor は、googleworkspace/cli エコシステムで Google Model Armor を扱うのに役立ちます。プロンプトのサニタイズ、モデル応答のサニタイズ、テンプレート作成を、汎用的なプロンプトよりも少ない試行錯誤で進められます。繰り返し使う前提の、ポリシーを意識した運用や Security Audit ワークフロー向けに設計されています。

Security Audit

お気に入り 0GitHub 25.5k

analyzing-campaign-attribution-evidence

作成者 mukul975

analyzing-campaign-attribution-evidence は、インフラの重なり、ATT&CK との整合性、マルウェア類似性、タイミング、言語的痕跡を総合的に評価し、根拠を持ってキャンペーン帰属判断を行うための支援スキルです。CTI、インシデント分析、Security Audit のレビューに向けて、この analyzing-campaign-attribution-evidence ガイドを活用できます。

Security Audit

お気に入り 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

作成者 mukul975

detecting-ai-model-prompt-injection-attacks は、LLM に届く前の信頼できないテキストを選別するためのサイバーセキュリティスキルです。階層化された正規表現、ヒューリスティック評価、DeBERTa ベースの分類を使って、直接的・間接的なプロンプトインジェクション攻撃を検出します。チャットボットの入力検証、文書取り込み、Threat Modeling に役立ちます。

Threat Modeling

お気に入り 0GitHub 0

llm-evaluation

作成者 wshobson

llm-evaluation スキルを使うと、LLMアプリ、プロンプト、RAGシステム、モデル変更に対して、指標設計、人手レビュー、ベンチマーク、リグレッションチェックを組み合わせた再現性のある評価計画を設計できます。

Model Evaluation

お気に入り 0GitHub 32.6k

ai-prompt-engineering-safety-review

作成者 github

ai-prompt-engineering-safety-review は、LLMプロンプトを本番導入前、評価時、または顧客向け利用前に見直し、安全性・バイアス・セキュリティ上の弱点・出力品質を監査するためのプロンプトレビュー用スキルです。

Model Evaluation

お気に入り 0GitHub 27.8k

ml-pipeline-workflow

作成者 wshobson

ml-pipeline-workflow は、データ準備、学習、検証、デプロイ、監視までを含むエンドツーエンドの MLOps パイプライン設計を実践的に案内するガイドです。再現性のあるワークフロー自動化に向けたオーケストレーションの設計パターンも整理されています。

Workflow Automation

お気に入り 0GitHub 0

frontend-design

作成者 anthropics

frontend-designは、曖昧なUIアイデアから、汎用的でないスタイリングと明確な美的指針を備えた、個性的なプロダクション品質のフロントエンド実装を生成するのに役立つスキルです。

UI Design

お気に入り 1GitHub 105.2k