evaluation

作成者 muratcankoylan

evaluation スキルは、非決定論的なシステムに対してエージェント評価を設計・実行するためのものです。評価の導入計画、ルーブリック作成、回帰チェック、品質ゲート、Skill Testing の評価に使えます。LLM-as-judge のワークフロー、多面的なスコアリング、再現性のある結果が必要な実用的な評価運用に向いています。

スター0

お気に入り0

追加日2026年5月14日

カテゴリーSkill Testing

インストールコマンド

npx skills add muratcankoylan/Agent-Skills-for-Context-Engineering --skill evaluation

編集スコア

このスキルの評価は78/100です。エージェント評価を構築・計測するユーザーにとって、実用価値の高いディレクトリ掲載候補といえます。リポジトリには、一般的なプロンプトよりも少ない推測でエージェントが起動・利用できる程度の運用情報が含まれていますが、導入判断では実験的な性格とインストールコマンドがない点を考慮する必要があります。

78/100

強み

evaluation、テストフレームワーク、品質ゲート、エージェントベンチマークへの起動意図が明確で、トリガーしやすい。
運用面の情報が充実しており、SKILL.md は長く構造化され、参照用ドキュメントと Python の evaluator スクリプトも備わっているため、実行手順の見通しがよく、エージェントが扱いやすい。
多面的な評価ガイダンスと具体的なメトリクス定義があり、エージェントがルーブリックをゼロから作らずに実際の評価ワークフローを回しやすい。

注意点

リポジトリには experimental/test 系のシグナルがあるため、完成度の高い本番向けパッケージというより、実用的なプロトタイプとして見るのが妥当です。
SKILL.md にインストールコマンドがないため、すぐにセットアップしたいディレクトリ利用者には導入の手間が少し増えます。

Evaluation Agents Context Engineering Testing Workflow Quality Management Verification

概要

evaluation skill の概要

evaluation skill で何ができるか

evaluation skill は、エージェントシステムの評価を設計・実行するための skill です。特に、出力が非決定的で、単一の「正解」が存在しない場面に向いています。使いどころは、一発のプロンプトを書くことではなく、エージェントの性能を測定したり、設定を比較したり、パイプラインの品質ゲートを作ったりしたい人です。

どんな人に向いているか

コンテキストエンジニアリングの変更をテストしたい場合、時間経過に伴うエージェント挙動をスコア化したい場合、あるいはエージェントを本番投入してよいか判断したい場合に、この evaluation skill を使ってください。LLM-as-judge のワークフロー、ルーブリックベースの採点、回帰チェック、そして手順どおりの実行精度よりも結果の品質が重要なエージェントテストと相性が良い skill です。

何が特徴的か

この repo は、1つの総合点ではなく多面的な評価を重視しています。これは、成功の仕方が複数あるエージェントにとって、より適切な設計です。また、参照資料と実行可能な evaluator スクリプトによって実装面の支援にも重点を置いているため、evaluation の導入は計画だけでなく実行にも役立ちます。

evaluation skill の使い方

インストールして有効化する

次のコマンドでインストールします。

npx skills add muratcankoylan/Agent-Skills-for-Context-Engineering --skill evaluation

この skill は、evaluation の導入計画、採点ルーブリックの設計、エージェントシステム向けの評価ガイド作成が必要なときに使ってください。テスト対象のシステム、成功条件、重視したい失敗モードを明示すると、この skill は最もよく機能します。

skill に適切な入力を渡す

「この agent を評価して」といった曖昧な依頼では、前提が広すぎます。より良いプロンプトでは、対象の agent システム、目標成果、制約、採点観点を具体化します。たとえば、「製品ドキュメントだけを参照し、幻覚を避け、事実の正確さ、網羅性、引用の正確さ、ツール効率で採点されるサポート agent の評価を設計して」といった形です。ここまで詳細に指定すると、evaluation skill は汎用的な助言ではなく、実際に使えるルーブリックを出しやすくなります。

先に読むべき repo ファイル

まず SKILL.md でワークフローと有効化ルールを確認し、次に references/metrics.md でスコア定義を読み、scripts/evaluator.py で実装パターンを見てください。自分のスタックに合わせて skill を調整する場合も、ほかを探す前にこの3つを確認するのが先です。評価ロジックをどう適用する想定かが、ここで分かります。

実際のワークフローで使う

実践的な evaluation の流れは、タスク定義、評価軸の選定、重み付け、テストケース作成、採点実行、そして失敗のパターン分析です。後から出力を採点するだけではなく、ルーブリックの作成・改善にも skill を使ってください。そのほうが、回帰テスト、モデル比較、Skill Testing の評価により役立ちます。

evaluation skill の FAQ

evaluation skill はベンチマーク専用ですか？

いいえ。日常的な品質ゲート、回帰テスト、そして失敗後のプロンプトや agent ポリシー改善にも使えます。agent 出力に対して再現性のある判断基準が必要なら、正式なベンチマークスイートがなくても evaluation skill は有効です。

どんなときに使わないほうがいいですか？

単純な主観レビューや、すぐ終わるプロンプト調整だけが必要なら不要です。evaluation skill が最も価値を発揮するのは、ルーブリック、テストセット、再現可能な採点を用意するだけの価値があるほど出力品質が重要なときです。

初心者でも使いやすいですか？

はい。ただし、agent が何をすべきかをすでに理解していることが前提です。学習の山場は構文ではなく、適切な評価軸を定義し、単一スコアに頼りすぎないようにすることです。

通常のプロンプトと何が違うのですか？

通常のプロンプトは意見を求めます。evaluation skill は、その意見を、評価軸・重み・テストケースを備えた構造化され再現可能な評価ワークフローに変えるための skill です。実行ごと、あるいはレビュー担当者ごとに一貫性が必要なとき、この違いが重要になります。

evaluation skill を改善する方法

成功条件をもっと具体的にする

最良の結果は、広い目標ではなく明確な目標挙動から生まれます。「品質を測る」ではなく、品質の意味をはっきり定義してください。たとえば、事実の正確さ、網羅性、ソース忠実性、レイテンシ、拒否挙動、ツール使用などです。基準が具体的であるほど、evaluation skill は本当の成功と偶然の成功を切り分けやすくなります。

リスクに合う評価軸を使う

この repo が標準で重視している事実の正確さ、網羅性、引用の正確さ、ソース品質はよい出発点です。ただし、実際の失敗コストに合わせて評価を組むべきです。顧客向け agent なら幻覚のほうが文体より重要かもしれませんし、リサーチ agent なら簡潔さよりソース品質が上回るかもしれません。総合点をそのまま受け入れるのではなく、ルーブリックを調整してください。

平均点だけでなく失敗から改善する

最初の評価後は、低得点のケースを見直し、共通する原因を探してください。コンテキスト不足、検索の弱さ、ツール選択ミス、自信過剰な回答などです。そうしたパターンをもとに、テストセットとプロンプト入力を修正してください。それが evaluation の使い方を最短で改善し、skill を継続的に成果へつなげる近道です。

評価とレビュー

まだ評価がありません

レビューを投稿

このスキルの評価やコメントを投稿するにはサインインしてください。

0/10000

新着レビュー

保存中...

このカテゴリーの他のスキル

skill-creator

作成者 anthropics

skill-creator は、新規スキル作成、既存の SKILL.md 改訂、eval 実行、バリアント比較、トリガー説明の改善を支援する Skill Authoring 向けメタスキルです。リポジトリ内のスクリプトやレビュー補助を使った実務的な運用に向いています。

Skill Authoring

お気に入り 2GitHub 105.1k

cpp-testing

作成者 affaan-m

cpp-testing skill は、GoogleTest、GoogleMock、CMake、CTest を使った C++ テストの作成・実行・デバッグを支援します。カバレッジ確認、フレイキーなテストの修正、サニタイザーによる診断、そして現代的な C++ プロジェクトでの実践的な cpp-testing の活用に役立ちます。

Test Automation

お気に入り 0GitHub 156.1k

test-driven-development

作成者 addyosmani

test-driven-development スキルは、まず失敗するテストを書き、その後で最小限の修正を加えて通すことでコード変更を進めるのに役立ちます。ロジック変更、バグ修正、回帰対策、そして「それらしい修正」よりも証拠が重要なエッジケースに適しています。

Skill Testing

お気に入り 0GitHub 18.8k

skill-optimizer

作成者 mcollina

skill-optimizer は、AI スキルの起動性、明確さ、モデル間の信頼性を高めたい作者向けの支援スキルです。Skill Authoring において、スキルは書けているのに安定して従われない場合、トリガーが弱い場合、リグレッションが出る場合、コンテキストコストを削りたい場合に適しています。ベンチマークの反復、リリースゲート、使用忠実度の向上をサポートします。

Skill Authoring

お気に入り 0GitHub 1.8k

property-based-testing

作成者 trailofbits

property-based-testing のスキルガイドです。言語やスマートコントラクトにまたがる PBT の作成、レビュー、改善に役立ちます。この property-based-testing ガイドでは、ラウンドトリップ、冪等性、不変条件、パーサー、バリデーター、正規化の観点を見つけ、ジェネレーターを選び、property-based-testing が例ベースのテストより有効かどうかを判断できます。

Skill Testing

お気に入り 0GitHub 5k

writing-skills

作成者 obra

writing-skills は、エージェントスキルの作成・編集・検証をテスト駆動のワークフローで進めるための Skill Authoring ガイドです。主要ファイル、前提条件、プレッシャーシナリオ、ベースラインテスト、簡潔な SKILL.md を反復改善する実践手順を把握できます。

Skill Authoring

お気に入り 0GitHub 121.9k

verification-loop

作成者 affaan-m

verification-loop は、コード変更後に build、type、lint、test、security、diff を確認するための Claude Code 向け検証ワークフローです。PR 前やリファクタリング後に、一般的なプロンプトではなく、整理された変更後チェックガイドが欲しいときに役立ちます。

Verification

お気に入り 0GitHub 156.3k

perl-testing

作成者 affaan-m

perl-testing は、Test2::V0、Test::More、prove、モック、カバレッジ、TDD を使って Perl テストを作成・実行・改善するための実践ガイドです。インストールの考え方、使い方のパターン、移行の手助け、失敗したテストスイートの迅速なデバッグに perl-testing スキルを活用できます。

Skill Testing

お気に入り 0GitHub 156.2k

kotlin-testing

作成者 affaan-m

kotlin-testing は、Kotest、MockK、コルーチンテスト、プロパティベーステスト、Kover によるカバレッジを使った Kotlin のテスト自動化を実践的に学べるガイドです。TDD に沿ったワークフローで、より分かりやすいユニットテストやコンポーネントテストを書き、依存関係のモック化やサスペンド関数のテストで迷いを減らすために、この kotlin-testing skill を活用できます。

Test Automation

お気に入り 0GitHub 156.2k

eval-harness

作成者 affaan-m

eval-harness は、Claude Code セッションと eval 主導開発のための正式な評価フレームワークです。合格/不合格の基準を定義し、機能評価や回帰評価を構築し、プロンプトやワークフローの変更を公開する前にエージェントの信頼性を測定するのに役立ちます。

Model Evaluation

お気に入り 0GitHub 156.1k

context-budget

作成者 affaan-m

context-budget スキルは、Claude Code のコンテキスト使用量を agents、skills、rules、MCP servers を横断して監査します。肥大化した内容、重複コンテンツ、コストの高い要素を特定し、優先度付きの整理アクションを返します。実用的な context-budget の使い方や、大規模構成での Skill Testing にこのガイドを活用してください。

Skill Testing

お気に入り 0GitHub 156.1k

skill-judge

作成者 softaworks

skill-judge は、AI skill パッケージと SKILL.md ファイルを監査するためのレビュー・採点用 skill です。知識差分、起動条件の明確さ、ワークフロー品質、公開準備の整い具合を評価し、改善に直結する具体的なフィードバックを提供します。

Skill Validation

お気に入り 0GitHub 1.3k

playwright-testing

作成者 alinaqi

Playwrightのエンドツーエンドテストを、page objects、クロスブラウザ実行、CI向けセットアップ、認証処理、安定したテスト構成で作成・デバッグするためのplaywright-testingスキルです。

Skill Testing

お気に入り 0GitHub 607

darwin-skill

作成者 alchaincyf

darwin-skillは、SKILL.mdファイルを「評価→改善→テスト→採用または差し戻し」の反復ループで改善できるスキルです。Skill Authoring向けに作られており、ルーブリック採点とプロンプトベースの検証を組み合わせ、repoのテンプレートやアセットから視覚的な結果出力にも対応します。

Skill Authoring

お気に入り 0GitHub 549

tutor

作成者 RoundTable02

tutorは、Obsidian StudyVaultユーザー向けのクイズ駆動型学習skillです。診断的な理解度チェック、概念レベルの復習、進捗トラッキングを行いたい人に向いています。言語を判定し、vaultを見つけ、ダッシュボードを読み取り、構造化されたセッションで弱点分野を重点的に演習します。一般的な雑談型の家庭教師ではなく、繰り返し使える学習チェックが必要なときに使うskillです。

Skill Authoring

お気に入り 0GitHub 0

skill-authoring-workflow

作成者 deanpeters

skill-authoring-workflow は、ラフなメモ、ワークショップの成果、下書きプロンプトを、仕様に沿った repo-ready な `skills/<skill-name>/SKILL.md` に仕上げるのに役立ちます。この skill-authoring-workflow skill を使えば、PM skills の作成・更新をより少ない試行錯誤で進められ、repo 標準に沿って、コミット前に検証できます。

Skill Authoring

お気に入り 0GitHub 0