agent-eval

作成者 affaan-m

agent-eval は、coding agent を再現性のあるタスクで一対一比較し、pass rate、cost、time、consistency を評価するための skill です。自分の repo で Claude Code、Aider、Codex などの agent を比較したいときに使えば、場当たり的なプロンプトよりも明確な根拠を得られます。

スター156k

お気に入り0

追加日2026年4月15日

カテゴリーModel Evaluation

インストールコマンド

npx skills add affaan-m/everything-claude-code --skill agent-eval

編集スコア

この skill のスコアは 78/100 で、再現性のある方法で coding agent を比較したいディレクトリ利用者にとって、十分に有力な掲載候補です。リポジトリには、いつ使うべきか、どのように動くかを理解するのに必要な運用情報がある程度そろっていますが、支援スクリプトや参照ファイルはないため、導入前にソースを確認する必要があります。

78/100

強み

agent 比較、回帰チェック、model/tool 採用判断に向いた明確な活用シーンが示されていること。
YAML の task 定義、judge によるチェック、git worktree による分離など、再現性のある比較に必要な具体的なワークフロー要素があること。
場当たり的な比較ではなく、データに基づいて agent を選びたいチームにとって、導入判断の材料として価値が高いこと。

注意点

install command、スクリプト、support files は提供されていないため、導入は主にメインの skill ファイルを読むことに依存します。
リポジトリは軽量な単一 CLI ワークフローに焦点を当てているように見えるため、より広範な評価基盤が必要な場合は、追加の tooling を求めることになるかもしれません。

Claude Code Codex Aider Git Cli Testing Workflow

概要

agent-eval の概要

agent-eval は、コーディングエージェントを同じタスクで横並びにベンチマークし、合格率、コスト、時間、一貫性で結果を比較するための skill です。Claude Code、Aider、Codex、あるいは別の agent を実際の repo で採用すべきか判断したいときに、agent-eval skill は、好みの議論を再現可能な根拠に変えるのに役立ちます。

この skill は、単なる「とりあえず prompt を投げて様子を見る」テストではなく、公平な比較が必要なチームやヘビーユーザーに最適です。実際にやるべきことは、タスクを一度定義し、同じベースラインで複数の agent を走らせ、制約条件の中でどれが最もよく機能するかを見極めることです。

agent-eval が役立つ理由

agent-eval の核となる価値は、同じ repo、同じタスク、同じ成功判定、分離された worktree という制御された比較にあります。そのため、場当たり的な試行や単発の prompt よりも、結果を信頼しやすくなります。

どんなときにこの skill が向いているか

agent-eval skill は、次のような目的で使うと効果的です。

ワークフローを標準化する前に agent を比較したい
model の更新で結果が変わったか確認したい
自分の codebase とルールの上で性能を試したい
チーム内の意思決定や調達判断のための根拠を集めたい

向いていない場合

単に 1 回の coding 回答が欲しいだけなら、普通の prompt のほうが簡単です。agent-eval が特に価値を発揮するのは、再現性、評価基準、速度・品質・コストのトレードオフを重視するときです。

agent-eval skill の使い方

skill をインストールして中身を確認する

agent-eval の install では、repo から skill を追加し、まず core の skill file を確認します。
npx skills add affaan-m/everything-claude-code --skill agent-eval

次に SKILL.md と、ワークフローで使う関連コンテキストを開いてください。この repository では、主な情報源は skill file そのものです。そのため、install するかどうかの判断は、その task モデルが自分の評価プロセスに合っているかに強く左右されます。

漠然とした目的を、使える task に落とし込む

agent-eval の使い方は、具体的な task、対象 repo、客観的なチェックを定義したときに最も機能します。弱い prompt は「refactoring に強い agent をテストする」です。より強い prompt は次のような形です。

src/http_client.py に retry logic を追加する
reproducibility のために repo を commit に固定する
変更してよい file を明示する
pytest や grep のような judge command を定義する
重要であれば、許容できる最大時間やコストを明記する

task を自動で検証しやすいほど、比較の価値は高くなります。

推奨ワークフロー

実践的な agent-eval の進め方は次のとおりです。

本当に判断したいことを反映する task を 1 つ選ぶ。
repo path、files、prompt、judges を含めて YAML で task を書く。
同じ task に対して複数の agent を実行する。
出力品質、実行時間、コストを比較する。
最終判断の前に、別の task でもう一度試す。

この skill は git worktree による isolation を使うため、agent 同士が変更を上書きし合うのを防ぎやすく、並列での評価も見やすくなります。

先に読むべき files

まず確認するのは次の項目です。

task format と workflow のための SKILL.md
テストや判定ルールを定義している repo-local な files
YAML の task 定義で指定した files

agent-eval を Model Evaluation 用に評価する場合は、より大きな benchmark に進む前に、task と judges が十分に安定していて、比較可能な run を再現できるかを確認してください。

agent-eval skill の FAQ

agent-eval は coding-agent ベンチマーク専用ですか？

はい、基本的にはその用途です。この skill は、一般的な prompt テストや広範な LLM ベンチマークではなく、coding agent を head-to-head で比較するために設計されています。

使うのに Docker は必要ですか？

必要ありません。skill は git worktree の isolation を使うので、container の追加負荷なしで run を分離できます。

初心者向けですか？

task を明確に定義でき、command-line の workflow を回せるなら扱いやすいです。逆に、セットアップ不要のワンクリック評価器を求める人にはあまり向きません。

通常の prompt と何が違いますか？

通常の prompt は、1 つの agent に 1 つの task を解かせます。agent-eval skill は、複数の agent に同じ task を固定された judges で解かせることで、より少ない bias で結果を比較できるようにします。

agent-eval skill を改善する方法

より強い task 定義を使う

agent-eval でよい結果を得るには、入力が明確で、編集範囲がはっきりしていて、客観的な judge がある task が最適です。prompt があまりに自由度高く曖昧だと、比較結果は agent の品質よりも解釈の違いを測るものになってしまいます。

実際の成功基準を反映する judges を追加する

自分たちのチームが実際に変更を検証するときのやり方に近いチェックを優先してください。たとえば、tests、lint、file diff、pattern check などです。judge が緩すぎると弱い解決策でも良く見え、逆に厳しすぎると壊れやすい小細工を評価してしまうことがあります。

答えではなく benchmark を改善する

ある agent が間違った理由で勝ったなら、結論を急ぐ前に task を見直してください。files の範囲を絞り、受け入れ条件を明確にし、commit を固定することで、agent-eval skill が毎回同じ対象を測れるようにします。

よくある失敗パターンに注意する

最も多いミスは、曖昧な prompt、不一致な judges、そして公平な比較には大きすぎる task です。agent-eval をよりよく使うには、最初の benchmark を小さく、再現可能で、実際に agent にやってほしい作業を代表するものに保ってください。

評価とレビュー

まだ評価がありません

レビューを投稿

このスキルの評価やコメントを投稿するにはサインインしてください。

0/10000

新着レビュー

保存中...

このカテゴリーの他のスキル

evaluation-methodology

作成者 wshobson

evaluation-methodologyは、Model EvaluationにおけるPluginEvalの採点方法を解説するスキルです。評価レイヤー、ルーブリック、合成スコア、バッジ閾値に加え、結果の読み解き方や弱い評価軸の改善に役立つ実践的な指針を確認できます。

Model Evaluation

お気に入り 0GitHub 32.6k

healthcare-eval-harness

作成者 affaan-m

healthcare-eval-harness は、医療アプリのデプロイ向け患者安全評価ハーネスです。リリース前に、CDSS の精度、PHI の露出、データ整合性、臨床ワークフローの挙動、統合コンプライアンスをチームで検証できます。重大な失敗はデプロイをブロックするため、Model Evaluation や CI の安全ゲートとして healthcare-eval-harness を使いたい場合に有用です。

Model Evaluation

お気に入り 0GitHub 156.2k

eval-harness

作成者 affaan-m

eval-harness は、Claude Code セッションと eval 主導開発のための正式な評価フレームワークです。合格/不合格の基準を定義し、機能評価や回帰評価を構築し、プロンプトやワークフローの変更を公開する前にエージェントの信頼性を測定するのに役立ちます。

Model Evaluation

お気に入り 0GitHub 156.1k

huggingface-community-evals

作成者 huggingface

huggingface-community-evals は、inspect-ai または lighteval を使って Hugging Face Hub のモデル評価をローカルで実行するのに役立ちます。バックエンドの選定、スモークテスト、vLLM・Transformers・accelerate の実践的な使い分けガイドに適しています。HF Jobs のオーケストレーション、model-card の PR、.eval_results の公開、community-evals の自動化には向きません。

Model Evaluation

お気に入り 0GitHub 10.4k

huggingface-best

作成者 huggingface

huggingface-best skill は、Hugging Face のベンチマーク順位表を確認し、デバイス制約やモデルサイズで絞り込むことで、タスクに最適なモデルを見つけるのに役立ちます。コーディング、推論、チャット、OCR、RAG、音声、画像、マルチモーダルなどで、汎用的なモデル一覧ではなく、実用的な候補を絞り込みたいときのモデル推薦に向いています。

Model Evaluation

お気に入り 0GitHub 10.4k

libafl

作成者 trailofbits

libaflスキルは、LibAFLを使ってカスタム対象、ミューテーション戦略、セキュリティ監査のワークフローに対応するモジュール式ファuzzerを計画・構築するのに役立ちます。このlibaflガイドでは、対象の詳細情報から実用的なハーネス、フィードバックモデル、実行計画へ、前提をできるだけ少なくして進められます。

Security Audit

お気に入り 0GitHub 5k

evaluation

作成者 muratcankoylan

evaluation スキルは、非決定論的なシステムに対してエージェント評価を設計・実行するためのものです。評価の導入計画、ルーブリック作成、回帰チェック、品質ゲート、Skill Testing の評価に使えます。LLM-as-judge のワークフロー、多面的なスコアリング、再現性のある結果が必要な実用的な評価運用に向いています。

Skill Testing

お気に入り 0GitHub 0

judge-with-debate

作成者 NeoLabHQ

judge-with-debate は、共通の仕様、証拠に基づく反論、最大3ラウンドの議論を用いて、構造化されたマルチエージェント討論で解決策を評価します。コードレビュー、ルーブリックベースの評価、Multi-Agent Systems ワークフローにおける judge-with-debate に特に適しています。

Multi-Agent Systems

お気に入り 0GitHub 982

gws-modelarmor

作成者 googleworkspace

gws-modelarmor は、googleworkspace/cli エコシステムで Google Model Armor を扱うのに役立ちます。プロンプトのサニタイズ、モデル応答のサニタイズ、テンプレート作成を、汎用的なプロンプトよりも少ない試行錯誤で進められます。繰り返し使う前提の、ポリシーを意識した運用や Security Audit ワークフロー向けに設計されています。

Security Audit

お気に入り 0GitHub 25.5k

analyzing-campaign-attribution-evidence

作成者 mukul975

analyzing-campaign-attribution-evidence は、インフラの重なり、ATT&CK との整合性、マルウェア類似性、タイミング、言語的痕跡を総合的に評価し、根拠を持ってキャンペーン帰属判断を行うための支援スキルです。CTI、インシデント分析、Security Audit のレビューに向けて、この analyzing-campaign-attribution-evidence ガイドを活用できます。

Security Audit

お気に入り 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

作成者 mukul975

detecting-ai-model-prompt-injection-attacks は、LLM に届く前の信頼できないテキストを選別するためのサイバーセキュリティスキルです。階層化された正規表現、ヒューリスティック評価、DeBERTa ベースの分類を使って、直接的・間接的なプロンプトインジェクション攻撃を検出します。チャットボットの入力検証、文書取り込み、Threat Modeling に役立ちます。

Threat Modeling

お気に入り 0GitHub 0

llm-evaluation

作成者 wshobson

llm-evaluation スキルを使うと、LLMアプリ、プロンプト、RAGシステム、モデル変更に対して、指標設計、人手レビュー、ベンチマーク、リグレッションチェックを組み合わせた再現性のある評価計画を設計できます。

Model Evaluation

お気に入り 0GitHub 32.6k

ai-prompt-engineering-safety-review

作成者 github

ai-prompt-engineering-safety-review は、LLMプロンプトを本番導入前、評価時、または顧客向け利用前に見直し、安全性・バイアス・セキュリティ上の弱点・出力品質を監査するためのプロンプトレビュー用スキルです。

Model Evaluation

お気に入り 0GitHub 27.8k

agentic-eval

作成者 github

agentic-eval は、reflection、rubric ベースの批評、evaluator-optimizer パターンを使って、AI 出力の評価ループをどう構築するかを示す GitHub Copilot スキルです。

Model Evaluation

お気に入り 0GitHub 27.8k

ml-pipeline-workflow

作成者 wshobson

ml-pipeline-workflow は、データ準備、学習、検証、デプロイ、監視までを含むエンドツーエンドの MLOps パイプライン設計を実践的に案内するガイドです。再現性のあるワークフロー自動化に向けたオーケストレーションの設計パターンも整理されています。

Workflow Automation

お気に入り 0GitHub 0

frontend-design

作成者 anthropics

frontend-designは、曖昧なUIアイデアから、汎用的でないスタイリングと明確な美的指針を備えた、個性的なプロダクション品質のフロントエンド実装を生成するのに役立つスキルです。

UI Design

お気に入り 1GitHub 105.2k