eval-harness

作成者 affaan-m

eval-harness は、Claude Code セッションと eval 主導開発のための正式な評価フレームワークです。合格/不合格の基準を定義し、機能評価や回帰評価を構築し、プロンプトやワークフローの変更を公開する前にエージェントの信頼性を測定するのに役立ちます。

スター156.1k

お気に入り0

追加日2026年4月15日

カテゴリーModel Evaluation

インストールコマンド

npx skills add affaan-m/everything-claude-code --skill eval-harness

編集スコア

この skill は 78/100 で、eval 主導開発を行うエージェントにとって実用価値の高い、十分に有力な候補です。目的と起動条件はすぐ把握しやすい一方で、補助スクリプトや同梱リファレンスに頼るというより、ドキュメントを読んで運用するタイプの skill だと考えてください。

78/100

強み

EDD の立ち上げ、合格/不合格基準、回帰評価、ベンチマークに向けた明確な起動ユースケースがある
構造化された eval / grader テンプレートに加え、複数のワークフロー節を備えた、充実した運用コンテンツがある
frontmatter と明示的な「When to Activate」ガイダンスにより起動条件を判断しやすく、導入意図を見極めやすい

注意点

インストールコマンド、スクリプト、サポートファイルはなく、導入は markdown のガイダンスを手動で読み解いて適用する前提になる
参照資料・リソース・テストが同梱されていないため、すぐ使える evaluation harness を求めるユーザーにとっては信頼材料が少ない

Claude Code Evaluation Testing Regression Testing Pr Github Code

概要

eval-harness skill の概要

eval-harness で何ができるか

eval-harness skill は、Claude Code のセッションや eval 駆動開発に向けた正式な評価フレームワークです。リリース前に「何が良い状態か」を先に定義し、その基準をエージェント、プロンプト、ワークフローが本当に満たしているかを測れます。

どんな人に向いているか

AI 支援コーディング、プロンプト変更、エージェント挙動に対して再現性のあるチェックが必要なら、eval-harness skill を使う価値があります。特に、モデルバージョンの比較、リグレッションの追跡、曖昧なタスク要件を合否判定の基準に落とし込む場面で有効です。

なぜ重要なのか

eval-harness for Model Evaluation の最大の価値は、信頼性です。感覚で結果を判断するのではなく、挙動が変わった瞬間をあぶり出す eval を書けます。そのおかげで、エージェントの性能をデバッグしやすくなり、複数回の実行を比較しやすくなり、気づかないうちに品質を落とすプロンプト更新の出荷も避けやすくなります。

どんなときにフィットするか

この skill は、タスクを観測可能な成功条件、出力構造、チェックポイント付きの挙動として表現できる場合に最も向いています。自由度の高い創作系の作業では、測定可能な受け入れ条件をまだ定義できる場合を除き、あまり向きません。

eval-harness skill の使い方

インストールして有効化する

eval-harness install を行うには、Claude Code 環境でこの repo の skill インストールフローを使い、そのあと skill ファイルを直接開いてください。skill の本体は skills/eval-harness/SKILL.md にあり、framework をいつ有効化するか、eval をどう組み立てるかが書かれているので、最初に読むべきファイルです。

skill が評価できるプロンプトを作る

eval-harness usage を強くするなら、「自分のエージェントをテストしてほしい」から始めないでください。まずは、エージェントが完了すべきタスク、成功の条件、失敗の見え方、そして能力確認なのかリグレッション確認なのかを明確にします。たとえば「React のフォームを更新してもバリデーションを壊さずに済むかを評価し、明示的な成功条件を 3 つ必須にする」といった入力のほうが適切です。そうすると harness にとって測定可能になります。

最初に読むべきファイルを見極める

自分のワークフローに eval-harness guide の考え方を取り入れるなら、まず SKILL.md を読み、そのあと評価スタイル、採点ロジック、出力規約を説明している repo 内のメモを確認してください。この repo には補助スクリプトや追加のサポートフォルダはないため、真実のソースは skill ファイルそのものです。

実務で使う流れに落とし込む

実用的な進め方は、まず挙動を定義し、次にハッピーパスの eval を 1 つ書き、さらに既知の失敗に対する regression eval を 1 つ追加し、そのあと harness を実行して基準を磨く、という流れです。こうすると eval をデバッグしやすい大きさに保てて、解釈不能なくらい広すぎるテストを書くリスクも減ります。

eval-harness skill の FAQ

eval-harness は Claude Code 専用ですか？

いいえ。skill 自体は Claude Code のセッション向けに書かれていますが、構造化されたエージェント評価が必要な場面なら、基本となる手法はどこでも役立ちます。スタックで別のツールを使っていても、eval 形式や採点ロジックはそのまま応用できます。

eval-harness は普通のプロンプトと同じですか？

いいえ。普通のプロンプトは答えを求めますが、eval-harness は答えをどう再現性高く判定するかを求めます。単発で良い返答が欲しいだけなら差は小さいように見えますが、バージョンをまたいで一貫性が必要なときには、この違いが重要です。

初心者にも使いやすいですか？

はい。タスクをはっきり説明できるなら使えます。難しいのは syntax ではなく、良い成功条件を書くことです。初心者は、ワークフロー全体を一気にモデル化しようとするより、まずシンプルな capability eval を 1 つ作るところから始めるとうまくいきやすいです。

どんなときに使わないほうがいいですか？

作業が主観に強く依存する場合、出力を一貫して検証できない場合、あるいは単発の回答だけ必要な場合は、eval-harness は見送ってください。信頼性、リグレッション追跡、モデル比較が本当の目的のときに最も強い skill です。

eval-harness skill を改善する方法

基準を観測可能にする

品質を最も大きく上げるのは、意見をチェックに変えることです。「もっと良くして」ではなく、「既存の API 形状を保つ」「有効な JSON を返す」「3 つの regression ケースすべてに通る」といった条件に置き換えてください。基準が観測しやすいほど、eval-harness は実行しやすく、信頼しやすくなります。

capability と regression を分ける

新機能の確認と過去挙動の確認を混ぜると、失敗の解釈が難しくなります。Claude が新しいことをできるかを見る capability eval と、既知のベースラインがまだ成り立つかを見る regression eval は、分けて保つのが基本です。

harness に実際のエッジケースを与える

強い eval には、ハッピーパスだけでなく失敗モードも含まれます。扱いづらい入力、不完全なコンテキスト、あいまいな指示を加えて、eval-harness skill がエージェントの堅牢性を示せるようにしてください。きれいな例だけで通るのは、単に運が良いだけかもしれません。

1 回目の実行後に必ず反復する

最初の実行は証明ではなく、調整のための基準合わせだと考えてください。結果がはっきりしないなら、成功条件を絞る、ベースラインを追加する、あるいは大きすぎる eval を小さなチェックに分割します。これが、eval-harness usage を改善して、実際に行動へつなげられる結果を得るいちばん早い方法です。

評価とレビュー

まだ評価がありません

レビューを投稿

このスキルの評価やコメントを投稿するにはサインインしてください。

0/10000

新着レビュー

保存中...

このカテゴリーの他のスキル

evaluation-methodology

作成者 wshobson

evaluation-methodologyは、Model EvaluationにおけるPluginEvalの採点方法を解説するスキルです。評価レイヤー、ルーブリック、合成スコア、バッジ閾値に加え、結果の読み解き方や弱い評価軸の改善に役立つ実践的な指針を確認できます。

Model Evaluation

お気に入り 0GitHub 32.6k

healthcare-eval-harness

作成者 affaan-m

healthcare-eval-harness は、医療アプリのデプロイ向け患者安全評価ハーネスです。リリース前に、CDSS の精度、PHI の露出、データ整合性、臨床ワークフローの挙動、統合コンプライアンスをチームで検証できます。重大な失敗はデプロイをブロックするため、Model Evaluation や CI の安全ゲートとして healthcare-eval-harness を使いたい場合に有用です。

Model Evaluation

お気に入り 0GitHub 156.2k

agent-eval

作成者 affaan-m

agent-eval は、coding agent を再現性のあるタスクで一対一比較し、pass rate、cost、time、consistency を評価するための skill です。自分の repo で Claude Code、Aider、Codex などの agent を比較したいときに使えば、場当たり的なプロンプトよりも明確な根拠を得られます。

Model Evaluation

お気に入り 0GitHub 156k

huggingface-community-evals

作成者 huggingface

huggingface-community-evals は、inspect-ai または lighteval を使って Hugging Face Hub のモデル評価をローカルで実行するのに役立ちます。バックエンドの選定、スモークテスト、vLLM・Transformers・accelerate の実践的な使い分けガイドに適しています。HF Jobs のオーケストレーション、model-card の PR、.eval_results の公開、community-evals の自動化には向きません。

Model Evaluation

お気に入り 0GitHub 10.4k

huggingface-best

作成者 huggingface

huggingface-best skill は、Hugging Face のベンチマーク順位表を確認し、デバイス制約やモデルサイズで絞り込むことで、タスクに最適なモデルを見つけるのに役立ちます。コーディング、推論、チャット、OCR、RAG、音声、画像、マルチモーダルなどで、汎用的なモデル一覧ではなく、実用的な候補を絞り込みたいときのモデル推薦に向いています。

Model Evaluation

お気に入り 0GitHub 10.4k

libafl

作成者 trailofbits

libaflスキルは、LibAFLを使ってカスタム対象、ミューテーション戦略、セキュリティ監査のワークフローに対応するモジュール式ファuzzerを計画・構築するのに役立ちます。このlibaflガイドでは、対象の詳細情報から実用的なハーネス、フィードバックモデル、実行計画へ、前提をできるだけ少なくして進められます。

Security Audit

お気に入り 0GitHub 5k

evaluation

作成者 muratcankoylan

evaluation スキルは、非決定論的なシステムに対してエージェント評価を設計・実行するためのものです。評価の導入計画、ルーブリック作成、回帰チェック、品質ゲート、Skill Testing の評価に使えます。LLM-as-judge のワークフロー、多面的なスコアリング、再現性のある結果が必要な実用的な評価運用に向いています。

Skill Testing

お気に入り 0GitHub 0

judge-with-debate

作成者 NeoLabHQ

judge-with-debate は、共通の仕様、証拠に基づく反論、最大3ラウンドの議論を用いて、構造化されたマルチエージェント討論で解決策を評価します。コードレビュー、ルーブリックベースの評価、Multi-Agent Systems ワークフローにおける judge-with-debate に特に適しています。

Multi-Agent Systems

お気に入り 0GitHub 982

gws-modelarmor

作成者 googleworkspace

gws-modelarmor は、googleworkspace/cli エコシステムで Google Model Armor を扱うのに役立ちます。プロンプトのサニタイズ、モデル応答のサニタイズ、テンプレート作成を、汎用的なプロンプトよりも少ない試行錯誤で進められます。繰り返し使う前提の、ポリシーを意識した運用や Security Audit ワークフロー向けに設計されています。

Security Audit

お気に入り 0GitHub 25.5k

analyzing-campaign-attribution-evidence

作成者 mukul975

analyzing-campaign-attribution-evidence は、インフラの重なり、ATT&CK との整合性、マルウェア類似性、タイミング、言語的痕跡を総合的に評価し、根拠を持ってキャンペーン帰属判断を行うための支援スキルです。CTI、インシデント分析、Security Audit のレビューに向けて、この analyzing-campaign-attribution-evidence ガイドを活用できます。

Security Audit

お気に入り 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

作成者 mukul975

detecting-ai-model-prompt-injection-attacks は、LLM に届く前の信頼できないテキストを選別するためのサイバーセキュリティスキルです。階層化された正規表現、ヒューリスティック評価、DeBERTa ベースの分類を使って、直接的・間接的なプロンプトインジェクション攻撃を検出します。チャットボットの入力検証、文書取り込み、Threat Modeling に役立ちます。

Threat Modeling

お気に入り 0GitHub 0

llm-evaluation

作成者 wshobson

llm-evaluation スキルを使うと、LLMアプリ、プロンプト、RAGシステム、モデル変更に対して、指標設計、人手レビュー、ベンチマーク、リグレッションチェックを組み合わせた再現性のある評価計画を設計できます。

Model Evaluation

お気に入り 0GitHub 32.6k

ai-prompt-engineering-safety-review

作成者 github

ai-prompt-engineering-safety-review は、LLMプロンプトを本番導入前、評価時、または顧客向け利用前に見直し、安全性・バイアス・セキュリティ上の弱点・出力品質を監査するためのプロンプトレビュー用スキルです。

Model Evaluation

お気に入り 0GitHub 27.8k

agentic-eval

作成者 github

agentic-eval は、reflection、rubric ベースの批評、evaluator-optimizer パターンを使って、AI 出力の評価ループをどう構築するかを示す GitHub Copilot スキルです。

Model Evaluation

お気に入り 0GitHub 27.8k

ml-pipeline-workflow

作成者 wshobson

ml-pipeline-workflow は、データ準備、学習、検証、デプロイ、監視までを含むエンドツーエンドの MLOps パイプライン設計を実践的に案内するガイドです。再現性のあるワークフロー自動化に向けたオーケストレーションの設計パターンも整理されています。

Workflow Automation

お気に入り 0GitHub 0

frontend-design

作成者 anthropics

frontend-designは、曖昧なUIアイデアから、汎用的でないスタイリングと明確な美的指針を備えた、個性的なプロダクション品質のフロントエンド実装を生成するのに役立つスキルです。

UI Design

お気に入り 1GitHub 105.2k