judge

作成者 NeoLabHQ

Judge は2段階の評価 skill です。まず meta-judge を起動し、その後に judge sub-agent が isolated context、evidence、明確な criteria に基づいて作業を採点します。コード、文章、分析、または Skill Authoring をレポート専用でレビューしたいときに、気軽な意見ではなく、説明可能な judge guide が必要ならこれを使います。

スター982

お気に入り0

追加日2026年5月9日

カテゴリーSkill Authoring

インストールコマンド

npx skills add NeoLabHQ/context-engineering-kit --skill judge

編集スコア

この skill のスコアは66/100です。構造化された評価フローを求めるユーザー向けに、控えめながら条件付きで掲載できるレベルといえます。実運用に足る内容はあり、導入する価値はありますが、repo には補助スクリプト、参考資料、install command がなく、ワークフローの大半が1つの SKILL.md にまとまっているため、directory 利用者はある程度読み解きが必要です。

66/100

強み

起点と目的が明確です。frontmatter により、現在の会話で meta-judge を起動し、その後 judge sub-agent で評価する流れが示されています。
ワークフローの内容が十分にあります。skill 本文は長く、複数の heading と定義済みの phase があり、プレースホルダーではない評価プロセスだと分かります。
evidence 重視の設計です。構造化された採点と citations を明示的に求めるため、一般的な prompt より agent の信頼性を高めます。

注意点

サポートファイルや install command がないため、導入には SKILL.md の内容を読んで手動で適用する必要があります。
運用上の詳細はまだ文章の中に埋もれています。directory 利用者は、実行手順の細部や例外時の扱いを自分で読み取る必要があるかもしれません。

Claude Claude Code Agents Evaluation Verification Reasoning Context Engineering

概要

judge の概要

judge の役割

judge スキルは、2段階の評価ワークフローを起動します。まず meta-judge がタスクに合った評価基準を定義し、その後、judge の sub-agent が切り離されたコンテキストと証拠に基づいて成果物を採点します。コード、分析、文章、agent の出力を、気軽な感想ではなく、規律あるレビューとして確認したいユーザーに最適です。

judge を使うべき人

明確な基準、引用、実行可能なフィードバックを備えたレポート形式の評価が欲しいときに judge スキルを使ってください。Skill Authoring のレビュー、repo の変更レビュー、そして確認バイアスやセッションの持ち越しが判断を歪めるおそれがあるあらゆるタスクに適しています。

何が違うのか

「feedback」を求める一般的な prompt と違い、judge は採点前に評価基準を組み立てます。そのため、成果物の種類がまだ不明なとき、多面的なスコアリングが必要なとき、あるいは別の人に対しても説明可能なレビューが求められるときに、judge スキルはより有効です。

judge スキルの使い方

judge をインストールしてエントリーファイルを確認する

npx skills add NeoLabHQ/context-engineering-kit --skill judge でインストールします。まずは plugins/sadd/skills/judge/SKILL.md を確認してください。ここに、judge のインストール時の振る舞いを定義するワークフロー、入力、評価制約がまとまっています。

judge に具体的な評価対象を与える

このスキルは、何を評価するのかと、どの観点で見るのかを明示したときに最も力を発揮します。たとえば、よい prompt は Judge the last draft of the launch page for clarity, SEO fit, and factual accuracy. のようになります。Review this のような弱い指示だと、meta-judge が推測しなければならない範囲が広すぎます。

judge のパイプラインに必要なコンテキストを渡す

評価対象の成果物、達成条件、そして tone、audience、rubric の優先順位、禁止変更などの厳しい制約を含めてください。Skill Authoring に judge を使うなら、そのことを明示し、対象の skill 名も挙げてください。インストールのわかりやすさ、見つけやすさ、手順の質で rubic を変えるべきだからです。

まず読むべきファイル

インストールと適用のためには、まず SKILL.md を読み、その後で repo に含まれる workflow や policy ファイルを確認してください。この repository では skill 本体が主たる信頼源です。つまり、最短ルートは、あなたのシステムに同じパターンを移す前に、prompt の構造、workflow の各 phase、証拠要件を先に把握することです。

judge スキル FAQ

judge は code review 専用ですか？

いいえ。judge スキルは、rubric で評価すると有益なあらゆる成果物、つまり prompt、docs、分析、agent の出力、設計判断などを評価するためのものです。重要なのは、明示的な基準と証拠に照らして結果を判定できることです。

どんなときに judge を使うべきではありませんか？

単に素早い主観的な反応が欲しいだけのとき、まだ完成した成果物がないとき、あるいは証拠から評価できないタスクのときは、judge を使わないでください。その場合は、もっと単純な prompt のほうが通常は速く、壊れにくいです。

judge は初心者にも向いていますか？

はい。成果物と成功条件を言語化できるなら向いています。初心者がつまずきやすいのは、文脈なしに判断だけを求めたときです。このスキルは meta-judge の段階を強制することでその問題を減らしますが、それでも明確な対象は必要です。

judge は通常の prompt とどう違いますか？

通常の prompt では、1つの model に基準の発明と結果の採点を同時にやらせがちです。judge スキルはその役割を分けるため、整合性が上がり、バイアスが減り、最終レポートも信頼しやすくなります。

judge スキルを改善する方法

評価対象を明確にする

judge に最適な入力は、正確な成果物名、想定読者、そして支援したい意思決定を明示しています。たとえば、Evaluate the new onboarding doc for first-time contributors, with emphasis on setup clarity and missing prerequisites. のように書くと、Check my doc より優れています。後者では、rubric を実際のユーザーリスクに合わせにくいからです。

rubric に影響する制約を追加する

行単位の証拠、引用必須条件、特定の採点スケールを重視したいなら、最初に伝えてください。judge は、正確さ、網羅性、UX のわかりやすさ、ポリシー順守のどれを優先すべきかを知っているほうが、暗黙に平均化するよりもよい結果を出します。

最初のレポートの後に反復する

最初の judge レポートを使って、次の prompt を絞り込みます。足りないコンテキストを追加し、トレードオフを明確にし、採点が甘かったと感じた section を特定してください。Skill Authoring では、インストールのわかりやすさ、使用時の現実感、境界ケースを分けて再評価させるのが、最も役立つ反復になることが多いです。

よくある失敗モードに注意する

元の成果物が曖昧なとき、成果物が未完成なとき、評価の焦点に目標を詰め込みすぎたときは、judge の性能が落ちることがあります。その場合は、タスクをより狭い段階に分け、その時点の意思決定に必要な材料だけを judge に渡してください。

評価とレビュー

まだ評価がありません

レビューを投稿

このスキルの評価やコメントを投稿するにはサインインしてください。

0/10000

新着レビュー

保存中...

このカテゴリーの他のスキル

create-colleague

作成者 titanwings

create-colleague は、同僚に関するドキュメント、チャット、メール、スクリーンショット、Feishu、DingTalk のデータをもとに、編集可能な AI スキルを生成します。業務面と人物像を分けて出力でき、継続的に磨き込むための更新フローにも対応しています。

Skill Authoring

お気に入り 1GitHub 747

skill-creator

作成者 anthropics

skill-creator は、新規スキル作成、既存の SKILL.md 改訂、eval 実行、バリアント比較、トリガー説明の改善を支援する Skill Authoring 向けメタスキルです。リポジトリ内のスクリプトやレビュー補助を使った実務的な運用に向いています。

Skill Authoring

お気に入り 2GitHub 105.1k

lean-ux-canvas

作成者 deanpeters

lean-ux-canvas は、Lean UX Canvas v2 を使って、チームがビジネス課題を整理し、仮説を洗い出し、次に何を学ぶべきかを明確にするのに役立ちます。ソリューション検討の前に実践的な lean-ux-canvas ガイドが必要なときの、ワークショップ準備、ステークホルダーとの認識合わせ、初期のプロダクト探索に適しています。

Skill Authoring

お気に入り 0GitHub 4.1k

documentation-lookup

作成者 affaan-m

documentation-lookup は、記憶に頼らず最新の docs をもとに、ライブラリ、フレームワーク、API に関する質問へ答えるのを助ける skill です。セットアップ、設定、リファレンス、コード例のタスク、とくに最新の構文が重要な場面に最適です。リクエストが live documentation とバージョン正確な案内に依存する場合は、Skill Docs 用の documentation-lookup skill を使ってください。

Skill Docs

お気に入り 0GitHub 156.1k

mcp-builder

作成者 anthropics

mcp-builder は、外部APIやサービス向けのMCPサーバーを企画・実装・評価するための実践ガイドです。ツールの範囲設計、命名、transport、Python / Node の実装パターン、評価フローの判断を助け、エージェントが安定して使えるサーバー設計に役立ちます。

MCP Server Development

お気に入り 0GitHub 105k

user-story

作成者 deanpeters

user-story スキルは、製品要件を、Mike Cohn 形式の記述と Gherkin の受け入れ基準を備えた、開発にそのまま使える 1 つのストーリーにまとめるのを支援します。より明確な引き継ぎ、精度の高い見積もり、Technical Writing やプロダクトチーム向けの、より実用的な user-story ガイド作成に役立ちます。

Technical Writing

お気に入り 0GitHub 4.1k

user-story-splitting

作成者 deanpeters

user-story-splitting スキルは、構造化されたパターンを使って、大きなエピックやユーザーストーリーを、より小さく独立して提供できるストーリーに分割するのに役立ちます。見積もり、順序付け、リスク低減、Skill Authoring のワークフローで、バックログ項目が1スプリントに収まらないほど広いときに活用してください。

Skill Authoring

お気に入り 0GitHub 0

sanity-best-practices

作成者 sanity-io

sanity-best-practices は、実装前に適切な Sanity の設計パターンを見極めるための skill です。schemas、GROQ、TypeGen、Visual Editing、Portable Text、localization、migrations、Functions、Blueprints、そして Next.js、Nuxt、Astro、Remix、SvelteKit、Angular、Hydrogen、App SDK などのフロントエンド連携に使えます。

Frontend Development

お気に入り 0GitHub 0

provider-docs

作成者 hashicorp

provider-docs スキルは、Terraform Provider 向けの Terraform Registry ドキュメントを作成・更新・検証するのに役立ちます。provider-docs のガイド作業、Technical Writing 向けの provider-docs、ドキュメント変更時に schema descriptions、tfplugindocs テンプレート、Registry 出力を同期させる用途に使えます。

Technical Writing

お気に入り 0GitHub 0

press-release

作成者 deanpeters

press-release スキルは、実装前に Amazon 形式の Working Backwards プレスリリースを下書きするのに役立ちます。顧客価値を整理し、製品や機能のアイデアを検証し、簡潔で顧客中心のストーリーで関係者の認識をそろえるために使えます。Technical Writing の press-release や初期段階のプロダクト企画に特に有用です。

Technical Writing

お気に入り 0GitHub 4.1k

writing-skills

作成者 obra

writing-skills は、エージェントスキルの作成・編集・検証をテスト駆動のワークフローで進めるための Skill Authoring ガイドです。主要ファイル、前提条件、プレッシャーシナリオ、ベースラインテスト、簡潔な SKILL.md を反復改善する実践手順を把握できます。

Skill Authoring

お気に入り 0GitHub 121.9k

prd-generator

作成者 ognjengt

prd-generator は、ざっくりしたプロダクトアイデアを AI で使える Product Requirements Document（PRD）に変換します。確認質問を投げ、決まったテンプレートに沿って整理し、創業者、プロダクト責任者、Skill Authoring のワークフローで、下流の AI コーディングツール向けにより明確な仕様を作るのを支援します。構造化された要件、指標、制約、実装にそのまま使える文脈が必要なときに使う skill です。

Skill Authoring

お気に入り 0GitHub 0

command-creator

作成者 softaworks

command-creatorは、Claude Codeで繰り返し使う作業フローを再利用できるslash commandsへ整理したいときに役立つスキルです。適切なコマンド設計の考え方、エージェントがそのまま実行しやすい指示の書き方、`.claude/commands/` と `~/.claude/commands/` の使い分け、さらに実例とベストプラクティスをまとめた同梱リファレンスまで確認できます。

Skill Authoring

お気に入り 0GitHub 1.3k

altitude-horizon-framework

作成者 deanpeters

altitude-horizon-framework は、PM から Director への移行を支援する意思決定スキルです。Altitude と Horizon のギャップを診断し、スコープとタイミングを整理し、戦略が曖昧なときは Cascading Context Map を適用できます。スキル作成向けに、実践的なインストール、使い方、例示ガイドも含まれています。

Skill Authoring

お気に入り 0GitHub 4.1k

prompt-optimizer

作成者 affaan-m

prompt-optimizer は、ラフなプロンプトを分析して不足している文脈を洗い出し、より明確でそのまま貼り付けられる形に書き直す prompt-optimizer スキルです。prompt-optimizer のガイド作成、プロンプトレビュー、Prompt Writing における prompt-optimizer に最適で、特に Claude Code や ECC ワークフローでよりよい構成が必要な場合に役立ちます。基盤となるタスクの実行は行いません。

Prompt Writing

お気に入り 0GitHub 156.2k

continuous-learning-v2

作成者 affaan-m

continuous-learning-v2 は、Claude Code のセッションを hooks、observer agents、confidence scoring、そして繰り返しパターンを skills・commands・agents に昇格させる仕組みによって、プロジェクト単位の学習へ変えるスキルです。

Skill Authoring

お気に入り 0GitHub 156.1k