do-and-judge

作成者 NeoLabHQ

do-and-judge skill は、サブエージェントによる実装、独立した judge、そして合格するか最大再試行回数に達するまで再試行で検証する、単一タスク実行型の skill です。明確な受け入れ基準、切り分けられた実行、一般的なプロンプトよりも少ない推測で進めたい Workflow Automation に適しています。

スター982

お気に入り0

追加日2026年5月9日

カテゴリーWorkflow Automation

インストールコマンド

npx skills add NeoLabHQ/context-engineering-kit --skill do-and-judge

編集スコア

この skill の評価は 78/100 で、実行と検証を構造化したワークフローを求める directory ユーザーにとって有力な掲載候補です。リポジトリには、いつ使うべきか、どう動くかを理解するのに十分な運用情報がありますが、導入や利用時の迷いを減らす補助情報はまだやや不足しています。

78/100

強み

トリガーとフローが明確で、実装、独立した判定、合格までの再試行を伴う単一タスク向けだと明示されています。
エージェント活用の強みがあります。meta-judge と judge のループ、並列ディスパッチ、フィードバック再試行のパターンにより、自己チェックの偏りを抑えながら実行しやすくなります。
運用面の構成が十分に厚く、妥当な frontmatter、長い本文、多数の見出し、複数のワークフロー/制約シグナルがあり、プレースホルダーではなく実務的な手順コンテンツだと判断できます。

注意点

インストールコマンド、サポートファイル、参考リンクは提供されていないため、利用者は SKILL.md のみを頼りにする必要があります。
抜粋には厳しいオーケストレーション制約と途中切れが見られ、より広いエージェント構成では柔軟性が低く、適用しづらく感じる可能性があります。

Claude Code Claude Agents Evaluation Workflow

概要

do-and-judge skill の概要

do-and-judge ができること

do-and-judge skill は、ワークフロー自動化のための単一タスク実行パターンです。実装用のサブエージェントに作業を渡し、別途 judge 用のルーブリックを作成し、その結果が合格するか再試行上限に達するまで繰り返します。1回の生成で終わる作業よりも、外部による検証で品質が決まる仕事に向いています。

どんな人に向いているか

do-and-judge は、測定可能な受け入れ基準を持つ限定的なタスクをエージェントに完了させたいときに使います。たとえば、リファクタリング、コード編集、構造化コンテンツの変更などです。自己レビューよりも、出力が受理される前の独立したチェックを重視したい場合に適しています。

何が優れているのか

do-and-judge skill の最大の価値は、役割が分離されている点です。オーケストレーターはタスクそのものを実行せず、実装エージェントは新しいコンテキストから作業し、judge は専用の仕様に照らして評価します。この設計によって見落としが減り、速度だけでなく正確さが重要な場面で do-and-judge の導入価値が高まります。

do-and-judge skill の使い方

do-and-judge のインストールとセットアップ

まず skills workspace に do-and-judge skill をインストールし、次に最初に SKILL.md を開いてください。そこに運用ルールと制御フローが書かれています。リポジトリを素早く確認する場合も、最初に読むべきなのは SKILL.md です。ここには補助スクリプトやサポート用フォルダはなく、skill ファイル自体が唯一の信頼できる情報源です。

あいまいな依頼を使える入力に変える

do-and-judge usage パターンが最も効果を発揮するのは、タスクが狭く、テスト可能で、完了条件が明確なときです。「このモジュールを改善して」のような依頼ではなく、次のように具体化してください。

正確な対象ファイルまたはコンポーネント
期待する結果
変えてはいけない制約
合否条件または期待動作

強いプロンプト例: Refactor the UserService class to use dependency injection without changing public method names; verify that all existing tests still pass and that constructor wiring is explicit.

推奨ワークフロー

実践的な do-and-judge guide は、タスクを定義し、実装エージェントを独立して動かし、judge ルーブリックを作成し、そのルーブリックに照らして結果を確認し、具体的な失敗がある場合だけ再試行する、という流れです。このワークフローは、自由な発想よりも制御された実行を重視する do-and-judge for Workflow Automation に向いています。

リポジトリで確認すべき点

SKILL.md で、手順、重要な制約、再試行の閾値を確認してください。特にタスク範囲、コンテキストの扱い、赤信号に関する節は重要です。そこがオーケストレーターの正しい動作を左右します。別のスタックに skill を適用する場合は、実運用のタスクに使う前に、そのルールを自分のツールチェーンに対応づけてください。

do-and-judge skill の FAQ

do-and-judge は通常のプロンプトより優れていますか？

単純な依頼なら、いいえ。通常のプロンプトのほうが速いです。do-and-judge が有利なのは、タスクを実装し、さらに独立して検証したい場合です。とくに、最初の回答でエッジケースを落としたり、要件からずれたりする可能性が高いときに向いています。

この skill は初心者向きですか？

はい。タスクを明確に説明できるなら使えます。習得で難しいのは構文ではありません。judge が推測なしで出力を評価できるだけのタスク文脈と受け入れ基準を与えられるかどうかです。

どんなときに do-and-judge を使うべきではありませんか？

do-and-judge は、探索が目的の作業、ゆるいアイデア出し、成功条件を定義しにくいタスクには使わないでください。また、オーケストレーターにファイルを直接編集させたりツールを実行させたりしたい場合にも向きません。この skill は役割分離と検証を前提に作られているからです。

Workflow Automation の中ではどう位置づけられますか？

大規模な自動化システムの中で、単一かつ限定されたジョブを制御するレイヤーとして使うのが最適です。ワークフローに明示的なチェックがすでにあるなら、skill はエージェントのループを構造化することで価値を出します。逆に、受け入れ基準がないワークフローでは、judge ステップが曖昧すぎて役に立ちません。

do-and-judge skill を改善する方法

judge の基準をよりよくする

品質向上の効果が最も大きいのは、評価入力を強くすることです。do-and-judge を使うときは、「良い」の定義を観察可能な形で指定してください。必要な動作、禁止する変更、カバレッジ目標、書式の制約、互換性ルールなどです。基準が具体的であるほど、judge が弱い結果を通してしまう可能性は下がります。

よくある失敗を減らす

最も多い失敗は、スコープの定義不足です。タスクが広すぎると、実装エージェントが違うものを最適化してしまい、judge がそれを検出するのは遅くなります。もう一つの失敗は、後から見えない制約です。たとえば後方互換性、命名規則、実行環境の制限などです。再試行ループに推測させるのではなく、最初に明示してください。

最初の出力をもとに改善する

最初の実行が期待外れでも、同じ依頼を言い直すだけでは不十分です。judge が示した失敗内容をそのまま返し、受け入れ基準を絞り込み、あいまいな表現を取り除いてください。do-and-judge usage では、2回目の試行は1回目よりも狭く、よりテスト可能であるべきです。

再実行の前に適合性を上げる

do-and-judge を別のリポジトリやエージェントスタックに適用するなら、先にオーケストレーションのルールをツールに合わせてください。分離された実装、独立した judge、上限付きの再試行を本当に支えられるか確認し、無理ならパターンを押し通すのではなく、より単純化してください。

評価とレビュー

まだ評価がありません

レビューを投稿

このスキルの評価やコメントを投稿するにはサインインしてください。

0/10000

新着レビュー

保存中...

このカテゴリーの他のスキル

playwright-interactive

作成者 openai

playwright-interactive は、ローカルの Web アプリや Electron アプリで永続的な Playwright セッションを扱うためのブラウザ自動化スキルです。UI の状態確認、操作の再試行、ツールチェーンを再起動せずに機能 QA やビジュアル QA を行う用途に向いています。反復的なデバッグに使える実践的な playwright-interactive の導入・活用ガイドを探している場合に最適です。

Browser Automation

お気に入り 0GitHub 0

huggingface-datasets

作成者 huggingface

huggingface-datasets スキルは、Hugging Face Dataset Viewer API のワークフローでデータセットの検証、split の解決、行のプレビューとページネーション、テキスト検索、フィルタ適用、parquet リンクや統計情報の取得を行うために使います。読み取り専用のデータセット探索に適した、実用的な huggingface-datasets ガイドです。

Web Scraping

お気に入り 0GitHub 10.4k

iterative-retrieval

作成者 affaan-m

iterative-retrieval は、エージェント型の作業でコンテキスト取得を段階的に洗練していくためのワークフローパターンです。サブエージェントがコンテキストを取りすぎたり、逆に足りなさすぎたりするのを防ぎ、iterative-retrieval の導入判断や、Workflow Automation における iterative-retrieval の活用に役立ちます。

Workflow Automation

お気に入り 0GitHub 156.2k

data-scraper-agent

作成者 affaan-m

data-scraper-agent は、Web スクレイピング、データ強化、保存までを一貫して行う、再利用可能な公開データパイプラインの構築を支援します。GitHub Actions を使って、ジョブ、価格、ニュース、リポジトリ、スポーツ、掲載情報などを定期監視する用途に向いており、出力先は Notion、Sheets、Supabase に対応します。一度きりの抽出よりも、継続的な追跡に最適です。

Web Scraping

お気に入り 0GitHub 156.1k

notion-meeting-intelligence

作成者 openai

notion-meeting-intelligence は、Notion のコンテキストを会議向けのアジェンダや事前読了資料に変換し、意思決定、進捗確認、計画、振り返り、1on1 の準備に必要な Codex リサーチまでまとめて支援します。根拠のある資料、明確なタイムボックス、参加者別の出力が必要なときに、notion-meeting-intelligence の会議準備ワークフローとして特に適しています。

Meeting Prep

お気に入り 0GitHub 18.6k

building-incident-response-playbook

作成者 mukul975

building-incident-response-playbook は、セキュリティチームが再利用可能なインシデント対応プレイブックを作成できるようにする skill です。段階的なフェーズ、判断フロー、エスカレーション基準、RACI による責任分担、SOAR 対応の構成まで備えており、インシデント対応手順のドキュメント化、インシデントトリアージのワークフロー、監査に強い運用対応計画の整理に向いています。

Incident Triage

お気に入り 0GitHub 6.1k

building-patch-tuesday-response-process

作成者 mukul975

building-patch-tuesday-response-process は、Microsoft Patch Tuesday の対応を反復可能な運用プロセスとして整備し、アドバイザリのトリアージ、リスク順位付け、パッチ検証、展開承認、コンプライアンス追跡までを一貫して進めるためのスキルです。セキュリティ運用、脆弱性管理、Project Management における building-patch-tuesday-response-process に有用です。

Project Management

お気に入り 0GitHub 6.1k

secure-workflow-guide

作成者 trailofbits

secure-workflow-guide は、Solidity のセキュリティワークフローを 5 ステップで整理して案内します。Slither による一次切り分け、機能別チェック、目視確認、セキュリティ特性のメモ、手動レビューまでをカバーします。デプロイ前やリリース前に、スマートコントラクトチーム、監査担当、開発者が再現性のある secure-workflow-guide を使いたいときに向けた内容です。

Security Audit

お気に入り 0GitHub 4.9k

twitter-cli

作成者 public-clis

twitter-cli は、ターミナルで Twitter/X を扱うためのスキルです。認証済みなら、タイムライン、ブックマーク、検索結果、プロフィール、ツイート詳細の閲覧に加え、投稿などの書き込み操作も行えます。ソーシャルメディア調査、アカウント監視、コマンドラインからの軽量な発信に最適です。

Social Media

お気に入り 0GitHub 2.3k

azure-ai-contentunderstanding-py

作成者 microsoft

azure-ai-contentunderstanding-py は、Azure AI Content Understanding 向けの Python スキルです。ドキュメント、画像、音声、動画から構造化コンテンツを抽出し、RAG ワークフローや自動化に活用できます。信頼性の高いマルチモーダル抽出、Azure 認証、再現性のあるパイプライン向け出力が必要な場合に適しています。

RAG Workflows

お気に入り 0GitHub 2.2k

wp-performance

作成者 WordPress

wp-performance を使うと、ブラウザ UI を使わずにバックエンドから WordPress のパフォーマンスを調査・改善できます。遅いフロントエンドリクエスト、管理画面、REST ルート、WP-Cron を対象に、まず測定してから原因を絞り込む診断を支援します。WP-CLI の profile/doctor、REST ヘッダー経由の Query Monitor、Server-Timing、DB クエリ、autoloaded options、オブジェクトキャッシュ、cron、外部 HTTP 呼び出しまで扱えます。

Performance Optimization

お気に入り 0GitHub 1.4k

wp-wpcli-and-ops

作成者 WordPress

wp-wpcli-and-ops は、WP-CLI での WordPress 運用を支援するスキルです。安全な search-replace、db export/import、プラグインやテーマの操作、cron、キャッシュ削除、マルチサイトの対象指定、バックエンド開発で役立つ再現性の高い自動化までカバーします。

Backend Development

お気に入り 0GitHub 1.4k

agents-sdk

作成者 cloudflare

agents-sdkは、状態を持つ会話、耐久性のある実行、WebSocketやストリーミングチャット、MCP連携、スケジュールタスク、ブラウザ自動化を備えたCloudflare Workersエージェントの構築を支援します。このagents-sdkスキルは、既存または新規のWorkersアプリに対する導入判断、設定、実用的な使い方に重点を置いており、マルチエージェントシステムについてはCloudflareのランタイム制約に適合する場合に限って扱います。

Multi-Agent Systems

お気に入り 0GitHub 1.3k

reddit-ads

作成者 alinaqi

Reddit Ads API のワークフローに対応した reddit-ads スキルです。キャンペーン作成、ターゲティング、コンバージョントラッキング、広告最適化までカバーします。reddit-ads ガイドを導入すれば、アカウント階層、予算、オーディエンス、API ベースの最適化を、手探りを減らしながら管理できます。

Ad Optimization

お気に入り 0GitHub 611

existing-repo

作成者 alinaqi

existing-repo は、既存のコードベースを分析し、スタックや規約を把握し、ローカルの作法を壊さないためのガードレールを追加するのに役立ちます。Git Workflows、初めて触るリポジトリ作業、保守、そして「変更前に理解する」ことが特に重要なセットアップ変更で、この existing-repo スキルを使ってください。

Git Workflows

お気に入り 0GitHub 607

composio

作成者 ComposioHQ

composio を使うと、CLI や SDK から AI ワークフローを外部アプリに接続できます。この composio スキルは、ワークフロー自動化、アプリ操作、ユーザーごとの接続、ツールキットの探索、そして構築を始める前に確認したいインストールと使い方の実用ガイドを重視して作られています。

Workflow Automation

お気に入り 0GitHub 48