Evaluation

Evaluation taxonomy generated by the site skill importer.

19 件のスキル

healthcare-eval-harness

作成者 affaan-m

healthcare-eval-harness は、医療アプリのデプロイ向け患者安全評価ハーネスです。リリース前に、CDSS の精度、PHI の露出、データ整合性、臨床ワークフローの挙動、統合コンプライアンスをチームで検証できます。重大な失敗はデプロイをブロックするため、Model Evaluation や CI の安全ゲートとして healthcare-eval-harness を使いたい場合に有用です。

Model Evaluation

お気に入り 0GitHub 156.2k

eval-harness

作成者 affaan-m

eval-harness は、Claude Code セッションと eval 主導開発のための正式な評価フレームワークです。合格/不合格の基準を定義し、機能評価や回帰評価を構築し、プロンプトやワークフローの変更を公開する前にエージェントの信頼性を測定するのに役立ちます。

Model Evaluation

お気に入り 0GitHub 156.1k

continuous-agent-loop

作成者 affaan-m

continuous-agent-loop は、品質ゲート、評価、復旧手順、明確な停止ルールを備えた再現可能な自律ループをエージェントが実行し、タスクを信頼性高く完了できるよう支援します。

Agent Orchestration

お気に入り 0GitHub 156.1k

self-eval

作成者 alirezarezvani

self-eval は、作業後のレビューを率直に行うための、プロンプトのみで構成された Claude Code skill です。タスク、コードレビュー、作業セッションの後に、2軸スコアリング、devil's advocate 推論、スコアの永続化、過大評価チェックを使って AI の作業品質を評価します。

Model Evaluation

お気に入り 0GitHub 22.2k

prompt-governance

作成者 alirezarezvani

prompt-governance は、本番プロンプトをバージョン管理され、レビューされ、テスト済みの資産として扱うための Claude skill です。AI 機能における prompt registries、regression tests、A/B experiments、eval pipelines、release approvals、rollback workflows の設計・運用計画に活用できます。

Prompt Governance

お気に入り 0GitHub 22.2k

run

作成者 alirezarezvani

run は、Claude 向けの AgentHub オーケストレーションスキルです。`/hub:run` を実行してタスクを初期化し、エージェントを生成し、結果を評価して、勝者をマージします。明確な task、agent、eval、metric、direction、template パラメータを指定できる、測定可能なコード改善や、評価基準のあるクリエイティブ比較に適しています。

Agent Orchestration

お気に入り 0GitHub 22.1k

eval

作成者 alirezarezvani

eval は、設定済みメトリック、LLM judge によるレビュー、またはその組み合わせで、完了済みの AgentHub エージェント結果をランク付けします。/hub:eval と併用することで、勝者を選ぶ前にセッションブランチ、diff、結果投稿を比較できます。

Model Evaluation

お気に入り 0GitHub 22.1k

context-degradation

作成者 muratcankoylan

context-degradation は、長いワークフローで起きる文脈障害を診断するための実用的なスキルです。途中の文脈喪失、poisoning、distraction、confusion、clash などを含め、どこで文脈が崩れるのかを特定し、最初に何を変えるべきかを判断し、Skill Authoring、プロンプト配置、本番エージェントのデバッグに使える再現性のある context-degradation ガイドを適用できます。

Skill Authoring

お気に入り 0GitHub 15.6k

huggingface-community-evals

作成者 huggingface

huggingface-community-evals は、inspect-ai または lighteval を使って Hugging Face Hub のモデル評価をローカルで実行するのに役立ちます。バックエンドの選定、スモークテスト、vLLM・Transformers・accelerate の実践的な使い分けガイドに適しています。HF Jobs のオーケストレーション、model-card の PR、.eval_results の公開、community-evals の自動化には向きません。

Model Evaluation

お気に入り 0GitHub 10.4k

azure-ai-projects-py

作成者 microsoft

azure-ai-projects-py は、Microsoft Foundry のプロジェクトクライアント向け Azure AI Projects Python SDK スキルです。インストール、認証、クライアント設定、PromptAgentDefinition を使ったバージョン管理付きエージェント、評価、接続、デプロイ、データセット、インデックス、OpenAI 互換アクセスに使えます。Python のバックエンド開発ワークフローに最適です。

Backend Development

お気に入り 0GitHub 2.2k

skill-optimizer

作成者 mcollina

skill-optimizer は、AI スキルの起動性、明確さ、モデル間の信頼性を高めたい作者向けの支援スキルです。Skill Authoring において、スキルは書けているのに安定して従われない場合、トリガーが弱い場合、リグレッションが出る場合、コンテキストコストを削りたい場合に適しています。ベンチマークの反復、リリースゲート、使用忠実度の向上をサポートします。

Skill Authoring

お気に入り 0GitHub 1.8k

tree-of-thoughts

作成者 NeoLabHQ

tree-of-thoughts は、複数のアプローチを検討し、弱い分岐を切り落としながら、より良い答えへと統合していく推論ワークフロースキルです。難しいデバッグ、計画立案、アーキテクチャ上のトレードオフ検討、そして Agent Orchestration 向けの tree-of-thoughts に役立ちます。

Agent Orchestration

お気に入り 0GitHub 982

judge

作成者 NeoLabHQ

Judge は2段階の評価 skill です。まず meta-judge を起動し、その後に judge sub-agent が isolated context、evidence、明確な criteria に基づいて作業を採点します。コード、文章、分析、または Skill Authoring をレポート専用でレビューしたいときに、気軽な意見ではなく、説明可能な judge guide が必要ならこれを使います。

Skill Authoring

お気に入り 0GitHub 982

judge-with-debate

作成者 NeoLabHQ

judge-with-debate は、共通の仕様、証拠に基づく反論、最大3ラウンドの議論を用いて、構造化されたマルチエージェント討論で解決策を評価します。コードレビュー、ルーブリックベースの評価、Multi-Agent Systems ワークフローにおける judge-with-debate に特に適しています。

Multi-Agent Systems

お気に入り 0GitHub 982

do-and-judge

作成者 NeoLabHQ

do-and-judge skill は、サブエージェントによる実装、独立した judge、そして合格するか最大再試行回数に達するまで再試行で検証する、単一タスク実行型の skill です。明確な受け入れ基準、切り分けられた実行、一般的なプロンプトよりも少ない推測で進めたい Workflow Automation に適しています。

Workflow Automation

お気に入り 0GitHub 982

do-competitively

作成者 NeoLabHQ

do-competitively は、並列で候補を生成し、ルーブリックに基づいて評価し、証拠ベースで統合することで、重要なタスクの解決を支援します。Workflow Automation をはじめ、品質・堅牢性・トレードオフの扱いが速度より重要な、失敗できない依頼に向いています。

Workflow Automation

お気に入り 0GitHub 982

scholar-evaluation

作成者 K-Dense-AI

scholar-evaluation は、問題設定、方法論、分析、文章表現、掲載準備までを構造化されたスコアリングで評価し、学術研究や研究成果の品質を見極めるのに役立ちます。論文、研究計画書、文献レビュー、その他の学術ドラフトの査読、改善計画、一貫したフィードバックに活用できます。

Academic Research

お気に入り 0GitHub 0

evaluation

作成者 muratcankoylan

evaluation スキルは、非決定論的なシステムに対してエージェント評価を設計・実行するためのものです。評価の導入計画、ルーブリック作成、回帰チェック、品質ゲート、Skill Testing の評価に使えます。LLM-as-judge のワークフロー、多面的なスコアリング、再現性のある結果が必要な実用的な評価運用に向いています。

Skill Testing

お気に入り 0GitHub 0

critique

作成者 NeoLabHQ

critique は、複数の専門ジャッジ、議論、合意形成を使って完了済みの作業を評価する、レポート専用のレビュー skill です。Code Review における critique、正確性、品質、見落としの確認に役立ち、マージ前のチェックに向いています。NeoLabHQ の context-engineering-kit に critique を導入し、ファイルパス、コミット、またはコンテキストと組み合わせて使ってください。

Code Review

お気に入り 0GitHub 0