Evaluation

Evaluation taxonomy generated by the site skill importer.

15 件のスキル
A
healthcare-eval-harness

作成者 affaan-m

healthcare-eval-harness は、医療アプリのデプロイ向け患者安全評価ハーネスです。リリース前に、CDSS の精度、PHI の露出、データ整合性、臨床ワークフローの挙動、統合コンプライアンスをチームで検証できます。重大な失敗はデプロイをブロックするため、Model Evaluation や CI の安全ゲートとして healthcare-eval-harness を使いたい場合に有用です。

Model Evaluation
お気に入り 0GitHub 156.2k
A
eval-harness

作成者 affaan-m

eval-harness は、Claude Code セッションと eval 主導開発のための正式な評価フレームワークです。合格/不合格の基準を定義し、機能評価や回帰評価を構築し、プロンプトやワークフローの変更を公開する前にエージェントの信頼性を測定するのに役立ちます。

Model Evaluation
お気に入り 0GitHub 156.1k
A
continuous-agent-loop

作成者 affaan-m

continuous-agent-loop は、品質ゲート、評価、復旧手順、明確な停止ルールを備えた再現可能な自律ループをエージェントが実行し、タスクを信頼性高く完了できるよう支援します。

Agent Orchestration
お気に入り 0GitHub 156.1k
M
context-degradation

作成者 muratcankoylan

context-degradation は、長いワークフローで起きる文脈障害を診断するための実用的なスキルです。途中の文脈喪失、poisoning、distraction、confusion、clash などを含め、どこで文脈が崩れるのかを特定し、最初に何を変えるべきかを判断し、Skill Authoring、プロンプト配置、本番エージェントのデバッグに使える再現性のある context-degradation ガイドを適用できます。

Skill Authoring
お気に入り 0GitHub 15.6k
H
huggingface-community-evals

作成者 huggingface

huggingface-community-evals は、inspect-ai または lighteval を使って Hugging Face Hub のモデル評価をローカルで実行するのに役立ちます。バックエンドの選定、スモークテスト、vLLM・Transformers・accelerate の実践的な使い分けガイドに適しています。HF Jobs のオーケストレーション、model-card の PR、.eval_results の公開、community-evals の自動化には向きません。

Model Evaluation
お気に入り 0GitHub 10.4k
M
azure-ai-projects-py

作成者 microsoft

azure-ai-projects-py は、Microsoft Foundry のプロジェクトクライアント向け Azure AI Projects Python SDK スキルです。インストール、認証、クライアント設定、PromptAgentDefinition を使ったバージョン管理付きエージェント、評価、接続、デプロイ、データセット、インデックス、OpenAI 互換アクセスに使えます。Python のバックエンド開発ワークフローに最適です。

Backend Development
お気に入り 0GitHub 2.2k
M
skill-optimizer

作成者 mcollina

skill-optimizer は、AI スキルの起動性、明確さ、モデル間の信頼性を高めたい作者向けの支援スキルです。Skill Authoring において、スキルは書けているのに安定して従われない場合、トリガーが弱い場合、リグレッションが出る場合、コンテキストコストを削りたい場合に適しています。ベンチマークの反復、リリースゲート、使用忠実度の向上をサポートします。

Skill Authoring
お気に入り 0GitHub 1.8k
N
tree-of-thoughts

作成者 NeoLabHQ

tree-of-thoughts は、複数のアプローチを検討し、弱い分岐を切り落としながら、より良い答えへと統合していく推論ワークフロースキルです。難しいデバッグ、計画立案、アーキテクチャ上のトレードオフ検討、そして Agent Orchestration 向けの tree-of-thoughts に役立ちます。

Agent Orchestration
お気に入り 0GitHub 982
N
judge

作成者 NeoLabHQ

Judge は2段階の評価 skill です。まず meta-judge を起動し、その後に judge sub-agent が isolated context、evidence、明確な criteria に基づいて作業を採点します。コード、文章、分析、または Skill Authoring をレポート専用でレビューしたいときに、気軽な意見ではなく、説明可能な judge guide が必要ならこれを使います。

Skill Authoring
お気に入り 0GitHub 982
N
judge-with-debate

作成者 NeoLabHQ

judge-with-debate は、共通の仕様、証拠に基づく反論、最大3ラウンドの議論を用いて、構造化されたマルチエージェント討論で解決策を評価します。コードレビュー、ルーブリックベースの評価、Multi-Agent Systems ワークフローにおける judge-with-debate に特に適しています。

Multi-Agent Systems
お気に入り 0GitHub 982
N
do-and-judge

作成者 NeoLabHQ

do-and-judge skill は、サブエージェントによる実装、独立した judge、そして合格するか最大再試行回数に達するまで再試行で検証する、単一タスク実行型の skill です。明確な受け入れ基準、切り分けられた実行、一般的なプロンプトよりも少ない推測で進めたい Workflow Automation に適しています。

Workflow Automation
お気に入り 0GitHub 982
N
do-competitively

作成者 NeoLabHQ

do-competitively は、並列で候補を生成し、ルーブリックに基づいて評価し、証拠ベースで統合することで、重要なタスクの解決を支援します。Workflow Automation をはじめ、品質・堅牢性・トレードオフの扱いが速度より重要な、失敗できない依頼に向いています。

Workflow Automation
お気に入り 0GitHub 982
K
scholar-evaluation

作成者 K-Dense-AI

scholar-evaluation は、問題設定、方法論、分析、文章表現、掲載準備までを構造化されたスコアリングで評価し、学術研究や研究成果の品質を見極めるのに役立ちます。論文、研究計画書、文献レビュー、その他の学術ドラフトの査読、改善計画、一貫したフィードバックに活用できます。

Academic Research
お気に入り 0GitHub 0
M
evaluation

作成者 muratcankoylan

evaluation スキルは、非決定論的なシステムに対してエージェント評価を設計・実行するためのものです。評価の導入計画、ルーブリック作成、回帰チェック、品質ゲート、Skill Testing の評価に使えます。LLM-as-judge のワークフロー、多面的なスコアリング、再現性のある結果が必要な実用的な評価運用に向いています。

Skill Testing
お気に入り 0GitHub 0
N
critique

作成者 NeoLabHQ

critique は、複数の専門ジャッジ、議論、合意形成を使って完了済みの作業を評価する、レポート専用のレビュー skill です。Code Review における critique、正確性、品質、見落としの確認に役立ち、マージ前のチェックに向いています。NeoLabHQ の context-engineering-kit に critique を導入し、ファイルパス、コミット、またはコンテキストと組み合わせて使ってください。

Code Review
お気に入り 0GitHub 0
Evaluation