Evaluation

Evaluation taxonomy generated by the site skill importer.

3 件のスキル
A
healthcare-eval-harness

作成者 affaan-m

healthcare-eval-harness は、医療アプリのデプロイ向け患者安全評価ハーネスです。リリース前に、CDSS の精度、PHI の露出、データ整合性、臨床ワークフローの挙動、統合コンプライアンスをチームで検証できます。重大な失敗はデプロイをブロックするため、Model Evaluation や CI の安全ゲートとして healthcare-eval-harness を使いたい場合に有用です。

Model Evaluation
お気に入り 0GitHub 156.2k
A
eval-harness

作成者 affaan-m

eval-harness は、Claude Code セッションと eval 主導開発のための正式な評価フレームワークです。合格/不合格の基準を定義し、機能評価や回帰評価を構築し、プロンプトやワークフローの変更を公開する前にエージェントの信頼性を測定するのに役立ちます。

Model Evaluation
お気に入り 0GitHub 156.1k
A
continuous-agent-loop

作成者 affaan-m

continuous-agent-loop は、品質ゲート、評価、復旧手順、明確な停止ルールを備えた再現可能な自律ループをエージェントが実行し、タスクを信頼性高く完了できるよう支援します。

Agent Orchestration
お気に入り 0GitHub 156.1k