Model Evaluation

セキュリティ で Model Evaluation に関連する Agent Skill を探し、近いワークフローや用途を比較できます。

16 件のスキル
A
healthcare-eval-harness

作成者 affaan-m

healthcare-eval-harness は、医療アプリのデプロイ向け患者安全評価ハーネスです。リリース前に、CDSS の精度、PHI の露出、データ整合性、臨床ワークフローの挙動、統合コンプライアンスをチームで検証できます。重大な失敗はデプロイをブロックするため、Model Evaluation や CI の安全ゲートとして healthcare-eval-harness を使いたい場合に有用です。

Model Evaluation
お気に入り 0GitHub 156.2k
A
eval-harness

作成者 affaan-m

eval-harness は、Claude Code セッションと eval 主導開発のための正式な評価フレームワークです。合格/不合格の基準を定義し、機能評価や回帰評価を構築し、プロンプトやワークフローの変更を公開する前にエージェントの信頼性を測定するのに役立ちます。

Model Evaluation
お気に入り 0GitHub 156.1k
A
agent-eval

作成者 affaan-m

agent-eval は、coding agent を再現性のあるタスクで一対一比較し、pass rate、cost、time、consistency を評価するための skill です。自分の repo で Claude Code、Aider、Codex などの agent を比較したいときに使えば、場当たり的なプロンプトよりも明確な根拠を得られます。

Model Evaluation
お気に入り 0GitHub 156k
W
evaluation-methodology

作成者 wshobson

evaluation-methodologyは、Model EvaluationにおけるPluginEvalの採点方法を解説するスキルです。評価レイヤー、ルーブリック、合成スコア、バッジ閾値に加え、結果の読み解き方や弱い評価軸の改善に役立つ実践的な指針を確認できます。

Model Evaluation
お気に入り 0GitHub 32.6k
W
llm-evaluation

作成者 wshobson

llm-evaluation スキルを使うと、LLMアプリ、プロンプト、RAGシステム、モデル変更に対して、指標設計、人手レビュー、ベンチマーク、リグレッションチェックを組み合わせた再現性のある評価計画を設計できます。

Model Evaluation
お気に入り 0GitHub 32.6k
G
ai-prompt-engineering-safety-review

作成者 github

ai-prompt-engineering-safety-review は、LLMプロンプトを本番導入前、評価時、または顧客向け利用前に見直し、安全性・バイアス・セキュリティ上の弱点・出力品質を監査するためのプロンプトレビュー用スキルです。

Model Evaluation
お気に入り 0GitHub 27.8k
G
agentic-eval

作成者 github

agentic-eval は、reflection、rubric ベースの批評、evaluator-optimizer パターンを使って、AI 出力の評価ループをどう構築するかを示す GitHub Copilot スキルです。

Model Evaluation
お気に入り 0GitHub 27.8k
G
gws-modelarmor

作成者 googleworkspace

gws-modelarmor は、googleworkspace/cli エコシステムで Google Model Armor を扱うのに役立ちます。プロンプトのサニタイズ、モデル応答のサニタイズ、テンプレート作成を、汎用的なプロンプトよりも少ない試行錯誤で進められます。繰り返し使う前提の、ポリシーを意識した運用や Security Audit ワークフロー向けに設計されています。

Security Audit
お気に入り 0GitHub 25.5k
H
huggingface-community-evals

作成者 huggingface

huggingface-community-evals は、inspect-ai または lighteval を使って Hugging Face Hub のモデル評価をローカルで実行するのに役立ちます。バックエンドの選定、スモークテスト、vLLM・Transformers・accelerate の実践的な使い分けガイドに適しています。HF Jobs のオーケストレーション、model-card の PR、.eval_results の公開、community-evals の自動化には向きません。

Model Evaluation
お気に入り 0GitHub 10.4k
H
huggingface-best

作成者 huggingface

huggingface-best skill は、Hugging Face のベンチマーク順位表を確認し、デバイス制約やモデルサイズで絞り込むことで、タスクに最適なモデルを見つけるのに役立ちます。コーディング、推論、チャット、OCR、RAG、音声、画像、マルチモーダルなどで、汎用的なモデル一覧ではなく、実用的な候補を絞り込みたいときのモデル推薦に向いています。

Model Evaluation
お気に入り 0GitHub 10.4k
M
analyzing-campaign-attribution-evidence

作成者 mukul975

analyzing-campaign-attribution-evidence は、インフラの重なり、ATT&CK との整合性、マルウェア類似性、タイミング、言語的痕跡を総合的に評価し、根拠を持ってキャンペーン帰属判断を行うための支援スキルです。CTI、インシデント分析、Security Audit のレビューに向けて、この analyzing-campaign-attribution-evidence ガイドを活用できます。

Security Audit
お気に入り 0GitHub 6.1k
T
libafl

作成者 trailofbits

libaflスキルは、LibAFLを使ってカスタム対象、ミューテーション戦略、セキュリティ監査のワークフローに対応するモジュール式ファuzzerを計画・構築するのに役立ちます。このlibaflガイドでは、対象の詳細情報から実用的なハーネス、フィードバックモデル、実行計画へ、前提をできるだけ少なくして進められます。

Security Audit
お気に入り 0GitHub 5k
N
judge-with-debate

作成者 NeoLabHQ

judge-with-debate は、共通の仕様、証拠に基づく反論、最大3ラウンドの議論を用いて、構造化されたマルチエージェント討論で解決策を評価します。コードレビュー、ルーブリックベースの評価、Multi-Agent Systems ワークフローにおける judge-with-debate に特に適しています。

Multi-Agent Systems
お気に入り 0GitHub 982
M
evaluation

作成者 muratcankoylan

evaluation スキルは、非決定論的なシステムに対してエージェント評価を設計・実行するためのものです。評価の導入計画、ルーブリック作成、回帰チェック、品質ゲート、Skill Testing の評価に使えます。LLM-as-judge のワークフロー、多面的なスコアリング、再現性のある結果が必要な実用的な評価運用に向いています。

Skill Testing
お気に入り 0GitHub 0
M
detecting-ai-model-prompt-injection-attacks

作成者 mukul975

detecting-ai-model-prompt-injection-attacks は、LLM に届く前の信頼できないテキストを選別するためのサイバーセキュリティスキルです。階層化された正規表現、ヒューリスティック評価、DeBERTa ベースの分類を使って、直接的・間接的なプロンプトインジェクション攻撃を検出します。チャットボットの入力検証、文書取り込み、Threat Modeling に役立ちます。

Threat Modeling
お気に入り 0GitHub 0
W
ml-pipeline-workflow

作成者 wshobson

ml-pipeline-workflow は、データ準備、学習、検証、デプロイ、監視までを含むエンドツーエンドの MLOps パイプライン設計を実践的に案内するガイドです。再現性のあるワークフロー自動化に向けたオーケストレーションの設計パターンも整理されています。

Workflow Automation
お気に入り 0GitHub 0
Model Evaluation agent skills