healthcare-eval-harness

作成者 affaan-m

healthcare-eval-harness は、医療アプリのデプロイ向け患者安全評価ハーネスです。リリース前に、CDSS の精度、PHI の露出、データ整合性、臨床ワークフローの挙動、統合コンプライアンスをチームで検証できます。重大な失敗はデプロイをブロックするため、Model Evaluation や CI の安全ゲートとして healthcare-eval-harness を使いたい場合に有用です。

スター156.2k

お気に入り0

追加日2026年4月15日

カテゴリーModel Evaluation

インストールコマンド

npx skills add affaan-m/everything-claude-code --skill healthcare-eval-harness

編集スコア

このスキルは 78/100 で、医療デプロイ向けの安全性ハーネスを探すディレクトリ利用者に十分おすすめできる掲載候補です。リポジトリには、EMR/EHR の変更を評価する実際にトリガー可能なワークフローがあり、CDSS の精度、PHI 露出、データ整合性、臨床ワークフロー、統合コンプライアンスに対する明確な安全ゲートが示されています。汎用的なプロンプトではなく、構造化された医療テストハーネスを導入したいなら有力ですが、テストフレームワーク寄りの内容で、補助スクリプトや参考ファイルは付属していない点は留意が必要です。

78/100

強み

医療向けのトリガー条件が明確で、EMR/EHR のデプロイ、CDSS 変更、患者データに触れるスキーマ変更、認証変更の前に使う想定がはっきりしています。
運用上の意味を持つゲート設計で、重大な失敗はデプロイをブロックし、安全性重視のカテゴリに明確な合格基準があります。
ワークフロー指向が良く、本文でテストカテゴリの順序やフレームワーク非依存の適用ガイダンスが説明されているため、エージェントが迷いにくくなっています。

注意点

インストールコマンド、スクリプト、補助的な参照ファイルは含まれていないため、導入には各自のテストフレームワークへの落とし込みが必要です。
リポジトリは実験的・テスト向けのシグナルを含むため、CI/CD や臨床検証の基準に合うかを確認してから利用するべきです。

Testing Evaluation Ci Cd Medical Regression Testing Jest

概要

healthcare-eval-harness スキルの概要

healthcare-eval-harness とは

healthcare-eval-harness は、医療ソフトウェアチームがリリース前に患者向け変更を検証するためのデプロイ安全性スキルです。臨床意思決定支援、PHI の露出、データ整合性、ワークフローの正確性、統合時の挙動について、モデルベースとルールベースの評価に重点を置いています。目的は一般的な QA ではなく、危険な医療関連変更の出荷を防ぐことです。

どんな人に向いているか

この healthcare-eval-harness スキルは、EMR、EHR、CDSS、またはその周辺の医療アプリに携わるエンジニア、QA リード、MLOps チーム、臨床情報学チームに適しています。特に、失敗が投薬、トリアージ、アクセス制御、あるいは規制対象の患者データの取り扱いに影響しうる場合に有効です。非臨床アプリ向けの軽量なプロンプトが欲しいだけなら、これはおそらく厳しすぎます。

何が違うのか

このリポジトリでは、安全ゲートを厳格なリリース条件として扱います。重大な失敗は警告として記録するのではなく、デプロイをブロックします。つまり healthcare-eval-harness は、単なるチェックリストではなく、導入可能な評価パターンが必要なときに役立ちます。また、ハーネスを自分のテストランナーに合わせて調整する前提なので、Jest、Vitest、pytest、PHPUnit など、さまざまな環境で使いやすくなっています。

healthcare-eval-harness スキルの使い方

スキルをインストールして中身を確認する

npx skills add affaan-m/everything-claude-code --skill healthcare-eval-harness でインストールします。その後、まず skills/healthcare-eval-harness/SKILL.md を読み、より広いパッケージを使っている場合はリポジトリルートにある関連ガイダンスも確認してください。このスキルでは評価ルールとしきい値が最重要なので、「When to Use」と「How It Works」のセクションは飛ばさないでください。

タスクを実用的なプロンプトに落とし込む

healthcare-eval-harness をうまく使うプロンプトでは、対象システム、変更の種類、テストランナー、安全上の懸念を明示するのがポイントです。たとえば、「pytest で EHR の薬剤オーダーフローに healthcare-eval-harness を適用してください。用量バリデーションとロールベースアクセスを変更したので、PHI 漏えいまたは危険な投薬失敗があれば重要ゲートでリリースを止めたいです。」のように書くとよいでしょう。これは単に「healthcare スキルを実行して」よりずっと有用です。

推奨ワークフロー

患者データ、臨床ロジック、またはデプロイ制御に触れる変更でこのスキルを使います。まず機能を 5 つの評価カテゴリにマッピングし、次にどれを critical、どれを high priority にするか決めます。その後、ルールを既存のフレームワークと CI パイプラインに落とし込み、最後にチェックを実行します。最も重要なのは、テストスイートが本当に防ぎたい臨床的な失敗モードを反映しているかどうかです。

まず何を読むべきか

まず SKILL.md を開き、ゲート構成、合格しきい値、利用範囲を確認してください。Jest を使った例はあくまで参照用なので、そこに特に注意してください。このスキルはフレームワーク非依存のため、ファイルパス、コマンド、アサーションは自分のスタックに合わせて調整する必要があります。リポジトリに独自のテスト構成があるなら、一般的なレイアウトを押し付けるのではなく、その構造に合わせてください。

healthcare-eval-harness スキルの FAQ

healthcare-eval-harness は Jest 専用ですか？

いいえ。Jest は例として示されているだけで、healthcare-eval-harness は本格的なテストランナーなら何でも使えるように設計されています。重要なのは、critical ゲートのロジック、カテゴリ順、合格しきい値を自分のツールチェーンで維持することです。

これは通常の healthcare QA 用プロンプトと同じですか？

いいえ。通常のプロンプトでもテスト生成はできますが、healthcare-eval-harness スキルは明示的なブロック挙動を備えた導入可能な評価モデルを提供します。医療アプリの変更について信頼できるデプロイ判断が必要なとき、この違いが重要になります。

どんなときに使わないほうがいいですか？

リスクの低いコンテンツ変更、マーケティングページ、患者安全・臨床ワークフロー・規制対象データに触れない機能には healthcare-eval-harness を使わないでください。実際の臨床リスクを反映したテストを維持する規律がチームにないなら、過剰になりがちです。

初心者でも使えますか？

はい。基本的なテストと CI の考え方をすでに知っていれば使えます。ただし、これは医療コンプライアンスの入門書ではないので、しきい値、境界ケース、何を critical failure とみなすかについては、初心者でもドメインレビューが必要です。

healthcare-eval-harness スキルを改善する方法

臨床コンテキストをもっと具体的にする

healthcare-eval-harness の結果を最も良くするのは、具体的な入力です。患者ワークフロー、懸念している失敗、関係するデータフィールド、期待する安全な挙動を明示してください。「アプリをテストして」では弱すぎますが、「アレルギー一致のある薬剤オーダーは送信をブロックし、理由を記録することをテストして」のように書けば、そのまま実行可能です。

失敗ゲートを明示する

どの失敗がデプロイを止めるべきで、どれが high-priority 警告でよいのかをはっきり書いてください。healthcare AI を Model Evaluation で評価したいなら、幻覚リスク、PHI 漏えい、ガイドライン順守、ワークフロー破綻のどれを重視するのかも示しましょう。ゲートが明確であるほど、出力の推測は少なくなります。

実際の見逃しに照らして改善する

初回実行後は、ハーネスの出力を実際のインシデント、ヒヤリ・ハット、臨床スタッフのフィードバックと比較してください。危険な挙動をすり抜けた箇所はアサーションを厳しくし、逆に安全性の向上につながらないノイズだけを生むチェックは緩めます。このフィードバックループこそが、healthcare-eval-harness を一度きりのプロンプトではなく実用的な仕組みにします。

評価とレビュー

まだ評価がありません

レビューを投稿

このスキルの評価やコメントを投稿するにはサインインしてください。

0/10000

新着レビュー

保存中...

このカテゴリーの他のスキル

evaluation-methodology

作成者 wshobson

evaluation-methodologyは、Model EvaluationにおけるPluginEvalの採点方法を解説するスキルです。評価レイヤー、ルーブリック、合成スコア、バッジ閾値に加え、結果の読み解き方や弱い評価軸の改善に役立つ実践的な指針を確認できます。

Model Evaluation

お気に入り 0GitHub 32.6k

self-eval

作成者 alirezarezvani

self-eval は、作業後のレビューを率直に行うための、プロンプトのみで構成された Claude Code skill です。タスク、コードレビュー、作業セッションの後に、2軸スコアリング、devil's advocate 推論、スコアの永続化、過大評価チェックを使って AI の作業品質を評価します。

Model Evaluation

お気に入り 0GitHub 22.2k

eval-harness

作成者 affaan-m

eval-harness は、Claude Code セッションと eval 主導開発のための正式な評価フレームワークです。合格/不合格の基準を定義し、機能評価や回帰評価を構築し、プロンプトやワークフローの変更を公開する前にエージェントの信頼性を測定するのに役立ちます。

Model Evaluation

お気に入り 0GitHub 156.1k

agent-eval

作成者 affaan-m

agent-eval は、coding agent を再現性のあるタスクで一対一比較し、pass rate、cost、time、consistency を評価するための skill です。自分の repo で Claude Code、Aider、Codex などの agent を比較したいときに使えば、場当たり的なプロンプトよりも明確な根拠を得られます。

Model Evaluation

お気に入り 0GitHub 156k

huggingface-community-evals

作成者 huggingface

huggingface-community-evals は、inspect-ai または lighteval を使って Hugging Face Hub のモデル評価をローカルで実行するのに役立ちます。バックエンドの選定、スモークテスト、vLLM・Transformers・accelerate の実践的な使い分けガイドに適しています。HF Jobs のオーケストレーション、model-card の PR、.eval_results の公開、community-evals の自動化には向きません。

Model Evaluation

お気に入り 0GitHub 10.4k

huggingface-best

作成者 huggingface

huggingface-best skill は、Hugging Face のベンチマーク順位表を確認し、デバイス制約やモデルサイズで絞り込むことで、タスクに最適なモデルを見つけるのに役立ちます。コーディング、推論、チャット、OCR、RAG、音声、画像、マルチモーダルなどで、汎用的なモデル一覧ではなく、実用的な候補を絞り込みたいときのモデル推薦に向いています。

Model Evaluation

お気に入り 0GitHub 10.4k

libafl

作成者 trailofbits

libaflスキルは、LibAFLを使ってカスタム対象、ミューテーション戦略、セキュリティ監査のワークフローに対応するモジュール式ファuzzerを計画・構築するのに役立ちます。このlibaflガイドでは、対象の詳細情報から実用的なハーネス、フィードバックモデル、実行計画へ、前提をできるだけ少なくして進められます。

Security Audit

お気に入り 0GitHub 5k

evaluation

作成者 muratcankoylan

evaluation スキルは、非決定論的なシステムに対してエージェント評価を設計・実行するためのものです。評価の導入計画、ルーブリック作成、回帰チェック、品質ゲート、Skill Testing の評価に使えます。LLM-as-judge のワークフロー、多面的なスコアリング、再現性のある結果が必要な実用的な評価運用に向いています。

Skill Testing

お気に入り 0GitHub 0

judge-with-debate

作成者 NeoLabHQ

judge-with-debate は、共通の仕様、証拠に基づく反論、最大3ラウンドの議論を用いて、構造化されたマルチエージェント討論で解決策を評価します。コードレビュー、ルーブリックベースの評価、Multi-Agent Systems ワークフローにおける judge-with-debate に特に適しています。

Multi-Agent Systems

お気に入り 0GitHub 982

gws-modelarmor

作成者 googleworkspace

gws-modelarmor は、googleworkspace/cli エコシステムで Google Model Armor を扱うのに役立ちます。プロンプトのサニタイズ、モデル応答のサニタイズ、テンプレート作成を、汎用的なプロンプトよりも少ない試行錯誤で進められます。繰り返し使う前提の、ポリシーを意識した運用や Security Audit ワークフロー向けに設計されています。

Security Audit

お気に入り 0GitHub 25.5k

analyzing-campaign-attribution-evidence

作成者 mukul975

analyzing-campaign-attribution-evidence は、インフラの重なり、ATT&CK との整合性、マルウェア類似性、タイミング、言語的痕跡を総合的に評価し、根拠を持ってキャンペーン帰属判断を行うための支援スキルです。CTI、インシデント分析、Security Audit のレビューに向けて、この analyzing-campaign-attribution-evidence ガイドを活用できます。

Security Audit

お気に入り 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

作成者 mukul975

detecting-ai-model-prompt-injection-attacks は、LLM に届く前の信頼できないテキストを選別するためのサイバーセキュリティスキルです。階層化された正規表現、ヒューリスティック評価、DeBERTa ベースの分類を使って、直接的・間接的なプロンプトインジェクション攻撃を検出します。チャットボットの入力検証、文書取り込み、Threat Modeling に役立ちます。

Threat Modeling

お気に入り 0GitHub 0

honeyhive-automation

作成者 ComposioHQ

honeyhive-automation は、Composio Rube MCP を通じて Claude が Honeyhive ワークフローを自動化できるようにするスキルです。実行前のセットアップ確認、アクティブな接続の検証、スキーマ優先のツール検出に対応します。

Workflow Automation

お気に入り 0GitHub 67.5k

llm-evaluation

作成者 wshobson

llm-evaluation スキルを使うと、LLMアプリ、プロンプト、RAGシステム、モデル変更に対して、指標設計、人手レビュー、ベンチマーク、リグレッションチェックを組み合わせた再現性のある評価計画を設計できます。

Model Evaluation

お気に入り 0GitHub 32.6k

ai-prompt-engineering-safety-review

作成者 github

ai-prompt-engineering-safety-review は、LLMプロンプトを本番導入前、評価時、または顧客向け利用前に見直し、安全性・バイアス・セキュリティ上の弱点・出力品質を監査するためのプロンプトレビュー用スキルです。

Model Evaluation

お気に入り 0GitHub 27.8k

agentic-eval

作成者 github

agentic-eval は、reflection、rubric ベースの批評、evaluator-optimizer パターンを使って、AI 出力の評価ループをどう構築するかを示す GitHub Copilot スキルです。

Model Evaluation

お気に入り 0GitHub 27.8k