A

healthcare-eval-harness

作成者 affaan-m

healthcare-eval-harness は、医療アプリのデプロイ向け患者安全評価ハーネスです。リリース前に、CDSS の精度、PHI の露出、データ整合性、臨床ワークフローの挙動、統合コンプライアンスをチームで検証できます。重大な失敗はデプロイをブロックするため、Model Evaluation や CI の安全ゲートとして healthcare-eval-harness を使いたい場合に有用です。

スター156.2k
お気に入り0
コメント0
追加日2026年4月15日
カテゴリーModel Evaluation
インストールコマンド
npx skills add affaan-m/everything-claude-code --skill healthcare-eval-harness
編集スコア

このスキルは 78/100 で、医療デプロイ向けの安全性ハーネスを探すディレクトリ利用者に十分おすすめできる掲載候補です。リポジトリには、EMR/EHR の変更を評価する実際にトリガー可能なワークフローがあり、CDSS の精度、PHI 露出、データ整合性、臨床ワークフロー、統合コンプライアンスに対する明確な安全ゲートが示されています。汎用的なプロンプトではなく、構造化された医療テストハーネスを導入したいなら有力ですが、テストフレームワーク寄りの内容で、補助スクリプトや参考ファイルは付属していない点は留意が必要です。

78/100
強み
  • 医療向けのトリガー条件が明確で、EMR/EHR のデプロイ、CDSS 変更、患者データに触れるスキーマ変更、認証変更の前に使う想定がはっきりしています。
  • 運用上の意味を持つゲート設計で、重大な失敗はデプロイをブロックし、安全性重視のカテゴリに明確な合格基準があります。
  • ワークフロー指向が良く、本文でテストカテゴリの順序やフレームワーク非依存の適用ガイダンスが説明されているため、エージェントが迷いにくくなっています。
注意点
  • インストールコマンド、スクリプト、補助的な参照ファイルは含まれていないため、導入には各自のテストフレームワークへの落とし込みが必要です。
  • リポジトリは実験的・テスト向けのシグナルを含むため、CI/CD や臨床検証の基準に合うかを確認してから利用するべきです。
概要

healthcare-eval-harness スキルの概要

healthcare-eval-harness とは

healthcare-eval-harness は、医療ソフトウェアチームがリリース前に患者向け変更を検証するためのデプロイ安全性スキルです。臨床意思決定支援、PHI の露出、データ整合性、ワークフローの正確性、統合時の挙動について、モデルベースとルールベースの評価に重点を置いています。目的は一般的な QA ではなく、危険な医療関連変更の出荷を防ぐことです。

どんな人に向いているか

この healthcare-eval-harness スキルは、EMR、EHR、CDSS、またはその周辺の医療アプリに携わるエンジニア、QA リード、MLOps チーム、臨床情報学チームに適しています。特に、失敗が投薬、トリアージ、アクセス制御、あるいは規制対象の患者データの取り扱いに影響しうる場合に有効です。非臨床アプリ向けの軽量なプロンプトが欲しいだけなら、これはおそらく厳しすぎます。

何が違うのか

このリポジトリでは、安全ゲートを厳格なリリース条件として扱います。重大な失敗は警告として記録するのではなく、デプロイをブロックします。つまり healthcare-eval-harness は、単なるチェックリストではなく、導入可能な評価パターンが必要なときに役立ちます。また、ハーネスを自分のテストランナーに合わせて調整する前提なので、Jest、Vitest、pytest、PHPUnit など、さまざまな環境で使いやすくなっています。

healthcare-eval-harness スキルの使い方

スキルをインストールして中身を確認する

npx skills add affaan-m/everything-claude-code --skill healthcare-eval-harness でインストールします。その後、まず skills/healthcare-eval-harness/SKILL.md を読み、より広いパッケージを使っている場合はリポジトリルートにある関連ガイダンスも確認してください。このスキルでは評価ルールとしきい値が最重要なので、「When to Use」と「How It Works」のセクションは飛ばさないでください。

タスクを実用的なプロンプトに落とし込む

healthcare-eval-harness をうまく使うプロンプトでは、対象システム、変更の種類、テストランナー、安全上の懸念を明示するのがポイントです。たとえば、「pytest で EHR の薬剤オーダーフローに healthcare-eval-harness を適用してください。用量バリデーションとロールベースアクセスを変更したので、PHI 漏えいまたは危険な投薬失敗があれば重要ゲートでリリースを止めたいです。」のように書くとよいでしょう。これは単に「healthcare スキルを実行して」よりずっと有用です。

推奨ワークフロー

患者データ、臨床ロジック、またはデプロイ制御に触れる変更でこのスキルを使います。まず機能を 5 つの評価カテゴリにマッピングし、次にどれを critical、どれを high priority にするか決めます。その後、ルールを既存のフレームワークと CI パイプラインに落とし込み、最後にチェックを実行します。最も重要なのは、テストスイートが本当に防ぎたい臨床的な失敗モードを反映しているかどうかです。

まず何を読むべきか

まず SKILL.md を開き、ゲート構成、合格しきい値、利用範囲を確認してください。Jest を使った例はあくまで参照用なので、そこに特に注意してください。このスキルはフレームワーク非依存のため、ファイルパス、コマンド、アサーションは自分のスタックに合わせて調整する必要があります。リポジトリに独自のテスト構成があるなら、一般的なレイアウトを押し付けるのではなく、その構造に合わせてください。

healthcare-eval-harness スキルの FAQ

healthcare-eval-harness は Jest 専用ですか?

いいえ。Jest は例として示されているだけで、healthcare-eval-harness は本格的なテストランナーなら何でも使えるように設計されています。重要なのは、critical ゲートのロジック、カテゴリ順、合格しきい値を自分のツールチェーンで維持することです。

これは通常の healthcare QA 用プロンプトと同じですか?

いいえ。通常のプロンプトでもテスト生成はできますが、healthcare-eval-harness スキルは明示的なブロック挙動を備えた導入可能な評価モデルを提供します。医療アプリの変更について信頼できるデプロイ判断が必要なとき、この違いが重要になります。

どんなときに使わないほうがいいですか?

リスクの低いコンテンツ変更、マーケティングページ、患者安全・臨床ワークフロー・規制対象データに触れない機能には healthcare-eval-harness を使わないでください。実際の臨床リスクを反映したテストを維持する規律がチームにないなら、過剰になりがちです。

初心者でも使えますか?

はい。基本的なテストと CI の考え方をすでに知っていれば使えます。ただし、これは医療コンプライアンスの入門書ではないので、しきい値、境界ケース、何を critical failure とみなすかについては、初心者でもドメインレビューが必要です。

healthcare-eval-harness スキルを改善する方法

臨床コンテキストをもっと具体的にする

healthcare-eval-harness の結果を最も良くするのは、具体的な入力です。患者ワークフロー、懸念している失敗、関係するデータフィールド、期待する安全な挙動を明示してください。「アプリをテストして」では弱すぎますが、「アレルギー一致のある薬剤オーダーは送信をブロックし、理由を記録することをテストして」のように書けば、そのまま実行可能です。

失敗ゲートを明示する

どの失敗がデプロイを止めるべきで、どれが high-priority 警告でよいのかをはっきり書いてください。healthcare AI を Model Evaluation で評価したいなら、幻覚リスク、PHI 漏えい、ガイドライン順守、ワークフロー破綻のどれを重視するのかも示しましょう。ゲートが明確であるほど、出力の推測は少なくなります。

実際の見逃しに照らして改善する

初回実行後は、ハーネスの出力を実際のインシデント、ヒヤリ・ハット、臨床スタッフのフィードバックと比較してください。危険な挙動をすり抜けた箇所はアサーションを厳しくし、逆に安全性の向上につながらないノイズだけを生むチェックは緩めます。このフィードバックループこそが、healthcare-eval-harness を一度きりのプロンプトではなく実用的な仕組みにします。

評価とレビュー

まだ評価がありません
レビューを投稿
このスキルの評価やコメントを投稿するにはサインインしてください。
G
0/10000
新着レビュー
保存中...