healthcare-eval-harness

作者 affaan-m

healthcare-eval-harness 是一個用於醫療應用部署的病人安全評估 harness。它能協助團隊在發布前驗證 CDSS 準確性、PHI 暴露、資料完整性、臨床工作流程行為，以及整合合規性。重大失敗會阻擋部署，因此它很適合用於 healthcare-eval-harness 的 Model Evaluation 與 CI 安全閘門。

Stars156.2k

評論0

加入時間2026年4月15日

分類模型評測

安裝指令

npx skills add affaan-m/everything-claude-code --skill healthcare-eval-harness

編輯評分

這個 skill 的評分是 78/100，表示它對需要醫療部署安全 harness 的目錄使用者來說，是相當扎實的候選項。此 repository 展現了可實際觸發的工作流程，可用來評估 EMR/EHR 變更，並明確設下 CDSS 準確性、PHI 暴露、資料完整性、臨床工作流程與整合合規性的安全閘門。如果你想要的是結構化的醫療測試 harness，而不是一般化的 prompt，這個項目值得安裝；不過也要注意，它偏向測試框架設計，並未附帶輔助 scripts 或參考檔案。

78/100

亮點

醫療場景的觸發條件很清楚：可在 EMR/EHR 部署、CDSS 變更、影響病患資料的 schema 變更，以及認證授權變更前使用。
閘門設計具備實務意義：重大失敗會阻擋部署，且針對安全導向類別設有明確的通過門檻。
工作流程導向良好：內容描述了有順序的測試類別與框架無關的調整指引，能讓 agent 執行時少一些猜測。

注意事項

沒有附上 install command、scripts 或支援性的參考檔案，因此採用時需要使用者把這個 harness 轉成自己使用的測試框架。
此 repository 帶有 experimental/test 類型訊號，因此在納入 CI/CD 與臨床驗證標準之前，使用者應先確認它是否適用。

测试 Evaluation Ci Cd 医疗 Regression Testing Jest

總覽

healthcare-eval-harness 技能總覽

healthcare-eval-harness 是什麼

healthcare-eval-harness 是一個面向醫療軟體團隊的部署安全技能，用來在發版前驗證會影響病患的變更。它聚焦於以模型與規則為基礎的評估，涵蓋臨床決策支援、PHI 外洩、資料完整性、流程正確性與整合行為。重點不是一般 QA；而是阻止不安全的醫療變更被送上線。

誰適合使用

這個 healthcare-eval-harness 技能很適合正在處理 EMR、EHR、CDSS 或相關醫療應用的工程師、QA 負責人、MLOps 團隊與臨床資訊團隊。當失敗可能影響劑量、分診、存取控制，或受管制的病患資料處理時，它特別有用。如果你只是需要一個給非臨床應用用的輕量提示詞，這個技能大概太嚴格了。

它有什麼不同

這個 repo 把安全閘門當成硬性的發版條件：重大失敗會直接阻擋部署，而不是只記成警告。這讓 healthcare-eval-harness 在你需要的是可安裝的評估模式，而不只是檢查清單時特別有價值。它也預期你要把 harness 調整成適合自己的測試執行器，因此可以在 Jest、Vitest、pytest 或 PHPUnit 之間保持可攜性。

如何使用 healthcare-eval-harness 技能

安裝並檢視這個技能

使用 npx skills add affaan-m/everything-claude-code --skill healthcare-eval-harness 安裝。接著先讀 skills/healthcare-eval-harness/SKILL.md，如果你使用的是更大的套件，再接著看 repo root 裡任何有連結的指引。對這個技能來說，核心價值在於評估規則與門檻，所以不要跳過 “When to Use” 和 “How It Works” 章節。

把你的任務改寫成有用的提示詞

一個好的 healthcare-eval-harness 使用提示詞，應該寫出被測系統、變更類型、測試執行器與安全顧慮。例如：Apply healthcare-eval-harness to our EHR medication order flow in pytest. We changed dose validation and role-based access, and I need the critical gates to block release on PHI leakage or unsafe dosing failures. 這會比單純說 “Run the healthcare skill.” 好得多。

建議工作流程

當變更會碰到病患資料、臨床邏輯或部署控制時，就用這個技能。先把你的功能對應到五個評估類別，再決定哪些是 critical、哪些是 high priority。接著把規則翻譯成你現有的 framework 與 CI pipeline，最後才執行檢查。最重要的決定，是你的測試套件是否真的反映了你想阻止的臨床失敗模式。

先讀哪些內容

先看 SKILL.md，了解閘門結構、通過門檻與使用邊界。特別注意那些把 Jest 當作參考範例的段落；這個技能與 framework 無關，所以你應該把檔案路徑、命令與 assertions 調整成符合你的技術棧。如果你的 repo 已經有自己的測試組織方式，就照那個結構去對齊，而不是硬套一個通用版版型。

healthcare-eval-harness 技能 FAQ

healthcare-eval-harness 只適合 Jest 嗎？

不是。Jest 只是範例，healthcare-eval-harness 的設計是要能搭配任何成熟的測試執行器。重點是要在你自己的工具鏈裡保留 critical gate 邏輯、類別順序與通過門檻。

這和一般的 healthcare QA 提示詞一樣嗎？

不一樣。一般提示詞可能只是幫你產生測試，但 healthcare-eval-harness 技能提供的是一個可安裝的評估模型，而且有明確的阻擋行為。當你需要為醫療應用變更做可靠的部署決策時，這一點很重要。

什麼時候不該用？

如果是低風險內容修改、行銷頁面，或根本不會碰到病患安全、臨床流程、受管制資料的功能，就不要用 healthcare-eval-harness。若你的團隊沒有紀律去維護能反映真實臨床風險的測試，它也可能太大材小用。

對新手友善嗎？

如果你已經懂基本測試與 CI 概念，那就算友善。它不是醫療法規合規性的教學，所以新手還是需要針對門檻、邊界案例，以及什麼算重大失敗，做領域審查。

如何改進 healthcare-eval-harness 技能

提供更精準的臨床脈絡

healthcare-eval-harness 最好的結果來自具體輸入：病患流程、你擔心的失敗、涉及哪些資料欄位，以及預期的安全行為。說 “Test the app” 太弱；說 “test that a medication order with an allergy match blocks submission and logs the reason” 才能直接行動。

把失敗閘門寫清楚

明確指出哪些失敗一定要阻擋部署，哪些只能算 high-priority 警告。如果你要讓這個技能評估 healthcare AI for Model Evaluation，就要說清楚你更在意 hallucination risk、PHI leakage、guideline adherence，還是 workflow breakage。閘門寫得越明確，輸出的猜測空間就越小。

根據真實漏網案例持續調整

第一次執行後，把 harness 的輸出和實際事故、差點出事的案例，或臨床人員回饋比對。對那些讓不安全行為溜過去的 assertion 加嚴；只有那些只會製造雜訊、卻無助於提升安全性的檢查，才考慮放寬。這種回饋迴路，才是讓 healthcare-eval-harness 超越一次性提示詞的關鍵。

評分與評論

尚無評分

分享你的評論

登入後即可為這項技能評分並留言。

0/10000

此分類中的更多技能

evaluation-methodology

作者 wshobson

evaluation-methodology 技能說明 Model Evaluation 中的 PluginEval 評分方法，涵蓋評估層級、評分規準、綜合計分、徽章門檻，以及如何解讀結果並改善較弱面向的實務建議。

模型評測

收藏 0GitHub 32.6k

self-eval

作者 alirezarezvani

self-eval 是一個純提示型 Claude Code skill，用於在工作完成後進行誠實檢視。它透過雙軸評分、devil's advocate reasoning、分數持久化與反灌水檢查，在任務、程式碼審查或工作階段結束後評估 AI 工作品質。

模型評測

收藏 0GitHub 22.2k

eval-harness

作者 affaan-m

eval-harness 技能是一套正式的評估框架，適用於 Claude Code 工作階段與 eval-driven development。它能幫助你定義通過／失敗標準、建立能力與回歸評測，並在正式推出提示詞或工作流程變更前，衡量 agent 的可靠性。

模型評測

收藏 0GitHub 156.1k

agent-eval

作者 affaan-m

agent-eval 是一款用來讓程式代理在可重現任務上進行正面比較的 skill，可比對通過率、成本、耗時與一致性。若你想在自己的 repo 中評估 Claude Code、Aider、Codex 或其他代理，agent-eval skill 能提供比臨時下提示更清楚、更有依據的評估結果。

模型評測

收藏 0GitHub 156k

huggingface-community-evals

作者 huggingface

huggingface-community-evals 可協助你在本機使用 inspect-ai 或 lighteval 執行 Hugging Face Hub 模型評測。適合用於後端選擇、冒煙測試，以及了解 vLLM、Transformers 或 accelerate 的實作指南。不適用於 HF Jobs 協調、model-card PR、.eval_results 發佈，或 community-evals 自動化。

模型評測

收藏 0GitHub 10.4k

huggingface-best

作者 huggingface

huggingface-best 技能可透過檢查 Hugging Face 基準排行榜，並依裝置限制與模型大小篩選，幫你找到某項任務的最佳模型。當你需要的是實用的候選清單，而不是泛用模型列表時，它很適合用在程式撰寫、推理、聊天、OCR、RAG、語音、視覺或多模態工作上的模型推薦。

模型評測

收藏 0GitHub 10.4k

libafl

作者 trailofbits

libafl 技能可協助你用 LibAFL 規劃並打造模組化 fuzzing 工具，適用於自訂目標、突變策略與資安稽核流程。使用這份 libafl 指南，你可以從目標細節出發，建立實用的 harness、回饋模型與執行規劃，減少先入為主的假設。

安全稽核

收藏 0GitHub 5k

evaluation

作者 muratcankoylan

evaluation 技能可協助你為非決定性系統設計並執行 agent 評估。可用於評估安裝規劃、評分規準、回歸檢查、品質把關，以及 Skill Testing 的評估工作。它適合 LLM-as-judge 工作流程、多維度評分，以及需要可重複結果時的實務評估使用。

Skill 测试

收藏 0GitHub 0

judge-with-debate

作者 NeoLabHQ

judge-with-debate 透過結構化的多代理辯論來評估解決方案，使用共享規格、以證據為基礎的反駁，以及最多 3 輪討論來達成共識。它很適合用於程式碼審查、依評分規準的評估，以及 Multi-Agent Systems 工作流程中的 judge-with-debate。

多 Agent 系统

收藏 0GitHub 982

gws-modelarmor

作者 googleworkspace

gws-modelarmor 可協助你在 googleworkspace/cli 生態系中使用 Google Model Armor。可用來清理 prompts、清理模型回應，並建立比通用 prompt 更少猜測的 templates。它適合重複執行、符合政策意識的使用情境，以及 Security Audit 工作流程。

安全稽核

收藏 0GitHub 25.5k

analyzing-campaign-attribution-evidence

作者 mukul975

analyzing-campaign-attribution-evidence 協助分析人員綜合評估基礎架構重疊、ATT&CK 一致性、惡意程式相似度、時間線與語言特徵，進而做出有理有據的活動歸因。可用這份 analyzing-campaign-attribution-evidence 指南來支援 CTI、事件分析與 Security Audit 審查。

安全稽核

收藏 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

作者 mukul975

detecting-ai-model-prompt-injection-attacks 是一項資安技能，用於在未受信任的文字送入 LLM 之前先行篩檢。它結合多層正則表達式、啟發式評分與基於 DeBERTa 的分類，來標記直接與間接的 prompt injection attacks。適合用於聊天機器人輸入驗證、文件匯入，以及 Threat Modeling。

威胁建模

收藏 0GitHub 0

honeyhive-automation

作者 ComposioHQ

honeyhive-automation 可協助 Claude 透過 Composio Rube MCP 自動化 Honeyhive 工作流程，並在執行動作前進行設定檢查、驗證有效連線，以及以 schema 優先的方式探索工具。

工作流自動化

收藏 0GitHub 67.5k

llm-evaluation

作者 wshobson

使用 llm-evaluation skill，為 LLM 應用、提示詞、RAG 系統與模型變更設計可重複執行的評估方案，涵蓋指標、人工作業審查、基準測試與回歸檢查。

模型評測

收藏 0GitHub 32.6k

ai-prompt-engineering-safety-review

作者 github

ai-prompt-engineering-safety-review 是一項提示詞稽核技能，可在正式上線、評估或面向客戶使用前，檢查 LLM 提示詞的安全性、偏誤、資安弱點與輸出品質。

模型評測

收藏 0GitHub 27.8k

agentic-eval

作者 github

agentic-eval 是一個 GitHub Copilot skill，示範如何運用反思、依 rubric 進行評論，以及 evaluator-optimizer 模式，為 AI 輸出建立評估迴圈。

模型評測

收藏 0GitHub 27.8k