healthcare-eval-harness

作者 affaan-m

healthcare-eval-harness 是面向医疗应用部署的患者安全评估 harness。它帮助团队在发布前验证 CDSS 准确性、PHI 暴露、数据完整性、临床工作流行为以及集成合规性。严重失败会阻止部署，因此它很适合用于 Model Evaluation 和 CI 安全门禁中的 healthcare-eval-harness。

Stars156.2k

收录时间2026年4月15日

分类模型评测

安装命令

npx skills add affaan-m/everything-claude-code --skill healthcare-eval-harness

编辑评分

该技能得分 78/100，说明它是目录中一个不错的候选，适合需要医疗部署安全 harness 的用户。仓库展示了一个真实且可触发的工作流，可用于评估 EMR/EHR 变更，并为 CDSS 准确性、PHI 暴露、数据完整性、临床工作流和集成合规性设置了明确的安全门禁。如果你想要的是结构化的医疗测试 harness，而不是通用 prompt，它值得安装；不过也要注意，它更偏向测试框架本身，没有附带辅助脚本或参考文件。

78/100

亮点

医疗场景的触发条件很明确：适用于 EMR/EHR 部署、CDSS 变更、涉及患者数据的 schema 变更以及认证/授权变更前使用。
门禁设计具有实际操作意义：严重失败会阻止部署，并且为安全相关类别设置了清晰的通过阈值。
工作流导向做得不错：正文给出了按顺序排列的测试类别和与框架无关的适配建议，能帮助 agent 更少猜测地执行。

注意点

没有包含安装命令、脚本或配套参考文件，因此采用时需要用户把这个 harness 转换到自己的测试框架中。
该仓库带有实验性/测试信号，因此在依赖它之前，用户应先确认它是否符合自己的 CI/CD 和临床验证标准。

测试 Evaluation Ci Cd 医疗 Regression Testing Jest

概览

healthcare-eval-harness 技能概述

healthcare-eval-harness 是什么

healthcare-eval-harness 是一项面向医疗软件团队的部署安全技能，适用于需要在发布前验证面向患者的变更是否安全的场景。它聚焦于基于模型和规则的评估，覆盖临床决策支持、PHI 暴露、数据完整性、工作流正确性以及集成行为。它的目的不是做通用 QA，而是阻止不安全的医疗变更上线。

适合谁使用

这项 healthcare-eval-harness 技能很适合从事 EMR、EHR、CDSS 或相关医疗应用的工程师、QA 负责人、MLOps 团队和临床信息学团队。它在故障可能影响剂量、分诊、访问控制或受监管患者数据处理时尤其有用。如果你只是给一个非临床应用找一个轻量级 prompt，那它大概率过于严格。

它有什么不同

这个仓库把安全门控当作硬性发布条件：关键失败会直接阻止部署，而不是只记成警告。因此，当你需要的是一个可落地的评估模式，而不只是一个检查清单时，healthcare-eval-harness 就很有价值。它还要求你把 harness 适配到自己的测试运行器，这让它可以在 Jest、Vitest、pytest 或 PHPUnit 之间灵活移植。

如何使用 healthcare-eval-harness 技能

安装并查看技能

使用 npx skills add affaan-m/everything-claude-code --skill healthcare-eval-harness 安装。然后先阅读 skills/healthcare-eval-harness/SKILL.md，如果你使用的是更大的 package，再继续查看仓库根目录里链接的相关说明。对这项技能来说，核心价值在于评估规则和阈值，所以不要跳过 “When to Use” 和 “How It Works” 这两部分。

把任务转成一个有用的 prompt

一个好的 healthcare-eval-harness 使用 prompt，应当明确说明被测系统、变更类型、测试运行器和安全关注点。比如：“用 pytest 把 healthcare-eval-harness 应用到我们的 EHR 用药下单流程上。我们改了剂量校验和基于角色的访问控制，我需要关键门控在出现 PHI 泄漏或不安全的剂量失败时阻止发布。”这比“运行 healthcare 技能”有效得多。

先读什么

先看 SKILL.md，了解门控结构、通过阈值和使用边界。尤其要注意那些把 Jest 作为参考的示例；这项技能不依赖特定框架，所以你需要把文件路径、命令和断言适配到自己的技术栈。如果你的仓库本身就有既定的测试组织方式，应该沿用那套结构，而不是强行套一个通用布局。

healthcare-eval-harness 技能常见问题

healthcare-eval-harness 只适用于 Jest 吗？

不是。Jest 只是示例，healthcare-eval-harness 的设计目标是适配任何严肃的测试运行器。关键是在你自己的工具链里保留关键门控逻辑、类别顺序和通过阈值。

这和普通的医疗 QA prompt 是一回事吗？

不是。普通 prompt 可能会帮你生成测试，而 healthcare-eval-harness 技能提供的是一种可安装的评估模型，并带有明确的阻断行为。当你需要对医疗应用变更做可靠的发布决策时，这一点非常重要。

什么时候不该用它？

对于低风险内容修改、营销页面，或者不涉及患者安全、临床工作流和受监管数据的功能，不要使用 healthcare-eval-harness。如果你的团队没有足够的纪律来维护能够反映真实临床风险的测试，它也可能显得过于重。

它适合初学者吗？

适合——前提是你已经了解基础测试和 CI 概念。它不是医疗合规教程，所以初学者仍然需要针对阈值、边界情况以及什么算关键失败做领域评审。

如何改进 healthcare-eval-harness 技能

提供更清晰的临床上下文

healthcare-eval-harness 最好的效果来自具体输入：患者流程、你担心的失败类型、涉及的数据字段，以及预期的安全行为。“测试应用”太弱；“测试当药物订单与过敏信息匹配时，应阻止提交并记录原因”才是可执行的。

把失败门槛说清楚

明确哪些失败必须阻止部署，哪些可以作为高优先级警告。如果你希望这项技能用于医疗 AI 的 Model Evaluation，就直接说明你更关注幻觉风险、PHI 泄漏、指南遵循还是工作流中断。门槛越明确，输出里的猜测就越少。

用真实遗漏不断迭代

第一次运行后，把 harness 的输出和真实事故、险些发生的事故或临床反馈对照起来。对那些让不安全行为漏过去的断言加严，只放宽那些只制造噪音、却没有提升安全性的检查。正是这个反馈闭环，让 healthcare-eval-harness 不只是一次性的 prompt，而是能长期发挥作用的工具。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

evaluation-methodology

作者 wshobson

evaluation-methodology 技能说明了用于 Model Evaluation 的 PluginEval 评分方法，包括评估层级、评分 rubric、综合评分、徽章阈值，以及如何解读结果并改进薄弱维度的实用建议。

模型评测

收藏 0GitHub 32.6k

self-eval

作者 alirezarezvani

self-eval 是一个纯 prompt 的 Claude Code skill，用于在工作完成后进行诚实复盘。它通过双轴评分、devil's advocate reasoning、评分持久化和反膨胀检查，在任务、代码审查或工作会话结束后评估 AI 工作质量。

模型评测

收藏 0GitHub 22.2k

eval-harness

作者 affaan-m

eval-harness 技能是面向 Claude Code 会话和 eval 驱动开发的正式评估框架。它可以帮助你定义通过/失败标准，构建能力评估和回归评估，并在发布 prompt 或工作流变更前衡量 agent 的可靠性。

模型评测

收藏 0GitHub 156.1k

agent-eval

作者 affaan-m

agent-eval 是一项用于对编码 agent 进行基准测试的技能，支持在可复现任务上让多个 agent 直接对比，评估通过率、成本、耗时和一致性。你可以用 agent-eval 在自己的 repo 中评估 Claude Code、Aider、Codex 或其他 agent，并获得比临时提问更清晰的证据。

模型评测

收藏 0GitHub 156k

huggingface-community-evals

作者 huggingface

huggingface-community-evals 可帮助你在本地使用 inspect-ai 或 lighteval 运行 Hugging Face Hub 模型评测。适合做后端选择、冒烟测试，以及了解 vLLM、Transformers 或 accelerate 的实用选型指引。不适用于 HF Jobs 编排、model-card PR、.eval_results 发布或 community-evals 自动化。

模型评测

收藏 0GitHub 10.4k

huggingface-best

作者 huggingface

huggingface-best 技能通过查看 Hugging Face 基准排行榜，并结合设备限制和模型大小进行筛选，帮助你为具体任务找到最合适的模型。适用于编码、推理、聊天、OCR、RAG、语音、视觉或多模态场景下的模型推荐，尤其是在你需要一份实用的候选清单，而不是泛泛的模型列表时。

模型评测

收藏 0GitHub 10.4k

libafl

作者 trailofbits

libafl 技能可帮助你使用 LibAFL 为自定义目标、变异策略和安全审计流程规划并构建模块化 fuzzers。借助这份 libafl 指南，你可以更少假设地，从目标细节推进到可落地的 harness、反馈模型和运行计划。

安全审计

收藏 0GitHub 5k

evaluation

作者 muratcankoylan

evaluation 技能可帮助你为非确定性系统设计并执行 agent 评估。适用于评估安装规划、评分标准、回归检查、质量门禁，以及 Skill Testing 场景下的评估；也适合 LLM-as-judge 工作流、多维度打分，以及需要可重复结果的实际评估使用。

Skill 测试

收藏 0GitHub 0

judge-with-debate

作者 NeoLabHQ

judge-with-debate 通过结构化的多智能体辩论来评估解决方案，使用共享规范、基于证据的反驳，以及最多 3 轮讨论达成共识。它非常适合代码审查、基于评分标准的评估，以及 Multi-Agent Systems 工作流中的 judge-with-debate。

多 Agent 系统

收藏 0GitHub 982

gws-modelarmor

作者 googleworkspace

gws-modelarmor 帮助你在 googleworkspace/cli 生态中使用 Google Model Armor。它可用于净化提示词、净化模型响应，并以比通用 prompt 更少的猜测来创建模板。该技能面向可重复、符合策略要求的使用场景，以及 Security Audit 工作流。

安全审计

收藏 0GitHub 25.5k

analyzing-campaign-attribution-evidence

作者 mukul975

analyzing-campaign-attribution-evidence 帮助分析师综合评估基础设施重叠、ATT&CK 一致性、恶意软件相似性、时间线和语言痕迹，以形成更有依据的 campaign 归因结论。适用于 CTI、事件分析和 Security Audit 复核的 analyzing-campaign-attribution-evidence 指南。

安全审计

收藏 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

作者 mukul975

detecting-ai-model-prompt-injection-attacks 是一项网络安全技能，用于在未受信文本进入 LLM 之前进行筛查。它结合分层 regex、启发式评分和基于 DeBERTa 的分类，识别直接和间接的 prompt injection 攻击。适用于 chatbot 输入校验、文档摄取和 Threat Modeling。

威胁建模

收藏 0GitHub 0

honeyhive-automation

作者 ComposioHQ

honeyhive-automation 可帮助 Claude 通过 Composio Rube MCP 自动化 Honeyhive 工作流，并在执行操作前完成设置检查、有效连接验证以及基于 schema 优先的工具发现。

工作流自动化

收藏 0GitHub 67.5k

llm-evaluation

作者 wshobson

使用 llm-evaluation skill，为 LLM 应用、提示词、RAG 系统和模型变更设计可重复执行的评估方案，覆盖指标、人审、基准测试与回归检查。

模型评测

收藏 0GitHub 32.6k

ai-prompt-engineering-safety-review

作者 github

ai-prompt-engineering-safety-review 是一项用于提示词审计的技能，可在生产环境、评估流程或面向客户使用前，审查 LLM 提示词在安全性、偏见、安全弱点和输出质量方面的风险。

模型评测

收藏 0GitHub 27.8k

agentic-eval

作者 github

agentic-eval 是一个 GitHub Copilot skill，展示如何通过反思、基于 rubric 的评审，以及 evaluator-optimizer 模式，为 AI 输出构建评估循环。

模型评测

收藏 0GitHub 27.8k

healthcare-eval-harness

healthcare-eval-harness 技能概述

healthcare-eval-harness 是什么

适合谁使用

它有什么不同

如何使用 healthcare-eval-harness 技能

安装并查看技能

把任务转成一个有用的 prompt

推荐工作流

先读什么

healthcare-eval-harness 技能常见问题

healthcare-eval-harness 只适用于 Jest 吗？

这和普通的医疗 QA prompt 是一回事吗？

什么时候不该用它？

它适合初学者吗？

如何改进 healthcare-eval-harness 技能

提供更清晰的临床上下文

把失败门槛说清楚

用真实遗漏不断迭代

评分与评论