A
healthcare-eval-harness
作者 affaan-m
healthcare-eval-harness 是面向医疗应用部署的患者安全评估 harness。它帮助团队在发布前验证 CDSS 准确性、PHI 暴露、数据完整性、临床工作流行为以及集成合规性。严重失败会阻止部署,因此它很适合用于 Model Evaluation 和 CI 安全门禁中的 healthcare-eval-harness。
模型评测
收藏 0GitHub 156.2k
作者 affaan-m
healthcare-eval-harness 是面向医疗应用部署的患者安全评估 harness。它帮助团队在发布前验证 CDSS 准确性、PHI 暴露、数据完整性、临床工作流行为以及集成合规性。严重失败会阻止部署,因此它很适合用于 Model Evaluation 和 CI 安全门禁中的 healthcare-eval-harness。
作者 affaan-m
eval-harness 技能是面向 Claude Code 会话和 eval 驱动开发的正式评估框架。它可以帮助你定义通过/失败标准,构建能力评估和回归评估,并在发布 prompt 或工作流变更前衡量 agent 的可靠性。