A
healthcare-eval-harness
作者 affaan-m
healthcare-eval-harness 是面向医疗应用部署的患者安全评估 harness。它帮助团队在发布前验证 CDSS 准确性、PHI 暴露、数据完整性、临床工作流行为以及集成合规性。严重失败会阻止部署,因此它很适合用于 Model Evaluation 和 CI 安全门禁中的 healthcare-eval-harness。
模型评测
收藏 0GitHub 156.2k
作者 affaan-m
healthcare-eval-harness 是面向医疗应用部署的患者安全评估 harness。它帮助团队在发布前验证 CDSS 准确性、PHI 暴露、数据完整性、临床工作流行为以及集成合规性。严重失败会阻止部署,因此它很适合用于 Model Evaluation 和 CI 安全门禁中的 healthcare-eval-harness。
作者 affaan-m
eval-harness 技能是面向 Claude Code 会话和 eval 驱动开发的正式评估框架。它可以帮助你定义通过/失败标准,构建能力评估和回归评估,并在发布 prompt 或工作流变更前衡量 agent 的可靠性。
作者 addyosmani
debugging-and-error-recovery 技能用于指导系统化的根因调试,适用于测试失败、构建中断、运行时错误和回归问题。它强调先保留证据、稳定复现问题、按顺序诊断、以最小改动修复,并在继续之前完成验证。
作者 AgriciDaniel
seo-drift 是一个 GitHub 技能,用于持续跟踪 SEO 关键页面元素、对比基线,并在部署、CMS 编辑或模板变更后及时发现回归问题。当你需要明确判断是否有内容被破坏时,可将 seo-drift 技能用于 SEO 内容、技术型页面检查,以及实际的 seo-drift 使用场景。