A
healthcare-eval-harness
作者 affaan-m
healthcare-eval-harness 是一個用於醫療應用部署的病人安全評估 harness。它能協助團隊在發布前驗證 CDSS 準確性、PHI 暴露、資料完整性、臨床工作流程行為,以及整合合規性。重大失敗會阻擋部署,因此它很適合用於 healthcare-eval-harness 的 Model Evaluation 與 CI 安全閘門。
模型評測
收藏 0GitHub 156.2k
作者 affaan-m
healthcare-eval-harness 是一個用於醫療應用部署的病人安全評估 harness。它能協助團隊在發布前驗證 CDSS 準確性、PHI 暴露、資料完整性、臨床工作流程行為,以及整合合規性。重大失敗會阻擋部署,因此它很適合用於 healthcare-eval-harness 的 Model Evaluation 與 CI 安全閘門。
作者 affaan-m
eval-harness 技能是一套正式的評估框架,適用於 Claude Code 工作階段與 eval-driven development。它能幫助你定義通過/失敗標準、建立能力與回歸評測,並在正式推出提示詞或工作流程變更前,衡量 agent 的可靠性。
作者 affaan-m
continuous-agent-loop 可協助 agents 以可重複的自主迴圈執行工作,並搭配品質關卡、evals、復原步驟與清楚的停止規則,提升任務完成的可靠性。