Regression Testing

Regression Testing taxonomy generated by the site skill importer.

2 個技能
A
healthcare-eval-harness

作者 affaan-m

healthcare-eval-harness 是一個用於醫療應用部署的病人安全評估 harness。它能協助團隊在發布前驗證 CDSS 準確性、PHI 暴露、資料完整性、臨床工作流程行為,以及整合合規性。重大失敗會阻擋部署,因此它很適合用於 healthcare-eval-harness 的 Model Evaluation 與 CI 安全閘門。

模型評測
收藏 0GitHub 156.2k
A
eval-harness

作者 affaan-m

eval-harness 技能是一套正式的評估框架,適用於 Claude Code 工作階段與 eval-driven development。它能幫助你定義通過/失敗標準、建立能力與回歸評測,並在正式推出提示詞或工作流程變更前,衡量 agent 的可靠性。

模型評測
收藏 0GitHub 156.1k