Evaluation

Evaluation taxonomy generated by the site skill importer.

3 個技能
A
healthcare-eval-harness

作者 affaan-m

healthcare-eval-harness 是一個用於醫療應用部署的病人安全評估 harness。它能協助團隊在發布前驗證 CDSS 準確性、PHI 暴露、資料完整性、臨床工作流程行為,以及整合合規性。重大失敗會阻擋部署,因此它很適合用於 healthcare-eval-harness 的 Model Evaluation 與 CI 安全閘門。

模型評測
收藏 0GitHub 156.2k
A
eval-harness

作者 affaan-m

eval-harness 技能是一套正式的評估框架,適用於 Claude Code 工作階段與 eval-driven development。它能幫助你定義通過/失敗標準、建立能力與回歸評測,並在正式推出提示詞或工作流程變更前,衡量 agent 的可靠性。

模型評測
收藏 0GitHub 156.1k
A
continuous-agent-loop

作者 affaan-m

continuous-agent-loop 可協助 agents 以可重複的自主迴圈執行工作,並搭配品質關卡、evals、復原步驟與清楚的停止規則,提升任務完成的可靠性。

Agent 編排
收藏 0GitHub 156.1k