Regression Testing

Regression Testing taxonomy generated by the site skill importer.

2 skills
A
healthcare-eval-harness

bởi affaan-m

healthcare-eval-harness là một bộ đánh giá an toàn bệnh nhân cho các triển khai ứng dụng y tế. Nó giúp nhóm kiểm tra độ chính xác của CDSS, nguy cơ lộ PHI, tính toàn vẹn dữ liệu, hành vi quy trình lâm sàng và mức độ tuân thủ tích hợp trước khi phát hành. Các lỗi nghiêm trọng sẽ chặn triển khai, vì vậy healthcare-eval-harness hữu ích cho Model Evaluation và các cổng an toàn CI.

Model Evaluation
Yêu thích 0GitHub 156.2k
A
eval-harness

bởi affaan-m

Skill eval-harness là một khung đánh giá chính thức cho các phiên Claude Code và quy trình phát triển theo eval. Nó giúp bạn xác định tiêu chí đạt/không đạt, xây dựng các eval về năng lực và hồi quy, đồng thời đo độ tin cậy của agent trước khi triển khai các thay đổi về prompt hoặc workflow.

Model Evaluation
Yêu thích 0GitHub 156.1k