Evaluation

Evaluation taxonomy generated by the site skill importer.

3 skills
A
healthcare-eval-harness

bởi affaan-m

healthcare-eval-harness là một bộ đánh giá an toàn bệnh nhân cho các triển khai ứng dụng y tế. Nó giúp nhóm kiểm tra độ chính xác của CDSS, nguy cơ lộ PHI, tính toàn vẹn dữ liệu, hành vi quy trình lâm sàng và mức độ tuân thủ tích hợp trước khi phát hành. Các lỗi nghiêm trọng sẽ chặn triển khai, vì vậy healthcare-eval-harness hữu ích cho Model Evaluation và các cổng an toàn CI.

Model Evaluation
Yêu thích 0GitHub 156.2k
A
eval-harness

bởi affaan-m

Skill eval-harness là một khung đánh giá chính thức cho các phiên Claude Code và quy trình phát triển theo eval. Nó giúp bạn xác định tiêu chí đạt/không đạt, xây dựng các eval về năng lực và hồi quy, đồng thời đo độ tin cậy của agent trước khi triển khai các thay đổi về prompt hoặc workflow.

Model Evaluation
Yêu thích 0GitHub 156.1k
A
continuous-agent-loop

bởi affaan-m

continuous-agent-loop giúp agent chạy các vòng lặp tự trị lặp lại với quality gate, eval, bước khôi phục và quy tắc dừng rõ ràng để hoàn thành tác vụ đáng tin cậy.

Agent Orchestration
Yêu thích 0GitHub 156.1k