Evaluation

Evaluation taxonomy generated by the site skill importer.

15 skills
A
healthcare-eval-harness

bởi affaan-m

healthcare-eval-harness là một bộ đánh giá an toàn bệnh nhân cho các triển khai ứng dụng y tế. Nó giúp nhóm kiểm tra độ chính xác của CDSS, nguy cơ lộ PHI, tính toàn vẹn dữ liệu, hành vi quy trình lâm sàng và mức độ tuân thủ tích hợp trước khi phát hành. Các lỗi nghiêm trọng sẽ chặn triển khai, vì vậy healthcare-eval-harness hữu ích cho Model Evaluation và các cổng an toàn CI.

Model Evaluation
Yêu thích 0GitHub 156.2k
A
eval-harness

bởi affaan-m

Skill eval-harness là một khung đánh giá chính thức cho các phiên Claude Code và quy trình phát triển theo eval. Nó giúp bạn xác định tiêu chí đạt/không đạt, xây dựng các eval về năng lực và hồi quy, đồng thời đo độ tin cậy của agent trước khi triển khai các thay đổi về prompt hoặc workflow.

Model Evaluation
Yêu thích 0GitHub 156.1k
A
continuous-agent-loop

bởi affaan-m

continuous-agent-loop giúp agent chạy các vòng lặp tự trị lặp lại với quality gate, eval, bước khôi phục và quy tắc dừng rõ ràng để hoàn thành tác vụ đáng tin cậy.

Agent Orchestration
Yêu thích 0GitHub 156.1k
M
context-degradation

bởi muratcankoylan

context-degradation là một skill thực tiễn để chẩn đoán các lỗi ngữ cảnh trong những workflow dài, bao gồm lost-in-the-middle, poisoning, distraction, confusion và clash. Hãy dùng nó để xác định ngữ cảnh bị đứt ở đâu, quyết định cần đổi gì trước tiên, và áp dụng một hướng dẫn context-degradation có thể lặp lại cho Skill Authoring, vị trí đặt prompt, và gỡ lỗi agent trong môi trường production.

Skill Authoring
Yêu thích 0GitHub 15.6k
H
huggingface-community-evals

bởi huggingface

huggingface-community-evals giúp bạn chạy đánh giá model trên Hugging Face Hub ngay trên máy cục bộ với inspect-ai hoặc lighteval. Dùng khi cần chọn backend, chạy smoke test, và xem hướng dẫn thực tế cho vLLM, Transformers hoặc accelerate. Không phù hợp cho điều phối HF Jobs, tạo PR cho model card, xuất bản .eval_results, hay tự động hóa community-evals.

Model Evaluation
Yêu thích 0GitHub 10.4k
M
azure-ai-projects-py

bởi microsoft

azure-ai-projects-py là skill SDK Python Azure AI Projects dành cho các client dự án Microsoft Foundry. Dùng cho cài đặt, xác thực, thiết lập client, tác tử có phiên bản với PromptAgentDefinition, đánh giá, kết nối, triển khai, dataset, index và truy cập tương thích OpenAI. Phù hợp nhất cho quy trình phát triển backend bằng Python.

Backend Development
Yêu thích 0GitHub 2.2k
M
skill-optimizer

bởi mcollina

skill-optimizer giúp tác giả cải thiện AI skill về khả năng kích hoạt, độ rõ ràng và độ tin cậy khi chạy trên nhiều mô hình. Dùng cho Skill Authoring khi một skill đã được viết nhưng không được làm theo ổn định, trigger còn yếu, xuất hiện hồi quy, hoặc cần giảm chi phí ngữ cảnh. Nó hỗ trợ các vòng benchmark, cổng kiểm tra trước khi phát hành và tăng độ chính xác khi sử dụng.

Skill Authoring
Yêu thích 0GitHub 1.8k
N
tree-of-thoughts

bởi NeoLabHQ

tree-of-thoughts là một skill quy trình suy luận giúp tác nhân khám phá nhiều hướng tiếp cận, tỉa bớt các nhánh yếu và tổng hợp thành câu trả lời tốt hơn. Skill này hữu ích cho debug khó, lập kế hoạch, đánh đổi kiến trúc và tree-of-thoughts cho điều phối tác nhân (Agent Orchestration).

Agent Orchestration
Yêu thích 0GitHub 982
N
judge

bởi NeoLabHQ

Judge là skill đánh giá hai giai đoạn: trước hết khởi chạy một meta-judge, sau đó dùng một sub-agent judge để chấm bài với ngữ cảnh được cô lập, bằng chứng rõ ràng và tiêu chí minh bạch. Hãy dùng khi cần review chỉ trả kết quả cho code, bài viết, phân tích hoặc Skill Authoring, và khi bạn cần một hướng dẫn chấm có cơ sở thay vì chỉ là ý kiến cảm tính.

Skill Authoring
Yêu thích 0GitHub 982
N
judge-with-debate

bởi NeoLabHQ

judge-with-debate đánh giá các giải pháp thông qua tranh luận đa tác nhân có cấu trúc, sử dụng một đặc tả chung, phản biện dựa trên bằng chứng và tối đa 3 vòng để đi đến đồng thuận. Kỹ năng này rất phù hợp cho code review, đánh giá theo rubric, và quy trình judge-with-debate trong Multi-Agent Systems.

Multi-Agent Systems
Yêu thích 0GitHub 982
N
do-and-judge

bởi NeoLabHQ

do-and-judge thực thi một tác vụ đơn lẻ với bước triển khai của sub-agent, một judge độc lập và cơ chế xác minh dựa trên retry cho đến khi đạt hoặc chạm số lần thử tối đa. Hãy dùng do-and-judge cho Workflow Automation khi bạn cần tiêu chí chấp nhận rõ ràng, thực thi tách biệt và ít phải đoán mò hơn so với một prompt chung chung.

Workflow Automation
Yêu thích 0GitHub 982
N
do-competitively

bởi NeoLabHQ

do-competitively giúp bạn giải quyết các nhiệm vụ quan trọng bằng cách tạo nhiều phương án song song, chấm điểm theo rubric và tổng hợp dựa trên bằng chứng. Skill này phù hợp nhất cho Workflow Automation và các yêu cầu có mức độ rủi ro cao khác, nơi chất lượng, độ vững chắc và khả năng xử lý đánh đổi quan trọng hơn tốc độ.

Workflow Automation
Yêu thích 0GitHub 982
K
scholar-evaluation

bởi K-Dense-AI

scholar-evaluation giúp đánh giá công trình học thuật và nghiên cứu bằng thang điểm có cấu trúc trên các khía cạnh: xác định vấn đề, phương pháp, phân tích, cách viết và mức độ sẵn sàng để xuất bản. Hãy dùng nó cho việc phản biện học thuật, lập kế hoạch chỉnh sửa và tạo phản hồi nhất quán cho bài báo, đề cương, tổng quan tài liệu và các bản thảo học thuật khác.

Academic Research
Yêu thích 0GitHub 0
M
evaluation

bởi muratcankoylan

Skill evaluation giúp bạn thiết kế và chạy đánh giá agent cho các hệ thống không xác định. Dùng cho lập kế hoạch cài đặt evaluation, xây dựng rubric, kiểm tra hồi quy, thiết lập quality gate và evaluation cho Skill Testing. Skill này phù hợp với quy trình LLM-as-judge, chấm điểm đa chiều và các nhu cầu evaluation thực tế khi bạn cần kết quả có thể lặp lại.

Skill Testing
Yêu thích 0GitHub 0
N
critique

bởi NeoLabHQ

critique là một skill review chỉ báo cáo, dùng nhiều bộ đánh giá chuyên biệt, tranh luận và đồng thuận để thẩm định phần việc đã hoàn thành. Nó giúp critique cho Code Review, kiểm tra độ đúng, chất lượng và những vấn đề bị bỏ sót trước khi merge. Cài critique trong bối cảnh NeoLabHQ context-engineering-kit và dùng với đường dẫn file, commit hoặc ngữ cảnh.

Code Review
Yêu thích 0GitHub 0
Evaluation