eval-harness

bởi affaan-m

Skill eval-harness là một khung đánh giá chính thức cho các phiên Claude Code và quy trình phát triển theo eval. Nó giúp bạn xác định tiêu chí đạt/không đạt, xây dựng các eval về năng lực và hồi quy, đồng thời đo độ tin cậy của agent trước khi triển khai các thay đổi về prompt hoặc workflow.

Stars156.1k

Yêu thích0

Bình luận0

Đã thêm15 thg 4, 2026

Danh mụcModel Evaluation

Lệnh cài đặt

npx skills add affaan-m/everything-claude-code --skill eval-harness

Điểm tuyển chọn

Skill này đạt 78/100, cho thấy đây là một ứng viên khá tốt trong danh mục, có giá trị thực tế cho các agent làm phát triển theo eval. Người dùng có thể kích hoạt nhanh và hiểu mục đích của nó, nhưng nên kỳ vọng đây chủ yếu là một skill thiên về tài liệu hơn là một skill có sẵn script hỗ trợ hay bộ tham chiếu đi kèm.

78/100

Điểm mạnh

Nêu rõ các tình huống kích hoạt cho thiết lập EDD, tiêu chí đạt/không đạt, eval hồi quy và benchmark
Có nhiều nội dung vận hành, với các template eval và grader được cấu trúc sẵn cùng nhiều phần quy trình
Dễ xác định khi nào nên dùng nhờ frontmatter và hướng dẫn 'When to Activate' rõ ràng, giúp đánh giá ý định cài đặt nhanh hơn

Điểm cần lưu ý

Không có lệnh cài đặt, script hay file hỗ trợ, nên việc áp dụng phụ thuộc vào việc đọc và làm theo hướng dẫn markdown một cách thủ công
Không kèm reference, tài nguyên hay test, làm giảm tín hiệu tin cậy cho người dùng muốn một evaluation harness sẵn dùng ngay

Claude Code Evaluation Testing Regression Testing Pr Github Code

Tổng quan

Tổng quan về kỹ năng eval-harness

eval-harness làm gì

Kỹ năng eval-harness là một khung đánh giá chính thức cho các phiên Claude Code và cho phát triển theo hướng eval-driven. Nó giúp bạn xác định trước thế nào là “tốt” trước khi phát hành, rồi đo xem một agent, prompt hay workflow có thực sự đạt chuẩn đó hay không.

Ai nên dùng

Hãy dùng kỹ năng eval-harness nếu bạn cần các kiểm tra lặp lại cho lập trình có hỗ trợ AI, thay đổi prompt, hoặc hành vi của agent. Kỹ năng này đặc biệt hữu ích cho các nhóm đang so sánh phiên bản model, theo dõi hồi quy, hoặc biến các kỳ vọng công việc mơ hồ thành tiêu chí đạt/không đạt.

Vì sao nó quan trọng

Giá trị chính của eval-harness for Model Evaluation là độ tin cậy: thay vì đánh giá kết quả theo cảm tính, bạn viết các eval để lộ ra khi hành vi thay đổi. Nhờ đó, việc gỡ lỗi hiệu năng agent, so sánh các lần chạy, và tránh phát hành những cập nhật prompt làm chất lượng giảm đi một cách âm thầm sẽ dễ hơn nhiều.

Khi nào phù hợp

Kỹ năng này phù hợp nhất khi nhiệm vụ có thể được diễn đạt bằng tiêu chí thành công có thể quan sát được, cấu trúc đầu ra, hoặc hành vi có các mốc kiểm tra rõ ràng. Nó kém hữu ích hơn với công việc sáng tạo mở, trừ khi bạn vẫn có thể xác định điều kiện chấp nhận có thể đo được.

Cách dùng kỹ năng eval-harness

Cài đặt và kích hoạt

Để thực hiện eval-harness install, hãy dùng luồng cài đặt skill của repo trong môi trường Claude Code của bạn, rồi mở trực tiếp file skill. Skill nằm ở skills/eval-harness/SKILL.md, và đây là file đầu tiên cần đọc vì nó định nghĩa khi nào kích hoạt framework và cách tổ chức các eval.

Xây một prompt mà skill có thể đánh giá

Với eval-harness usage hiệu quả, đừng bắt đầu bằng “test my agent”. Hãy bắt đầu bằng một mục tiêu cụ thể, chẳng hạn: agent phải hoàn thành tác vụ gì, điều gì được tính là thành công, thế nào là thất bại, và bạn đang kiểm tra năng lực hay hồi quy. Một đầu vào tốt hơn sẽ là: “Đánh giá xem agent có thể cập nhật một React form mà không làm hỏng validation hay không, và yêu cầu ba tiêu chí thành công rõ ràng.” Như vậy harness mới có cái để đo lường.

Đọc đúng file trước

Nếu bạn đang áp dụng cách tiếp cận eval-harness guide trong workflow riêng, hãy đọc SKILL.md trước, rồi kiểm tra mọi ghi chú trong repo mô tả phong cách đánh giá, logic chấm điểm, hoặc quy ước đầu ra. Trong repo này không có script phụ trợ hay thư mục hỗ trợ bổ sung, nên chính file skill là nguồn chuẩn duy nhất.

Dùng trong một workflow thực tế

Một workflow tốt là: xác định hành vi, viết một eval cho đường đi thuận lợi, thêm một eval hồi quy cho một lỗi đã biết, rồi chạy harness và tinh chỉnh tiêu chí. Cách này giúp các eval đủ nhỏ để gỡ lỗi, đồng thời giảm nguy cơ viết test quá rộng nên không thể diễn giải.

Câu hỏi thường gặp về skill eval-harness

eval-harness chỉ dành cho Claude Code à?

Không. Skill này được viết xoay quanh các phiên Claude Code, nhưng phương pháp nền tảng vẫn hữu ích ở bất cứ đâu bạn cần đánh giá agent theo cấu trúc rõ ràng. Nếu stack của bạn dùng công cụ khác, bạn vẫn có thể điều chỉnh định dạng eval và logic chấm điểm.

eval-harness có giống một prompt bình thường không?

Không. Một prompt bình thường yêu cầu một câu trả lời; eval-harness yêu cầu một cách lặp lại được để đánh giá các câu trả lời. Sự khác biệt này rất quan trọng khi bạn cần tính nhất quán qua nhiều phiên bản, chứ không chỉ một phản hồi tốt duy nhất.

Nó có thân thiện với người mới không?

Có, nếu bạn có thể mô tả nhiệm vụ rõ ràng. Phần khó hơn không phải cú pháp, mà là viết tiêu chí thành công tốt. Người mới thường làm tốt khi bắt đầu bằng một eval năng lực đơn giản thay vì cố mô hình hóa cả một workflow ngay từ đầu.

Khi nào tôi không nên dùng?

Hãy bỏ qua eval-harness nếu công việc mang tính chủ quan cao, nếu đầu ra không thể kiểm tra nhất quán, hoặc nếu bạn chỉ cần một câu trả lời dùng một lần. Kỹ năng này mạnh nhất khi độ tin cậy, theo dõi hồi quy, hoặc so sánh model mới là mục tiêu thật sự.

Cách cải thiện kỹ năng eval-harness

Làm cho tiêu chí có thể quan sát được

Mức cải thiện chất lượng lớn nhất đến từ việc biến ý kiến thành các kiểm tra cụ thể. Hãy thay “làm nó tốt hơn” bằng những điều kiện như “giữ nguyên shape của API hiện có,” “trả về JSON hợp lệ,” hoặc “qua cả ba trường hợp hồi quy.” Tiêu chí càng quan sát được thì eval-harness càng dễ chạy và càng đáng tin.

Tách biệt năng lực và hồi quy

Nếu bạn trộn kiểm tra tính năng mới với kiểm tra hành vi cũ, lỗi sẽ rất khó diễn giải. Hãy giữ các eval năng lực tập trung vào việc Claude có làm được điều mới hay không, và các eval hồi quy tập trung vào việc một baseline đã biết có còn được giữ nguyên hay không.

Cho harness các ca biên thực

Các eval mạnh hơn luôn có cả chế độ thất bại, không chỉ đường đi thuận lợi. Hãy thêm input khó, ngữ cảnh thiếu, hoặc hướng dẫn mơ hồ để eval-harness skill có thể cho thấy agent đủ vững hay chỉ là gặp may trên các ví dụ sạch.

Lặp lại sau lần chạy đầu tiên

Hãy coi lần chạy đầu tiên là bước hiệu chỉnh, không phải bằng chứng cuối cùng. Nếu kết quả chưa rõ, hãy siết chặt tiêu chí thành công, thêm một baseline, hoặc tách một eval quá rộng thành nhiều kiểm tra nhỏ hơn. Đó thường là cách nhanh nhất để cải thiện eval-harness usage và có được kết quả có thể hành động ngay.

Đánh giá & nhận xét

Chưa có đánh giá nào

Chia sẻ nhận xét của bạn

Đăng nhập để chấm điểm và để lại nhận xét cho skill này.

0/10000

Nhận xét mới nhất

Đang lưu...

Thêm skill trong danh mục này

evaluation-methodology

bởi wshobson

Skill evaluation-methodology giải thích cách chấm điểm PluginEval cho Model Evaluation, bao gồm các lớp đánh giá, rubric, điểm tổng hợp, ngưỡng badge và hướng dẫn thực tế để đọc kết quả cũng như cải thiện các khía cạnh còn yếu.

Model Evaluation

Yêu thích 0GitHub 32.6k

healthcare-eval-harness

bởi affaan-m

healthcare-eval-harness là một bộ đánh giá an toàn bệnh nhân cho các triển khai ứng dụng y tế. Nó giúp nhóm kiểm tra độ chính xác của CDSS, nguy cơ lộ PHI, tính toàn vẹn dữ liệu, hành vi quy trình lâm sàng và mức độ tuân thủ tích hợp trước khi phát hành. Các lỗi nghiêm trọng sẽ chặn triển khai, vì vậy healthcare-eval-harness hữu ích cho Model Evaluation và các cổng an toàn CI.

Model Evaluation

Yêu thích 0GitHub 156.2k

agent-eval

bởi affaan-m

agent-eval là skill dùng để benchmark các coding agent theo kiểu đối đầu trên những tác vụ có thể tái lập, so sánh tỷ lệ pass, chi phí, thời gian và độ ổn định. Hãy dùng skill agent-eval để đánh giá Claude Code, Aider, Codex hoặc agent khác ngay trong repo của bạn với cơ sở rõ ràng hơn nhiều so với cách prompt thủ công, rời rạc.

Model Evaluation

Yêu thích 0GitHub 156k

huggingface-community-evals

bởi huggingface

huggingface-community-evals giúp bạn chạy đánh giá model trên Hugging Face Hub ngay trên máy cục bộ với inspect-ai hoặc lighteval. Dùng khi cần chọn backend, chạy smoke test, và xem hướng dẫn thực tế cho vLLM, Transformers hoặc accelerate. Không phù hợp cho điều phối HF Jobs, tạo PR cho model card, xuất bản .eval_results, hay tự động hóa community-evals.

Model Evaluation

Yêu thích 0GitHub 10.4k

huggingface-best

bởi huggingface

Kỹ năng huggingface-best giúp bạn tìm model phù hợp nhất cho một tác vụ bằng cách kiểm tra bảng xếp hạng benchmark trên Hugging Face và lọc theo giới hạn thiết bị cũng như kích thước model. Hãy dùng khi cần gợi ý model cho lập trình, suy luận, chat, OCR, RAG, giọng nói, thị giác máy tính hoặc tác vụ đa phương thức, và bạn muốn một danh sách rút gọn thực dụng thay vì một danh sách model chung chung.

Model Evaluation

Yêu thích 0GitHub 10.4k

libafl

bởi trailofbits

Skill libafl giúp bạn lập kế hoạch và xây dựng các fuzzer mô-đun bằng LibAFL cho target tùy biến, chiến lược mutation riêng và quy trình kiểm thử bảo mật. Dùng hướng dẫn libafl này để đi từ thông tin target đến một harness thực tế, mô hình feedback và kế hoạch chạy với ít giả định hơn.

Security Audit

Yêu thích 0GitHub 5k

evaluation

bởi muratcankoylan

Skill evaluation giúp bạn thiết kế và chạy đánh giá agent cho các hệ thống không xác định. Dùng cho lập kế hoạch cài đặt evaluation, xây dựng rubric, kiểm tra hồi quy, thiết lập quality gate và evaluation cho Skill Testing. Skill này phù hợp với quy trình LLM-as-judge, chấm điểm đa chiều và các nhu cầu evaluation thực tế khi bạn cần kết quả có thể lặp lại.

Skill Testing

Yêu thích 0GitHub 0

judge-with-debate

bởi NeoLabHQ

judge-with-debate đánh giá các giải pháp thông qua tranh luận đa tác nhân có cấu trúc, sử dụng một đặc tả chung, phản biện dựa trên bằng chứng và tối đa 3 vòng để đi đến đồng thuận. Kỹ năng này rất phù hợp cho code review, đánh giá theo rubric, và quy trình judge-with-debate trong Multi-Agent Systems.

Multi-Agent Systems

Yêu thích 0GitHub 982

gws-modelarmor

bởi googleworkspace

gws-modelarmor giúp bạn làm việc với Google Model Armor trong hệ sinh thái googleworkspace/cli. Dùng nó để làm sạch prompt, làm sạch phản hồi của model và tạo template với ít phải đoán mò hơn so với một prompt chung chung. Kỹ năng này được thiết kế cho các quy trình sử dụng lặp lại, có nhận biết chính sách và cho các luồng công việc Security Audit.

Security Audit

Yêu thích 0GitHub 25.5k

analyzing-campaign-attribution-evidence

bởi mukul975

analyzing-campaign-attribution-evidence giúp analyst cân nhắc độ chồng lấn hạ tầng, mức độ nhất quán với ATT&CK, độ tương đồng của malware, thời điểm và dấu vết ngôn ngữ để đưa ra kết luận quy kết chiến dịch có cơ sở vững chắc. Dùng hướng dẫn analyzing-campaign-attribution-evidence này cho CTI, phân tích sự cố và rà soát Security Audit.

Security Audit

Yêu thích 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

bởi mukul975

detecting-ai-model-prompt-injection-attacks là một skill an ninh mạng dùng để sàng lọc văn bản không đáng tin cậy trước khi nội dung đó đến LLM. Skill này kết hợp regex nhiều lớp, chấm điểm theo heuristic và phân loại dựa trên DeBERTa để phát hiện các tấn công prompt injection trực tiếp lẫn gián tiếp. Hữu ích cho kiểm tra đầu vào chatbot, nạp tài liệu và Threat Modeling.

Threat Modeling

Yêu thích 0GitHub 0

llm-evaluation

bởi wshobson

Dùng kỹ năng llm-evaluation để thiết kế kế hoạch đánh giá có thể lặp lại cho ứng dụng LLM, prompt, hệ thống RAG và các thay đổi mô hình với metric, đánh giá thủ công, benchmarking và kiểm tra hồi quy.

Model Evaluation

Yêu thích 0GitHub 32.6k

ai-prompt-engineering-safety-review

bởi github

ai-prompt-engineering-safety-review là kỹ năng kiểm tra prompt giúp rà soát prompt LLM về độ an toàn, thiên lệch, điểm yếu bảo mật và chất lượng đầu ra trước khi đưa vào production, đánh giá hoặc dùng cho khách hàng.

Model Evaluation

Yêu thích 0GitHub 27.8k

agentic-eval

bởi github

agentic-eval là một skill GitHub Copilot minh họa cách xây dựng các vòng lặp đánh giá cho đầu ra AI bằng reflection, phê bình theo rubric và các mô hình evaluator-optimizer.

Model Evaluation

Yêu thích 0GitHub 27.8k

ml-pipeline-workflow

bởi wshobson

ml-pipeline-workflow là hướng dẫn thực tiễn để thiết kế pipeline MLOps đầu-cuối cho chuẩn bị dữ liệu, huấn luyện, kiểm định, triển khai và giám sát, kèm các mẫu điều phối giúp tự động hóa quy trình lặp lại một cách ổn định.

Workflow Automation

Yêu thích 0GitHub 0

frontend-design

bởi anthropics

frontend-design giúp biến ý tưởng UI mơ hồ thành giao diện khác biệt, sẵn sàng production, với frontend code thực tế, định hướng thẩm mỹ rõ ràng và ít kiểu AI chung chung.

UI Design

Yêu thích 1GitHub 105.2k