agent-eval

bởi affaan-m

agent-eval là skill dùng để benchmark các coding agent theo kiểu đối đầu trên những tác vụ có thể tái lập, so sánh tỷ lệ pass, chi phí, thời gian và độ ổn định. Hãy dùng skill agent-eval để đánh giá Claude Code, Aider, Codex hoặc agent khác ngay trong repo của bạn với cơ sở rõ ràng hơn nhiều so với cách prompt thủ công, rời rạc.

Stars156k

Yêu thích0

Bình luận0

Đã thêm15 thg 4, 2026

Danh mụcModel Evaluation

Lệnh cài đặt

npx skills add affaan-m/everything-claude-code --skill agent-eval

Điểm tuyển chọn

Skill này được chấm 78/100, tức là một lựa chọn đáng cân nhắc trong thư mục cho người dùng muốn có cách so sánh coding agent có thể tái lập. Repository cung cấp đủ chi tiết vận hành để hiểu khi nào nên dùng và cách nó hoạt động, nhưng trước khi cài đặt người dùng vẫn nên đọc kỹ mã nguồn vì không có script hay tệp tham chiếu đi kèm.

78/100

Điểm mạnh

Nêu rõ các tình huống nên kích hoạt: so sánh agent, kiểm tra hồi quy và hỗ trợ ra quyết định chọn model hoặc tool.
Có các thành phần quy trình cụ thể: định nghĩa tác vụ bằng YAML, kiểm tra bằng judge và cô lập bằng git worktree để bảo đảm khả năng tái lập khi so sánh.
Mang lại giá trị rõ rệt cho quyết định cài đặt với các nhóm muốn chọn agent dựa trên dữ liệu thay vì so sánh cảm tính, ad hoc.

Điểm cần lưu ý

Không có lệnh cài đặt, script hay tệp hỗ trợ, nên việc áp dụng vẫn phụ thuộc vào việc đọc file skill chính.
Repository có vẻ tập trung vào một quy trình CLI gọn nhẹ; nếu cần hạ tầng đánh giá rộng hơn, người dùng có thể sẽ muốn thêm công cụ khác.

Claude Code Codex Aider Git Cli Testing Workflow

Tổng quan

Tổng quan về skill agent-eval

agent-eval là một skill dùng để benchmark các coding agent theo kiểu đối đầu trực tiếp trên cùng một tác vụ, rồi so sánh kết quả theo pass rate, chi phí, thời gian và mức độ nhất quán. Nếu bạn đang cân nhắc nên chọn Claude Code, Aider, Codex hay một agent khác cho một repo thực tế, skill agent-eval giúp bạn chuyển từ cảm tính sang bằng chứng có thể tái lập.

Skill này phù hợp nhất cho team và power user cần một phép so sánh công bằng, chứ không phải kiểu thử đại bằng cách “prompt rồi xem”. Nhu cầu thực sự ở đây là định nghĩa tác vụ một lần, chạy nhiều agent trên cùng một baseline, rồi đánh giá agent nào làm tốt nhất trong các ràng buộc của bạn.

Điều gì làm agent-eval hữu ích

Giá trị cốt lõi của agent-eval là so sánh có kiểm soát: cùng repo, cùng tác vụ, cùng tiêu chí kiểm tra thành công, nhưng tách worktree riêng. Nhờ vậy, kết quả đáng tin hơn nhiều so với các lần thử tùy hứng hoặc prompt dùng một lần.

Khi skill này phù hợp

Hãy dùng skill agent-eval khi bạn muốn:

so sánh các agent trước khi chuẩn hóa một workflow
kiểm tra xem một bản cập nhật model có làm thay đổi kết quả hay không
đo hiệu năng trên chính codebase và bộ quy tắc của bạn
thu thập bằng chứng để ra quyết định cho team hoặc cho lựa chọn mua sắm

Khi skill này có thể không phù hợp

Nếu bạn chỉ cần một câu trả lời code duy nhất, một prompt thông thường sẽ đơn giản hơn. agent-eval phát huy giá trị nhất khi bạn quan tâm đến khả năng lặp lại, tiêu chí đánh giá và các đánh đổi giữa tốc độ, chất lượng và chi phí.

Cách dùng skill agent-eval

Cài đặt và kiểm tra skill

Để cài agent-eval, hãy thêm skill từ repo và đọc trước file skill cốt lõi:
npx skills add affaan-m/everything-claude-code --skill agent-eval

Sau đó mở SKILL.md và mọi ngữ cảnh liên kết mà bạn dùng trong workflow. Trong repository này, nguồn chính là chính file skill, nên quyết định có cài hay không phụ thuộc rất nhiều vào việc mô hình tác vụ của nó có khớp với quy trình đánh giá của bạn hay không.

Biến mục tiêu mơ hồ thành một tác vụ có thể dùng được

Cách dùng agent-eval hiệu quả nhất là xác định rõ một tác vụ cụ thể, một repo mục tiêu và các kiểm tra khách quan. Một prompt yếu sẽ là “test agent nào refactor tốt hơn.” Một prompt mạnh hơn sẽ là:

thêm retry logic vào src/http_client.py
ghim repo vào một commit để đảm bảo khả năng tái lập
chỉ rõ những file nào được phép thay đổi
định nghĩa các lệnh chấm điểm như pytest hoặc grep
nêu thời gian tối đa hoặc chi phí tối đa chấp nhận được nếu điều đó quan trọng

Tác vụ càng có thể xác minh tự động, phép so sánh càng hữu ích.

Quy trình làm việc gợi ý

Một hướng dẫn thực tế cho agent-eval là:

Chọn một tác vụ phản ánh đúng quyết định thực tế bạn cần đưa ra.
Viết tác vụ bằng YAML với đường dẫn repo, file liên quan, prompt và các judge.
Chạy nhiều agent trên cùng một tác vụ.
So sánh chất lượng đầu ra, thời gian thực thi và chi phí.
Lặp lại với một tác vụ khác trước khi chốt lựa chọn cuối cùng.

Skill này dùng git worktree isolation, giúp các agent không giẫm lên thay đổi của nhau và làm cho việc đánh giá song song gọn gàng hơn.

Đọc các file này trước

Hãy bắt đầu với:

SKILL.md cho định dạng tác vụ và workflow
mọi file cục bộ trong repo định nghĩa quy tắc test hoặc quy tắc chấm điểm của bạn
các file được nêu trong định nghĩa tác vụ YAML của bạn

Nếu bạn đang đánh giá agent-eval cho Model Evaluation nói riêng, hãy xác nhận rằng tác vụ và judge của bạn đủ ổn định để tạo ra các lần chạy có thể so sánh trước khi đầu tư vào benchmark lớn hơn.

Câu hỏi thường gặp về skill agent-eval

agent-eval chỉ dùng cho benchmark coding agent thôi à?

Đúng, chủ yếu là vậy. Skill này được thiết kế cho việc so sánh coding agent theo kiểu đối đầu trực tiếp, không phải để test prompt nói chung hay benchmark LLM trên diện rộng.

Có cần Docker để dùng không?

Không. Skill này dùng git worktree isolation, nên bạn có thể tách riêng các lần chạy mà không cần gánh thêm overhead của container.

Skill này có thân thiện với người mới không?

Nó khá dễ tiếp cận nếu bạn có thể mô tả tác vụ rõ ràng và chạy được workflow dòng lệnh. Nó kém phù hợp hơn với người muốn một trình đánh giá “bấm một cái là xong” mà không cần thiết lập gì.

Nó khác gì so với một prompt bình thường?

Một prompt bình thường yêu cầu một agent giải một tác vụ. agent-eval skill yêu cầu nhiều agent giải cùng một tác vụ với judge cố định, để bạn có thể so sánh kết quả ít thiên vị hơn.

Cách cải thiện skill agent-eval

Viết định nghĩa tác vụ chặt chẽ hơn

Kết quả agent-eval tốt nhất đến từ những tác vụ có input rõ ràng, ranh giới chỉnh sửa rõ ràng và judge khách quan. Nếu prompt quá mở, phép so sánh chủ yếu sẽ đo sự khác nhau trong cách diễn giải chứ không phải chất lượng agent.

Thêm judge phản ánh đúng thành công thực tế

Hãy ưu tiên các kiểm tra mô phỏng cách team bạn thực sự xác nhận thay đổi: test, lint, file diff hoặc kiểm tra theo mẫu. Nếu judge quá lỏng, các giải pháp yếu vẫn có thể trông ổn; nếu quá chặt, bạn có thể vô tình thưởng cho những mẹo vá víu mong manh.

Cải tiến benchmark, không phải câu trả lời

Nếu một agent thắng vì lý do sai, hãy sửa tác vụ trước khi rút kết luận. Siết lại danh sách file, làm rõ tiêu chí chấp nhận, và ghim commit để skill agent-eval luôn đo cùng một mục tiêu ở mỗi lần chạy.

Chú ý các kiểu lỗi thường gặp

Những lỗi phổ biến nhất là prompt mơ hồ, judge không khớp và tác vụ quá lớn để so sánh công bằng. Để dùng agent-eval tốt hơn, hãy giữ benchmark đầu tiên thật nhỏ, tái lập được và đại diện cho kiểu công việc mà bạn thực sự muốn agent làm.

Đánh giá & nhận xét

Chưa có đánh giá nào

Chia sẻ nhận xét của bạn

Đăng nhập để chấm điểm và để lại nhận xét cho skill này.

0/10000

Nhận xét mới nhất

Đang lưu...

Thêm skill trong danh mục này

evaluation-methodology

bởi wshobson

Skill evaluation-methodology giải thích cách chấm điểm PluginEval cho Model Evaluation, bao gồm các lớp đánh giá, rubric, điểm tổng hợp, ngưỡng badge và hướng dẫn thực tế để đọc kết quả cũng như cải thiện các khía cạnh còn yếu.

Model Evaluation

Yêu thích 0GitHub 32.6k

healthcare-eval-harness

bởi affaan-m

healthcare-eval-harness là một bộ đánh giá an toàn bệnh nhân cho các triển khai ứng dụng y tế. Nó giúp nhóm kiểm tra độ chính xác của CDSS, nguy cơ lộ PHI, tính toàn vẹn dữ liệu, hành vi quy trình lâm sàng và mức độ tuân thủ tích hợp trước khi phát hành. Các lỗi nghiêm trọng sẽ chặn triển khai, vì vậy healthcare-eval-harness hữu ích cho Model Evaluation và các cổng an toàn CI.

Model Evaluation

Yêu thích 0GitHub 156.2k

eval-harness

bởi affaan-m

Skill eval-harness là một khung đánh giá chính thức cho các phiên Claude Code và quy trình phát triển theo eval. Nó giúp bạn xác định tiêu chí đạt/không đạt, xây dựng các eval về năng lực và hồi quy, đồng thời đo độ tin cậy của agent trước khi triển khai các thay đổi về prompt hoặc workflow.

Model Evaluation

Yêu thích 0GitHub 156.1k

huggingface-community-evals

bởi huggingface

huggingface-community-evals giúp bạn chạy đánh giá model trên Hugging Face Hub ngay trên máy cục bộ với inspect-ai hoặc lighteval. Dùng khi cần chọn backend, chạy smoke test, và xem hướng dẫn thực tế cho vLLM, Transformers hoặc accelerate. Không phù hợp cho điều phối HF Jobs, tạo PR cho model card, xuất bản .eval_results, hay tự động hóa community-evals.

Model Evaluation

Yêu thích 0GitHub 10.4k

huggingface-best

bởi huggingface

Kỹ năng huggingface-best giúp bạn tìm model phù hợp nhất cho một tác vụ bằng cách kiểm tra bảng xếp hạng benchmark trên Hugging Face và lọc theo giới hạn thiết bị cũng như kích thước model. Hãy dùng khi cần gợi ý model cho lập trình, suy luận, chat, OCR, RAG, giọng nói, thị giác máy tính hoặc tác vụ đa phương thức, và bạn muốn một danh sách rút gọn thực dụng thay vì một danh sách model chung chung.

Model Evaluation

Yêu thích 0GitHub 10.4k

libafl

bởi trailofbits

Skill libafl giúp bạn lập kế hoạch và xây dựng các fuzzer mô-đun bằng LibAFL cho target tùy biến, chiến lược mutation riêng và quy trình kiểm thử bảo mật. Dùng hướng dẫn libafl này để đi từ thông tin target đến một harness thực tế, mô hình feedback và kế hoạch chạy với ít giả định hơn.

Security Audit

Yêu thích 0GitHub 5k

evaluation

bởi muratcankoylan

Skill evaluation giúp bạn thiết kế và chạy đánh giá agent cho các hệ thống không xác định. Dùng cho lập kế hoạch cài đặt evaluation, xây dựng rubric, kiểm tra hồi quy, thiết lập quality gate và evaluation cho Skill Testing. Skill này phù hợp với quy trình LLM-as-judge, chấm điểm đa chiều và các nhu cầu evaluation thực tế khi bạn cần kết quả có thể lặp lại.

Skill Testing

Yêu thích 0GitHub 0

judge-with-debate

bởi NeoLabHQ

judge-with-debate đánh giá các giải pháp thông qua tranh luận đa tác nhân có cấu trúc, sử dụng một đặc tả chung, phản biện dựa trên bằng chứng và tối đa 3 vòng để đi đến đồng thuận. Kỹ năng này rất phù hợp cho code review, đánh giá theo rubric, và quy trình judge-with-debate trong Multi-Agent Systems.

Multi-Agent Systems

Yêu thích 0GitHub 982

gws-modelarmor

bởi googleworkspace

gws-modelarmor giúp bạn làm việc với Google Model Armor trong hệ sinh thái googleworkspace/cli. Dùng nó để làm sạch prompt, làm sạch phản hồi của model và tạo template với ít phải đoán mò hơn so với một prompt chung chung. Kỹ năng này được thiết kế cho các quy trình sử dụng lặp lại, có nhận biết chính sách và cho các luồng công việc Security Audit.

Security Audit

Yêu thích 0GitHub 25.5k

analyzing-campaign-attribution-evidence

bởi mukul975

analyzing-campaign-attribution-evidence giúp analyst cân nhắc độ chồng lấn hạ tầng, mức độ nhất quán với ATT&CK, độ tương đồng của malware, thời điểm và dấu vết ngôn ngữ để đưa ra kết luận quy kết chiến dịch có cơ sở vững chắc. Dùng hướng dẫn analyzing-campaign-attribution-evidence này cho CTI, phân tích sự cố và rà soát Security Audit.

Security Audit

Yêu thích 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

bởi mukul975

detecting-ai-model-prompt-injection-attacks là một skill an ninh mạng dùng để sàng lọc văn bản không đáng tin cậy trước khi nội dung đó đến LLM. Skill này kết hợp regex nhiều lớp, chấm điểm theo heuristic và phân loại dựa trên DeBERTa để phát hiện các tấn công prompt injection trực tiếp lẫn gián tiếp. Hữu ích cho kiểm tra đầu vào chatbot, nạp tài liệu và Threat Modeling.

Threat Modeling

Yêu thích 0GitHub 0

llm-evaluation

bởi wshobson

Dùng kỹ năng llm-evaluation để thiết kế kế hoạch đánh giá có thể lặp lại cho ứng dụng LLM, prompt, hệ thống RAG và các thay đổi mô hình với metric, đánh giá thủ công, benchmarking và kiểm tra hồi quy.

Model Evaluation

Yêu thích 0GitHub 32.6k

ai-prompt-engineering-safety-review

bởi github

ai-prompt-engineering-safety-review là kỹ năng kiểm tra prompt giúp rà soát prompt LLM về độ an toàn, thiên lệch, điểm yếu bảo mật và chất lượng đầu ra trước khi đưa vào production, đánh giá hoặc dùng cho khách hàng.

Model Evaluation

Yêu thích 0GitHub 27.8k

agentic-eval

bởi github

agentic-eval là một skill GitHub Copilot minh họa cách xây dựng các vòng lặp đánh giá cho đầu ra AI bằng reflection, phê bình theo rubric và các mô hình evaluator-optimizer.

Model Evaluation

Yêu thích 0GitHub 27.8k

ml-pipeline-workflow

bởi wshobson

ml-pipeline-workflow là hướng dẫn thực tiễn để thiết kế pipeline MLOps đầu-cuối cho chuẩn bị dữ liệu, huấn luyện, kiểm định, triển khai và giám sát, kèm các mẫu điều phối giúp tự động hóa quy trình lặp lại một cách ổn định.

Workflow Automation

Yêu thích 0GitHub 0

frontend-design

bởi anthropics

frontend-design giúp biến ý tưởng UI mơ hồ thành giao diện khác biệt, sẵn sàng production, với frontend code thực tế, định hướng thẩm mỹ rõ ràng và ít kiểu AI chung chung.

UI Design

Yêu thích 1GitHub 105.2k