llm-evaluation

bởi wshobson

Dùng kỹ năng llm-evaluation để thiết kế kế hoạch đánh giá có thể lặp lại cho ứng dụng LLM, prompt, hệ thống RAG và các thay đổi mô hình với metric, đánh giá thủ công, benchmarking và kiểm tra hồi quy.

Stars32.6k

Yêu thích0

Bình luận0

Đã thêm30 thg 3, 2026

Danh mụcModel Evaluation

Lệnh cài đặt

npx skills add wshobson/agents --skill llm-evaluation

Điểm tuyển chọn

Kỹ năng này đạt 68/100, nghĩa là đủ phù hợp để đưa vào danh mục cho người dùng cần hướng dẫn có cấu trúc về cách đánh giá ứng dụng LLM. Tuy nhiên, bạn nên kỳ vọng đây là một khung tài liệu nặng về hướng dẫn hơn là một kỹ năng thiên về vận hành, có sẵn tài sản chạy được hoặc các bước thực thi thật cụ thể.

68/100

Điểm mạnh

Khả năng kích hoạt tốt: kỹ năng nêu rõ khi nào nên dùng, bao gồm kiểm thử hồi quy, so sánh model/prompt và xác thực trong môi trường production.
Nội dung quy trình khá đầy đặn: tài liệu bao quát nhiều cách đánh giá như metric tự động, đánh giá thủ công, benchmarking và kiểm thử A/B thay vì chỉ dừng ở mức khung mẫu.
Giá trị khái niệm hữu ích: kỹ năng cung cấp một hệ phân loại đánh giá có thể tái sử dụng cho các tác vụ sinh văn bản, phân loại và RAG, có cấu trúc hơn một prompt chung chung.

Điểm cần lưu ý

Độ rõ ràng về vận hành còn hạn chế do thiếu hướng dẫn cài đặt/chạy, script và các tệp hỗ trợ được nhắc tới, nên agent vẫn phải tự suy luận thêm chi tiết triển khai.
Bằng chứng cho thấy có ít ràng buộc hoặc quy tắc ra quyết định được nêu rõ, điều này có thể khiến việc chọn metric và thực thi thiếu nhất quán giữa các dự án thực tế.

Llm Testing Ai Metrics Reliability Workflow

Tổng quan

Tổng quan về skill llm-evaluation

Skill llm-evaluation là một khung làm việc thực tế để thiết kế đánh giá cho ứng dụng LLM, prompt và các thay đổi về model. Skill này đặc biệt phù hợp với những người xây dựng sản phẩm cần nhiều hơn cảm giác “có vẻ tốt hơn”, và muốn có một cách lặp lại được để đo chất lượng, so sánh các biến thể và phát hiện hồi quy trước khi phát hành.

Skill llm-evaluation này phù hợp với ai

Skill llm-evaluation phù hợp với team và cá nhân đang làm các bài toán như:

lặp prompt
so sánh model
kiểm tra chất lượng RAG
tác vụ phân loại hoặc trích xuất
QA production cho tính năng dùng LLM
tạo benchmark cho các lần phát hành liên tục

Nếu bạn đang cần trả lời câu hỏi “Thay đổi này có thực sự cải thiện hệ thống không?” thì skill này là lựa chọn rất phù hợp.

Skill này giúp bạn hoàn thành công việc gì

Công việc cốt lõi ở đây là biến những lo ngại mơ hồ về chất lượng thành một kế hoạch đánh giá có thể dùng được. Thay vì chỉ hỏi lời khuyên kiểm thử chung chung, bạn dùng llm-evaluation để chọn đúng kiểu đánh giá, xác định metric, bổ sung phần review thủ công khi tự động hóa chưa đủ mạnh, và tổ chức cách so sánh theo thời gian.

Điểm khác biệt của llm-evaluation so với một prompt chung chung

Một prompt chung có thể gợi ý kiểu “hãy dùng BLEU, F1 và human review.” Nhưng llm-evaluation skill hữu ích hơn khi bạn cần ghép phương pháp đánh giá với đúng hình thái ứng dụng thực tế của mình:

tác vụ sinh văn bản cần metric khác với phân loại
hệ thống RAG cần metric cho truy xuất, không chỉ chấm đầu ra
một số phẩm chất như độ hữu ích hoặc giọng điệu cần đánh giá thủ công
A/B test và kiểm tra hồi quy cần baseline, không phải điểm số dùng một lần

Vì vậy, skill này thiên về hỗ trợ ra quyết định hơn là một câu hỏi kiểu “đánh giá LLM của tôi như thế nào?” mang tính chung chung.

Điều quan trọng nhất cần rõ trước khi cài

Trước khi dùng llm-evaluation, bạn nên làm rõ 3 điểm:

bạn đang đánh giá tác vụ nào
“tốt” với tác vụ đó nghĩa là gì
bạn cần metric tự động, review thủ công, hay cả hai

Nếu những điểm này vẫn còn mơ hồ, skill vẫn có thể hỗ trợ, nhưng đầu ra sẽ chỉ dừng ở mức khái quát.

Đánh đổi và giới hạn chính

Skill này cung cấp chiến lược đánh giá, chứ không phải một evaluation runner đóng gói sẵn. Nó giúp bạn thiết kế framework và chọn phương pháp, nhưng bạn vẫn cần dataset, công cụ và cách chạy riêng của mình. Nếu bạn đang tìm một framework tự động hoàn toàn với pipeline tích hợp sẵn, hãy xem đây là hướng dẫn lập kế hoạch hơn là hạ tầng có thể cắm vào dùng ngay.

Cách dùng skill llm-evaluation

Cách cài skill llm-evaluation

Dùng quy trình cài skill tiêu chuẩn:

npx skills add https://github.com/wshobson/agents --skill llm-evaluation

Sau khi cài xong, hãy gọi skill này khi bạn cần hỗ trợ thiết kế hoặc cải thiện kế hoạch đánh giá cho một ứng dụng LLM.

Nên đọc gì trước trong repository

Skill này có mức độ tự chứa khá cao. Hãy bắt đầu với:

plugins/llm-application-dev/skills/llm-evaluation/SKILL.md

Vì không có helper script hay resource file nổi bật, phần lớn giá trị nằm ở chính khung hướng dẫn được viết trong file. Hãy đọc trước các phần “When to Use This Skill” và “Core Evaluation Types”.

Skill cần những đầu vào gì để thực sự hữu ích

Chất lượng khi dùng llm-evaluation phụ thuộc rất nhiều vào đầu vào bạn cung cấp. Hãy đưa vào:

loại ứng dụng của bạn: tóm tắt, chatbot, RAG, trích xuất, phân loại, v.v.
thay đổi đang được đánh giá: prompt mới, đổi model, cập nhật retriever, thay đổi policy
input mẫu và output kỳ vọng
các kiểu lỗi hiện tại
ràng buộc triển khai: tốc độ, chi phí, an toàn, năng lực review
bạn cần benchmark offline, human review hay online testing

Nếu thiếu bối cảnh này, skill sẽ đúng là chỉ có thể đưa ra câu trả lời chung chung.

Cách biến một mục tiêu sơ khai thành prompt mạnh

Mục tiêu yếu:

“Giúp tôi đánh giá ứng dụng LLM của tôi.”

Mục tiêu mạnh hơn:

“Use the llm-evaluation skill to design an evaluation plan for a customer-support RAG assistant. We are comparing two prompts and one retriever change. We need offline metrics for retrieval quality, human review dimensions for answer quality, and a regression checklist we can run before deployment.”

Phiên bản mạnh hơn này cho skill biết hệ thống nào đang thay đổi, cần kiểu đánh giá nào và quyết định nào mà việc đánh giá phải hỗ trợ.

Mẫu prompt để dùng llm-evaluation

Bạn có thể dùng một yêu cầu theo cấu trúc như sau:

loại tác vụ
kiến trúc hệ thống
các biến thể đang được so sánh
quy mô và nguồn của dataset đánh giá
rủi ro chính
metric ưu tiên
các đánh đổi chấp nhận được

Ví dụ cấu trúc:

“Use llm-evaluation for Model Evaluation of a RAG assistant. Recommend automated metrics, human evaluation criteria, and an A/B testing approach. We care most about factual accuracy, citation usefulness, and regression detection. Suggest a minimal first version and an expanded version.”

Cách chọn đúng loại đánh giá trong llm-evaluation

Skill này bao phủ nhiều kiểu đánh giá khác nhau. Trong thực tế:

dùng metric tự động khi bạn cần tính lặp lại và khả năng mở rộng
dùng human evaluation cho những phẩm chất mang tính chủ quan hoặc tinh tế
dùng benchmarking để so sánh các phiên bản theo thời gian
dùng A/B testing khi hành vi người dùng thực tế mới là điều quan trọng

Một lỗi phổ biến là lạm dụng một phương pháp duy nhất. Ví dụ, chỉ dựa vào BLEU cho tác vụ sinh nội dung, hoặc chỉ dựa vào human review cho các đợt kiểm tra hồi quy quy mô lớn.

Chọn metric theo từng loại tác vụ

Hãy để tác vụ dẫn dắt việc chọn metric:

sinh văn bản: BLEU, ROUGE, METEOR, BERTScore, perplexity
phân loại: accuracy, precision, recall, F1, confusion matrix, AUC-ROC
truy xuất / RAG: MRR, NDCG, Precision@K, Recall@K

Điểm thực tế quan trọng là: đừng ép metric của bài toán sinh văn bản sang bài toán truy xuất, và cũng đừng làm điều ngược lại. llm-evaluation guide phát huy giá trị nhất khi bạn ghép đúng metric với đúng tầng hệ thống đang được kiểm tra.

Khi nào nên thêm human evaluation

Hãy bổ sung review thủ công khi tiêu chí thành công của bạn có các yếu tố như:

độ chính xác thực tế trong các câu trả lời mở
độ hữu ích
tính mạch lạc
giọng điệu
khả năng làm theo chỉ dẫn
độ an toàn hoặc tuân thủ policy

Human review đặc biệt quan trọng khi điểm số tự động trông có vẻ ổn nhưng câu trả lời thực tế vẫn kém.

Quy trình thực tế giúp giảm phỏng đoán

Một quy trình khởi đầu hợp lý cho người dùng llm-evaluation install:

xác định một tác vụ và một kết quả người dùng
thu thập một tập test nhỏ nhưng đại diện
chọn 2–4 metric tự động phù hợp với tác vụ
xác định 3–5 tiêu chí review thủ công
chấm điểm hệ thống baseline
chỉ so sánh một thay đổi mỗi lần
ghi lại lỗi, không chỉ nhìn vào điểm trung bình

Cách làm này giữ cho việc đánh giá đủ nhẹ để áp dụng, nhưng vẫn đủ chặt chẽ.

Skill này hỗ trợ tốt nhất ở đâu

llm-evaluation skill mạnh nhất khi bạn cần hỗ trợ về:

chọn phương pháp đánh giá
cấu trúc một benchmark
kết hợp đánh giá thủ công và tự động
lên kế hoạch so sánh giữa các prompt hoặc model
xây dựng sự tự tin trước khi triển khai

Nó kém hữu ích hơn nếu bạn chỉ cần một prompt một dòng để “chấm output”, hoặc nếu bạn đã có evaluation harness trưởng thành và chỉ cần code triển khai.

Lỗi dùng phổ biến: đánh giá mà không có baseline

Nhiều team hỏi liệu phiên bản B có “tốt” không. Câu hỏi hữu ích hơn là liệu phiên bản B có tốt hơn phiên bản A trên những trường hợp quan trọng hay không. Trong prompt, hãy yêu cầu skill xác định:

baseline metrics
quy tắc so sánh
ngưỡng pass/fail
tiêu chí hồi quy

Làm vậy sẽ khiến llm-evaluation for Model Evaluation trở nên khả dụng hơn nhiều trong thực tế.

Câu hỏi thường gặp về skill llm-evaluation

llm-evaluation có phù hợp cho người mới bắt đầu không?

Có, nếu bạn đã biết loại ứng dụng mình đang làm và điều mình muốn cải thiện là gì. Skill giải thích khá rõ các nhóm phương pháp đánh giá chính. Nó sẽ kém thân thiện hơn với người mới nếu bạn chưa xác định được tác vụ, dataset hoặc tiêu chí thành công.

Tôi có cần benchmark dataset bài bản ngay từ đầu không?

Không, nhưng bạn vẫn cần ví dụ. Ngay cả một tập test nhỏ được tuyển chọn cẩn thận cũng tốt hơn nhiều so với việc mỗi lần lại đánh giá bằng các prompt ngẫu hứng. Skill này hữu ích nhất khi bạn có thể đưa ra các ca sử dụng đại diện và hành vi kỳ vọng.

Skill này có chỉ dành cho đánh giá kiểu học thuật không?

Không. Nội dung trong repository rất thực dụng: so sánh model, kiểm định prompt, phát hiện hồi quy, tăng độ tự tin trước khi lên production và A/B testing. Nó phù hợp với team sản phẩm, không chỉ với quy trình nghiên cứu.

Khi nào tôi không nên dùng llm-evaluation?

Bỏ qua llm-evaluation nếu nhu cầu của bạn hoàn toàn thiên về triển khai kỹ thuật, chẳng hạn tích hợp một evaluation SDK cụ thể hoặc chạy một lệnh của framework cụ thể. Skill này tập trung vào chiến lược và thiết kế, không phải tích hợp code kiểu turnkey.

llm-evaluation khác gì với việc nhờ chính LLM tự chấm nó?

Tự chấm có thể là một phần trong quy trình, nhưng không phải là chiến lược đánh giá đầy đủ. llm-evaluation giúp bạn kết hợp metric phù hợp với mục đích, phán đoán của con người, baseline và các phép so sánh để bạn không phải dựa vào một tín hiệu đơn lẻ đầy nhiễu.

Tôi có thể dùng llm-evaluation cho hệ thống RAG không?

Có. Thực tế đây còn là một trường hợp rất phù hợp vì skill này nói rõ về các metric truy xuất như MRR, NDCG, Precision@K và Recall@K. Điều đó quan trọng vì nhiều cách đánh giá yếu chỉ chấm phần văn bản trả lời mà bỏ qua chất lượng truy xuất.

Cách cải thiện skill llm-evaluation

Cung cấp chi tiết ở cấp độ tác vụ, không chỉ mô tả ứng dụng chung chung

Đầu vào tốt hơn:

“Support chatbot that answers billing questions from a knowledge base”

Đầu vào kém hơn:

“AI assistant”

Cách bạn đóng khung tác vụ càng cụ thể, skill càng có thể đề xuất đúng metric và tiêu chí review.

Tách các thành phần hệ thống trong prompt

Để llm-evaluation cho ra đầu ra mạnh hơn, hãy yêu cầu skill đánh giá riêng từng tầng:

chất lượng truy xuất
chất lượng sinh nội dung
độ chính xác phân loại
hành vi an toàn

Cách này tránh việc trộn nhiều nguồn lỗi vào một điểm số mơ hồ duy nhất.

Cung cấp ví dụ lỗi thực tế

Hãy đưa vào 5–10 output tệ và giải thích vì sao chúng thất bại. Ví dụ:

bịa ra policy sản phẩm
bỏ sót tài liệu truy xuất liên quan
câu trả lời đúng nhưng giọng điệu kém
từ chối dù truy vấn thực ra là an toàn

Điều này giúp skill đề xuất các chiều đánh giá sát với rủi ro thực tế của bạn.

Trước hết hãy yêu cầu một đánh giá tối thiểu khả thi

Đừng bắt đầu bằng một framework khổng lồ. Hãy yêu cầu:

benchmark nhỏ nhất nhưng vẫn hữu ích
số metric ít nhất đáng để theo dõi
rubric review thủ công tối thiểu
quy trình kiểm tra hồi quy đơn giản

Cách này giúp việc áp dụng dễ hơn nhiều và tránh các kế hoạch đánh giá trông rất hoành tráng nhưng không bao giờ được vận hành.

Dùng scorecard với tiêu chí rõ ràng

Nếu bạn cần human evaluation, hãy yêu cầu skill xác định:

các chiều chấm điểm
thang điểm
ví dụ pass/fail
quy tắc phân định khi gặp ca mơ hồ

Điều đó giúp giảm sự thiếu nhất quán giữa các reviewer và làm cho các lần đánh giá lặp lại đáng tin hơn.

Chỉ so sánh một thay đổi tại một thời điểm

Một kiểu thất bại phổ biến là thay prompt, model, retriever và post-processing cùng lúc. Khi đó, kết quả đánh giá không thể giải thích nguyên nhân do đâu. Hãy yêu cầu llm-evaluation cấu trúc thí nghiệm sao cho mỗi bài test, khi có thể, chỉ cô lập một biến.

Theo dõi hồi quy, không chỉ nhìn vào mức cải thiện trung bình

Điểm trung bình có thể che đi những tổn thất quan trọng. Hãy yêu cầu skill chỉ ra:

các nhóm tình huống tệ nhất
các lát cắt rủi ro cao
các kịch bản quan trọng với người dùng
các prompt nhạy cảm về an toàn

Đây là một trong những nâng cấp thực tế lớn nhất so với các kế hoạch đánh giá hời hợt.

Lặp lại sau vòng đánh giá đầu tiên

Sau lượt chạy đầu tiên, hãy mang kết quả quay lại và yêu cầu skill tinh chỉnh:

metric nào bị nhiễu
chiều đánh giá thủ công nào bị chồng lắp
dataset đang quá hẹp ở đâu
cụm lỗi nào xứng đáng có thêm test case mới

Chính vòng lặp thứ hai này thường là lúc llm-evaluation trở nên thực sự giá trị, thay vì chỉ dừng ở mức cung cấp thông tin.

Cải thiện đầu ra của llm-evaluation bằng các yêu cầu gắn với quyết định

Thay vì hỏi một cái nhìn tổng quan rộng, hãy yêu cầu một đầu ra phục vụ quyết định cụ thể:

“Create a release-gate evaluation plan”
“Design a prompt-comparison benchmark”
“Build a human review rubric for hallucination risk”
“Recommend metrics for RAG retrieval regression checks”

Những prompt gắn với quyết định sẽ tạo ra đầu ra có thể dùng ngay.

Biết trần giới hạn của skill

llm-evaluation có thể nâng chất lượng lập kế hoạch, nhưng không thể thay thế dữ liệu đại diện, việc gán nhãn cẩn thận hay quy trình review kỷ luật. Nếu ví dụ của bạn yếu hoặc tiêu chí thành công mâu thuẫn nhau, đầu ra cũng sẽ yếu. Cách nhanh nhất để tăng độ hữu ích của skill là nâng độ cụ thể và tính thực tế trong bản brief đánh giá của bạn.

Đánh giá & nhận xét

Chưa có đánh giá nào

Chia sẻ nhận xét của bạn

Đăng nhập để chấm điểm và để lại nhận xét cho skill này.

0/10000

Nhận xét mới nhất

Đang lưu...

Thêm skill trong danh mục này

evaluation-methodology

bởi wshobson

Skill evaluation-methodology giải thích cách chấm điểm PluginEval cho Model Evaluation, bao gồm các lớp đánh giá, rubric, điểm tổng hợp, ngưỡng badge và hướng dẫn thực tế để đọc kết quả cũng như cải thiện các khía cạnh còn yếu.

Model Evaluation

Yêu thích 0GitHub 32.6k

healthcare-eval-harness

bởi affaan-m

healthcare-eval-harness là một bộ đánh giá an toàn bệnh nhân cho các triển khai ứng dụng y tế. Nó giúp nhóm kiểm tra độ chính xác của CDSS, nguy cơ lộ PHI, tính toàn vẹn dữ liệu, hành vi quy trình lâm sàng và mức độ tuân thủ tích hợp trước khi phát hành. Các lỗi nghiêm trọng sẽ chặn triển khai, vì vậy healthcare-eval-harness hữu ích cho Model Evaluation và các cổng an toàn CI.

Model Evaluation

Yêu thích 0GitHub 156.2k

eval-harness

bởi affaan-m

Skill eval-harness là một khung đánh giá chính thức cho các phiên Claude Code và quy trình phát triển theo eval. Nó giúp bạn xác định tiêu chí đạt/không đạt, xây dựng các eval về năng lực và hồi quy, đồng thời đo độ tin cậy của agent trước khi triển khai các thay đổi về prompt hoặc workflow.

Model Evaluation

Yêu thích 0GitHub 156.1k

agent-eval

bởi affaan-m

agent-eval là skill dùng để benchmark các coding agent theo kiểu đối đầu trên những tác vụ có thể tái lập, so sánh tỷ lệ pass, chi phí, thời gian và độ ổn định. Hãy dùng skill agent-eval để đánh giá Claude Code, Aider, Codex hoặc agent khác ngay trong repo của bạn với cơ sở rõ ràng hơn nhiều so với cách prompt thủ công, rời rạc.

Model Evaluation

Yêu thích 0GitHub 156k

huggingface-community-evals

bởi huggingface

huggingface-community-evals giúp bạn chạy đánh giá model trên Hugging Face Hub ngay trên máy cục bộ với inspect-ai hoặc lighteval. Dùng khi cần chọn backend, chạy smoke test, và xem hướng dẫn thực tế cho vLLM, Transformers hoặc accelerate. Không phù hợp cho điều phối HF Jobs, tạo PR cho model card, xuất bản .eval_results, hay tự động hóa community-evals.

Model Evaluation

Yêu thích 0GitHub 10.4k

huggingface-best

bởi huggingface

Kỹ năng huggingface-best giúp bạn tìm model phù hợp nhất cho một tác vụ bằng cách kiểm tra bảng xếp hạng benchmark trên Hugging Face và lọc theo giới hạn thiết bị cũng như kích thước model. Hãy dùng khi cần gợi ý model cho lập trình, suy luận, chat, OCR, RAG, giọng nói, thị giác máy tính hoặc tác vụ đa phương thức, và bạn muốn một danh sách rút gọn thực dụng thay vì một danh sách model chung chung.

Model Evaluation

Yêu thích 0GitHub 10.4k

libafl

bởi trailofbits

Skill libafl giúp bạn lập kế hoạch và xây dựng các fuzzer mô-đun bằng LibAFL cho target tùy biến, chiến lược mutation riêng và quy trình kiểm thử bảo mật. Dùng hướng dẫn libafl này để đi từ thông tin target đến một harness thực tế, mô hình feedback và kế hoạch chạy với ít giả định hơn.

Security Audit

Yêu thích 0GitHub 5k

judge-with-debate

bởi NeoLabHQ

judge-with-debate đánh giá các giải pháp thông qua tranh luận đa tác nhân có cấu trúc, sử dụng một đặc tả chung, phản biện dựa trên bằng chứng và tối đa 3 vòng để đi đến đồng thuận. Kỹ năng này rất phù hợp cho code review, đánh giá theo rubric, và quy trình judge-with-debate trong Multi-Agent Systems.

Multi-Agent Systems

Yêu thích 0GitHub 982

gws-modelarmor

bởi googleworkspace

gws-modelarmor giúp bạn làm việc với Google Model Armor trong hệ sinh thái googleworkspace/cli. Dùng nó để làm sạch prompt, làm sạch phản hồi của model và tạo template với ít phải đoán mò hơn so với một prompt chung chung. Kỹ năng này được thiết kế cho các quy trình sử dụng lặp lại, có nhận biết chính sách và cho các luồng công việc Security Audit.

Security Audit

Yêu thích 0GitHub 25.5k

analyzing-campaign-attribution-evidence

bởi mukul975

analyzing-campaign-attribution-evidence giúp analyst cân nhắc độ chồng lấn hạ tầng, mức độ nhất quán với ATT&CK, độ tương đồng của malware, thời điểm và dấu vết ngôn ngữ để đưa ra kết luận quy kết chiến dịch có cơ sở vững chắc. Dùng hướng dẫn analyzing-campaign-attribution-evidence này cho CTI, phân tích sự cố và rà soát Security Audit.

Security Audit

Yêu thích 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

bởi mukul975

detecting-ai-model-prompt-injection-attacks là một skill an ninh mạng dùng để sàng lọc văn bản không đáng tin cậy trước khi nội dung đó đến LLM. Skill này kết hợp regex nhiều lớp, chấm điểm theo heuristic và phân loại dựa trên DeBERTa để phát hiện các tấn công prompt injection trực tiếp lẫn gián tiếp. Hữu ích cho kiểm tra đầu vào chatbot, nạp tài liệu và Threat Modeling.

Threat Modeling

Yêu thích 0GitHub 0

ai-prompt-engineering-safety-review

bởi github

ai-prompt-engineering-safety-review là kỹ năng kiểm tra prompt giúp rà soát prompt LLM về độ an toàn, thiên lệch, điểm yếu bảo mật và chất lượng đầu ra trước khi đưa vào production, đánh giá hoặc dùng cho khách hàng.

Model Evaluation

Yêu thích 0GitHub 27.8k

agentic-eval

bởi github

agentic-eval là một skill GitHub Copilot minh họa cách xây dựng các vòng lặp đánh giá cho đầu ra AI bằng reflection, phê bình theo rubric và các mô hình evaluator-optimizer.

Model Evaluation

Yêu thích 0GitHub 27.8k

ml-pipeline-workflow

bởi wshobson

ml-pipeline-workflow là hướng dẫn thực tiễn để thiết kế pipeline MLOps đầu-cuối cho chuẩn bị dữ liệu, huấn luyện, kiểm định, triển khai và giám sát, kèm các mẫu điều phối giúp tự động hóa quy trình lặp lại một cách ổn định.

Workflow Automation

Yêu thích 0GitHub 0

frontend-design

bởi anthropics

frontend-design giúp biến ý tưởng UI mơ hồ thành giao diện khác biệt, sẵn sàng production, với frontend code thực tế, định hướng thẩm mỹ rõ ràng và ít kiểu AI chung chung.

UI Design

Yêu thích 1GitHub 105.2k

create-colleague

bởi titanwings

create-colleague biến tài liệu đồng nghiệp, chat, email, ảnh chụp màn hình, dữ liệu Feishu và DingTalk thành một AI skill có thể chỉnh sửa, với đầu ra tách riêng phần công việc và chân dung, kèm các luồng cập nhật để tiếp tục tinh chỉnh theo thời gian.

Skill Authoring

Yêu thích 1GitHub 747