agentic-eval

bởi github

agentic-eval là một skill GitHub Copilot minh họa cách xây dựng các vòng lặp đánh giá cho đầu ra AI bằng reflection, phê bình theo rubric và các mô hình evaluator-optimizer.

Stars27.8k

Yêu thích0

Bình luận0

Đã thêm31 thg 3, 2026

Danh mụcModel Evaluation

Lệnh cài đặt

npx skills add github/awesome-copilot --skill agentic-eval

Điểm tuyển chọn

Skill này được chấm 68/100, nghĩa là phù hợp để đưa vào danh mục cho những người dùng đang tìm các mẫu đánh giá có thể tái sử dụng. Tuy vậy, đây thiên về hướng dẫn khái niệm hơn là một skill hoàn chỉnh có sẵn tài nguyên thực thi. Repository cung cấp đủ nội dung để hiểu khi nào nên gọi skill và nó hỗ trợ những dạng vòng lặp evaluator-refiner nào, nhưng người dùng vẫn sẽ cần tự chuyển các mẫu đó vào công cụ và prompt của riêng mình.

68/100

Điểm mạnh

Khả năng kích hoạt tốt từ frontmatter và ví dụ: skill nêu rõ các trường hợp như self-critique, evaluator-optimizer pipelines, rubric-based judging và cải thiện chất lượng lặp lại.
Mang lại giá trị quy trình thực tế nhờ có nhiều mẫu đã được mô tả, gồm vòng lặp reflection cơ bản và các cách tiếp cận đánh giá agentic khác, thay vì chỉ là một phần mô tả mang tính giữ chỗ.
Cấu trúc triển khai nội dung khá rõ theo từng bước: phần tổng quan, hướng dẫn khi nào nên dùng và các ví dụ trong code fence giúp agent lẫn người dùng nhanh chóng nắm được vòng lặp đánh giá mà skill hướng tới.

Điểm cần lưu ý

Độ rõ ràng về vận hành còn hạn chế do thiếu hướng dẫn cài đặt, tệp hỗ trợ hoặc tham chiếu có thể chạy được, nên muốn áp dụng sẽ phải tự điều chỉnh thủ công.
Skill này có vẻ thiên về mẫu/pattern hơn là gắn với một môi trường cụ thể; cũng chưa có nhiều thông tin về ràng buộc, tình huống lỗi hoặc cách chọn mẫu phù hợp trong thực tế.

Copilot Testing Llm Ai Agents Workflow

Tổng quan

Tổng quan về skill agentic-eval

agentic-eval làm gì

Skill agentic-eval là một hướng dẫn gọn nhẹ để đưa vòng lặp đánh giá vào quy trình AI, thay vì chấp nhận ngay bản nháp đầu tiên. Nhiệm vụ cốt lõi của nó rất đơn giản: lấy đầu ra ban đầu, đánh giá theo tiêu chí rõ ràng, rồi tinh chỉnh qua một hoặc nhiều lượt cải thiện. Nếu bạn đang làm code generation, phân tích có cấu trúc, báo cáo hoặc bất kỳ công việc nào nhạy với chất lượng, agentic-eval giúp biến cách làm “tạo một lần” thành “tạo, đánh giá, cải thiện”.

Ai nên cài agentic-eval

Skill này phù hợp với những người xây dựng hệ thống đã dùng AI cho các công việc gần với môi trường production và cần độ tin cậy cao hơn một prompt thông thường. Đặc biệt hữu ích cho:

lập trình viên thêm cơ chế self-critique vào coding agents
các nhóm thiết kế pipeline evaluator-optimizer
người dùng xây dựng luồng review dựa trên rubric
bất kỳ ai làm model evaluation khi chất lượng đầu ra có thể đối chiếu với các chuẩn đã định nghĩa

Nhu cầu thực sự mà skill này giải quyết

Phần lớn người dùng không cần thêm một mẫu prompt chung chung. Họ cần một cách lặp lại được để:

định nghĩa thế nào là “tốt”,
đánh giá câu trả lời theo chuẩn đó,
chỉnh sửa dựa trên các khoảng trống cụ thể,
dừng lại khi đạt mức chất lượng chấp nhận được hoặc chạm số vòng lặp tối đa.

Đó là lúc agentic-eval for Model Evaluation phát huy giá trị rõ nhất: nó cung cấp một mẫu nhẹ để tạo vòng lặp cải thiện có kiểm soát.

Điểm khác biệt của skill này

Giá trị của agentic-eval không nằm ở độ bao quát, mà ở sự tập trung. Repository này xoay quanh một vài mẫu đánh giá thực dụng thay vì một framework lớn, nên có thể đưa vào agent hoặc quy trình prompt sẵn có rất nhanh. Những điểm khác biệt chính gồm:

vòng lặp phản tư rõ ràng
tư duy evaluator-optimizer
phù hợp với đầu ra được chấm theo rubric
áp dụng trực tiếp cho các bài toán tinh chỉnh theo kiểu test hoặc theo chuẩn

Khi nào agentic-eval đặc biệt phù hợp

Hãy dùng agentic-eval skill khi bài toán có tiêu chí kiểm tra được, chẳng hạn:

vượt qua test
đáp ứng ràng buộc về định dạng hoặc văn phong
cải thiện độ đầy đủ về mặt thông tin theo rubric
siết chặt chất lượng lập luận trong báo cáo hoặc phân tích
nâng chất lượng code trước khi xuất ra kết quả cuối

Nếu tiêu chí thành công mơ hồ, quá chủ quan hoặc gần như không thể chấm điểm dù chỉ tương đối, skill này sẽ kém đáng tin hơn.

Cách dùng skill agentic-eval

Bối cảnh cài đặt và đường dẫn truy cập

Tín hiệu từ repository cho thấy chỉ có một file SKILL.md, nên agentic-eval install chủ yếu là thêm skill vào môi trường có hỗ trợ skill của bạn, rồi đọc trực tiếp file skill đó. Nếu bạn dùng workflow GitHub Copilot skills, hãy thêm skill từ repository github/awesome-copilot và mở skills/agentic-eval/SKILL.md trước. Không có script, rule hay file tham chiếu đi kèm để “gánh” phần khó thay bạn, nên thiết kế prompt ở đây quan trọng hơn bình thường.

Hãy đọc file này trước

Bắt đầu với:

SKILL.md

Vì repo không có tài nguyên hỗ trợ, lộ trình đọc quan trọng cũng khá ngắn. Hãy tập trung vào các phần:

Overview
When to Use
Pattern 1: Basic Reflection
Pattern 2: Evaluator-Optimizer

Đó là những phần thể hiện trực tiếp cách skill được triển khai trong thực tế.

agentic-eval cần đầu vào gì

Trải nghiệm agentic-eval usage sẽ tốt hơn nhiều nếu ngay từ đầu bạn cung cấp đủ bốn yếu tố:

nhiệm vụ cần hoàn thành
tiêu chí đánh giá
số vòng tinh chỉnh tối đa
điều kiện dừng

Một yêu cầu yếu là: “Improve this answer.”
Một yêu cầu mạnh hơn là: “Draft a migration plan, then evaluate it for completeness, risk coverage, sequencing, and rollback clarity. Revise up to 3 times and return the final version plus the main changes.”

Biến mục tiêu thô thành prompt dùng được

Một prompt thực tế theo kiểu agentic-eval guide thường có cấu trúc như sau:

Task: cần tạo ra cái gì
Context: dữ kiện nguồn, ràng buộc, đối tượng đọc
Criteria: kết quả sẽ được chấm theo cách nào
Evaluation mode: tự phê bình hay có lượt đánh giá riêng
Iteration limit: thường từ 2 đến 4
Output contract: chỉ trả lời bản cuối, hay kèm critique + lịch sử chỉnh sửa

Cấu trúc ví dụ:

Task: “Write a design review memo for the API change.”
Context: “Audience is staff engineers; must mention backward compatibility risks.”
Criteria: “Accuracy, completeness, decision clarity, concrete risks, actionable recommendation.”
Loop: “Generate, evaluate against the rubric, revise, repeat up to 3 times.”
Output: “Return final memo and a short list of fixes made.”

Mẫu basic reflection trong thực tế với agentic-eval

Mẫu đầu tiên trong agentic-eval là basic reflection: cùng một model tự phê bình đầu ra của chính nó rồi cải thiện. Đây là điểm khởi đầu dễ nhất vì gần như không làm tăng thêm độ phức tạp vận hành.

Nên dùng khi:

nhiệm vụ ở mức rủi ro trung bình
bạn cần cải thiện chất lượng nhanh
bạn không muốn điều phối nhiều agent hoặc model

Cách này hiệu quả nhất khi phần critique đủ cụ thể. Hãy yêu cầu chấm theo từng tiêu chí hoặc chỉ ra lỗ hổng cụ thể, thay vì kiểu chung chung như “review this.”

Mẫu evaluator-optimizer trong thực tế với agentic-eval

Mẫu thứ hai phù hợp hơn cho các workflow nhạy chất lượng. Một lượt tạo bản nháp, một lượt khác đánh giá, rồi lượt tiếp theo chỉnh sửa. Việc tách riêng như vậy thường cho đầu ra kỷ luật hơn vì bước đánh giá được xem là một công đoạn độc lập.

Nên dùng khi:

đầu ra bắt buộc phải đáp ứng một rubric
bạn muốn có audit trail rõ ràng hơn về lý do các chỉnh sửa xảy ra
bạn đang chạy lặp lại agentic-eval for Model Evaluation trên nhiều mục

Mẫu này cũng dễ benchmark hơn vì bạn có thể tách riêng để so sánh chất lượng bản nháp, chất lượng critique và chất lượng đầu ra cuối.

Tiêu chí tốt hay dở quyết định gần như toàn bộ kết quả

Rào cản lớn nhất khi áp dụng là tiêu chí đánh giá yếu. Nếu bạn đưa cho model những chuẩn mơ hồ, vòng lặp chỉ khuếch đại sự mơ hồ đó. Hãy ưu tiên tiêu chí:

quan sát được
cụ thể
liên quan trực tiếp đến nhiệm vụ
đủ ít để có thể áp dụng nhất quán

Tốt hơn:

“Includes migration steps, risk analysis, rollback plan, and owner assignments”
Kém hơn:
“Make it better and more professional”

Quy trình gợi ý cho bài toán thực tế

Một workflow thực tế cho agentic-eval usage là:

tạo bản nháp một lần dựa trên task và context
đánh giá theo một rubric ngắn
xác định lỗi cụ thể, không chỉ nêu cảm nhận chung
chỉ chỉnh sửa theo những lỗi đó
dừng khi đạt ngưỡng chất lượng hoặc chạm giới hạn số vòng

Cách này giúp tránh lặp vô tận và giữ cho các chỉnh sửa bám sát những vấn đề đo được.

Khi nào prompt thông thường là đủ

Đừng dùng agentic-eval skill cho mọi việc. Nếu nhiệm vụ ít rủi ro, tạo một lần thường rẻ và nhanh hơn. Brainstorm đơn giản, lên ý tưởng thô, hoặc các bản nháp dùng xong bỏ thường không cần đánh giá lặp. Skill này có giá trị nhất khi đầu ra kém chất lượng thực sự gây tốn kém.

Ví dụ prompt thực tế

Một cách gọi mạnh có thể trông như sau:

“Create a Python function for CSV import validation. Then evaluate your solution against these criteria: correctness, edge-case coverage, error handling, readability, and testability. List the top 3 issues, revise the code, and stop after 2 refinement rounds or when all criteria are satisfied.”

Vì sao cách này hiệu quả:

loại sản phẩm đầu ra được nêu rõ
rubric minh bạch
đầu ra của bước đánh giá có giới hạn rõ ràng
quy tắc dừng ngăn việc lặp quá mức

Câu hỏi thường gặp về skill agentic-eval

agentic-eval có phù hợp cho người mới bắt đầu không

Có, nếu bạn đã nắm các nguyên tắc prompting cơ bản. Bản thân skill này khá đơn giản về mặt ý tưởng, nhưng kết quả tốt phụ thuộc nhiều vào việc bạn viết tiêu chí có dùng được hay không. Người mới nên bắt đầu với basic reflection trước khi chuyển sang các thiết lập evaluator-optimizer bài bản hơn.

Lợi ích chính so với prompt thông thường là gì

Prompt thông thường chỉ yêu cầu một câu trả lời. agentic-eval thêm một vòng kiểm soát chất lượng. Lợi ích thực tế không phải là “nhiều chữ hơn”, mà là phát hiện tốt hơn những chỗ thiếu, lập luận yếu hoặc vi phạm ràng buộc trước khi xuất bản cuối.

Khi nào không nên dùng agentic-eval

Hãy bỏ qua nó khi:

nhiệm vụ không có tiêu chí thành công rõ ràng
tốc độ quan trọng hơn chất lượng
đầu ra mang tính khám phá hơn là để chấm/đánh giá
bạn không thể biết được việc chỉnh sửa có thật sự làm kết quả tốt hơn hay không

agentic-eval chỉ dùng cho code thôi sao

Không. Nó phù hợp cho code, phân tích, báo cáo và các loại đầu ra có cấu trúc khác. Yêu cầu chung là phải đánh giá được. Nếu bạn định nghĩa được một rubric, agentic-eval skill thường sẽ giúp ích.

agentic-eval có kèm công cụ hay tự động hóa không

Không có trong snapshot repository này. Skill thiên về hướng dẫn, với pattern và ví dụ nằm trong SKILL.md, chứ không phải một thư viện hay bộ script đóng gói sẵn. Khả năng cao bạn sẽ phải tự nhúng vòng lặp này vào agent, prompt chain hoặc orchestration layer của mình.

Nên chạy bao nhiêu vòng lặp

Thông thường 2 đến 3 vòng là đủ. Với bài toán phức tạp, nhiều vòng hơn có thể có ích, nhưng đồng thời cũng làm tăng độ lệch, chi phí và nguy cơ tự xác nhận các critique chưa đúng. Hãy thêm điều kiện dừng, thay vì mặc định rằng càng nhiều vòng thì chất lượng càng cao.

Cách cải thiện skill agentic-eval

Bắt đầu bằng cách siết chặt rubric

Cách nhanh nhất để cải thiện kết quả agentic-eval là nâng chất lượng tiêu chí đánh giá, không phải prompt tạo nội dung. Một rubric ngắn gọn gồm 4 đến 6 chiều đánh giá thường hiệu quả hơn một checklist dài. Hãy làm cho mỗi chiều đủ rõ để model có thể sửa trực tiếp theo đó.

Cung cấp ràng buộc nguồn cho bước đánh giá

Nếu đầu ra phải bám sát yêu cầu, hãy đưa chính những yêu cầu đó vào bước đánh giá. Ví dụ:

các phần bắt buộc phải có
ràng buộc về policy
interface contracts
acceptance tests
yêu cầu về đối tượng đọc và giọng điệu

Nếu không, evaluator có thể tối ưu theo hướng “nghe có vẻ hợp lý” thay vì tối ưu cho việc hoàn thành đúng bài toán.

Yêu cầu chẩn đoán lỗi trước khi chỉnh sửa

Một lỗi phổ biến là chuyển quá nhanh từ critique sang viết lại. Kết quả thường tốt hơn khi bạn yêu cầu model nêu trước những vấn đề có tác động lớn nhất. Cách này giúp bản chỉnh sửa tập trung vào lỗ hổng thật sự, thay vì viết lại mọi thứ.

Ngăn tình trạng tự khen hời hợt

Một failure mode trong agentic-eval for Model Evaluation là critique yếu kiểu “looks good overall.” Hãy khắc phục bằng cách bắt buộc:

đánh giá theo từng tiêu chí
nêu rõ phần còn thiếu
xếp hạng mức độ nghiêm trọng
trích bằng chứng từ bản nháp

Như vậy model sẽ buộc phải đánh giá theo cách hữu ích hơn.

Tách chất lượng bản nháp khỏi chất lượng đánh giá

Nếu đầu ra vẫn chưa đạt, hãy kiểm tra xem vấn đề nằm ở:

bản nháp đầu tiên kém
critique kém
kỷ luật chỉnh sửa kém

Điều này quan trọng vì mỗi bước cần cách sửa khác nhau. Một evaluator mạnh không thể cứu được việc thiếu context nguồn, và một bản nháp tốt vẫn có thể bị làm tệ đi nếu chỉ dẫn chỉnh sửa quá mơ hồ.

Cải thiện đầu vào sau lần chạy đầu tiên

Sau một lượt chạy, hãy tinh chỉnh prompt dựa trên những gì đã thất bại:

thêm context còn thiếu
viết lại các tiêu chí yếu
siết chặt định dạng đầu ra
bỏ các chỉ dẫn mâu thuẫn
giảm số vòng lặp nếu bản sửa bắt đầu đi chệch hướng

Hành vi tốt nhất theo kiểu agentic-eval guide thường đến từ một hoặc hai lần chỉnh prompt dựa trên failure mode đã quan sát được.

Dùng quy tắc dừng rõ ràng

Để nâng chất lượng và kiểm soát chi phí, hãy định nghĩa rõ khi nào vòng lặp kết thúc:

tất cả tiêu chí bắt buộc đã đạt
không còn lỗi nghiêm trọng
đã chạm tối đa 3 vòng

Cách này ngăn các vòng “đánh bóng” chỉ đổi câu chữ mà không cải thiện thực chất.

Chọn đúng pattern theo mức độ quan trọng

Dùng basic reflection cho nhu cầu cải thiện chất lượng nhẹ và nhanh. Dùng evaluator-optimizer cho các đầu ra quan trọng hơn, workflow lặp đi lặp lại, hoặc review kiểu benchmark. Chọn pattern đơn giản hơn khi có thể sẽ giúp quyết định agentic-eval install dễ hơn và cũng giúp workflow dễ bảo trì hơn.

Đánh giá & nhận xét

Chưa có đánh giá nào

Chia sẻ nhận xét của bạn

Đăng nhập để chấm điểm và để lại nhận xét cho skill này.

0/10000

Nhận xét mới nhất

Đang lưu...

Thêm skill trong danh mục này

evaluation-methodology

bởi wshobson

Skill evaluation-methodology giải thích cách chấm điểm PluginEval cho Model Evaluation, bao gồm các lớp đánh giá, rubric, điểm tổng hợp, ngưỡng badge và hướng dẫn thực tế để đọc kết quả cũng như cải thiện các khía cạnh còn yếu.

Model Evaluation

Yêu thích 0GitHub 32.6k

healthcare-eval-harness

bởi affaan-m

healthcare-eval-harness là một bộ đánh giá an toàn bệnh nhân cho các triển khai ứng dụng y tế. Nó giúp nhóm kiểm tra độ chính xác của CDSS, nguy cơ lộ PHI, tính toàn vẹn dữ liệu, hành vi quy trình lâm sàng và mức độ tuân thủ tích hợp trước khi phát hành. Các lỗi nghiêm trọng sẽ chặn triển khai, vì vậy healthcare-eval-harness hữu ích cho Model Evaluation và các cổng an toàn CI.

Model Evaluation

Yêu thích 0GitHub 156.2k

eval-harness

bởi affaan-m

Skill eval-harness là một khung đánh giá chính thức cho các phiên Claude Code và quy trình phát triển theo eval. Nó giúp bạn xác định tiêu chí đạt/không đạt, xây dựng các eval về năng lực và hồi quy, đồng thời đo độ tin cậy của agent trước khi triển khai các thay đổi về prompt hoặc workflow.

Model Evaluation

Yêu thích 0GitHub 156.1k

agent-eval

bởi affaan-m

agent-eval là skill dùng để benchmark các coding agent theo kiểu đối đầu trên những tác vụ có thể tái lập, so sánh tỷ lệ pass, chi phí, thời gian và độ ổn định. Hãy dùng skill agent-eval để đánh giá Claude Code, Aider, Codex hoặc agent khác ngay trong repo của bạn với cơ sở rõ ràng hơn nhiều so với cách prompt thủ công, rời rạc.

Model Evaluation

Yêu thích 0GitHub 156k

huggingface-community-evals

bởi huggingface

huggingface-community-evals giúp bạn chạy đánh giá model trên Hugging Face Hub ngay trên máy cục bộ với inspect-ai hoặc lighteval. Dùng khi cần chọn backend, chạy smoke test, và xem hướng dẫn thực tế cho vLLM, Transformers hoặc accelerate. Không phù hợp cho điều phối HF Jobs, tạo PR cho model card, xuất bản .eval_results, hay tự động hóa community-evals.

Model Evaluation

Yêu thích 0GitHub 10.4k

huggingface-best

bởi huggingface

Kỹ năng huggingface-best giúp bạn tìm model phù hợp nhất cho một tác vụ bằng cách kiểm tra bảng xếp hạng benchmark trên Hugging Face và lọc theo giới hạn thiết bị cũng như kích thước model. Hãy dùng khi cần gợi ý model cho lập trình, suy luận, chat, OCR, RAG, giọng nói, thị giác máy tính hoặc tác vụ đa phương thức, và bạn muốn một danh sách rút gọn thực dụng thay vì một danh sách model chung chung.

Model Evaluation

Yêu thích 0GitHub 10.4k

libafl

bởi trailofbits

Skill libafl giúp bạn lập kế hoạch và xây dựng các fuzzer mô-đun bằng LibAFL cho target tùy biến, chiến lược mutation riêng và quy trình kiểm thử bảo mật. Dùng hướng dẫn libafl này để đi từ thông tin target đến một harness thực tế, mô hình feedback và kế hoạch chạy với ít giả định hơn.

Security Audit

Yêu thích 0GitHub 5k

evaluation

bởi muratcankoylan

Skill evaluation giúp bạn thiết kế và chạy đánh giá agent cho các hệ thống không xác định. Dùng cho lập kế hoạch cài đặt evaluation, xây dựng rubric, kiểm tra hồi quy, thiết lập quality gate và evaluation cho Skill Testing. Skill này phù hợp với quy trình LLM-as-judge, chấm điểm đa chiều và các nhu cầu evaluation thực tế khi bạn cần kết quả có thể lặp lại.

Skill Testing

Yêu thích 0GitHub 0

judge-with-debate

bởi NeoLabHQ

judge-with-debate đánh giá các giải pháp thông qua tranh luận đa tác nhân có cấu trúc, sử dụng một đặc tả chung, phản biện dựa trên bằng chứng và tối đa 3 vòng để đi đến đồng thuận. Kỹ năng này rất phù hợp cho code review, đánh giá theo rubric, và quy trình judge-with-debate trong Multi-Agent Systems.

Multi-Agent Systems

Yêu thích 0GitHub 982

gws-modelarmor

bởi googleworkspace

gws-modelarmor giúp bạn làm việc với Google Model Armor trong hệ sinh thái googleworkspace/cli. Dùng nó để làm sạch prompt, làm sạch phản hồi của model và tạo template với ít phải đoán mò hơn so với một prompt chung chung. Kỹ năng này được thiết kế cho các quy trình sử dụng lặp lại, có nhận biết chính sách và cho các luồng công việc Security Audit.

Security Audit

Yêu thích 0GitHub 25.5k

analyzing-campaign-attribution-evidence

bởi mukul975

analyzing-campaign-attribution-evidence giúp analyst cân nhắc độ chồng lấn hạ tầng, mức độ nhất quán với ATT&CK, độ tương đồng của malware, thời điểm và dấu vết ngôn ngữ để đưa ra kết luận quy kết chiến dịch có cơ sở vững chắc. Dùng hướng dẫn analyzing-campaign-attribution-evidence này cho CTI, phân tích sự cố và rà soát Security Audit.

Security Audit

Yêu thích 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

bởi mukul975

detecting-ai-model-prompt-injection-attacks là một skill an ninh mạng dùng để sàng lọc văn bản không đáng tin cậy trước khi nội dung đó đến LLM. Skill này kết hợp regex nhiều lớp, chấm điểm theo heuristic và phân loại dựa trên DeBERTa để phát hiện các tấn công prompt injection trực tiếp lẫn gián tiếp. Hữu ích cho kiểm tra đầu vào chatbot, nạp tài liệu và Threat Modeling.

Threat Modeling

Yêu thích 0GitHub 0

llm-evaluation

bởi wshobson

Dùng kỹ năng llm-evaluation để thiết kế kế hoạch đánh giá có thể lặp lại cho ứng dụng LLM, prompt, hệ thống RAG và các thay đổi mô hình với metric, đánh giá thủ công, benchmarking và kiểm tra hồi quy.

Model Evaluation

Yêu thích 0GitHub 32.6k

ai-prompt-engineering-safety-review

bởi github

ai-prompt-engineering-safety-review là kỹ năng kiểm tra prompt giúp rà soát prompt LLM về độ an toàn, thiên lệch, điểm yếu bảo mật và chất lượng đầu ra trước khi đưa vào production, đánh giá hoặc dùng cho khách hàng.

Model Evaluation

Yêu thích 0GitHub 27.8k

ml-pipeline-workflow

bởi wshobson

ml-pipeline-workflow là hướng dẫn thực tiễn để thiết kế pipeline MLOps đầu-cuối cho chuẩn bị dữ liệu, huấn luyện, kiểm định, triển khai và giám sát, kèm các mẫu điều phối giúp tự động hóa quy trình lặp lại một cách ổn định.

Workflow Automation

Yêu thích 0GitHub 0

frontend-design

bởi anthropics

frontend-design giúp biến ý tưởng UI mơ hồ thành giao diện khác biệt, sẵn sàng production, với frontend code thực tế, định hướng thẩm mỹ rõ ràng và ít kiểu AI chung chung.

UI Design

Yêu thích 1GitHub 105.2k