do-and-judge

bởi NeoLabHQ

do-and-judge thực thi một tác vụ đơn lẻ với bước triển khai của sub-agent, một judge độc lập và cơ chế xác minh dựa trên retry cho đến khi đạt hoặc chạm số lần thử tối đa. Hãy dùng do-and-judge cho Workflow Automation khi bạn cần tiêu chí chấp nhận rõ ràng, thực thi tách biệt và ít phải đoán mò hơn so với một prompt chung chung.

Stars982

Yêu thích0

Bình luận0

Đã thêm9 thg 5, 2026

Danh mụcWorkflow Automation

Lệnh cài đặt

npx skills add NeoLabHQ/context-engineering-kit --skill do-and-judge

Điểm tuyển chọn

Skill này đạt 78/100, nghĩa là đây là một ứng viên khá vững cho người dùng thư mục đang tìm một quy trình thực thi rồi kiểm chứng có cấu trúc. Repository cung cấp đủ chi tiết vận hành để hiểu khi nào nên dùng và nó hoạt động ra sao, dù vẫn còn thiếu một số yếu tố hỗ trợ việc tiếp cận có thể giúp giảm bớt sự mơ hồ khi thiết lập và sử dụng.

78/100

Điểm mạnh

Kích hoạt và luồng làm việc rõ ràng: skill này được nêu đích danh cho một tác vụ đơn lẻ với triển khai, đánh giá độc lập và lặp lại cho đến khi đạt hoặc hết số lần thử tối đa.
Tận dụng agent tốt: vòng lặp meta-judge + judge, phân phối song song và mẫu retry theo phản hồi có thể giúp agent thực thi với ít thiên lệch tự kiểm tra hơn.
Cấu trúc vận hành khá đầy đủ: frontmatter hợp lệ, phần nội dung dài, nhiều heading và nhiều tín hiệu về workflow/ràng buộc cho thấy đây là nội dung quy trình thực sự chứ không phải chỗ giữ chỗ.

Điểm cần lưu ý

Không có lệnh cài đặt, file hỗ trợ hay tài liệu tham chiếu nào được cung cấp, nên người dùng phải dựa hoàn toàn vào SKILL.md.
Đoạn trích cho thấy một ràng buộc điều phối cứng và nội dung bị cắt ngắn, điều này có thể khiến skill trở nên dễ gãy hoặc khó điều chỉnh hơn trong các thiết lập agent rộng hơn.

Claude Code Claude Agents Evaluation Workflow

Tổng quan

Tổng quan về skill do-and-judge

do-and-judge làm gì

Skill do-and-judge là một mẫu thực thi đơn nhiệm cho tự động hóa quy trình: nó chuyển công việc cho một sub-agent triển khai, tạo một rubric đánh giá riêng, rồi thử lại cho đến khi kết quả đạt yêu cầu hoặc chạm giới hạn retry. Đây là lựa chọn phù hợp nhất cho những việc mà chất lượng phụ thuộc vào việc xác minh bên ngoài, chứ không chỉ là sinh ra nội dung một lần.

Ai nên dùng

Hãy dùng do-and-judge khi bạn cần một agent hoàn thành một tác vụ có phạm vi rõ ràng và có tiêu chí chấp nhận đo được, chẳng hạn như refactor, chỉnh sửa code hoặc thay đổi nội dung có cấu trúc. Đây là lựa chọn tốt nếu bạn muốn giảm tự-kiểm tra vòng quanh và tăng kiểm tra độc lập trước khi chấp nhận đầu ra.

Điểm khác biệt nổi bật

Giá trị lớn nhất của skill do-and-judge nằm ở việc tách vai trò: orchestrator không tự làm task, implementation agent làm việc với context mới, và judge đánh giá theo một đặc tả riêng. Thiết kế đó giúp giảm điểm mù và khiến việc cài do-and-judge trở nên đáng giá khi độ chính xác quan trọng hơn tốc độ đơn thuần.

Cách dùng skill do-and-judge

Cài đặt và thiết lập do-and-judge

Cài skill do-and-judge vào workspace skills của bạn, rồi mở SKILL.md trước tiên vì file này chứa quy tắc vận hành và luồng điều khiển. Nếu muốn rà nhanh repo, hãy đọc SKILL.md trước mọi thứ khác; ở đây không có helper script hay thư mục hỗ trợ để dựa vào, nên file skill chính là nguồn thông tin chuẩn.

Biến yêu cầu mơ hồ thành đầu vào dùng được

Mẫu do-and-judge usage hoạt động tốt nhất khi task hẹp, kiểm thử được và có điểm kết thúc rõ ràng. Thay vì nói “cải thiện module này”, hãy cung cấp:

file hoặc component đích chính xác
kết quả mong muốn
các ràng buộc không được thay đổi
điều kiện pass/fail hoặc hành vi kỳ vọng

Ví dụ prompt mạnh: Refactor the UserService class to use dependency injection without changing public method names; verify that all existing tests still pass and that constructor wiring is explicit.

Quy trình khuyến nghị

Một do-and-judge guide thực tế là: xác định task, để implementation agent làm việc trong isolation, tạo judge rubric, kiểm tra kết quả theo rubric đó, rồi chỉ retry khi có lỗi cụ thể. Quy trình này được thiết kế cho do-and-judge for Workflow Automation, nơi mục tiêu là thực thi có kiểm soát chứ không phải brainstorming mở.

Cần chú ý gì trong repo

Đọc SKILL.md để nắm quy trình, các ràng buộc quan trọng và ngưỡng retry. Hãy chú ý kỹ các phần về phạm vi task, cách xử lý context và các tín hiệu cảnh báo, vì chúng quyết định orchestrator có hoạt động đúng hay không. Nếu bạn đang chỉnh skill này cho stack khác, hãy map các quy tắc đó sang tooling của riêng bạn trước khi đem áp dụng vào task thật.

Câu hỏi thường gặp về skill do-and-judge

do-and-judge có tốt hơn prompt thông thường không?

Với yêu cầu đơn giản thì không. Prompt thường nhanh hơn. do-and-judge phù hợp hơn khi bạn cần một task vừa được triển khai vừa được xác minh độc lập, nhất là khi câu trả lời đầu tiên dễ bỏ sót edge case hoặc lệch khỏi yêu cầu.

Skill này có thân thiện với người mới không?

Có, nếu bạn có thể mô tả task rõ ràng. Đường cong học tập chính không nằm ở cú pháp; nó nằm ở việc cung cấp đủ context của task và tiêu chí chấp nhận để judge đánh giá đầu ra mà không phải đoán.

Khi nào không nên dùng do-and-judge?

Đừng dùng do-and-judge cho khám phá mở, lên ý tưởng mơ hồ, hoặc những task mà thành công rất khó định nghĩa. Nó cũng không phù hợp khi bạn muốn orchestrator trực tiếp sửa file hoặc chạy tool, vì skill này được xây dựng quanh việc tách vai trò và xác minh.

Nó phù hợp với Workflow Automation như thế nào?

Nó phù hợp nhất như một lớp kiểm soát cho các job đơn lẻ, có phạm vi rõ ràng, nằm trong một hệ thống tự động hóa lớn hơn. Nếu workflow của bạn đã có các bước kiểm tra rõ ràng, skill này sẽ tăng giá trị bằng cách cấu trúc vòng lặp agent; nếu workflow chưa có tiêu chí chấp nhận, bước judge sẽ quá mơ hồ để hữu ích.

Cách cải thiện skill do-and-judge

Đưa ra tiêu chí tốt hơn cho judge

Cải thiện chất lượng lớn nhất đến từ đầu vào đánh giá mạnh hơn. Khi dùng do-and-judge, hãy chỉ rõ thế nào là “tốt” bằng các tiêu chí quan sát được: hành vi bắt buộc, thay đổi bị cấm, mục tiêu coverage, ràng buộc định dạng hoặc quy tắc tương thích. Tiêu chí càng cụ thể, judge càng ít có khả năng chấp nhận một kết quả yếu.

Giảm các lỗi thường gặp

Lỗi phổ biến nhất là phạm vi không được đặc tả đủ. Nếu task quá rộng, implementation agent có thể tối ưu sai chỗ và judge chỉ phát hiện ra muộn. Một lỗi khác là các ràng buộc ẩn, như tương thích ngược, quy ước đặt tên hoặc giới hạn môi trường, vì vậy hãy nêu ngay từ đầu thay vì trông đợi vòng retry tự suy ra.

Lặp lại trên đầu ra đầu tiên

Nếu lần chạy đầu chưa đúng, đừng chỉ lặp lại nguyên task cũ. Hãy phản hồi chính xác các lỗi mà judge chỉ ra, siết lại tiêu chí chấp nhận và loại bỏ ngôn ngữ mơ hồ. Với do-and-judge usage, lần thử thứ hai nên hẹp hơn và kiểm thử được hơn lần đầu.

Tăng độ phù hợp trước khi chạy lại

Nếu bạn đang điều chỉnh do-and-judge cho một repo khác hoặc một agent stack khác, hãy căn chỉnh trước các quy tắc orchestration với tooling của bạn. Kiểm tra xem hệ thống của bạn có thực sự hỗ trợ được việc triển khai tách biệt, đánh giá độc lập và retry có giới hạn hay không; nếu không, hãy đơn giản hóa mẫu này thay vì cố ép nó vào.

Đánh giá & nhận xét

Chưa có đánh giá nào

Chia sẻ nhận xét của bạn

Đăng nhập để chấm điểm và để lại nhận xét cho skill này.

0/10000

Nhận xét mới nhất

Đang lưu...

Thêm skill trong danh mục này

playwright-interactive

bởi openai

playwright-interactive là một skill tự động hóa trình duyệt cho các phiên Playwright bền vững trong ứng dụng web cục bộ và Electron. Dùng nó để kiểm tra trạng thái giao diện, thử lại các tương tác, và chạy QA chức năng hoặc trực quan mà không cần khởi động lại chuỗi công cụ. Phù hợp khi bạn cần một hướng dẫn playwright-interactive thực tế cho gỡ lỗi lặp lại.

Browser Automation

Yêu thích 0GitHub 0

huggingface-datasets

bởi huggingface

Dùng skill huggingface-datasets cho các quy trình với Hugging Face Dataset Viewer API để xác thực dataset, xử lý split, xem trước và phân trang các hàng, tìm kiếm văn bản, áp dụng bộ lọc, và lấy liên kết parquet hoặc thống kê. Đây là hướng dẫn thực dụng về huggingface-datasets cho việc khám phá dataset chỉ đọc.

Web Scraping

Yêu thích 0GitHub 10.4k

iterative-retrieval

bởi affaan-m

iterative-retrieval là một mẫu quy trình giúp tinh chỉnh dần việc truy xuất ngữ cảnh trong công việc theo kiểu tác nhân. Nó giúp subagents tránh lấy quá nhiều hoặc quá ít ngữ cảnh, nên đặc biệt hữu ích cho cách dùng iterative-retrieval, các quyết định cài đặt, và iterative-retrieval cho Workflow Automation.

Workflow Automation

Yêu thích 0GitHub 156.2k

data-scraper-agent

bởi affaan-m

data-scraper-agent giúp xây dựng một pipeline dữ liệu công khai có thể lặp lại cho web scraping, làm giàu dữ liệu và lưu trữ. Skill này được thiết kế để theo dõi theo lịch các job, giá cả, tin tức, repo, thể thao và danh sách bằng GitHub Actions, với đầu ra đẩy tới Notion, Sheets hoặc Supabase. Phù hợp nhất cho việc theo dõi liên tục, không phải trích xuất một lần.

Web Scraping

Yêu thích 0GitHub 156.1k

notion-meeting-intelligence

bởi openai

notion-meeting-intelligence giúp biến bối cảnh trong Notion thành agenda và tài liệu đọc trước sẵn sàng cho cuộc họp, với nghiên cứu bằng Codex cho quyết định, trạng thái, lập kế hoạch, retrospective và chuẩn bị 1:1. Phù hợp nhất cho quy trình chuẩn bị họp với notion-meeting-intelligence khi bạn cần tài liệu có cơ sở, chia khung thời gian rõ ràng và đầu ra riêng cho từng người tham dự.

Meeting Prep

Yêu thích 0GitHub 18.6k

building-incident-response-playbook

bởi mukul975

building-incident-response-playbook giúp các đội ngũ bảo mật tạo playbook ứng phó sự cố có thể tái sử dụng, với các giai đoạn từng bước, cây quyết định, tiêu chí leo thang, phân công RACI và cấu trúc sẵn sàng cho SOAR. Công cụ này được thiết kế cho tài liệu quy trình ứng phó sự cố, luồng triage sự cố và các kế hoạch phản ứng vận hành thân thiện với kiểm toán.

Incident Triage

Yêu thích 0GitHub 6.1k

building-patch-tuesday-response-process

bởi mukul975

building-patch-tuesday-response-process giúp các nhóm xây dựng quy trình Microsoft Patch Tuesday có thể lặp lại để phân loại khuyến nghị bảo mật, ưu tiên rủi ro, kiểm thử bản vá, phê duyệt triển khai và theo dõi tuân thủ. Hữu ích cho vận hành an ninh, quản lý lỗ hổng và building-patch-tuesday-response-process trong Quản lý dự án.

Project Management

Yêu thích 0GitHub 6.1k

secure-workflow-guide

bởi trailofbits

secure-workflow-guide hướng dẫn quy trình bảo mật Solidity gồm 5 bước: sàng lọc bằng Slither, kiểm tra theo từng tính năng, rà soát trực quan, ghi chú thuộc tính bảo mật và review thủ công. Đây là bộ hướng dẫn dành cho đội ngũ smart contract, auditor và builder muốn có một quy trình secure-workflow-guide lặp lại được trước khi triển khai hoặc phát hành.

Security Audit

Yêu thích 0GitHub 4.9k

twitter-cli

bởi public-clis

twitter-cli là một kỹ năng Twitter/X ưu tiên terminal, dùng để đọc timeline, bookmark, kết quả tìm kiếm, hồ sơ và chi tiết tweet, đồng thời hỗ trợ đăng bài và các thao tác ghi khác khi đã xác thực. Phù hợp cho nghiên cứu Social Media, giám sát tài khoản và xuất bản nhẹ từ dòng lệnh.

Social Media

Yêu thích 0GitHub 2.3k

azure-ai-contentunderstanding-py

bởi microsoft

azure-ai-contentunderstanding-py là skill Python cho Azure AI Content Understanding. Nó trích xuất nội dung có cấu trúc từ tài liệu, hình ảnh, âm thanh và video để phục vụ RAG và tự động hóa. Hãy dùng khi bạn cần trích xuất đa phương thức đáng tin cậy, xác thực Azure và đầu ra lặp lại, sẵn sàng cho pipeline.

RAG Workflows

Yêu thích 0GitHub 2.2k

wp-performance

bởi WordPress

Dùng wp-performance để điều tra và cải thiện hiệu năng WordPress từ backend, không cần giao diện trình duyệt. Skill này hỗ trợ chẩn đoán theo phương pháp đo lường cho các request frontend chậm, trang quản trị, route REST và WP-Cron, với hướng dẫn về WP-CLI profile/doctor, Query Monitor qua REST headers, Server-Timing, truy vấn cơ sở dữ liệu, options được autoload, object caching, cron và các cuộc gọi HTTP từ xa.

Performance Optimization

Yêu thích 0GitHub 1.4k

wp-wpcli-and-ops

bởi WordPress

Skill wp-wpcli-and-ops hỗ trợ vận hành WordPress bằng WP-CLI: search-replace an toàn, export/import db, thao tác với plugin và theme, cron, xóa cache, nhắm đúng multisite và tự động hóa lặp lại cho phát triển backend.

Backend Development

Yêu thích 0GitHub 1.4k

agents-sdk

bởi cloudflare

agents-sdk giúp bạn xây dựng agent trên Cloudflare Workers với hội thoại có trạng thái, thực thi bền vững, chat qua WebSocket hoặc streaming, tích hợp MCP, tác vụ theo lịch và tự động hóa trình duyệt. Skill agents-sdk này tập trung vào quyết định cài đặt, cấu hình và cách dùng thực tế cho ứng dụng Workers hiện có hoặc mới, đồng thời chỉ đề xuất hệ đa agent khi chúng thực sự phù hợp với ràng buộc của runtime Cloudflare.

Multi-Agent Systems

Yêu thích 0GitHub 1.3k

reddit-ads

bởi alinaqi

Kỹ năng reddit-ads dành cho các quy trình làm việc với Reddit Ads API: tạo chiến dịch, nhắm mục tiêu, theo dõi chuyển đổi và tối ưu quảng cáo. Cài đặt hướng dẫn reddit-ads để quản lý cấu trúc tài khoản, ngân sách, đối tượng và tối ưu dựa trên API với ít phải phán đoán hơn.

Ad Optimization

Yêu thích 0GitHub 611

existing-repo

bởi alinaqi

existing-repo giúp agent phân tích một codebase hiện có, nhận diện stack và quy ước, đồng thời đặt các rào chắn an toàn mà không làm vỡ các mẫu cục bộ. Hãy dùng skill existing-repo này cho Git Workflows, làm việc với repo lần đầu, bảo trì và các thay đổi thiết lập khi điều quan trọng nhất là hiểu trước rồi mới sửa.

Git Workflows

Yêu thích 0GitHub 607

composio

bởi ComposioHQ

Dùng composio để kết nối các workflow AI với ứng dụng bên ngoài qua CLI hoặc SDK. Skill composio này được xây dựng cho tự động hóa workflow, thao tác với ứng dụng, kết nối theo từng người dùng, khám phá toolkit, và một hướng dẫn thực tế về cài đặt cùng cách dùng trước khi bạn bắt đầu xây dựng.

Workflow Automation

Yêu thích 0GitHub 48