do-and-judge

作者 NeoLabHQ

do-and-judge 技能通过子代理执行步骤、独立评审和基于重试的验证来完成单个任务，直到通过或达到最大重试次数。对于需要明确验收标准、隔离执行，并且比通用 prompt 更少猜测的 Workflow Automation 场景，适合使用 do-and-judge。

Stars982

收录时间2026年5月9日

分类工作流自动化

安装命令

npx skills add NeoLabHQ/context-engineering-kit --skill do-and-judge

编辑评分

这个技能评分为 78/100，说明它是目录用户寻找“执行 + 验证”结构化工作流时的可靠候选。仓库提供了足够的运行信息，能帮助理解何时使用以及它的运作方式，但在降低配置和使用不确定性方面，仍缺少一些能提升落地效率的辅助材料。

78/100

亮点

触发场景和工作流非常清晰：明确用于单个任务，包含实施、独立评审，并会一直重试直到通过或达到最大重试次数。
代理协同能力较强：meta-judge 与 judge 的循环、并行分发以及反馈重试模式，有助于减少代理的自我确认偏差。
运行结构比较完整：有效的 frontmatter、较长的正文、多级标题，以及多种工作流/约束信号，都表明它是实际的流程内容，而不是占位文本。

注意点

没有提供安装命令、支持文件或参考链接，用户只能依赖 `SKILL.md` 本身。
摘录内容显示存在较强的编排约束和截断情况，这可能让该技能显得更脆弱，或在更复杂的代理环境中不易调整。

Claude Code Claude Agents Evaluation 工作流

概览

do-and-judge 技能概览

do-and-judge 的作用

do-and-judge 技能是一种面向工作流自动化的单任务执行模式：它把工作交给实现子代理，单独生成一套 judge 评估标准，然后在结果通过或达到重试上限之前持续重试。它最适合那类质量取决于外部验证、而不只是一次性生成的任务。

适合谁使用

当你需要一个 agent 完成有明确边界、且验收标准可衡量的任务时，适合使用 do-and-judge，例如重构、代码修改或结构化内容变更。如果你希望减少自我审查、在输出被接受前增加独立检查，它会是很合适的选择。

它为什么更突出

do-and-judge 技能的核心价值在于角色分离：编排器本身不直接做任务，实现代理在全新的上下文里工作，而 judge 则按照专门的规范进行评估。这种设计能减少盲区，也让 do-and-judge 在正确性比单纯速度更重要时，值得安装。

如何使用 do-and-judge 技能

do-and-judge 的安装与设置

先把 do-and-judge 技能安装到你的 skills 工作区，然后先打开 SKILL.md，因为这里写着运行规则和控制流。快速过一遍仓库时，也应先读 SKILL.md；这里没有可依赖的辅助脚本或支持目录，所以 skill 文件就是唯一的事实来源。

把模糊需求变成可执行输入

do-and-judge usage 模式最适合处理范围明确、可测试、并且有清晰完成线的任务。不要只说“改进这个模块”，而是提供：

精确的目标文件或组件
期望达成的结果
不允许改变的约束
通过/失败条件或预期行为

一个有力的提示示例：Refactor the UserService class to use dependency injection without changing public method names; verify that all existing tests still pass and that constructor wiring is explicit.

仓库里要重点看什么

先读 SKILL.md，重点看流程、关键约束和重试阈值。尤其要注意任务范围、上下文处理和红旗警示这些部分，因为它们决定了编排器是否会正确执行。如果你要把这个 skill 适配到别的技术栈，先把这些规则映射到你自己的工具链上，再拿真实任务去用。

do-and-judge 技能 FAQ

do-and-judge 比普通提示词更好吗？

对于简单请求，不一定。普通提示词更快。do-and-judge 更适合需要任务被实际实现、并且要独立验证的场景，尤其是在第一次答案很可能漏掉边界情况或偏离需求时。

这个技能适合新手吗？

适合，只要你能把任务描述清楚。主要门槛不是语法，而是要提供足够的任务上下文和验收标准，让 judge 不用猜也能评估输出。

什么时候不该用 do-and-judge？

不要把 do-and-judge 用在开放式探索、松散构思，或那些很难定义成功标准的任务上。当你希望编排器直接编辑文件或运行工具时，它也不太合适，因为这个 skill 的设计核心就是角色分离和验证。

它如何融入 Workflow Automation？

它最适合作为更大自动化系统中，单个有边界任务的控制层。如果你的工作流本来就有明确检查，这个 skill 能通过结构化 agent 循环增加价值；如果你的工作流没有验收标准，judge 这一步就会过于模糊，帮不上忙。

如何改进 do-and-judge 技能

给 judge 更好的标准

最大的质量提升来自更强的评估输入。使用 do-and-judge 时，要用可观察的方式说明什么叫“好”：必需行为、禁止变更、覆盖率目标、格式约束或兼容性规则。标准越具体，judge 越不容易放过一个薄弱结果。

降低常见失败模式

最常见的失败是范围定义不清。如果任务太宽，实现代理可能会优化错方向，而 judge 只能在很后面才发现。另一种失败模式是隐藏约束，比如向后兼容、命名规范或环境限制，所以要一开始就写明，而不是指望重试循环自己推断出来。

针对首次输出做迭代

如果第一次运行没有达到预期，不要只是重复同一个任务。把 judge 的具体失败点反馈回去，收紧验收标准，删掉含糊表述。对于 do-and-judge usage，第二次尝试应该比第一次更窄、更容易测试。

在重跑之前先提升适配度

如果你要把 do-and-judge 适配到另一个仓库或 agent 技术栈，先让编排规则和你的工具链对齐。检查你的环境是否真的支持隔离实现、独立评审和有边界的重试；如果不支持，不要硬套这个模式，直接简化会更稳妥。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

playwright-interactive

作者 openai

playwright-interactive 是一项浏览器自动化技能，适用于本地 Web 和 Electron 应用中的持久 Playwright 会话。它可用于检查 UI 状态、重试交互，以及在不重启工具链的情况下执行功能或视觉 QA。非常适合需要一份实用的 playwright-interactive 迭代调试指南的场景。

浏览器自动化

收藏 0GitHub 0

huggingface-datasets

作者 huggingface

在 Hugging Face Dataset Viewer API 工作流中使用 huggingface-datasets 技能，用于校验数据集、解析 splits、预览和分页行、搜索文本、应用过滤器，以及获取 parquet 链接或统计信息。它是一份面向只读数据集探索的实用 huggingface-datasets 指南。

网页抓取

收藏 0GitHub 10.4k

iterative-retrieval

作者 affaan-m

iterative-retrieval 是一种工作流模式，用于在 agentic 工作中逐步优化上下文检索。它能帮助 subagents 避免获取过多或过少的上下文，因此适用于 iterative-retrieval 的使用场景、安装决策，以及 Workflow Automation 中的 iterative-retrieval。

工作流自动化

收藏 0GitHub 156.2k

data-scraper-agent

作者 affaan-m

data-scraper-agent 可帮助你搭建可重复使用的公开数据管道，用于网页抓取、数据丰富和存储。它面向按计划持续监控任务、价格、新闻、仓库、体育和列表信息，可结合 GitHub Actions 定时运行，并将结果输出到 Notion、Sheets 或 Supabase。更适合长期跟踪，不适合一次性提取。

网页抓取

收藏 0GitHub 156.1k

notion-meeting-intelligence

作者 openai

notion-meeting-intelligence 可将 Notion 上下文转化为可直接用于会议的议程和会前材料，并结合 Codex 研究，为决策、状态更新、规划、复盘和 1:1 准备提供支持。它尤其适合 notion-meeting-intelligence for Meeting Prep 工作流：当你需要有依据的材料、清晰的时间分配，以及面向不同参会者的输出时，这个技能会很有帮助。

会议准备

收藏 0GitHub 18.6k

building-incident-response-playbook

作者 mukul975

building-incident-response-playbook 可帮助安全团队创建可复用的事件响应 playbook，涵盖分阶段步骤、决策树、升级标准、RACI 责任分配以及可直接用于 SOAR 的结构。它适用于事件响应流程文档、事件分诊工作流和便于审计的运营响应方案。

事件分诊

收藏 0GitHub 6.1k

building-patch-tuesday-response-process

作者 mukul975

building-patch-tuesday-response-process 帮助团队建立可重复的 Microsoft Patch Tuesday 流程，用于梳理公告优先级、评估风险、测试补丁、批准发布并跟踪合规性。适用于安全运营、漏洞管理，以及用于项目管理的 building-patch-tuesday-response-process。

项目管理

收藏 0GitHub 6.1k

secure-workflow-guide

作者 trailofbits

secure-workflow-guide 提供一套 5 步 Solidity 安全工作流：Slither 初筛、按功能的专项检查、可视化审查、安全属性记录，以及人工复核。它面向智能合约团队、审计人员和开发者，适合在部署或发布前使用一套可重复的 secure-workflow-guide 流程。

安全审计

收藏 0GitHub 4.9k

twitter-cli

作者 public-clis

twitter-cli 是一款以终端为核心的 Twitter/X skill，可用于查看时间线、书签、搜索结果、个人资料和推文详情；在完成认证后，还支持发帖及其他写入操作。适合用于社交媒体调研、账号监控，以及通过命令行进行轻量发布。

社交媒体

收藏 0GitHub 2.3k

azure-ai-contentunderstanding-py

作者 microsoft

azure-ai-contentunderstanding-py 是 Azure AI Content Understanding 的 Python 技能。它可从文档、图像、音频和视频中提取结构化内容，适用于 RAG 工作流和自动化场景。若你需要可靠的多模态提取、Azure 身份验证以及可重复、可直接接入流水线的输出，就适合使用它。

RAG 工作流

收藏 0GitHub 2.2k

wp-performance

作者 WordPress

使用 wp-performance 从后端排查并提升 WordPress 性能，无需浏览器界面。它支持先测量、后诊断的方式，适用于前台请求缓慢、后台页面、REST 路由和 WP-Cron 等场景，并提供关于 WP-CLI profile/doctor、通过 REST 头查看 Query Monitor、Server-Timing、数据库查询、autoloaded options、对象缓存、cron 和远程 HTTP 调用的指导。

性能优化

收藏 0GitHub 1.4k

wp-wpcli-and-ops

作者 WordPress

wp-wpcli-and-ops 技能用于 WP-CLI 下的 WordPress 运维：安全的 search-replace、db export/import、插件和主题操作、cron、缓存清理、多站点定向，以及可复用的后端开发自动化。

后端开发

收藏 0GitHub 1.4k

agents-sdk

作者 cloudflare

agents-sdk 可帮助你构建带有有状态对话、持久化执行、WebSocket 或流式聊天、MCP 集成、定时任务和浏览器自动化的 Cloudflare Workers 代理。这个 agents-sdk 技能重点面向安装决策、配置和实际使用，适用于现有或新建的 Workers 应用；只有在多代理系统确实符合 Cloudflare 运行时限制时，才会提供相应指导。

多 Agent 系统

收藏 0GitHub 1.3k

reddit-ads

作者 alinaqi

用于 Reddit Ads API 工作流的 reddit-ads 技能：广告系列创建、定向、转化跟踪和广告优化。安装 reddit-ads 指南，可更少凭经验猜测地管理账户层级、预算、受众以及基于 API 的优化。

广告优化

收藏 0GitHub 611

existing-repo