agent-introspection-debugging

作者 affaan-m

agent-introspection-debugging 技能提供了一套结构化的 AI agent 自我调试工作流：先捕获失败状态，再诊断可能原因，接着执行一次受控恢复步骤，最后输出一份可供人阅读的 introspection 报告。适合用于循环、重试频繁或容易漂移的运行场景，不建议用于常规验证。

Stars156k

收录时间2026年4月15日

分类调试

安装命令

npx skills add affaan-m/everything-claude-code --skill agent-introspection-debugging

编辑评分

该技能得分 81/100，因为它提供了一个清晰、可触发的 agent 故障自调试工作流，操作细节也足够丰富，适合目录列表中的决策参考。对目录用户来说，如果希望为循环、漂移或反复失败的运行建立一条结构化恢复路径，这个技能值得安装；不过也要注意它的配套文件较少，适用范围说明相对有限。

81/100

亮点

针对重复失败、循环限制、token 消耗、漂移以及可恢复的工具问题，触发条件写得很明确。
四阶段工作流具体清晰，覆盖失败捕获、诊断、受控恢复和报告，能减少 agent 的试错成本。
操作定位很明确：它强调这是一个用于自我调试、在升级处理前使用的工作流技能，而不是隐藏的运行时机制。

注意点

没有包含脚本、引用或支持文件，用户只能依赖 `SKILL.md` 中的工作流。
它明确排除了一些用途，例如代码变更后的功能验证，以及更窄的框架专属调试，因此覆盖面有限。

Ai Agents 工作流 Claude Code Context

概览

agent-introspection-debugging 技能概览

agent-introspection-debugging 适合解决什么问题

agent-introspection-debugging 是一套面向 AI agent 的结构化自我调试工作流，适用于 agent 出现失败、循环重试、反复尝试却没有进展，或逐渐偏离任务目标的场景。它不是简单让模型“再努力一点”，而是引导 agent 先暂停、记录当前失败状态、判断最可能的原因、执行一个小范围的恢复动作，并输出一份可读的调试报告。

谁适合安装这个技能

这个技能适合已经在运行多步骤 AI 工作流的开发者、agent 构建者和运维人员，尤其是那些流程里会涉及工具、文件或执行环境的人群。它在“操作层面”的失败场景中最有价值，而不只是纯逻辑错误，比如：反复错误使用工具、上下文膨胀、环境不一致，或者卡在无效重试循环里。如果你想要的是一种可复用的恢复方法，而不是再加一个泛泛的调试提示词，那么 agent-introspection-debugging 会很适合。

它和普通调试提示词有什么不同

agent-introspection-debugging 最大的区别在于“收敛与约束”。它会推动 agent 停止盲目重试，先把发生了什么记录清楚，再选择一个更小、更可控的纠偏动作，而不是继续消耗 token 不断升级问题。它的边界也很明确：这是一个用于 agent 故障恢复的技能，不是完整功能验证工具，也不是特定框架的深度调试方案；在后两类场景里，更垂直的技能通常会更有效。

如何使用 agent-introspection-debugging 技能

安装背景与优先阅读位置

通过你平常的 skills 工作流，为 affaan-m/everything-claude-code 仓库安装 agent-introspection-debugging 技能。安装后，优先阅读 skills/agent-introspection-debugging/SKILL.md；这个仓库里，这个技能几乎完全通过这个文件来呈现，没有额外脚本或参考资源把关键行为藏在别处。这也意味着，你在决定是否采用 agent-introspection-debugging 时，重点应该放在它的工作流设计本身，而不是期待额外自动化能力。

什么时候调用 agent-introspection-debugging

建议在一次运行已经明显失败或质量下降之后再使用 agent-introspection-debugging，尤其适合下面这些情况：

触发 loop-limit 或 max-tool-call 失败
多次重试但没有任何实质进展
prompt 漂移或上下文不断变长，导致输出质量下滑
文件系统状态或运行环境状态不一致
工具调用失败，但看起来可以先诊断，再通过更小的下一步恢复

不要把它当成默认编码流程来用。agent-introspection-debugging 的价值，主要体现在 agent 已经“脱轨”且需要一种有纪律的恢复方式时。

什么样的输入最容易产出高质量结果

给这个技能输入一个紧凑的“失败信息包”，而不是只说一句“debug this”。高质量输入通常包括：

原始目标
预期结果
实际失败表现
最后一次有意义的 tool-call 序列
相关错误文本或 stack trace
失败前刚发生了什么变化
当前约束条件，例如“不要改超过一个文件”或“不能访问网络”

示例提示词：
“Use agent-introspection-debugging for Debugging. Goal: update auth middleware tests. Expected: green test run. Actual: agent retried npm test 6 times, then edited unrelated files. Error: MODULE_NOT_FOUND in tests/auth.spec.ts. Last useful actions: edited jest.config.js, ran tests, listed files. Constraints: no dependency upgrades, keep changes minimal. Produce failure capture, diagnosis, one contained recovery action, and a short introspection report.”

这种写法更有效，因为它给了技能足够的证据，能把真正的根因和无关噪声区分开来。

实际工作流与输出预期

一个好的 agent-introspection-debugging usage 使用模式通常是：

只有在出现明确失败模式后才触发它。
在任何新的修改或重试之前，先强制执行失败记录步骤。
只要求一个受控的恢复动作，而不是大范围重写。
在允许 agent 继续执行之前，先审阅 introspection report。

在实际使用中，agent-introspection-debugging 最强的地方，是帮助你把“下一步”收窄：确认环境假设、检查一个可疑文件，或者撤销一次有害改动。如果你直接要求它“把所有问题都 debug 掉”，反而会失去这个技能最有价值的收敛优势。

agent-introspection-debugging 技能常见问题

这个技能比普通调试提示词更好吗？

大多数情况下是的，前提是问题出在 agent 行为本身，而不只是代码缺陷。普通提示词往往会让模型继续重试；而 agent-introspection-debugging skill 更擅长及时叫停循环、保留失败证据，并生成一份人类可以快速审阅的报告。

agent-introspection-debugging 适合新手吗？

可以用，但它更适合那些能够识别 prompt 漂移、工具循环、环境不一致这类症状的人。如果你是刚入门，agent-introspection-debugging 依然有帮助，因为它会强制引入一种类似 checklist 的结构；不过，如果你能提供具体的失败证据，而不是宽泛描述，效果会明显更好。

什么情况下不该使用 agent-introspection-debugging？

如果只是做日常代码验证、最终 QA，或者正在处理某个框架下非常具体的调试问题，而且已经有更专业的技能可用，那就不建议用 agent-introspection-debugging。另外，如果问题在当前运行环境里显然无法恢复，比如权限缺失，或基础设施不可用且 agent 无法在当前会话内修复，也应该跳过它。

仓库里包含自动化能力，还是只有操作指引？

从仓库现有内容来看，这个技能的核心证据在 SKILL.md，而不是辅助脚本或规则文件。这个事实不一定是缺点，但它意味着 agent-introspection-debugging install 并不会自动替你执行约束或检查。你真正采用的是一套需要 agent 自觉遵守的工作流。

如何改进 agent-introspection-debugging 技能使用效果

提供更好的证据，而不是更长的提示词

影响输出质量最大的杠杆，是把失败记录得更准确。尽量提供明确的停止点、失败命令、最近的修改以及当前约束；无关历史则尽量省略。agent-introspection-debugging guide 的效果，会在模型能够直接对比“本来想做什么”和“实际走向了哪里”时明显提升，而不是被噪声拖慢。

将诊断与恢复动作拆开请求

一个常见失败模式，是把诊断和立即修复混在一起。要提升 agent-introspection-debugging usage 的效果，最好明确要求输出：

最可能的失败模式
置信度
最小下一步动作
执行该动作后的成功检查方式

这样可以避免 agent 从表面症状直接跳到大而不稳的猜测性修复。

用收敛规则阻止重复性破坏

如果之前的运行已经把仓库改得更糟，可以加入这些限制：

先检查，再编辑
最多只改一个文件
没有新证据时，不重复执行同一命令
说明为什么下一步比继续重试更安全

这些约束与 agent-introspection-debugging for Debugging 的目标高度一致：在保留可恢复性的前提下，减少无效动作和重复伤害。

基于第一版报告迭代，而不是从头重来

如果第一版 introspection report 质量不高，不要直接用一条全新的提示词从头开始。更好的做法是让 agent 补齐缺失部分，比如：“重新陈述根因候选项”、“把证据和假设分开”、“提出一个更小的恢复动作”。这样能保留原有的结构化循环，通常也比彻底放弃这个技能、更容易在第二轮拿到更好的结果。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

systematic-debugging

作者 obra

systematic-debugging 是一项以根因为先的调试技能，适用于 bug、偶发测试失败、构建失败和各种异常行为。你可以先了解它的四阶段工作流、配套文件以及适用时机，再决定是否在提出修复方案前优先使用它。

调试

收藏 0GitHub 121.8k

hunt

作者 tw93

hunt 是一款以调试为先的技能，会强制你在动手修复之前先做根因思考。适用于错误、崩溃、回归、测试失败、缓存过期问题、截图 bug，以及“以前能用”的故障。它帮助你找到可验证的假设、收集证据，并避免凭感觉猜测。不适用于代码审查或新功能开发。

调试

收藏 0GitHub 5.1k

typescript-magician

作者 mcollina

typescript-magician 适合解决棘手的 TypeScript 问题：深层泛型设计、严格类型清理、编译器错误、类型守卫以及高级类型转换。当你需要类型安全的代码生成、`any` 清理、`infer`、条件类型、映射类型、模板字面量类型、品牌类型或工具类型时，可使用 typescript-magician。

代码生成

收藏 0GitHub 1.8k

web-perf

作者 cloudflare

web-perf 使用 Chrome DevTools MCP 分析 Web 性能。它可衡量 Core Web Vitals、基于 trace 的加载问题、阻塞渲染的资源、布局偏移、缓存问题以及可访问性缺口。适合用于性能优化、慢页面排障，以及依赖最新文档和实时 trace 的基于证据的 web-perf 指南式工作流。

性能优化

收藏 0GitHub 1.3k

playwright-best-practices

作者 currents-dev

playwright-best-practices 是一项面向 Playwright + TypeScript 的技能，聚焦编写稳定测试、减少 flaky 问题、优化认证流程、判断 fixtures 与 page objects 的取舍，并基于仓库中的实战指导覆盖 CI、popups、mobile、iframes、websockets 和多用户场景。

测试自动化

收藏 0GitHub 174

autofix

作者 coderabbitai

autofix 可安全地将 CodeRabbit 的 PR review thread 反馈转化为当前 GitHub 分支上的已验证代码改动。当你需要面向分支、支持明确审批的 CodeRabbit Code Review 工作流，而不是一个通用的按提示修修补补工具时，就该使用这个 autofix skill。它会检查仓库状态、读取可信指令，并且只应用经过验证的修复。

代码评审

收藏 0GitHub 0

sentry

作者 openai

sentry skill 是一款只读的 Observability 工具，可用于查看 Sentry 的 issue、event 和 health 信号。你可以用它排查最近的生产错误、汇总影响范围，并通过结构化输出运行可重复的基于 CLI 的查询。它最适合需要一份实用的 sentry 分诊指南，而不是全面可观测性总览的场景。

可观测性

收藏 0GitHub 0

aspire

作者 github

面向 Deployment 的 aspire skill 安装与使用指南，涵盖 AppHost 设置、本地运行、Dashboard 调试与 publish 工作流。内容包括 CLI 用法、参考资料、故障排查，以及 publish 与 deploy 之间的关键边界。

部署

收藏 0GitHub 0

property-based-testing

作者 trailofbits

用于在多种语言和智能合约中编写、审查和改进 PBT 的 property-based-testing 技能指南。使用这份 property-based-testing 指南来识别 roundtrip、idempotence、invariant、parser、validator 和 normalization 场景，选择 generators，并判断何时 property-based-testing 比 example-based tests 更有优势。

Skill 测试

收藏 0GitHub 5k

terminal-ops

作者 affaan-m

terminal-ops 是一项面向终端工作的“先证据、后执行”仓库操作技能。你可以用它来运行命令、检查 git 状态、排查 CI 或构建问题，并在有明确验证结果的前提下做小范围修复。这个 terminal-ops 指南能帮助 Code Editing 和仓库操作减少猜测。

代码编辑

收藏 0GitHub 156.3k

investigate

作者 garrytan

investigate 技能用于指导对故障、偶发性问题或异常行为进行系统化排查和根因分析。适用于代码评审、事故分诊、缺陷修复，以及“昨天还好好的”这类场景——当你需要先拿到证据再改代码时，它尤其有用。它遵循四阶段工作流：investigate、analyze、hypothesize、implement。

代码评审

收藏 0GitHub 91.8k

browser-testing-with-devtools

作者 addyosmani

browser-testing-with-devtools 可让智能体通过 Chrome DevTools MCP 测试并调试真实浏览器中的行为。你可以用它检查 DOM、捕获 console 报错、分析网络请求、进行性能分析，并在真实浏览器环境中验证修复是否生效。

测试自动化

收藏 0GitHub 18.7k

libfuzzer

作者 trailofbits

libfuzzer 是一款面向用 Clang 编译的 C/C++ 项目的 coverage-guided fuzzer。这个 libfuzzer skill 可帮助你完成安装、理解并使用完整工作流：构建 harness、运行 sanitizers，并以最小配置快速启动一轮实用的安全审计。

安全审计

收藏 0GitHub 5k

vue-debug-guides

作者 vuejs-ai

vue-debug-guides 是一项面向 Vue 3 调试的技能，适合定位运行时错误、告警、异步组件失败、响应式问题，以及 SSR 或 hydration 不匹配，并提供有针对性的参考式修复方案。

调试

收藏 0GitHub 2.1k

ios-simulator-skill

作者 conorluddy

ios-simulator-skill 是一款面向任务的 iOS Simulator skill，支持基于可访问性的应用启动、导航、文本输入、手势操作、截图、状态捕获、构建/测试循环以及 Simulator 生命周期控制。它旨在为 AI 代理、QA 工程师和开发者减少在可重复的 iOS 测试自动化中的试错成本。

测试自动化

收藏 0GitHub 0

datadog-cli

作者 softaworks

datadog-cli 可帮助 agent 执行 Datadog CLI 工作流，处理 logs、traces、metrics、services 和 dashboards。你可以了解如何配置 DD_API_KEY 与 DD_APP_KEY，使用 `npx @leoflores/datadog-cli` 命令，并掌握 `--site` 的用法及 dashboard 更新的安全注意事项，以便进行 incident triage。

可观测性

收藏 0GitHub 0