incident-runbook-templates

作者 wshobson

incident-runbook-templates 可帮助团队创建结构化的事故响应 runbook，为故障处理和运维 Playbook 提供清晰的分诊、缓解、升级、沟通与恢复步骤。

Stars32.5k

收录时间2026年3月30日

分类操作手册

安装命令

npx skills add wshobson/agents --skill incident-runbook-templates

编辑评分

该技能评分为 76/100，属于表现扎实的目录条目：用户可以获得内容充实、可直接套用的事故 runbook 结构与示例，但也应预期它更偏向文档型模板技能，而不是带有工具或自动化支持的可执行工作流。

76/100

亮点

frontmatter 和使用示例具备较强的触发性，覆盖支付故障、数据库事故以及 on-call onboarding 等场景。
运维内容扎实：该技能提供面向生产环境的 runbook 结构、严重级别定义，以及涵盖检测、分诊、缓解、解决和沟通的分步式事故响应内容。
具备真实的安装决策参考价值：主体内容详尽且并非占位文案，用户可以据此判断它是否适合用于沉淀面向具体服务的事故处置流程。

注意点

采用方式仅限模板驱动：除书面指导外，没有脚本、参考文件、资源或自动化辅助来进一步降低实际执行中的不确定性。
仓库信号中对工作流和约束的显式标记较少，因此在将这些模板适配到团队的具体升级规则和系统时，代理仍可能需要额外判断与解释。

Incident Runbook Templates 模板操作手册检查清单工作流 Sre Monitoring

概览

incident-runbook-templates 技能概览

incident-runbook-templates 能做什么

incident-runbook-templates 技能用于生成结构化的事故响应 Runbook，适用于服务宕机、性能降级、数据库问题以及其他运维故障。它的价值不只是“帮我写一份 Runbook”，而是产出一套可重复使用的格式，把影响范围、发现方式、分诊、缓解、升级、沟通和恢复这些关键环节组织清楚，让值班工程师在高压场景下也能直接照着执行。

谁适合使用这个技能

这个技能最适合需要跨团队统一 Playbook 的 SRE、平台团队、DevOps 工程师、工程经理和服务 owner。尤其适合这样的场景：你已经了解系统和常见故障模式，但希望更快地产出更标准化的文档。

它真正解决的是什么问题

大多数团队并不缺事故名称，真正困难的是把“口口相传”的经验沉淀成凌晨 3 点也能看懂、照做的操作步骤。incident-runbook-templates 正是为这个缺口设计的：把零散的运维知识整理成可执行的 Runbook，明确严重级别、步骤顺序和升级逻辑。

它和通用 Prompt 有什么不同

通用 Prompt 也能生成事故处理文档，但如果你要的是稳定、可复用的事故响应结构，这个技能更合适。源材料明确强调了生产环境常见的章节结构，例如 severity level 和 runbook 组织方式，这能减少你自己设计 Prompt 的工作量，也让输出更容易审核、横向比较和落地执行。

最适合的使用结果

当你希望做到以下事情时，适合使用 incident-runbook-templates：

起草一版服务宕机 Runbook
统一多个服务的 Playbook 格式
沉淀重复性事故的已知恢复路径
用带引导的流程帮助新值班工程师上手
把零散笔记整理成一致的事故文档

安装前需要知道的重要限制

这个技能看起来明显偏向模板生成。根据提供的仓库路径，它并没有附带脚本、校验工具或服务特定的参考资料。这意味着输出质量会高度依赖你提供的运维细节。如果你的环境里没有清晰的告警、负责人、阈值或恢复步骤，那么生成出来的 Runbook 可能看起来很完整，但实际执行价值仍然偏弱。

如何使用 incident-runbook-templates 技能

如何安装 incident-runbook-templates

从上级仓库路径安装：

npx skills add https://github.com/wshobson/agents --skill incident-runbook-templates

如果你的环境使用的是其他 skills loader，也请从同一个仓库添加该技能，并确认安装后的技能名精确为 incident-runbook-templates。

仓库里优先看什么

先看 plugins/incident-response/skills/incident-runbook-templates/SKILL.md。

这个文件是核心内容。根据仓库现有信息，这个技能没有额外的 resources/、rules/、scripts/ 或配套参考资料，所以几乎所有实现思路和使用说明都集中在 SKILL.md 里。

要让这个技能发挥效果，需要提供哪些输入

当你提供以下信息时，incident-runbook-templates 的效果最好：

服务或系统名称
事故类型
用户影响和业务影响
症状与告警来源
严重级别模型或预期优先级
已知的分诊检查项
安全的缓解动作
升级联系人或团队角色
沟通要求
退出标准与事后跟进要求

如果你只说“写一个数据库问题的 Runbook”，那结果大概率会比较泛。
如果你明确说明“Postgres primary replication lag，导致客户写入失败，并由 PagerDuty 告警触发”，输出就会更接近可执行文档。

如何把模糊目标改成高质量的 incident-runbook-templates Prompt

弱 Prompt：

Create a runbook for payment service incidents.

更强的 Prompt：

Use incident-runbook-templates to draft a runbook for payment API partial outage incidents. Include SEV classification guidance, Datadog alert triggers, first 15-minute triage steps, rollback checks for the last deploy, database dependency validation, when to page the payments team lead, customer communication points, and clear criteria for recovery and incident closure.

更强的版本之所以更好，是因为它补足了范围、信号来源、时间敏感动作、依赖关系、升级条件和完成标准。

适合 Playbook 的 incident-runbook-templates 使用流程

一个比较实用的 incident-runbook-templates for Playbooks 工作流如下：

一次只选一个事故模式，不要覆盖整个领域。
收集真实的告警名称、Dashboard、负责人和缓解限制。
结合你的服务上下文，让技能先生成一版 Runbook 草稿。
找一位处理过此类问题的值班工程师一起评审。
如有需要，在初稿之外补充环境特定的命令、链接和安全说明。
用历史事故时间线回放测试这份 Runbook。
把最终版本存到真正的响应人员能找到的位置。

这比一次性生成整套 Runbook 库更适合作为落地路径。

内置结构为什么在事故处理中有帮助

源内容明显强调了严重级别和标准化 Runbook 结构。这个点非常重要，因为人在高压状态下需要的是有顺序的信息。用这个技能生成的优秀 Runbook，应该能自然地从影响范围、发现方式，推进到初始分诊、缓解、升级、沟通和解决，而不是让读者自己推断流程。

哪些 Prompt 字段最能提升输出质量

如果可以，尽量把下面这些字段直接写进 Prompt：

Service: checkout-api
Incident type: elevated 5xx after deployment
Primary signals: Grafana error-rate alert, synthetic checkout failures
Customer impact: 40% of card payments failing
Dependencies: Postgres, Redis, payment gateway
Known safe actions: rollback app version, drain bad pods
Do not suggest: schema changes during incident
Escalate to: on-call SRE after 15 min, payments lead for SEV1/SEV2
Communications: status page update within 20 minutes for SEV1
Recovery criteria: error rate below 1%, queue backlog normal for 30 min

这些信息能帮助技能生成更安全、也更贴近真实环境的 Runbook。

什么样的 incident-runbook-templates 用法才算好

好的 incident-runbook-templates usage 应该是具体的、有边界的，并且考虑角色差异。输出结果应当能快速回答响应人员这六个问题：

如何识别这是哪类事故
第一时间该检查什么
哪些动作是安全可执行的
什么时候该升级
该如何对内对外沟通
什么时候才算真正恢复

如果生成的文档无法快速回答这六点，通常说明你的 Prompt 缺少关键运维细节。

这个技能在文档生命周期的哪个阶段最有价值

这个技能最适合用在初稿阶段和标准化阶段。除非你已经结合真实环境做过补充和审阅，否则它不适合直接作为最终权威文档。更准确地说，它是一个搭建 Runbook 骨架的工具，不是替代生产责任归属的方案。

常见采用障碍：虚假的安全感

incident-runbook-templates install 的主要风险不在技术安装，而在于误以为“格式完整的 Runbook”就等于“经过验证的 Runbook”。从仓库信息来看，它提供的是模板，而不是可执行检查。因此，在你把生成结果用于真实事故之前，仍然需要做运维评审、链接校验，必要时还要进行 game-day 测试。

incident-runbook-templates 技能 FAQ

incident-runbook-templates 适合新手吗？

适合，但前提是新手在更有经验的运维人员指导下使用，或者所在团队已经有较清晰的系统上下文。这个技能的结构化输出，确实能帮助新人更系统地思考 severity、升级和恢复流程。但新手自己无法凭空补足缺失的运维事实，因此审核环节仍然必不可少。

它比直接让 AI 写一份 Runbook 更好吗？

通常是的，尤其当你看重一致性时。incident-runbook-templates skill 比普通自由发挥式 Prompt 更容易产出结构清晰、格式统一的结果。对于多个团队共用类似 Playbook，或者文档需要被 incident manager 审核的场景，这一点尤其重要。

incident-runbook-templates 包含可执行自动化吗？

从这里展示的仓库信息来看，没有。这个技能路径下没有列出支持脚本或额外运维资产。你应该把它视为文档生成辅助工具，而不是自动化事故响应系统。

哪些事故类型最适合它？

最适合的是那些会重复出现、可理解、且边界相对清晰的运维事故，例如：

服务宕机
依赖故障
replication lag
资源耗尽
部署引发的回归问题
由告警驱动的性能降级

如果是完全新型、尚无已知响应模式的故障，就不太适合用模板驱动的方式生成。

哪些情况下不建议用 incident-runbook-templates？

以下情况建议先不要用：

你需要的是很深的厂商特定修复逻辑，而这部分已经在其他资料里完整覆盖
团队内部还没有统一的 severity 或升级模型
事故类型过于宽泛，比如“所有基础设施故障”
你现在立刻就需要一份经过验证的操作流程，且没有审核时间

这些情况下，应该先补齐系统知识，或者从现有内部 Runbook 基础上继续完善。

我可以用 incident-runbook-templates 给很多团队统一写 Playbook 吗？

可以，而且这正是它较强的应用场景之一。这个技能非常适合为多团队 Playbook 建立统一格式，前提是每个团队都要补充各自服务的告警、责任归属和获批动作，而不是把通用模板原样照抄。

如何改进 incident-runbook-templates 技能的使用效果

给技能喂运维事实，不要只给抽象意图

想提升 incident-runbook-templates 的输出质量，就要提供具体信号和约束。“优雅地处理停机”这种说法太空泛。像“如果 deploy 后错误率超过 20%，先检查 pod health，10 分钟内未恢复就 rollback，并通知 platform on-call”这样的描述，才能明显提高结果质量。

生成前先收窄事故范围

通常一类故障对应一份 Runbook，会比一份“大而全”的服务 Runbook 更有效。比如请求：

Redis connection saturation

而不是：

all cache incidents

范围越窄，分诊步骤、缓解安全性和升级判断通常就越清晰。

明确写出安全边界

很多事故文档之所以不可靠，是因为它们过早建议高风险操作。要明确告诉技能，响应人员在缓解过程中不能做什么，例如重启 stateful cluster、修改 schema，或未经批准直接清空队列。这会实质性提升输出的可信度。

把你的 severity 和升级模型带进去

源文已经明确强调了 incident severity levels，这一点要充分利用。如果你的组织有自定义阈值，就直接写进 Prompt，让生成出来的 Runbook 映射到真实的 paging 和沟通机制，而不是停留在泛泛的 SEV 标签层面。

不只要章节，还要决策点

一个更强的 incident-runbook-templates guide 请求，应该要求输出包含分支判断逻辑，例如：

什么时候该 rollback，什么时候继续排查
什么时候需要升级给其他团队
什么时候必须开始客户沟通
什么时候可以宣布恢复

这样生成的就不只是静态模板，而是更接近真实可用的响应辅助文档。

用真实历史事故做校验

拿到第一版草稿后，最好用一条已经结案的历史事故来回放验证。检查这份 Runbook 是否能够：

足够快地识别问题
优先关注正确的信号
避免不安全操作
在正确的时间点完成升级
清楚定义恢复标准

这是同时改进 Runbook 和 Prompt 的最快方式。

通过角色上下文提升输出效果

如果文档是给 primary on-call 用的，就明确说明；如果是给 incident commander 或 support team 用的，也要写清楚。不同角色需要的信息粒度并不一样。只要你指定目标操作者和决策权限，这个技能生成的 Playbook 通常会更贴近实际。

留意常见失败模式

常见的低质量输出包括：

检测步骤很泛，但没有真实告警
缓解建议缺少安全检查
升级章节没有时间点或负责人
沟通建议没有触发阈值
恢复标准模糊到无法验证

遇到这些问题时，不要泛泛地要求“写得更详细”，而应回到 Prompt，把缺失的运维数据补进去。

用“补缺口”方式迭代初稿

改进初稿的一个实用方法是：

先生成 Runbook
标出所有占位符、假设项和模糊动作
补充缺失的服务事实
只重跑薄弱章节
合并成最终审核版本

这种方法通常比反复重生整篇文档更高效，结果也更干净。

提升团队内 incident-runbook-templates 的落地率

如果你希望 incident-runbook-templates 真正在团队里用起来，建议标准化一份 Prompt 输入清单：服务、故障模式、告警、依赖、安全动作、升级、沟通和恢复标准。能把这些输入统一起来的团队，通常能更稳定地生成质量更高、可横向比较、返工更少的 Runbook。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

executive-onboarding-playbook

作者 deanpeters

使用 executive-onboarding-playbook skill，为新任 VP Product 或 CPO 制定一份诊断型 30-60-90 天计划。它能帮助你在做出改动前，先验证战略、团队健康状况和隐藏风险；对于 Playbooks 用户来说，这是一份实用的 executive-onboarding-playbook 上手指南。

操作手册

收藏 0GitHub 4.1k

create-boss

作者 vogtsw

create-boss 可将老板的聊天记录、笔记、邮件和项目材料整理成可复用的 skill，用于判断风格分析、向上管理和 persona 建模。你可以把它安装到 Claude Code 或 OpenClaw 中，构建真实的管理者画像或创业者原型，再结合纠错工作流与可复用、适配 Playbooks 的 boss 指导持续优化输出。

操作手册

收藏 0GitHub 45

verification-before-completion

作者 obra

verification-before-completion 是一个用于最终检查的技能，专门防止在缺乏依据时宣称任务已完成。本文说明它适合在什么场景使用、如何从 obra/superpowers 安装，以及怎样让每一条“已修复”“已通过”“可评审”等状态声明都对应到最新的验证证据。

Skill 验证

收藏 0GitHub 121.9k

team-communication-protocols

作者 wshobson

team-communication-protocols 为 agent 团队定义消息沟通规则，涵盖直发与广播消息的使用边界、计划审批、关闭流程，以及可复用模板，帮助实现更有序的 Agent Orchestration。

Agent 编排

收藏 0GitHub 32.5k

ship-learn-next

作者 softaworks

ship-learn-next 可将 transcript、文章和教程整理成小步快跑的 Ship → Learn → Next 行动循环。你可以用它把源材料转化为首个可交付练习、复盘提示，以及下一轮迭代，也支持用于 Playbooks workflows。

操作手册

收藏 0GitHub 1.3k

building-soc-playbook-for-ransomware

作者 mukul975

面向需要结构化勒索软件响应手册的 SOC 团队的 building-soc-playbook-for-ransomware 技能。它涵盖检测触发、遏制、清除、恢复，以及符合 NIST SP 800-61 和 MITRE ATT&CK 的审计就绪流程。可用于实用的手册编写、桌面推演和 Security Audit 支持。

安全审计

收藏 0GitHub 0

ralph-plan

作者 mastra-ai

ralph-plan 是一款规划技能，可将粗略的工程需求整理为结构化的 ralph-loop 命令，包含上下文、环境设置、任务、测试以及迭代澄清。

需求规划

收藏 0GitHub 22.6k

executing-plans

作者 obra

executing-plans 用于让代理按书面实施计划有序执行：先审阅计划，再按顺序完成任务、运行指定检查，遇到阻塞就停止，并交接给收尾工作流。最适合 Project Management 等以计划驱动交付的场景。

项目管理

收藏 0GitHub 121.8k

steve-jobs-perspective

作者 alchaincyf

steve-jobs-perspective 是一款以角色视角驱动的产品批判技能，借助 Steve Jobs 风格的启发式原则、研究资料和示例，帮助你打磨产品决策、信息表达与战略判断。

操作手册

收藏 0GitHub 78

pua-en

作者 tanweai

pua-en 是一个 GitHub skill，用于在 AI 工作陷入停滞时，通过结构化排查、更强的主动性和清晰的触发规则来推动问题升级处理。它适合在多次失败、只做被动调查，或调试走入死胡同时使用。请先查看 SKILL.md，并从 tanweai/pua 安装；当常规 prompting 不够用时，可将其用于代码、配置、部署、API 和研究类任务。

调试

收藏 0GitHub 0

pua-ja

作者 tanweai

pua-ja 是一款日语升级处理 skill，用于在代理陷入停滞时推动其更深入排查：先用工具再向用户提问，并在多次失败后主动复核结果。它适合希望为调试、研究、写作以及面向 Context Engineering 的 pua-ja 引入基于触发条件的行为层的团队。

上下文工程

收藏 0GitHub 0

mama

作者 tanweai

mama 是 pua skill 的旁白式变体：保留相同的核心规则，但把表达语气切换成中文“唠叨妈妈”风格。适合用于安装一套可复用的触发模式，支持持续排障、debugging 和 Prompt Writing 工作流，并继承原有的升级机制、checklist 与更强的跟进力度。

提示词写作

收藏 0GitHub 14.1k

shot

作者 tanweai

shot 是 tanweai/pua 中的单文件技能，适合用于完整上下文的人设注入、基于角色的提示设计，以及较强的 sub-agent 调用。尤其适合 Context Engineering 实验、P7/P8/P9/P10 角色框架，以及通过 skills/shot/SKILL.md 进行自包含式提示加载。

上下文工程

收藏 0GitHub 0

frontend-design

作者 anthropics

frontend-design 帮你把模糊的 UI 想法，转化为有审美导向的量产级界面，实现真实可用的前端代码，而不是千篇一律的 AI 风格。

UI 设计

收藏 1GitHub 105.2k

create-colleague

作者 titanwings

create-colleague 可将同事文档、聊天记录、邮件、截图、Feishu 和 DingTalk 数据整理为可编辑的 AI 技能，并分别产出工作风格与人物画像内容，还提供持续迭代的更新流程。

Skill 编写

收藏 1GitHub 747

hyperframes

作者 heygen-com

hyperframes 是一项工作流技能，用于在 HyperFrames 中构建基于 HTML 的视频合成。适用于需要结构化、以代码为先的 hyperframes 视频编辑场景，比如标题卡、叠加层、字幕、配音、音频驱动动效和场景转场。它更强调布局、时序和动画决策，而不是泛泛的只靠提示词生成视频请求。

视频编辑

收藏 0GitHub 2.7k