incident-runbook-templates

作者 wshobson

incident-runbook-templates 可協助團隊建立結構化的事件應變 runbook，針對服務中斷與營運 Playbooks，提供清楚的初步研判、緩解、升級通報、溝通與復原步驟。

Stars32.5k

評論0

加入時間2026年3月30日

分類操作手册

安裝指令

npx skills add wshobson/agents --skill incident-runbook-templates

編輯評分

這個技能的評分為 76/100，屬於表現穩健的目錄項目：使用者可取得內容完整、可直接套用的事件 runbook 結構與範例，但也應預期它偏向文件型範本技能，而非附帶工具或自動化支援的可執行工作流程。

76/100

亮點

可觸發性表現不錯，frontmatter 與使用範例涵蓋付款中斷、資料庫事件與 on-call 新人上手等情境。
營運內容相當扎實：此技能提供偏向正式環境的 runbook 結構、嚴重度分級，以及從偵測、初步研判、緩解、解決到溝通的逐步事件應變內容。
對安裝決策具有實際參考價值，因為主體內容篇幅充實、不是占位文字，足以讓使用者判斷是否適合用來記錄特定服務的事件處理流程。

注意事項

採用方式僅限範本導向：除了文字指引外，沒有可降低執行判斷成本的 scripts、reference files、resources 或 automation helpers。
從 repository 訊號來看，明確的 workflow／constraint 標記仍有限，因此在把範本調整成符合團隊實際升級規則與系統時，代理或使用者可能仍需自行解讀。

Incident Runbook Templates 模板操作手册检查清單工作流 Sre Monitoring

總覽

incident-runbook-templates 技能總覽

incident-runbook-templates 能做什麼

incident-runbook-templates 技能可協助你產出結構化的事件應變 Runbook，適用於服務中斷、效能劣化、資料庫問題，以及其他營運故障情境。它的價值不只是「幫我寫一份 runbook」，而是建立一種可重複使用的格式，完整涵蓋影響範圍、偵測方式、初步分流、緩解措施、升級流程、對外溝通與復原條件，讓 on-call 工程師在高壓情況下也能直接照著執行。

誰適合使用這個技能

這個技能特別適合需要跨團隊維持一致 Playbook 的 SRE、平台團隊、DevOps 工程師、工程經理與服務負責人。若你本來就熟悉系統與常見故障模式，但希望更快產出更標準化的文件，這個技能尤其有用。

這個技能真正解決的工作

多數團隊的問題不是不會替事件命名，而是無法把零散、口耳相傳的經驗，整理成凌晨 3 點也看得懂、照得做的流程。incident-runbook-templates 正是補這個缺口：把粗略的營運知識轉成實用 Runbook，明確標示嚴重度、步驟順序與升級邏輯。

它和一般提示詞有什麼不同

一般提示詞也能生成事件處理文字，但如果你要的是穩定、可預期的 incident response 結構，這個技能會更合適。從來源內容來看，它明確強調 production 風格的章節設計，例如 severity level 與 runbook 結構，能減少你自行設計 prompt 的成本，也讓產出更容易審查、比較與落地執行。

最適合的使用成果

當你想用 incident-runbook-templates 來做以下工作時，會特別合適：

起草某個服務中斷 runbook 的第一版
統一多個服務之間的 Playbook 格式
記錄重複發生事件的既有復原路徑
讓新加入 on-call 的工程師依照引導流程上手
把零散筆記整理成一致的 incident 文件

安裝前要先知道的重要限制

這個技能看起來以範本為核心。從提供的 repository 路徑來看，它沒有附帶 scripts、驗證工具，或特定服務的參考資料。這代表輸出品質很大程度取決於你提供的營運細節。若你的環境本身就沒有明確的 alert、owner、threshold 或 recovery step，最後產出的 runbook 可能看起來很完整，實際上卻不夠可執行。

如何使用 incident-runbook-templates 技能

如何安裝 incident-runbook-templates

請從上層 repository 路徑安裝：

npx skills add https://github.com/wshobson/agents --skill incident-runbook-templates

如果你的環境使用不同的 skills loader，請從同一個 repository 加入這個 skill，並確認安裝後的 skill 名稱精確為 incident-runbook-templates。

repository 內要先看哪個檔案

先從 plugins/incident-response/skills/incident-runbook-templates/SKILL.md 開始。

這個檔案是主要內容來源。從 repository 可見資訊判斷，這個技能沒有額外的 resources/、rules/、scripts/ 或配套參考資料，因此幾乎所有實作指引都集中在 SKILL.md。

這個技能要吃什麼輸入才會發揮效果

incident-runbook-templates 技能在你提供以下資訊時，效果最好：

服務或系統名稱
incident 類型
使用者影響與業務影響
症狀與 alert 來源
severity model 或預期優先級
已知 triage 檢查項目
安全可執行的緩解動作
升級聯絡人或團隊角色
溝通要求
結束條件與事後追蹤事項

如果你只說「幫我寫一份資料庫問題的 runbook」，結果通常會偏泛。若你具體寫成「Postgres primary replication lag，導致客戶寫入失敗，並有 PagerDuty alerts」，輸出就會實用得多。

怎麼把模糊需求變成更強的 incident-runbook-templates 提示詞

較弱的 prompt：
Create a runbook for payment service incidents.

較強的 prompt：
Use incident-runbook-templates to draft a runbook for payment API partial outage incidents. Include SEV classification guidance, Datadog alert triggers, first 15-minute triage steps, rollback checks for the last deploy, database dependency validation, when to page the payments team lead, customer communication points, and clear criteria for recovery and incident closure.

較強版本之所以效果更好，是因為它明確提供了範圍、訊號來源、時間敏感的處置動作、相依性、升級條件與完成判定規則。

適合 Playbook 的 incident-runbook-templates 工作流程

一個實際可行的 incident-runbook-templates for Playbooks 工作流程如下：

一次先選定一種 incident pattern，不要試圖涵蓋整個領域。
蒐集真實的 alert 名稱、dashboard、owner 與 mitigation 限制。
在帶入你的服務情境後，請技能先產出第一版 runbook。
找實際處理過這類問題的 on-call 工程師一起審閱。
如有需要，再在初稿之外補上環境專屬的 commands、links 與 safety notes。
用過去某次 incident 的時間線測試這份 runbook。
將最終版本存放到 responder 真正找得到的地方。

這會比一次想生成整套 runbook library，更適合作為導入路徑。

內建結構如何在 incident 當下發揮作用

來源內容顯示，這個技能非常重視 severity level 與標準化 runbook 結構。這點在 incident 當下很重要，因為 responder 在壓力下需要的是有順序的資訊。用這個技能產出的好 runbook，應該能從 impact 與 detection，自然銜接到初步 triage、mitigation、escalation、communication 與 resolution，而不是讓讀者自己猜流程。

哪些實用 prompt 欄位能提高輸出品質

若可以，請直接把以下欄位放進你的 prompt：

Service: checkout-api
Incident type: elevated 5xx after deployment
Primary signals: Grafana error-rate alert, synthetic checkout failures
Customer impact: 40% of card payments failing
Dependencies: Postgres, Redis, payment gateway
Known safe actions: rollback app version, drain bad pods
Do not suggest: schema changes during incident
Escalate to: on-call SRE after 15 min, payments lead for SEV1/SEV2
Communications: status page update within 20 minutes for SEV1
Recovery criteria: error rate below 1%, queue backlog normal for 30 min

這些細節能幫助技能產出更安全、也更貼近實況的 runbook。

良好的 incident-runbook-templates 使用方式長什麼樣子

好的 incident-runbook-templates usage 應該具備明確範圍、清楚邊界，並且對角色有意識。產出的文件應該能讓 responder 快速回答以下問題：

怎麼辨識這個 incident
第一時間要先檢查什麼
哪些動作是安全可做的
什麼時候要升級
要如何溝通
什麼情況才算真正解決

如果生成的文件無法快速回答這六件事，通常代表你的 prompt 缺少必要的營運細節。

這個技能在文件生命週期中最有價值的階段

這個技能最適合用在第一版起草與格式標準化的早期階段。若沒有再經過審閱並補足真實環境細節，它不太適合作為最終權威文件。比較好的理解方式是：它是 runbook scaffolding 工具，不是 production ownership 的替代品。

常見導入阻礙：虛假的信心

incident-runbook-templates install 最大的風險不在技術安裝，而在於誤以為格式漂亮的 runbook 就等於經過驗證的 runbook。由於這個 repository 看起來提供的是模板，而非可執行的檢查機制，所以在正式用於 live incident 之前，你仍然需要營運審查、連結驗證，甚至 game-day 測試。

incident-runbook-templates 技能 FAQ

incident-runbook-templates 適合初學者嗎？

可以，但前提是初學者要和較有經驗的 operator 協作，或至少有既有系統背景可依循。這套結構有助於新工程師建立對 severity、escalation 與 recovery 的思考方式。不過，初學者無法單靠自己補齊缺少的營運真相，因此審查仍然不可少。

這會比直接叫 AI 寫一份 runbook 更好嗎？

通常會，特別是當你重視一致性時。incident-runbook-templates skill 比一般自由發揮的 prompt 更能產生清楚且固定的回應結構。當多個團隊需要相似的 Playbook，或文件會由 incident manager 審閱時，這點尤其重要。

incident-runbook-templates 有包含可執行的自動化嗎？

從目前看到的 repository 證據來看，沒有。這個 skill 路徑下看不到支援 scripts 或其他額外的營運資產。因此應把它視為文件生成輔助工具，而不是自動化 incident response 系統。

哪些 incident 類型最適合？

最適合的是那些會重複發生、可理解、而且邊界相對明確的 incident：

服務中斷
相依服務故障
replication lag
資源耗盡
deployment 相關回歸問題
alert 驅動的效能劣化

如果是完全新型、沒有既知應對模式的故障，就比較不適合用模板導向的方式生成。

什麼情況不該使用 incident-runbook-templates？

以下情況建議先不要用：

你需要的是很深的 vendor-specific remediation 邏輯，而且別處已經寫得很完整
你的團隊尚未建立一致的 severity 或 escalation model
incident 類型過於寬泛，例如「所有基礎設施故障」
你需要的是一份立刻可用、且無暇審查的已驗證操作流程

在這些情況下，應先整理系統知識，或從既有的內部 runbook 基礎出發。

我可以用 incident-runbook-templates 來做跨多團隊的 Playbook 嗎？

可以，而且這正是它相對強的使用場景之一。這個技能很適合為各團隊建立共享的 Playbook 格式，但前提是每個團隊都要補上自己服務專屬的 alerts、ownership 與核准動作，而不是把通用模板原封不動照抄。

如何改善 incident-runbook-templates 技能的輸出

提供營運事實，不要只給抽象意圖

若要改善 incident-runbook-templates 的輸出，請餵它具體的訊號與限制條件。像「妥善處理停機」這種說法太空泛；但像「若 deployment 後錯誤率超過 20%，先驗證 pod health，10 分鐘內未恢復就 rollback，並通知 platform on-call」這種描述，就能大幅提升結果品質。

生成前先縮小 incident 範圍

通常一種 failure mode 對應一份 runbook，會比一份包山包海的服務 runbook 更有效。請求時可改成：

Redis connection saturation

而不是：

all cache incidents

範圍越聚焦，triage 步驟、mitigation 安全性與 escalation 清晰度通常都會更好。

明確寫出安全邊界

很多 incident 文件失敗，不是因為沒建議動作，而是太早建議高風險動作。請直接告訴技能在 mitigation 期間哪些事情不能做，例如重啟 stateful cluster、變更 schema，或未經批准就清空 queue。這會實質提升輸出的可信度。

把你的 severity 與 escalation model 一起提供

來源文字本來就很強調 incident severity level，這點應該善用。如果你的組織有自訂 threshold，請在 prompt 裡明確提供，讓 runbook 對應真實的 paging 與 communication 行為，而不是停留在通用的 SEV 標籤。

不只要求章節，還要要求決策點

更強的 incident-runbook-templates guide 請求，會要求它寫出分支判斷邏輯：

何時應 rollback，何時應繼續調查
何時應升級給其他團隊
何時必須對客戶溝通
何時可以宣告 recovery

這能把靜態模板變成更好用的應變輔助。

用真實過往 incident 驗證

完成第一版後，請拿一個已結束的 incident 來測試這份 runbook。檢查生成的步驟序列是否能：

夠快偵測出問題
優先關注正確的訊號
避免不安全的操作
在正確時間升級
清楚定義 recovery

這是同時改善 runbook 與 prompts 的最快方法。

加入角色專屬情境，輸出會更好

如果文件是給 primary on-call 用的，就明講。如果是給 incident commander 或 support team 用的，也請直接寫出來。不同角色需要的細節層級不同。當你明確指定目標操作者與決策權限時，這個技能產出的 Playbook 會更貼合實際。

留意常見失敗模式

常見的弱輸出包括：

偵測步驟很泛，沒有真實 alerts
mitigation 建議缺少安全檢查
escalation 段落沒有時間點或 owner
communication 指引沒有觸發 threshold
recovery criteria 過於模糊，無法驗證

遇到這些情況時，應該回頭補齊缺少的營運資料，而不是只籠統要求「寫更詳細」。

用補缺口的方式迭代

改善初稿的一個實用做法是：

先生成 runbook
標出所有 placeholder、假設與模糊動作
補上缺少的服務事實
只重跑偏弱的章節
整合成最後審閱版

這通常比一再重生整份文件，效果更乾淨。

提升團隊內 incident-runbook-templates 的採用效果

如果你希望 incident-runbook-templates 真正被團隊持續使用，建議標準化一份 prompt intake checklist：服務、failure mode、alerts、dependencies、safe actions、escalation、communication 與 recovery criteria。能把這些輸入標準化的團隊，通常能以更少返工，得到品質更高、也更容易互相比較的 runbook。

評分與評論

尚無評分

分享你的評論

登入後即可為這項技能評分並留言。

0/10000

此分類中的更多技能

executive-onboarding-playbook

作者 deanpeters

使用 executive-onboarding-playbook skill，為新任 VP Product 或 CPO 設計具診斷性的 30-60-90 天上任計畫。它能協助你在採取變更前，先驗證策略、團隊健康度與潛在風險；並為 Playbooks 使用者提供實用的 executive-onboarding-playbook 指南。

操作手册

收藏 0GitHub 4.1k

create-boss

作者 vogtsw

create-boss 可將老闆的對話、筆記、電子郵件與專案資料整理成可重複使用的 skill，用於判斷輔助、向上管理與人物模型建立。你可以把它安裝到 Claude Code 或 OpenClaw，中建立真實主管檔案或創業者原型，再透過修正流程與可重用、適用於 Playbooks 的老闆指引持續優化輸出。

操作手册

收藏 0GitHub 45

verification-before-completion

作者 obra

verification-before-completion 是一項結案前最終檢查技能，用來阻止沒有根據的完成宣告。本文說明何時該用、如何從 obra/superpowers 安裝，以及如何讓每一種狀態宣稱都對應到最新的驗證證據。

Skill 验证

收藏 0GitHub 121.9k

team-communication-protocols

作者 wshobson

team-communication-protocols 為 agent 團隊定義訊息傳遞規則，涵蓋直接訊息與廣播的使用時機、計畫核准、關閉流程，以及可重複使用的範本，協助進行協調一致的 Agent Orchestration。

Agent 編排

收藏 0GitHub 32.5k

ship-learn-next

作者 softaworks

ship-learn-next 可把逐字稿、文章與教學內容整理成小型的 Ship → Learn → Next 行動循環。你可以用它把來源素材轉成第一版可交付實作、反思提示，以及下一輪迭代內容，也支援 Playbooks workflows。

操作手册

收藏 0GitHub 1.3k

building-soc-playbook-for-ransomware

作者 mukul975

building-soc-playbook-for-ransomware 是一款適合需要結構化勒索軟體應變手冊的 SOC 團隊使用的技能。內容涵蓋偵測觸發條件、隔離、清除、復原，以及符合 NIST SP 800-61 與 MITRE ATT&CK 的稽核就緒流程。可用於實作可落地的 playbook 建置、桌上演練，以及 Security Audit 支援。

安全稽核

收藏 0GitHub 0

ralph-plan

作者 mastra-ai

ralph-plan 是一個規劃型 skill，可將粗略的工程需求整理成結構化的 ralph-loop 指令，並納入背景脈絡、設定、任務、測試與逐步釐清流程。

Requirements Planning

收藏 0GitHub 22.6k

executing-plans

作者 obra

executing-plans 可協助代理依照書面實作計畫推進工作：先完整審閱計畫、按順序執行任務、執行指定檢查、遇到阻礙就停止，並交接給收尾流程。特別適合 Project Management 與其他以計畫驅動的交付情境。

專案管理

收藏 0GitHub 121.8k

steve-jobs-perspective

作者 alchaincyf

steve-jobs-perspective 是一個以角色視角驅動的產品批判技能，結合 Steve Jobs 風格的判斷準則、研究檔案與範例，用來強化產品決策、訊息表達與策略思考。

操作手册

收藏 0GitHub 78

pua-en

作者 tanweai

pua-en 是一個 GitHub skill，適合在 AI 工作卡關時進行升級處理，透過結構化疑難排解、更主動的推進方式，以及明確的觸發規則來打破僵局。當你遇到反覆失敗、只停留在被動排查，或除錯走入死胡同時，可啟用這個 skill。安裝前請先閱讀 SKILL.md，並從 tanweai/pua 安裝；當一般 prompting 已不足以解決問題時，可將它用於程式碼、設定、部署、API 與研究類任務。

调试

收藏 0GitHub 0

pua-ja

作者 tanweai

pua-ja 是一個日文升級處理 skill，目的是在代理卡關時，促使其更深入調查、先使用工具再向使用者提問，並在多次失敗後重新驗證結果。適合想為除錯、研究、寫作，以及用於 Context Engineering 的 pua-ja 建立觸發式行為層的團隊。

上下文工程

收藏 0GitHub 0

mama

作者 tanweai

mama 是 `pua` skill 的旁白風格變體，保留相同核心規則，但改用中文碎念媽媽口吻。適合用來安裝可重複使用的觸發模式，支援持續性的疑難排解、除錯與 Prompt Writing 工作流程，並沿用既有的升級機制、檢查清單與更強的後續追蹤。

提示词写作

收藏 0GitHub 14.1k

shot

作者 tanweai

shot 是來自 tanweai/pua 的單檔技能，主打完整上下文 persona 注入、角色式提示，以及強化 sub-agent 使用。適合用於 Context Engineering 實驗、P7/P8/P9/P10 角色框架，以及透過 skills/shot/SKILL.md 載入自包含提示。

上下文工程

收藏 0GitHub 0

frontend-design

作者 anthropics

frontend-design 協助你把模糊的 UI 構想變成具有明確美感方向的獨特、可上線前端介面，產出真實可用的 frontend 程式碼，減少千篇一律的 AI 風格。

UI 設計

收藏 1GitHub 105.2k

create-colleague

作者 titanwings

create-colleague 可將同事文件、聊天紀錄、電子郵件、截圖、Feishu 與 DingTalk 資料整理成可編輯的 AI 技能，並分別產出工作與人物設定內容，也提供後續持續優化的更新流程。

Skill 編寫

收藏 1GitHub 747

hyperframes

作者 heygen-com

hyperframes 是一個工作流程技能，用於在 HyperFrames 中建立以 HTML 為基礎的影片組成內容。當你需要結構化、以程式碼為核心的 hyperframes 來處理影片剪輯時，可用於標題卡、疊加圖層、字幕、旁白、音訊反應動態，以及場景轉場。它更重視版面配置、時間安排與動畫決策，而不是泛用的、只靠提示詞的影片需求。

视频编辑

收藏 0GitHub 2.7k