incident-runbook-templates

作成者 wshobson

incident-runbook-templates は、障害対応や運用 Playbooks 向けに、トリアージ、緩和策、エスカレーション、コミュニケーション、復旧までを明確に整理した構造化インシデント対応 runbook の作成を支援します。

スター32.5k

お気に入り0

追加日2026年3月30日

カテゴリーPlaybooks

インストールコマンド

npx skills add wshobson/agents --skill incident-runbook-templates

編集スコア

このスキルの評価は 76/100 で、ディレクトリ掲載としては堅実な内容です。実務ですぐ使いやすいインシデント runbook の構成例やサンプルがしっかり用意されている一方、ツール連携や自動化を備えた実行型ワークフローではなく、ドキュメント中心のテンプレート集として使う前提です。

76/100

強み

frontmatter と利用例から用途を判断しやすく、決済障害、データベース障害、オンコール担当者のオンボーディングなどのシナリオを含めて発火条件が明確です。
運用実務に即した内容が充実しており、本番運用向けの runbook 構成、重大度レベル、検知・トリアージ・緩和・解決・周知までを段階的にカバーしたインシデント対応手順を提供します。
本文が十分に具体的でプレースホルダー的ではないため、サービス固有の障害対応手順を文書化したいユーザーが、自社に適しているかを導入前に判断しやすい点に価値があります.

注意点

導入はテンプレート前提に限られます。記述されたガイダンス以外に、実行時の迷いを減らすための scripts、reference files、resources、automation helpers は用意されていません。
リポジトリ上のシグナルを見る限り、明示的なワークフローや制約条件の手がかりは限定的です。そのため、テンプレートをチーム固有のエスカレーションルールや運用システムに合わせる際には、追加の解釈や調整が必要になる可能性があります。

Incident Runbook Templates Template Playbook Checklist Workflow Sre Monitoring

概要

incident-runbook-templates スキルの概要

incident-runbook-templates でできること

incident-runbook-templates スキルは、障害停止、性能劣化、データベース問題、そのほかの運用障害に対する、構造化されたインシデント対応 Runbook を作成するのに役立ちます。価値は単に「Runbook を書く」ことではありません。影響範囲、検知、トリアージ、緩和策、エスカレーション、コミュニケーション、復旧までを、プレッシャーのかかる状況でもオンコール担当がそのまま使える形で、再利用しやすい定型フォーマットに落とし込める点にあります。

このスキルが向いている人

このスキルは、チーム間で一貫した Playbook を整備したい SRE、プラットフォームチーム、DevOps エンジニア、エンジニアリングマネージャー、サービスオーナーに特に向いています。とくに、対象システムや障害パターンはすでに把握しているものの、文書化をもっと速く、標準化された形で進めたい場合に有効です。

本当に解決したい仕事

多くのチームは、インシデントに名前を付けることでは困っていません。困るのは、属人的な運用知識を、深夜 3 時でも迷わず使える明確な手順に変えることです。incident-runbook-templates はまさにそのギャップを埋めるためのもので、断片的な運用知識を、重大度の整理、手順の順序、エスカレーション判断を備えた実践的な Runbook に変換する用途に向いています。

汎用プロンプトとの違い

汎用プロンプトでも、インシデント対応っぽい文章は生成できます。ただ、予測可能でレビューしやすい incident response の型が欲しいなら、このスキルの方が適しています。元の内容を見ると、重大度レベルや Runbook 構成のような、本番運用を意識したセクション設計がはっきり重視されています。これにより、毎回プロンプト設計に手間をかけずに済み、出力の比較・レビュー・実運用への落とし込みがしやすくなります。

向いている成果物

次のような場面では incident-runbook-templates を使う価値があります。

サービス障害向け Runbook の初稿を作りたい
複数サービスにまたがる Playbook を標準化したい
繰り返し起きるインシデントの既知の復旧パターンを文書化したい
新しいオンコール担当者向けに、誘導付きの手順書を整備したい
バラバラなメモを、一貫したインシデント文書にまとめたい

インストール前に知っておくべき制約

このスキルはテンプレート中心の構成に見えます。提示されているリポジトリパスには、スクリプト、検証ツール、サービス固有の参照情報は含まれていません。つまり、出力品質は、入力する運用情報の具体性に大きく左右されます。環境側に明確なアラート、担当者、閾値、復旧手順がない場合、見た目は整っていても実運用では弱い Runbook になるおそれがあります。

incident-runbook-templates スキルの使い方

incident-runbook-templates のインストール方法

親リポジトリのパスからインストールします。

npx skills add https://github.com/wshobson/agents --skill incident-runbook-templates

別の skills loader を使っている場合も、同じリポジトリから追加し、インストール後のスキル名が正確に incident-runbook-templates になっていることを確認してください。

リポジトリで最初に読むべきファイル

まず plugins/incident-response/skills/incident-runbook-templates/SKILL.md を確認してください。

このファイルが中心となるアセットです。リポジトリ上の情報を見る限り、このスキルには追加の resources/、rules/、scripts/、補助リファレンスは見当たりません。つまり、実装や使い方のガイダンスのほぼすべてが SKILL.md に集約されています。

このスキルがうまく機能するために必要な入力

incident-runbook-templates スキルは、次の情報を与えると精度が上がります。

サービス名またはシステム名
インシデントの種類
ユーザー影響とビジネス影響
症状とアラートの発報元
重大度モデルまたは期待する優先度
既知のトリアージ項目
安全に実施できる緩和アクション
エスカレーション先の連絡先またはチームロール
コミュニケーション上の期待値
収束条件と事後対応

「データベース問題向けの Runbook を作って」とだけ依頼すると、汎用的な結果になりがちです。一方で「顧客の書き込み失敗を伴う Postgres primary replication lag と PagerDuty アラート」のように具体化すると、出力はかなり実務的になります。

曖昧な依頼を、強い incident-runbook-templates プロンプトに変える

弱いプロンプト:
Create a runbook for payment service incidents.

より強いプロンプト:
Use incident-runbook-templates to draft a runbook for payment API partial outage incidents. Include SEV classification guidance, Datadog alert triggers, first 15-minute triage steps, rollback checks for the last deploy, database dependency validation, when to page the payments team lead, customer communication points, and clear criteria for recovery and incident closure.

強い方のプロンプトが良いのは、対象範囲、シグナルの出所、時間に敏感な初動、依存関係、エスカレーション条件、完了判定まで含めているからです。

Playbook 向け incident-runbook-templates の実践ワークフロー

incident-runbook-templates for Playbooks を導入するなら、次の流れが現実的です。

ドメイン全体ではなく、1 つのインシデントパターンに絞る。
実際のアラート名、ダッシュボード、担当者、緩和時の制約を集める。
サービスの文脈を含めて、スキルに初稿の Runbook を作らせる。
その障害を実際に扱ったことのあるオンコール担当者にレビューしてもらう。
必要に応じて、環境固有のコマンド、リンク、安全上の注意を初稿の外から補う。
過去のインシデントのタイムラインに照らして Runbook を検証する。
最終版は、対応者が実際に見つけられる場所に保存する。

一度で Runbook ライブラリ全体を生成しようとするより、この導入手順の方がうまく定着します。

組み込み構造がインシデント対応で役立つ理由

元の記述からは、重大度レベルと標準的な Runbook 構成を強く重視していることが分かります。これは、緊張状態の対応者にとって重要です。このスキルで作る良い Runbook は、影響と検知から始まり、初動トリアージ、緩和、エスカレーション、コミュニケーション、解決へと自然に進むべきで、読者に手順の流れを推測させない構成になっている必要があります。

出力品質を上げる実践的なプロンプト項目

可能であれば、次の項目をそのままプロンプトに入れてください。

Service: checkout-api
Incident type: elevated 5xx after deployment
Primary signals: Grafana error-rate alert, synthetic checkout failures
Customer impact: 40% of card payments failing
Dependencies: Postgres, Redis, payment gateway
Known safe actions: rollback app version, drain bad pods
Do not suggest: schema changes during incident
Escalate to: on-call SRE after 15 min, payments lead for SEV1/SEV2
Communications: status page update within 20 minutes for SEV1
Recovery criteria: error rate below 1%, queue backlog normal for 30 min

こうした具体情報があると、より安全で現実に沿った Runbook を生成しやすくなります。

良い incident-runbook-templates 活用の状態

良い incident-runbook-templates usage は、具体的で、対象範囲が絞られており、役割が意識されています。出力された文書は、対応者に次の 6 点をすぐ伝えられる必要があります。

どうやってインシデントを見分けるか
最初に何を確認するか
どの対応が安全か
いつエスカレーションするか
どうコミュニケーションするか
いつ本当に解決したと判断するか

生成文書がこの 6 つに素早く答えられないなら、プロンプトに運用上の具体情報が足りなかった可能性が高いです。

ドキュメントライフサイクルのどこで最も役立つか

このスキルは、初稿作成と標準化の初期段階で特に有効です。一方で、実環境の情報をレビューして補強しない限り、最終的な唯一の正解として扱うには向きません。これは本番運用の責任を置き換えるものではなく、Runbook の骨組みを作るためのツールと捉えるのが適切です。

よくある導入の壁: 見た目の完成度による過信

incident-runbook-templates install における最大のリスクは、技術的なセットアップではありません。整った体裁の Runbook を、検証済みの Runbook だと思い込むことです。リポジトリを見る限り、このスキルは実行可能な検査ではなくテンプレート提供が中心なので、本番インシデントで使う前に、運用レビュー、リンク確認、必要に応じた game-day テストが欠かせません。

incident-runbook-templates スキル FAQ

incident-runbook-templates は初心者にも向いていますか？

はい。ただし、より経験のある運用担当者や既存のシステム文脈と一緒に使う場合に限って有効です。構造自体は、重大度、エスカレーション、復旧をどう考えるかの助けになります。一方で、欠けている運用上の事実を初心者だけで補うことはできないため、レビューは必須です。

AI に直接 Runbook を頼むより良いですか？

多くの場合、はい。一貫性を重視するなら特に有利です。incident-runbook-templates skill は、通常の自由形式プロンプトよりも、応答の形が明確です。複数チームで似た Playbook をそろえたい場合や、インシデントマネージャーが文書をレビューする運用では、その差が効いてきます。

incident-runbook-templates には実行可能な自動化が含まれますか？

ここで確認できるリポジトリ情報の範囲では含まれていません。このスキル用の補助スクリプトや追加の運用アセットは見当たりません。自動インシデント対応システムではなく、あくまでドキュメント生成支援として扱ってください。

どんな種類のインシデントに向いていますか？

特に向いているのは、繰り返し発生し、理解可能で、運用上の範囲が切り出しやすいインシデントです。

サービス停止
依存先障害
replication lag
リソース枯渇
デプロイ起因のリグレッション
アラート起点の性能劣化

既知の対応パターンがない新規性の高い障害は、テンプレート主導の生成にはあまり向きません。

どんな場合は incident-runbook-templates を使うべきではありませんか？

次のような場合は見送った方がよいです。

すでに別の場所に詳細なベンダー固有の復旧ロジックがあり、それを使うべき
チーム内で重大度やエスカレーションモデルが合意されていない
インシデント種別が「すべてのインフラ障害」のように広すぎる
レビューの時間がなく、検証済みの運用手順を今すぐ必要としている

こうしたケースでは、まずシステム知識を整理するか、既存の社内 Runbook を土台にした方が安全です。

複数チーム共通の Playbook 作成に incident-runbook-templates を使えますか？

はい。そこはこのスキルの強みのひとつです。各チームが、汎用テンプレートをそのまま複製するのではなく、サービス固有のアラート、責任分界、承認済みアクションをきちんと埋める前提であれば、共通フォーマットの Playbook を整備するのに適しています。

incident-runbook-templates スキルを改善する方法

抽象的な意図ではなく、運用上の事実を渡す

incident-runbook-templates の出力を良くしたいなら、抽象表現ではなく具体的なシグナルと制約を与えてください。たとえば「ダウンタイムに適切に対処して」では曖昧すぎます。If error rate exceeds 20% after deploy, validate pod health, rollback within 10 minutes if no recovery, and page platform on-call のように伝えると、出力ははるかに強くなります。

生成前にインシデントの対象範囲を絞る

巨大なサービス Runbook を 1 本作るより、障害モードごとに 1 本ずつ作る方がうまくいくことが多いです。たとえば、次のように依頼します。

Redis connection saturation
ではなく
all cache incidents

対象範囲を狭めると、トリアージ手順、緩和策の安全性、エスカレーション判断が明確になります。

安全上の境界条件を明示する

多くのインシデント文書が弱くなるのは、リスクの高いアクションを早い段階で勧めてしまうためです。たとえば、stateful cluster の再起動、schema 変更、承認なしの queue クリアのように、緩和中にやってはいけないことをスキルに明示してください。これは信頼性を実質的に高めます。

重大度とエスカレーションのモデルを含める

元のテキストでもインシデント重大度レベルが重視されています。この点は積極的に活用すべきです。組織独自の閾値があるならプロンプトに含めて、Runbook が一般的な SEV ラベルではなく、実際のページングやコミュニケーション運用に対応するようにしてください。

セクションだけでなく判断ポイントも求める

より強い incident-runbook-templates guide の依頼では、分岐判断を求めます。

どの時点で rollback し、どの時点で調査継続に切り替えるか
どの時点で別チームへエスカレーションするか
どの時点で顧客向けコミュニケーションが必須になるか
どの時点で復旧宣言を出すか

こうすると、静的なテンプレートではなく、実際に使える対応支援文書になります。

実際の過去インシデントで検証する

初稿を作ったら、完了済みの実インシデントで Runbook を試してください。生成された手順が次の点を満たしていたか確認します。

十分な速さで問題を検知できたか
優先すべきシグナルを正しく見ていたか
危険な操作を避けられたか
適切なタイミングでエスカレーションできたか
復旧条件が明確だったか

これは、Runbook とプロンプトの両方を改善する最短ルートです。

ロール別の文脈を加えて出力を改善する

文書が primary on-call 向けなら、そのように明記してください。incident commander 向けなのか、support team 向けなのかでも必要な詳細度は変わります。想定読者と意思決定権限を指定すると、スキルはより適切な Playbook を生成しやすくなります。

よくある失敗パターンをチェックする

弱い出力によくある例は次のとおりです。

実際のアラートが入っていない汎用的な検知手順
安全確認のない緩和アドバイス
タイミングや担当者が書かれていないエスカレーション項目
発動条件のないコミュニケーション指針
検証可能性が低い曖昧な復旧条件

こうした問題が見えたら、「もっと詳しく」と漠然と頼むのではなく、欠けている運用データをプロンプトに追加してください。

ギャップ補完のパスで反復する

初稿を改善する実践的なやり方は次のとおりです。

Runbook を生成する
プレースホルダー、前提、曖昧なアクションをすべてマークする
足りないサービス情報を追加する
弱いセクションだけを再生成する
レビュー済みの最終版に統合する

文書全体を何度も作り直すより、この方法の方が仕上がりは安定します。

チームで incident-runbook-templates を定着させる改善策

incident-runbook-templates をチームに定着させたいなら、プロンプト投入時のチェックリストを標準化すると効果的です。具体的には、service、failure mode、alerts、dependencies、safe actions、escalation、communication、recovery criteria をそろえる運用にします。こうした入力を共通化できるチームほど、手戻りが少なく、比較しやすい質の高い Runbook を作れます。

評価とレビュー

まだ評価がありません

レビューを投稿

このスキルの評価やコメントを投稿するにはサインインしてください。

0/10000

新着レビュー

保存中...

このカテゴリーの他のスキル

executive-onboarding-playbook

作成者 deanpeters

executive-onboarding-playbook skill を使って、新任VP ProductやCPO向けの30-60-90日診断プランを作成できます。戦略、チームの健全性、見えにくいリスクを、変更を加える前に検証するのに役立ち、Playbooksユーザー向けの実践的な executive-onboarding-playbook ガイドとして活用できます。

Playbooks

お気に入り 0GitHub 4.1k

create-boss

作成者 vogtsw

create-bossは、上司とのチャット、メモ、メール、プロジェクト成果物をもとに、判断支援・上方向のマネジメント・ペルソナモデリングに使える再利用可能なスキルへ整理します。Claude CodeやOpenClawに導入すれば、実在のマネージャープロフィールや起業家アーキタイプを構築し、修正ワークフローや再利用しやすいPlaybooks-readyの上司ガイダンスで出力を磨けます。

Playbooks

お気に入り 0GitHub 45

verification-before-completion

作成者 obra

verification-before-completionは、裏付けのない完了報告を防ぐための最終確認スキルです。どんな場面で使うべきか、obra/superpowersからの導入方法、そして修正完了・テスト通過・レビュー可能といった各ステータスの主張を最新の検証結果にどう対応づけるかを確認できます。

Skill Validation

お気に入り 0GitHub 121.9k

team-communication-protocols

作成者 wshobson

team-communication-protocols は、agent チーム向けのメッセージ運用ルールを定義するスキルです。direct と broadcast の使い分け、plan approval、shutdown 手順、再利用しやすいテンプレートを通じて、連携の取れた Agent Orchestration を支援します。

Agent Orchestration

お気に入り 0GitHub 32.5k

ship-learn-next

作成者 softaworks

ship-learn-next は、文字起こし、記事、チュートリアルを小さな Ship → Learn → Next の行動サイクルに変換するスキルです。元の教材から、まず出せる最初の実践版、振り返り用の問い、次の改善イテレーションまで整理でき、Playbooks workflows にも対応します。

Playbooks

お気に入り 0GitHub 1.3k

building-soc-playbook-for-ransomware

作成者 mukul975

SOCチーム向けの building-soc-playbook-for-ransomware スキル。ランサムウェア対応を体系的に進めるためのプレイブック作成に役立ちます。検知トリガー、封じ込め、駆除、復旧、監査対応までを網羅し、NIST SP 800-61 と MITRE ATT&CK に沿った運用を支援します。実用的なプレイブック作成、机上演習、Security Audit 対応に活用できます。

Security Audit

お気に入り 0GitHub 0

ralph-plan

作成者 mastra-ai

ralph-planは、曖昧なエンジニアリング要求を、コンテキスト、セットアップ、タスク、テスト、反復的な確認を含む構造化されたralph-loopコマンドに落とし込むための計画スキルです。

Requirements Planning

お気に入り 0GitHub 22.6k

executing-plans

作成者 obra

executing-plans は、書面化された実装計画に沿ってエージェントを進めるための skill です。最初に計画を確認し、手順どおりに作業を実行し、指定されたチェックを行い、blocker があれば停止し、最後は仕上げ用ワークフローへ引き継ぎます。Project Management など、計画主導で進めるデリバリーに向いています。

Project Management

お気に入り 0GitHub 121.8k

steve-jobs-perspective

作成者 alchaincyf

steve-jobs-perspective は、Steve Jobs風の評価軸、リサーチファイル、実例を使って、プロダクト判断・メッセージ設計・戦略検討を研ぎ澄ますロール駆動型のプロダクト批評スキルです。

Playbooks

お気に入り 0GitHub 78

pua-en

作成者 tanweai

pua-en は、行き詰まった AI 作業を立て直すための GitHub スキルです。構造化されたトラブルシューティング、より主体的な対応、明確な発動ルールによって、停滞した状況を前に進めやすくします。失敗が続くとき、調査が受け身になっているとき、デバッグで手詰まりになったときに活用できます。`SKILL.md` を確認し、tanweai/pua から導入して、通常のプロンプトだけでは突破しにくいコード、設定、デプロイ、API、調査タスクに適用してください。

Debugging

お気に入り 0GitHub 0

pua-ja

作成者 tanweai

pua-ja は、日本語で使えるエスカレーション向けスキルです。行き詰まったエージェントに対して、すぐにユーザーへ聞き返す前にまずツールで調べること、失敗が続いた後は検証を強めること、安易に諦めず原因を深掘りすることを促します。デバッグ、調査、執筆、そして Context Engineering において、トリガー起動型の行動レイヤーを導入したいチームに適しています。

Context Engineering

お気に入り 0GitHub 0

mama

作成者 tanweai

mama は `pua` スキルの語り口違いバリアントで、コアのルールはそのままに、中国語の“口うるさいお母さん”風ボイスへ切り替えるスキルです。継続的なトラブルシュート、デバッグ、Prompt Writing の作業で再利用できるトリガーパターンを導入したいときに向いており、親スキルから継承されるエスカレーション、チェックリスト、より強い追い込みまで活用できます。

Prompt Writing

お気に入り 0GitHub 14.1k

shot

作成者 tanweai

shot は tanweai/pua に含まれる単一ファイル構成のスキルで、フルコンテキストのペルソナ注入、ロールベースのプロンプト設計、強力なサブエージェント活用に対応します。Context Engineering の実験や、P7/P8/P9/P10 のロール設計、`skills/shot/SKILL.md` を通じた自己完結型のプロンプト読み込みに適しています。

Context Engineering

お気に入り 0GitHub 0

frontend-design

作成者 anthropics

frontend-designは、曖昧なUIアイデアから、汎用的でないスタイリングと明確な美的指針を備えた、個性的なプロダクション品質のフロントエンド実装を生成するのに役立つスキルです。

UI Design

お気に入り 1GitHub 105.2k

create-colleague

作成者 titanwings

create-colleague は、同僚に関するドキュメント、チャット、メール、スクリーンショット、Feishu、DingTalk のデータをもとに、編集可能な AI スキルを生成します。業務面と人物像を分けて出力でき、継続的に磨き込むための更新フローにも対応しています。

Skill Authoring

お気に入り 1GitHub 747

hyperframes

作成者 heygen-com

hyperframes は、HyperFrames で HTML ベースの動画コンポジションを構築するためのワークフロースキルです。タイトルカード、オーバーレイ、字幕、ナレーション、音に反応するモーション、シーン遷移など、Video Editing 向けに構造化されたコードファーストの hyperframes が必要なときに使えます。汎用的なプロンプトだけの動画依頼よりも、レイアウト、タイミング、アニメーションの設計を重視します。

Video Editing

お気に入り 0GitHub 2.7k