incident-runbook-templates

par wshobson

incident-runbook-templates aide les équipes à créer des runbooks structurés de réponse aux incidents, avec des étapes claires de triage, d’atténuation, d’escalade, de communication et de rétablissement pour les pannes et les playbooks opérationnels.

Étoiles32.5k

Favoris0

Commentaires0

Ajouté30 mars 2026

CatégoriePlaybooks

Commande d’installation

npx skills add wshobson/agents --skill incident-runbook-templates

Score éditorial

Cette skill obtient un score de 76/100, ce qui en fait une fiche de répertoire solide : les utilisateurs y trouvent une structure de runbook d’incident substantielle et directement exploitable, avec des exemples concrets, mais doivent s’attendre à une skill centrée sur des modèles documentaires plutôt qu’à un workflow exécutable avec outils ou automatisation.

76/100

Points forts

Bonne capacité de déclenchement grâce au frontmatter et aux exemples d’usage, notamment pour les pannes de paiement, les incidents de base de données et les scénarios d’onboarding d’astreinte.
Contenu opérationnel riche : la skill fournit une structure de runbook orientée production, des niveaux de sévérité et une couverture pas à pas de la réponse aux incidents sur la détection, le triage, l’atténuation, la résolution et la communication.
Vraie valeur pour décider de l’installation : le contenu principal est développé et non factice, ce qui donne aux utilisateurs suffisamment d’éléments pour juger si la skill convient à la documentation de procédures d’incident propres à leur service.

Points de vigilance

L’adoption repose uniquement sur des modèles : il n’y a ni scripts, ni fichiers de référence, ni ressources, ni aides d’automatisation pour réduire l’incertitude d’exécution au-delà des consignes écrites.
Les signaux du dépôt montrent peu de marqueurs explicites de workflow ou de contraintes ; les agents pourront donc encore devoir interpréter les modèles pour les adapter précisément aux règles d’escalade et aux systèmes de l’équipe.

Incident Runbook Templates Template Playbook Checklist Workflow Sre Monitoring

Vue d’ensemble

Présentation de la skill incident-runbook-templates

Ce que fait incident-runbook-templates

La skill incident-runbook-templates vous aide à générer des runbooks de réponse aux incidents structurés pour les pannes, dégradations, problèmes de base de données et autres défaillances opérationnelles. Sa valeur ne se limite pas à « rédige-moi un runbook » : elle produit un format reproductible couvrant l’impact, la détection, le triage, l’atténuation, l’escalade, la communication et le rétablissement, de façon exploitable par un ingénieur d’astreinte sous pression.

À qui s’adresse cette skill

Cette skill convient particulièrement aux SRE, équipes plateforme, ingénieurs DevOps, engineering managers et responsables de service qui ont besoin de Playbooks cohérents d’une équipe à l’autre. Elle est particulièrement utile si vous connaissez déjà vos systèmes et leurs modes de défaillance, mais que vous avez besoin d’une documentation plus rapide et plus standardisée.

Le vrai besoin métier auquel elle répond

La plupart des équipes n’ont pas de mal à nommer les incidents ; leur difficulté est de transformer une connaissance informelle en procédures claires, utilisables à 3 heures du matin. incident-runbook-templates cible précisément ce manque : convertir une connaissance opérationnelle encore brute en runbook pratico-pratique, avec cadrage de sévérité, ordre des étapes et logique d’escalade.

Ce qui la distingue d’un prompt générique

Un prompt générique peut produire un texte sur les incidents. Cette skill est plus adaptée si vous voulez une structure de réponse prévisible pour la gestion d’incident. Le contenu source met clairement l’accent sur des sections de style production, comme les niveaux de sévérité et la structure du runbook, ce qui réduit le travail de conception des prompts et rend les résultats plus faciles à relire, comparer et opérationnaliser.

Résultats pour lesquels elle est la plus adaptée

Utilisez incident-runbook-templates si vous voulez :

rédiger une première version de runbook pour une panne de service
standardiser les Playbooks sur plusieurs services
documenter des parcours de rétablissement connus pour des incidents récurrents
former de nouveaux ingénieurs d’astreinte avec des procédures guidées
transformer des notes éparses en un document d’incident cohérent

Limites importantes avant installation

Cette skill semble centrée sur des modèles. Elle ne fournit ni scripts, ni outil de validation, ni références spécifiques à un service dans le chemin de dépôt indiqué. En pratique, la qualité du résultat dépend donc fortement des détails opérationnels que vous fournissez. Si votre environnement ne dispose pas d’alertes claires, de responsables identifiés, de seuils ou d’étapes de rétablissement définies, le runbook peut paraître complet tout en restant faible sur le plan opérationnel.

Comment utiliser la skill incident-runbook-templates

Comment installer incident-runbook-templates

Installez-la depuis le chemin du dépôt parent :

npx skills add https://github.com/wshobson/agents --skill incident-runbook-templates

Si votre environnement utilise un autre chargeur de skills, ajoutez la skill depuis le même dépôt puis vérifiez que le nom de la skill installée est exactement incident-runbook-templates.

Que lire en premier dans le dépôt

Commencez par plugins/incident-response/skills/incident-runbook-templates/SKILL.md.

Ce fichier est l’élément principal. D’après ce que montre le dépôt, il n’y a pas de resources/, rules/, scripts/ ni de références complémentaires pour cette skill ; l’essentiel des consignes de mise en œuvre se trouve donc dans SKILL.md.

De quelles entrées la skill a besoin pour bien fonctionner

La skill incident-runbook-templates donne les meilleurs résultats lorsque vous fournissez :

le nom du service ou du système
le type d’incident
l’impact utilisateur et métier
les symptômes et les sources d’alerte
le modèle de sévérité ou la priorité attendue
les vérifications de triage connues
les actions d’atténuation sans risque
les contacts d’escalade ou rôles d’équipe
les attentes en matière de communication
les critères de sortie et le suivi post-incident

Si vous demandez seulement « un runbook pour des problèmes de base de données », attendez-vous à un résultat générique. Si vous précisez « retard de réplication du primaire Postgres avec échecs d’écriture côté client et alertes PagerDuty », la sortie devient bien plus exploitable.

Transformer un objectif vague en prompt incident-runbook-templates solide

Prompt faible :
Create a runbook for payment service incidents.

Prompt plus solide :
Use incident-runbook-templates to draft a runbook for payment API partial outage incidents. Include SEV classification guidance, Datadog alert triggers, first 15-minute triage steps, rollback checks for the last deploy, database dependency validation, when to page the payments team lead, customer communication points, and clear criteria for recovery and incident closure.

Cette seconde version améliore le résultat car elle apporte le périmètre, les sources de signal, les actions sensibles au facteur temps, les dépendances, l’escalade et les règles de clôture.

Workflow recommandé pour des Playbooks avec incident-runbook-templates

Un workflow pragmatique pour incident-runbook-templates for Playbooks est le suivant :

Choisir un seul modèle d’incident, pas tout un domaine.
Rassembler les vrais noms d’alertes, dashboards, responsables et contraintes d’atténuation.
Demander à la skill un premier jet de runbook à partir du contexte de votre service.
Le relire avec un ingénieur d’astreinte ayant déjà géré ce type de problème.
Ajouter au besoin, en dehors du premier jet, les commandes, liens et notes de sécurité spécifiques à votre environnement.
Tester le runbook sur la chronologie d’un incident passé.
Stocker la version finale à l’endroit où les intervenants iront réellement la chercher.

C’est une bien meilleure trajectoire d’adoption que d’essayer de générer en une seule fois toute une bibliothèque de runbooks.

Comment la structure intégrée aide pendant les incidents

L’extrait source montre un fort accent sur les niveaux de sévérité et une structure de runbook standard. C’est important, car les intervenants ont besoin d’une information ordonnée sous stress. Un bon runbook généré avec cette skill doit passer de l’impact et de la détection au triage initial, à l’atténuation, à l’escalade, à la communication puis à la résolution, sans obliger le lecteur à reconstituer lui-même le déroulé.

Champs de prompt concrets qui améliorent la qualité des résultats

Incluez si possible directement ces champs dans votre prompt :

Service: checkout-api
Incident type: elevated 5xx after deployment
Primary signals: Grafana error-rate alert, synthetic checkout failures
Customer impact: 40% of card payments failing
Dependencies: Postgres, Redis, payment gateway
Known safe actions: rollback app version, drain bad pods
Do not suggest: schema changes during incident
Escalate to: on-call SRE after 15 min, payments lead for SEV1/SEV2
Communications: status page update within 20 minutes for SEV1
Recovery criteria: error rate below 1%, queue backlog normal for 30 min

Ces détails aident la skill à produire un runbook plus sûr et plus réaliste.

À quoi ressemble un bon usage de incident-runbook-templates

Un bon incident-runbook-templates usage est spécifique, cadré et adapté au rôle visé. Le résultat doit indiquer clairement à la personne de garde :

comment reconnaître l’incident
quoi vérifier en premier
quelles actions sont sûres
quand escalader
comment communiquer
à quel moment l’incident est réellement résolu

Si le document généré ne répond pas rapidement à ces six questions, votre prompt manquait probablement de détails opérationnels.

À quel moment de la vie documentaire cette skill est la plus utile

Utilisez cette skill tôt dans le cycle documentaire, pour les premiers jets et la standardisation. Elle a moins de valeur comme source d’autorité finale tant qu’elle n’a pas été revue et enrichie avec les détails réels de l’environnement. Voyez-la comme un outil d’ossature pour runbooks, pas comme un substitut à la responsabilité de production.

Blocage d’adoption fréquent : le faux sentiment de confiance

Le principal risque lors de l’incident-runbook-templates install n’est pas la mise en place technique. C’est de supposer qu’un runbook bien présenté est un runbook éprouvé. Puisque le dépôt semble fournir des modèles plutôt que des vérifications exécutables, vous devez toujours prévoir une revue opérationnelle, une validation des liens et, si nécessaire, des exercices de type game day avant de vous appuyer sur les résultats en incident réel.

FAQ sur la skill incident-runbook-templates

incident-runbook-templates convient-elle aux débutants ?

Oui, si le débutant travaille avec un opérateur plus expérimenté ou dans un contexte système déjà bien compris. La structure peut aider les ingénieurs moins expérimentés à raisonner sur la sévérité, l’escalade et le rétablissement. En revanche, un débutant ne peut pas, à lui seul, fournir les vérités opérationnelles manquantes ; la relecture reste donc indispensable.

Est-ce préférable à demander directement à une IA de rédiger un runbook ?

En général oui, si vous recherchez de la cohérence. La incident-runbook-templates skill fournit une forme de réponse plus claire qu’un prompt libre classique. C’est important lorsque plusieurs équipes ont besoin de Playbooks similaires ou lorsque les documents seront relus par des incident managers.

Est-ce que incident-runbook-templates inclut de l’automatisation exécutable ?

Pas d’après ce que montre le dépôt ici. Aucun script de support ni autre ressource opérationnelle supplémentaire n’est listé pour ce chemin de skill. Il faut la considérer comme une aide à la génération documentaire, pas comme un système automatisé de réponse aux incidents.

Quels types d’incidents s’y prêtent le mieux ?

Les incidents les plus adaptés sont récurrents, compréhensibles et bien bornés d’un point de vue opérationnel :

pannes de service
défaillances de dépendances
retard de réplication
épuisement des ressources
régressions liées à un déploiement
dégradations pilotées par des alertes

Les défaillances inédites, sans schéma de réponse connu, se prêtent moins à une génération guidée par modèle.

Quand ne faut-il pas utiliser incident-runbook-templates ?

Évitez-la si :

vous avez besoin d’une logique de remédiation très spécifique à un fournisseur déjà couverte ailleurs
votre équipe n’a pas de modèle de sévérité ou d’escalade partagé
le type d’incident est trop large, comme « toutes les défaillances d’infrastructure »
vous avez besoin immédiatement d’une procédure opérationnelle éprouvée, sans temps de relecture

Dans ces cas-là, commencez par rassembler la connaissance système ou partez d’une base de runbooks interne existante.

Puis-je utiliser incident-runbook-templates pour des Playbooks partagés entre de nombreuses équipes ?

Oui, et c’est même l’un de ses cas d’usage les plus solides. Cette skill est bien adaptée à la création d’un format commun de Playbooks, à condition que chaque équipe renseigne ses alertes, responsabilités et actions approuvées spécifiques au service, au lieu de recopier tel quel un modèle générique.

Comment améliorer la skill incident-runbook-templates

Donnez à la skill des faits opérationnels, pas des intentions abstraites

Pour améliorer incident-runbook-templates, fournissez-lui des signaux et contraintes concrets. « Gérer l’indisponibilité proprement » est trop vague. « Si le taux d’erreur dépasse 20 % après un déploiement, vérifier l’état des pods, faire un rollback sous 10 minutes en l’absence de reprise, et pager l’astreinte plateforme » mène à un résultat bien plus solide.

Réduisez le périmètre de l’incident avant génération

Un runbook par mode de défaillance fonctionne généralement mieux qu’un énorme runbook de service. Demandez par exemple :

Redis connection saturation
plutôt que :
all cache incidents

Un périmètre plus étroit améliore les étapes de triage, la sûreté de l’atténuation et la clarté de l’escalade.

Ajoutez explicitement des garde-fous de sécurité

Beaucoup de documents d’incident échouent parce qu’ils suggèrent des actions risquées trop tôt. Indiquez à la skill ce que les intervenants ne doivent pas faire pendant l’atténuation, comme redémarrer un cluster stateful, modifier des schémas ou vider des files sans validation. Cela améliore concrètement la fiabilité du résultat.

Incluez votre modèle de sévérité et d’escalade

Le texte source met déjà en avant les niveaux de sévérité des incidents. Appuyez-vous dessus. Si votre organisation utilise des seuils personnalisés, fournissez-les dans le prompt afin que le runbook corresponde au vrai comportement de paging et de communication, au lieu de se contenter de labels SEV génériques.

Demandez des points de décision, pas seulement des sections

Une demande de incident-runbook-templates guide plus solide réclame une logique de branchement :

quand faire un rollback ou poursuivre l’investigation
quand escalader vers une autre équipe
quand la communication client devient obligatoire
quand déclarer le rétablissement

C’est ce qui transforme un modèle statique en véritable aide à la réponse.

Validez le résultat sur un incident réel passé

Après le premier jet, testez le runbook sur un incident déjà clos. Vérifiez si la séquence générée aurait :

détecté le problème assez vite
priorisé les bons signaux
évité les actions risquées
escaladé au bon moment
défini clairement le rétablissement

C’est le moyen le plus rapide d’améliorer à la fois le runbook et vos prompts.

Améliorez les résultats en ajoutant le contexte du rôle visé

Si le document s’adresse à l’astreinte primaire, dites-le. S’il est destiné à des incident commanders ou à des équipes support, précisez-le aussi. Des rôles différents exigent des niveaux de détail différents. La skill produira de meilleurs Playbooks si vous indiquez clairement l’opérateur cible et le niveau d’autorité décisionnelle.

Surveillez les modes d’échec les plus courants

Parmi les sorties faibles les plus fréquentes :

des étapes de détection génériques sans vraies alertes
des conseils d’atténuation sans vérifications de sécurité
des sections d’escalade sans timing ni responsable
des consignes de communication sans seuil de déclenchement
des critères de rétablissement trop vagues pour être vérifiables

Si vous constatez ces défauts, révisez le prompt avec les données opérationnelles manquantes au lieu de demander simplement « plus de détails ».

Itérez avec une passe de comblement des lacunes

Une méthode concrète pour améliorer le premier jet :

générer le runbook
marquer chaque placeholder, hypothèse ou action vague
ajouter les faits manquants sur le service
régénérer uniquement les sections faibles
fusionner le tout dans une version finale relue

Cette approche donne de meilleurs résultats que de régénérer l’ensemble du document en boucle.

Améliorer l’adoption de incident-runbook-templates dans votre équipe

Si vous voulez que incident-runbook-templates s’installe durablement dans l’équipe, standardisez une checklist d’entrée de prompt : service, mode de défaillance, alertes, dépendances, actions sûres, escalade, communication et critères de rétablissement. Les équipes qui normalisent ces entrées obtiennent des runbooks bien meilleurs, plus comparables, avec moins de retouches.

Notes et avis

Aucune note pour le moment

Partagez votre avis

Connectez-vous pour laisser une note et un commentaire sur cet outil.

0/10000

Derniers avis

Enregistrement...

Autres outils de cette catégorie

executive-onboarding-playbook

par deanpeters

Utilisez la skill executive-onboarding-playbook pour construire un plan de prise de poste diagnostique sur 30, 60 et 90 jours pour un nouveau VP Product ou un CPO. Elle vous aide à valider la stratégie, la santé de l’équipe et les risques cachés avant d’engager des changements, avec un guide pratique executive-onboarding-playbook pour les utilisateurs de Playbooks.

Playbooks

Favoris 0GitHub 4.1k

create-boss

par vogtsw

create-boss transforme des échanges avec un boss, des notes, des e-mails et des artefacts de projet en une skill réutilisable pour le jugement, le management vers le haut et la modélisation de persona. Installez-la dans Claude Code ou OpenClaw pour créer de vrais profils de managers ou des archétypes d’entrepreneurs, puis affinez les résultats avec des workflows de correction et des consignes de boss réutilisables prêtes pour les Playbooks.

Playbooks

Favoris 0GitHub 45

verification-before-completion

par obra

verification-before-completion est une skill de vérification finale qui empêche les affirmations de fin de tâche non étayées. Découvrez quand l’utiliser, comment l’installer depuis obra/superpowers, et comment associer chaque statut annoncé à une preuve de vérification récente.

Skill Validation

Favoris 0GitHub 121.9k

team-communication-protocols

par wshobson

team-communication-protocols définit des règles de messagerie pour les équipes d’agents : messages directs ou diffusion, validation des plans, procédures d’arrêt et modèles réutilisables pour une Agent Orchestration coordonnée.

Agent Orchestration

Favoris 0GitHub 32.5k

ship-learn-next

par softaworks

ship-learn-next transforme des transcriptions, articles et tutoriels en petits cycles d’action Ship → Learn → Next. Utilisez-le pour convertir un contenu source en première version livrable, en questions de recul et en itération suivante, y compris dans des workflows Playbooks.

Playbooks

Favoris 0GitHub 1.3k

building-soc-playbook-for-ransomware

par mukul975

Le skill building-soc-playbook-for-ransomware s’adresse aux équipes SOC qui ont besoin d’un playbook structuré de réponse au ransomware. Il couvre les déclencheurs de détection, le confinement, l’éradication, la reprise et des procédures prêtes pour l’audit, alignées sur NIST SP 800-61 et MITRE ATT&CK. À utiliser pour créer un playbook concret, animer des exercices de simulation et soutenir les audits de sécurité.

Security Audit

Favoris 0GitHub 0

ralph-plan

par mastra-ai

ralph-plan est un skill de planification qui transforme des demandes d’ingénierie encore floues en commandes ralph-loop structurées, avec le contexte, la configuration, les tâches, les tests et un processus de clarification itératif.

Requirements Planning

Favoris 0GitHub 22.6k

executing-plans

par obra

executing-plans aide les agents à suivre un plan d’implémentation écrit : le relire d’abord, exécuter les tâches dans l’ordre, lancer les vérifications prévues, s’arrêter en cas de blocage et passer la main à un workflow de finalisation. Idéal pour la gestion de projet et les livraisons pilotées par un plan.

Project Management

Favoris 0GitHub 121.8k

steve-jobs-perspective

par alchaincyf

steve-jobs-perspective est une skill de critique produit orientée rôle, qui s’appuie sur des heuristiques dans le style de Steve Jobs, des fichiers de recherche et des exemples pour affiner les décisions produit, le messaging et la stratégie.

Playbooks

Favoris 0GitHub 78

pua-en

par tanweai

pua-en est une skill GitHub conçue pour débloquer un travail d’IA qui piétine grâce à un dépannage structuré, une prise d’initiative plus forte et des règles de déclenchement claires. Utilisez-la après des échecs répétés, une investigation trop passive ou une impasse en débogage. Consultez `SKILL.md`, installez-la depuis tanweai/pua, puis appliquez-la aux tâches de code, configuration, déploiement, API et recherche quand un prompting standard ne suffit plus.

Debugging

Favoris 0GitHub 0

pua-ja

par tanweai

pua-ja est une compétence d’escalade en japonais qui pousse les agents bloqués à approfondir leur investigation, à utiliser les outils avant de solliciter l’utilisateur et à vérifier les résultats après des échecs répétés. Elle convient surtout aux équipes qui veulent une couche comportementale déclenchée par triggers pour le débogage, la recherche, la rédaction et pua-ja for Context Engineering.

Context Engineering

Favoris 0GitHub 0

mama

par tanweai

mama est une variante narrative de la skill pua qui conserve les mêmes règles de base, mais adopte la voix d’une mère chinoise insistante. Servez-vous-en pour installer un schéma de déclenchement réutilisable dans des workflows persistants de dépannage, de débogage et de Prompt Writing, avec escalade héritée, checklists et meilleur suivi dans l’exécution.

Prompt Writing

Favoris 0GitHub 14.1k

shot

par tanweai

shot est une skill en un seul fichier de tanweai/pua, conçue pour l’injection de persona en contexte complet, le prompting basé sur les rôles et un usage poussé des sous-agents. Elle convient surtout aux expérimentations de Context Engineering, au cadrage de rôles P7/P8/P9/P10 et au chargement autonome de prompts via `skills/shot/SKILL.md`.

Context Engineering

Favoris 0GitHub 0

frontend-design

par anthropics

frontend-design transforme des idées d’interface floues en UIs distinctives, prêtes pour la prod, avec du vrai code frontend, une direction esthétique claire et moins de style IA générique.

UI Design

Favoris 1GitHub 105.2k

create-colleague

par titanwings

create-colleague transforme des documents de collègues, chats, e-mails, captures d’écran, ainsi que des données Feishu et DingTalk, en un skill IA modifiable avec des sorties séparées pour le travail et le persona, ainsi que des flux de mise à jour pour l’améliorer dans la durée.

Skill Authoring

Favoris 1GitHub 747

hyperframes

par heygen-com

hyperframes est un skill de workflow pour créer des compositions vidéo en HTML dans HyperFrames. Utilisez-le pour les cartes de titre, les superpositions, les sous-titres, les voix off, les mouvements réactifs à l'audio et les transitions de scène lorsque vous avez besoin de hyperframes structurés, pensés d'abord en code, pour le montage vidéo. Il privilégie les choix de mise en page, de timing et d'animation plutôt que de simples requêtes vidéo génériques basées sur du prompt.

Video Editing

Favoris 0GitHub 2.7k