incident-runbook-templates

por wshobson

incident-runbook-templates ajuda equipes a criar runbooks estruturados de resposta a incidentes, com etapas claras de triagem, mitigação, escalonamento, comunicação e recuperação para indisponibilidades e Playbooks operacionais.

Estrelas32.5k

Favoritos0

Comentários0

Adicionado30 de mar. de 2026

CategoriaPlaybooks

Comando de instalação

npx skills add wshobson/agents --skill incident-runbook-templates

Pontuação editorial

Esta skill recebeu 76/100, o que a torna uma listagem sólida no diretório: os usuários encontram estrutura e exemplos substanciais de runbooks de incidentes prontos para uso, mas devem esperar uma skill baseada em templates e documentação, e não um fluxo executável com ferramentas ou suporte de automação.

76/100

Pontos fortes

Boa acionabilidade a partir do frontmatter e dos exemplos de uso, incluindo indisponibilidade em pagamentos, incidentes de banco de dados e cenários de onboarding de plantão.
Conteúdo operacional consistente: a skill oferece uma estrutura de runbook voltada para produção, níveis de severidade e cobertura passo a passo da resposta a incidentes em detecção, triagem, mitigação, resolução e comunicação.
Entrega valor real para a decisão de instalação porque o conteúdo é extenso e não é apenas um placeholder, dando aos usuários evidências suficientes para avaliar a aderência na documentação de procedimentos de incidente específicos de cada serviço.

Pontos de atenção

A adoção é totalmente orientada por templates: não há scripts, arquivos de referência, recursos ou auxiliares de automação que reduzam a incerteza na execução além da orientação escrita.
Os sinais do repositório mostram poucos marcadores explícitos de fluxo de trabalho ou restrições, então agentes ainda podem precisar interpretar e adaptar os templates às regras de escalonamento e aos sistemas específicos de cada equipe.

Incident Runbook Templates Template Playbook Checklist Workflow Sre Monitoring

Visão geral

Visão geral da skill incident-runbook-templates

O que a incident-runbook-templates faz

A skill incident-runbook-templates ajuda você a gerar runbooks estruturados de resposta a incidentes para indisponibilidades, degradações, problemas de banco de dados e outras falhas operacionais. O valor dela não está só em “escreva um runbook”, mas em produzir um formato repetível que cubra impacto, detecção, triagem, mitigação, escalonamento, comunicação e recuperação de um jeito que um engenheiro de plantão consiga usar sob pressão.

Para quem esta skill é indicada

Esta skill é mais indicada para SREs, times de plataforma, engenheiros DevOps, gestores de engenharia e responsáveis por serviços que precisam de Playbooks consistentes entre equipes. Ela é especialmente útil se você já conhece os sistemas e os modos de falha, mas precisa de documentação mais rápida e mais padronizada.

O problema real que ela resolve

A maioria dos times não tem dificuldade para nomear incidentes; a dificuldade está em transformar conhecimento informal em procedimentos claros, utilizáveis às 3 da manhã. A incident-runbook-templates foi feita para fechar essa lacuna: converter conhecimento operacional ainda bruto em um runbook prático, com enquadramento de severidade, ordem dos passos e lógica de escalonamento.

O que diferencia esta skill de um prompt genérico

Um prompt genérico pode gerar texto sobre incidentes. Esta skill é melhor quando você quer um formato previsível de resposta a incidentes. O material de origem enfatiza com clareza seções no estilo de produção, como níveis de severidade e estrutura de runbook, o que reduz o trabalho de desenhar prompts e torna as saídas mais fáceis de revisar, comparar e operacionalizar.

Resultados em que ela se encaixa melhor

Use incident-runbook-templates quando você quiser:

criar uma primeira versão de um runbook para indisponibilidade de serviço
padronizar Playbooks em vários serviços
documentar caminhos de recuperação já conhecidos para incidentes recorrentes
acelerar o onboarding de novos engenheiros de plantão com procedimentos guiados
transformar anotações fragmentadas em um documento de incidente consistente

Limitações importantes antes de instalar

Esta skill parece ser centrada em templates. Ela não traz scripts, ferramentas de validação nem referências específicas de serviço no caminho do repositório informado. Isso significa que a qualidade da saída depende muito dos detalhes operacionais que você fornecer. Se o seu ambiente não tiver alertas claros, responsáveis definidos, limites objetivos ou passos de recuperação concretos, o runbook pode parecer completo no papel e ainda assim ser fraco na operação.

Como usar a skill incident-runbook-templates

Como instalar a incident-runbook-templates

Instale a partir do caminho do repositório pai:

npx skills add https://github.com/wshobson/agents --skill incident-runbook-templates

Se o seu ambiente usa outro loader de skills, adicione a skill a partir do mesmo repositório e depois confirme que o nome instalado da skill é exatamente incident-runbook-templates.

O que ler primeiro no repositório

Comece por plugins/incident-response/skills/incident-runbook-templates/SKILL.md.

Esse arquivo é o principal ativo. Pelo que o repositório mostra, não há resources/, rules/, scripts/ nem referências complementares para esta skill, então quase toda a orientação de implementação está em SKILL.md.

Quais entradas a skill precisa para funcionar bem

A skill incident-runbook-templates funciona melhor quando você informa:

nome do serviço ou sistema
tipo de incidente
impacto para usuário e negócio
sintomas e fontes de alerta
modelo de severidade ou prioridade esperada
verificações de triagem já conhecidas
ações de mitigação seguras
contatos de escalonamento ou papéis das equipes
expectativas de comunicação
critérios de encerramento e acompanhamento pós-incidente

Se você pedir apenas “um runbook para problemas de banco de dados”, espere um resultado genérico. Se você especificar “atraso de replicação no primário do Postgres com falhas de escrita de clientes e alertas do PagerDuty”, a saída fica muito mais acionável.

Como transformar um objetivo vago em um bom prompt para incident-runbook-templates

Prompt fraco:
Create a runbook for payment service incidents.

Prompt mais forte:
Use incident-runbook-templates to draft a runbook for payment API partial outage incidents. Include SEV classification guidance, Datadog alert triggers, first 15-minute triage steps, rollback checks for the last deploy, database dependency validation, when to page the payments team lead, customer communication points, and clear criteria for recovery and incident closure.

A versão mais forte melhora a saída porque define escopo, fontes de sinal, ações sensíveis ao tempo, dependências, escalonamento e regras de conclusão.

Fluxo de trabalho sugerido para Playbooks

Um fluxo prático para usar incident-runbook-templates for Playbooks é:

Escolha um padrão de incidente, não um domínio inteiro.
Reúna nomes reais de alertas, dashboards, responsáveis e restrições de mitigação.
Peça à skill uma primeira versão do runbook usando o contexto do seu serviço.
Revise com um engenheiro de plantão que já tenha lidado com esse problema antes.
Se necessário, acrescente comandos específicos do ambiente, links e notas de segurança fora da primeira versão.
Teste o runbook contra a linha do tempo de um incidente passado.
Armazene a versão final onde os respondedores realmente vão encontrá-la.

Esse caminho de adoção é melhor do que tentar gerar uma biblioteca inteira de runbooks de uma vez só.

Como a estrutura embutida ajuda durante incidentes

O trecho de origem mostra um foco forte em níveis de severidade e em uma estrutura padrão de runbook. Isso importa porque quem responde precisa de informação ordenada sob estresse. Um bom runbook gerado com esta skill deve ir de impacto e detecção para triagem inicial, mitigação, escalonamento, comunicação e resolução sem obrigar o leitor a deduzir o fluxo.

Campos práticos no prompt que melhoram a qualidade da saída

Inclua estes campos diretamente no seu prompt sempre que possível:

Service: checkout-api
Incident type: elevated 5xx after deployment
Primary signals: Grafana error-rate alert, synthetic checkout failures
Customer impact: 40% of card payments failing
Dependencies: Postgres, Redis, payment gateway
Known safe actions: rollback app version, drain bad pods
Do not suggest: schema changes during incident
Escalate to: on-call SRE after 15 min, payments lead for SEV1/SEV2
Communications: status page update within 20 minutes for SEV1
Recovery criteria: error rate below 1%, queue backlog normal for 30 min

Esses detalhes ajudam a skill a produzir um runbook mais seguro e mais realista.

Como é um bom uso da incident-runbook-templates

Um bom incident-runbook-templates usage é específico, delimitado e consciente de papéis. A saída deve dizer ao responsável pela resposta:

como reconhecer o incidente
o que verificar primeiro
quais ações são seguras
quando escalar
como se comunicar
quando o incidente está de fato resolvido

Se o documento gerado não responder rapidamente a essas seis perguntas, provavelmente faltaram detalhes operacionais no prompt.

Onde esta skill é mais útil no ciclo de vida da documentação

Use a skill no começo, para primeiros rascunhos e padronização. Ela é menos valiosa como autoridade final, a menos que você revise e enriqueça o material com detalhes reais do ambiente. Pense nela como uma ferramenta de estruturação de runbooks, não como substituta da responsabilidade operacional em produção.

Bloqueador comum de adoção: falsa confiança

O principal risco em um incident-runbook-templates install não está na configuração técnica. Está em assumir que um runbook bem formatado é um runbook testado. Como o repositório parece oferecer templates, e não verificações executáveis, você ainda precisa de revisão operacional, validação de links e possivelmente testes em game day antes de confiar nas saídas em incidentes reais.

FAQ da skill incident-runbook-templates

A incident-runbook-templates é boa para iniciantes?

Sim, se a pessoa iniciante estiver trabalhando com um operador mais experiente ou com contexto já existente do sistema. A estrutura pode ajudar engenheiros mais novos a pensar em severidade, escalonamento e recuperação. Mas iniciantes não conseguem preencher sozinhos a verdade operacional que falta, então a revisão é indispensável.

Isso é melhor do que pedir diretamente a uma IA um runbook?

Em geral, sim, se você quer consistência. A incident-runbook-templates skill entrega um formato de resposta mais claro do que um prompt livre comum. Isso importa quando várias equipes precisam de Playbooks semelhantes ou quando os documentos serão revisados por incident managers.

A incident-runbook-templates inclui automação executável?

Não com base nas evidências do repositório mostradas aqui. Não há scripts de apoio nem ativos operacionais extras listados para esse caminho da skill. Trate-a como uma ajuda para geração de documentação, não como um sistema automatizado de resposta a incidentes.

Que tipos de incidente combinam melhor com esta skill?

Os incidentes com melhor aderência são recorrentes, compreensíveis e operacionalmente delimitados:

indisponibilidades de serviço
falhas de dependências
atraso de replicação
esgotamento de recursos
regressões relacionadas a deploy
degradações disparadas por alertas

Falhas novas, sem padrão de resposta conhecido, são menos adequadas para geração guiada por template.

Quando eu não deveria usar a incident-runbook-templates?

Evite usar quando:

você precisa de lógica de remediação profunda e específica de fornecedor que já esteja coberta em outro lugar
sua equipe não tem um modelo acordado de severidade ou escalonamento
o tipo de incidente é amplo demais, como “todas as falhas de infraestrutura”
você precisa imediatamente de um procedimento operacional testado, sem tempo para revisão

Nesses casos, primeiro reúna o conhecimento do sistema ou trabalhe a partir de uma base interna de runbooks já existente.

Posso usar a incident-runbook-templates para Playbooks em muitas equipes?

Sim, e esse é um dos casos de uso mais fortes. A skill é bem adequada para criar um formato compartilhado de Playbooks, desde que cada equipe preencha alertas, responsabilidades e ações aprovadas específicas do seu serviço, em vez de copiar um template genérico ao pé da letra.

Como melhorar a skill incident-runbook-templates

Dê fatos operacionais à incident-runbook-templates, não intenções abstratas

Para melhorar a incident-runbook-templates, alimente-a com sinais e restrições concretos. “Lidar com downtime de forma elegante” é vago demais. “Se a taxa de erro passar de 20% após um deploy, valide a saúde dos pods, faça rollback em até 10 minutos se não houver recuperação e acione o plantão de plataforma” leva a uma saída muito melhor.

Reduza o escopo do incidente antes da geração

Um runbook por modo de falha geralmente funciona melhor do que um runbook gigante para um serviço inteiro. Peça:

Redis connection saturation
em vez de
all cache incidents

Escopos mais estreitos melhoram os passos de triagem, a segurança da mitigação e a clareza do escalonamento.

Adicione limites de segurança explicitamente

Muitos documentos de incidente falham porque sugerem ações arriscadas cedo demais. Diga à skill o que os respondedores não devem fazer durante a mitigação, como reiniciar um cluster stateful, alterar schemas ou limpar filas sem aprovação. Isso melhora de forma concreta a confiabilidade do resultado.

Inclua seu modelo de severidade e escalonamento

O texto de origem já enfatiza níveis de severidade de incidentes. Aproveite isso. Se a sua organização usa limites próprios, forneça-os no prompt para que o runbook reflita o comportamento real de paging e comunicação, em vez de rótulos genéricos de SEV.

Peça pontos de decisão, não apenas seções

Uma solicitação mais forte de incident-runbook-templates guide pede lógica de ramificação:

quando fazer rollback vs continuar investigando
quando escalar para outro time
quando a comunicação com clientes passa a ser obrigatória
quando declarar recuperação

Isso transforma um template estático em um material de resposta mais útil.

Valide com um incidente real do passado

Depois da primeira versão, teste o runbook em um incidente já encerrado. Verifique se a sequência gerada teria:

detectado o problema rápido o suficiente
priorizado os sinais certos
evitado ações inseguras
escalado no momento correto
definido claramente a recuperação

Essa é a forma mais rápida de melhorar tanto o runbook quanto os seus prompts.

Melhore as saídas adicionando contexto específico do papel

Se o documento é para o plantonista principal, diga isso. Se é para incident commanders ou equipes de suporte, diga isso também. Papéis diferentes precisam de níveis diferentes de detalhe. A skill gera Playbooks melhores quando você especifica quem vai operar e quem tem autoridade de decisão.

Fique atento aos modos de falha mais comuns

Saídas fracas costumam incluir:

passos genéricos de detecção, sem alertas reais
orientações de mitigação sem verificações de segurança
seções de escalonamento sem prazo nem responsável
orientação de comunicação sem limiar de disparo
critérios de recuperação vagos demais para validar

Quando isso acontecer, revise o prompt com os dados operacionais que faltam em vez de pedir genericamente “mais detalhes”.

Faça uma iteração de preenchimento de lacunas

Uma forma prática de melhorar a primeira versão:

gere o runbook
marque todo placeholder, suposição ou ação vaga
adicione os fatos do serviço que faltam
rode novamente apenas as seções fracas
consolide tudo em uma versão final revisada

Isso produz resultados mais limpos do que regenerar o documento inteiro repetidamente.

Melhore a adoção da incident-runbook-templates na sua equipe

Se você quer que a incident-runbook-templates pegue de verdade, padronize um checklist de entrada para o prompt: serviço, modo de falha, alertas, dependências, ações seguras, escalonamento, comunicação e critérios de recuperação. Equipes que normalizam essas entradas conseguem runbooks muito melhores, mais comparáveis e com menos retrabalho.

Avaliações e comentários

Ainda não há avaliações

Compartilhe sua avaliação

Faça login para deixar uma nota e um comentário sobre esta skill.

0/10000

Avaliações mais recentes

Salvando...

Mais skills nesta categoria

executive-onboarding-playbook

por deanpeters

Use a skill executive-onboarding-playbook para montar um plano diagnóstico de 30-60-90 dias para novas lideranças de VP de Produto ou CPO. Ele ajuda você a validar estratégia, saúde do time e riscos ocultos antes de fazer mudanças, com um guia prático de executive-onboarding-playbook para usuários do Playbooks.

Playbooks

Favoritos 0GitHub 4.1k

create-boss

por vogtsw

create-boss transforma conversas com chefes, notas, e-mails e artefatos de projeto em uma skill reutilizável para julgamento, gestão da relação com superiores e modelagem de persona. Instale no Claude Code ou no OpenClaw para criar perfis reais de gestores ou arquétipos de empreendedores, depois refine os resultados com fluxos de correção e orientações sobre chefes reutilizáveis prontas para Playbooks.

Playbooks

Favoritos 0GitHub 45

verification-before-completion

por obra

verification-before-completion é uma skill de checagem final que impede afirmações de conclusão sem respaldo. Veja quando usar, como instalar a partir de obra/superpowers e como vincular cada status informado a evidências recentes de verificação.

Skill Validation

Favoritos 0GitHub 121.9k

team-communication-protocols

por wshobson

team-communication-protocols define regras de mensagens para equipes de agentes, cobrindo quando usar mensagens diretas ou em broadcast, aprovação de planos, procedimentos de desligamento e templates reutilizáveis para uma Agent Orchestration coordenada.

Agent Orchestration

Favoritos 0GitHub 32.5k

ship-learn-next

por softaworks

ship-learn-next transforma transcrições, artigos e tutoriais em pequenos ciclos de ação Ship → Learn → Next. Use a skill para converter o material-fonte em uma primeira entrega viável, prompts de reflexão e a próxima iteração, incluindo fluxos Playbooks.

Playbooks

Favoritos 0GitHub 1.3k

building-soc-playbook-for-ransomware

por mukul975

Skill building-soc-playbook-for-ransomware para equipes de SOC que precisam de um playbook estruturado de resposta a ransomware. Cobre gatilhos de detecção, contenção, erradicação, recuperação e procedimentos prontos para auditoria, alinhados à NIST SP 800-61 e ao MITRE ATT&CK. Use para criação prática de playbooks, exercícios tabletop e apoio a auditorias de segurança.

Security Audit

Favoritos 0GitHub 0

ralph-plan

por mastra-ai

ralph-plan é uma skill de planejamento que transforma solicitações iniciais de engenharia em comandos ralph-loop estruturados, com contexto, configuração, tarefas, testes e esclarecimento iterativo.

Requirements Planning

Favoritos 0GitHub 22.6k

executing-plans

por obra

executing-plans ajuda agentes a seguir um plano de implementação por escrito: primeiro revisar, depois executar as tarefas em ordem, rodar as checagens indicadas, parar diante de bloqueios e fazer o handoff para um fluxo de finalização. É mais indicada para Project Management e outros contextos de entrega guiada por plano.

Project Management

Favoritos 0GitHub 121.8k

steve-jobs-perspective

por alchaincyf

steve-jobs-perspective é uma skill de crítica de produto orientada por papel que usa heurísticas no estilo de Steve Jobs, arquivos de pesquisa e exemplos para refinar decisões de produto, messaging e estratégia.

Playbooks

Favoritos 0GitHub 78

pua-en

por tanweai

pua-en é uma skill do GitHub para destravar trabalhos de IA que emperraram, com troubleshooting estruturado, mais iniciativa e regras claras de acionamento. Use após falhas repetidas, investigação passiva ou becos sem saída na depuração. Consulte o SKILL.md, instale a partir de tanweai/pua e aplique em tarefas de código, configuração, deploy, API e pesquisa quando o prompting comum não for suficiente.

Debugging

Favoritos 0GitHub 0

pua-ja

por tanweai

pua-ja é uma skill de escalonamento em japonês que leva agentes travados a investigar com mais profundidade, usar ferramentas antes de recorrer ao usuário e verificar os resultados após falhas repetidas. É mais indicada para equipes que querem uma camada de comportamento acionada por gatilhos para debugging, pesquisa, escrita e uso de pua-ja em Context Engineering.

Context Engineering

Favoritos 0GitHub 0

mama

por tanweai

mama é uma variante em estilo de narração da skill pua que mantém as mesmas regras centrais, mas troca a voz por um tom de mãe chinesa insistente. Use para instalar um padrão de gatilho reutilizável em fluxos persistentes de troubleshooting, debugging e Prompt Writing, com escalonamento herdado, checklists e acompanhamento mais firme.

Prompt Writing

Favoritos 0GitHub 14.1k

shot

por tanweai

shot é uma skill de arquivo único do repositório tanweai/pua, voltada para injeção de persona com contexto completo, prompting baseado em papéis e uso forte de sub-agents. É mais indicada para experimentos de Context Engineering, enquadramento de papéis P7/P8/P9/P10 e carregamento autônomo de prompts via skills/shot/SKILL.md.

Context Engineering

Favoritos 0GitHub 0

frontend-design

por anthropics

frontend-design transforma ideias vagas de UI em interfaces marcantes e prontas para produção, com código frontend real, direção estética clara e menos visual genérico de IA.

UI Design

Favoritos 1GitHub 105.2k

create-colleague

por titanwings

create-colleague transforma documentos, chats, emails, capturas de tela, dados do Feishu e do DingTalk de colegas em uma skill de IA editável, com saídas separadas de trabalho e persona, além de fluxos de atualização para refinamento contínuo.

Skill Authoring

Favoritos 1GitHub 747

hyperframes

por heygen-com

hyperframes é uma skill de fluxo de trabalho para criar composições de vídeo baseadas em HTML no HyperFrames. Use-a para cards de título, sobreposições, legendas, narração, movimento reativo ao áudio e transições de cena quando precisar de hyperframes estruturados e orientados por código para Edição de Vídeo. Ela prioriza decisões de layout, tempo e animação em vez de pedidos genéricos de vídeo só com prompt.

Video Editing

Favoritos 0GitHub 2.7k