Sre

Sre taxonomy generated by the site skill importer.

7 skills

python-observability

por wshobson

python-observability ajuda você a instrumentar serviços em Python com logs estruturados, métricas, traces, IDs de correlação e padrões de cardinalidade limitada para depuração em produção e rollouts de observabilidade mais seguros.

Observability

Favoritos 0GitHub 32.6k

slo-implementation

por wshobson

Use a skill slo-implementation para definir SLIs, SLOs, budgets de erro e alertas de burn rate em iniciativas de Reliability. Ela ajuda equipes a transformar metas de serviço em objetivos mensuráveis com exemplos no estilo PromQL e orientações práticas do SKILL.md.

Reliability

Favoritos 0GitHub 32.6k

distributed-tracing

por wshobson

Use a skill distributed-tracing para projetar e explicar o rastreamento de requisições entre microsserviços com Jaeger e Tempo. Cobre noções básicas de instalação, conceitos de trace e span, padrões de configuração no Kubernetes, propagação de contexto e uso prático para observabilidade e depuração de latência.

Observability

Favoritos 0GitHub 32.6k

postmortem-writing

por wshobson

postmortem-writing ajuda equipes a criar post-mortems de incidentes sem culpabilização, com linha do tempo, análise de causa raiz, fatores contribuintes, impacto e itens de acompanhamento acionáveis para relatórios após indisponibilidades ou quase-incidentes.

Report Writing

Favoritos 0GitHub 32.5k

on-call-handoff-patterns

por wshobson

Aprenda a usar a skill on-call-handoff-patterns para fazer transições de turno com mais confiabilidade. Use-a para estruturar handoffs de incidentes, registrar problemas ativos, mudanças recentes, estado de escalonamento e próximas ações para equipes de Reliability.

Reliability

Favoritos 0GitHub 32.5k

incident-runbook-templates

por wshobson

incident-runbook-templates ajuda equipes a criar runbooks estruturados de resposta a incidentes, com etapas claras de triagem, mitigação, escalonamento, comunicação e recuperação para indisponibilidades e Playbooks operacionais.

Playbooks

Favoritos 0GitHub 32.5k

conducting-post-incident-lessons-learned

por mukul975

A skill conducting-post-incident-lessons-learned ajuda equipes de Resposta a Incidentes a conduzir revisões estruturadas de pós-incidente, montar linhas do tempo factuais, identificar causas-raiz, registrar o que funcionou e o que falhou e transformar cada incidente em melhorias mensuráveis, com responsáveis, prazos e atualizações dos playbooks.

Incident Response

Favoritos 0GitHub 0