por wshobson
python-observability ajuda você a instrumentar serviços em Python com logs estruturados, métricas, traces, IDs de correlação e padrões de cardinalidade limitada para depuração em produção e rollouts de observabilidade mais seguros.
por wshobson
python-observability ajuda você a instrumentar serviços em Python com logs estruturados, métricas, traces, IDs de correlação e padrões de cardinalidade limitada para depuração em produção e rollouts de observabilidade mais seguros.
por wshobson
Use a skill slo-implementation para definir SLIs, SLOs, budgets de erro e alertas de burn rate em iniciativas de Reliability. Ela ajuda equipes a transformar metas de serviço em objetivos mensuráveis com exemplos no estilo PromQL e orientações práticas do SKILL.md.
por wshobson
Use a skill distributed-tracing para projetar e explicar o rastreamento de requisições entre microsserviços com Jaeger e Tempo. Cobre noções básicas de instalação, conceitos de trace e span, padrões de configuração no Kubernetes, propagação de contexto e uso prático para observabilidade e depuração de latência.
por wshobson
postmortem-writing ajuda equipes a criar post-mortems de incidentes sem culpabilização, com linha do tempo, análise de causa raiz, fatores contribuintes, impacto e itens de acompanhamento acionáveis para relatórios após indisponibilidades ou quase-incidentes.
por wshobson
Aprenda a usar a skill on-call-handoff-patterns para fazer transições de turno com mais confiabilidade. Use-a para estruturar handoffs de incidentes, registrar problemas ativos, mudanças recentes, estado de escalonamento e próximas ações para equipes de Reliability.
por wshobson
incident-runbook-templates ajuda equipes a criar runbooks estruturados de resposta a incidentes, com etapas claras de triagem, mitigação, escalonamento, comunicação e recuperação para indisponibilidades e Playbooks operacionais.
por mukul975
A skill conducting-post-incident-lessons-learned ajuda equipes de Resposta a Incidentes a conduzir revisões estruturadas de pós-incidente, montar linhas do tempo factuais, identificar causas-raiz, registrar o que funcionou e o que falhou e transformar cada incidente em melhorias mensuráveis, com responsáveis, prazos e atualizações dos playbooks.