por wshobson
python-observability te ayuda a instrumentar servicios Python con logging estructurado, métricas, trazas, IDs de correlación y patrones de cardinalidad acotada para depuración en producción y despliegues de observabilidad más seguros.
por wshobson
python-observability te ayuda a instrumentar servicios Python con logging estructurado, métricas, trazas, IDs de correlación y patrones de cardinalidad acotada para depuración en producción y despliegues de observabilidad más seguros.
por wshobson
Usa la skill slo-implementation para definir SLI, SLO, presupuestos de error y alertas de burn rate en trabajo de Reliability. Ayuda a los equipos a convertir los objetivos del servicio en metas medibles con ejemplos de estilo PromQL y orientación práctica de SKILL.md.
por wshobson
Usa la skill distributed-tracing para diseñar y explicar el trazado de solicitudes entre microservicios con Jaeger y Tempo. Incluye conceptos básicos de instalación, nociones de traces y spans, patrones de configuración en Kubernetes, propagación de contexto y casos prácticos para observabilidad y depuración de latencia.
por wshobson
postmortem-writing ayuda a los equipos a crear postmortems de incidentes sin culpabilizar, con cronologías, análisis de causa raíz, factores contribuyentes, impacto y acciones de seguimiento para documentar fallos o cuasiincidentes.
por wshobson
Aprende a usar la skill on-call-handoff-patterns para transiciones de turno fiables. Úsala para estructurar handoffs de incidentes, registrar problemas activos, cambios recientes, estado de escalado y próximas acciones para equipos de Reliability.
por wshobson
incident-runbook-templates ayuda a los equipos a crear runbooks de respuesta a incidentes estructurados, con pasos claros de triaje, mitigación, escalado, comunicación y recuperación para caídas del servicio y Playbooks operativos.
por mukul975
La skill conducting-post-incident-lessons-learned ayuda a los equipos de respuesta a incidentes a realizar revisiones estructuradas posteriores al incidente, construir cronologías basadas en hechos, identificar causas raíz, registrar qué funcionó y qué falló, y convertir cada incidente en mejoras medibles con responsables, plazos y actualizaciones de los playbooks.