Sre

Sre taxonomy generated by the site skill importer.

7 skills

python-observability

por wshobson

python-observability te ayuda a instrumentar servicios Python con logging estructurado, métricas, trazas, IDs de correlación y patrones de cardinalidad acotada para depuración en producción y despliegues de observabilidad más seguros.

Observability

Favoritos 0GitHub 32.6k

slo-implementation

por wshobson

Usa la skill slo-implementation para definir SLI, SLO, presupuestos de error y alertas de burn rate en trabajo de Reliability. Ayuda a los equipos a convertir los objetivos del servicio en metas medibles con ejemplos de estilo PromQL y orientación práctica de SKILL.md.

Reliability

Favoritos 0GitHub 32.6k

distributed-tracing

por wshobson

Usa la skill distributed-tracing para diseñar y explicar el trazado de solicitudes entre microservicios con Jaeger y Tempo. Incluye conceptos básicos de instalación, nociones de traces y spans, patrones de configuración en Kubernetes, propagación de contexto y casos prácticos para observabilidad y depuración de latencia.

Observability

Favoritos 0GitHub 32.6k

postmortem-writing

por wshobson

postmortem-writing ayuda a los equipos a crear postmortems de incidentes sin culpabilizar, con cronologías, análisis de causa raíz, factores contribuyentes, impacto y acciones de seguimiento para documentar fallos o cuasiincidentes.

Report Writing

Favoritos 0GitHub 32.5k

on-call-handoff-patterns

por wshobson

Aprende a usar la skill on-call-handoff-patterns para transiciones de turno fiables. Úsala para estructurar handoffs de incidentes, registrar problemas activos, cambios recientes, estado de escalado y próximas acciones para equipos de Reliability.

Reliability

Favoritos 0GitHub 32.5k

incident-runbook-templates

por wshobson

incident-runbook-templates ayuda a los equipos a crear runbooks de respuesta a incidentes estructurados, con pasos claros de triaje, mitigación, escalado, comunicación y recuperación para caídas del servicio y Playbooks operativos.

Playbooks

Favoritos 0GitHub 32.5k

conducting-post-incident-lessons-learned

por mukul975

La skill conducting-post-incident-lessons-learned ayuda a los equipos de respuesta a incidentes a realizar revisiones estructuradas posteriores al incidente, construir cronologías basadas en hechos, identificar causas raíz, registrar qué funcionó y qué falló, y convertir cada incidente en mejoras medibles con responsables, plazos y actualizaciones de los playbooks.

Incident Response

Favoritos 0GitHub 0