Sre

Sre taxonomy generated by the site skill importer.

7 Skills
W
python-observability

von wshobson

python-observability unterstützt Sie dabei, Python-Services mit strukturiertem Logging, Metriken, Traces, Correlation IDs und Mustern mit begrenzter Kardinalität zu instrumentieren – für Production-Debugging und eine sicherere Einführung von Observability.

Observability
Favoriten 0GitHub 32.6k
W
slo-implementation

von wshobson

Mit dem Skill slo-implementation definieren Teams SLIs, SLOs, Error Budgets und Burn-Rate-Alerts für Reliability-Arbeit. Er hilft dabei, Service-Ziele in messbare Vorgaben zu übersetzen, mit PromQL-nahen Beispielen und praxisorientierter Anleitung aus SKILL.md.

Reliability
Favoriten 0GitHub 32.6k
W
distributed-tracing

von wshobson

Nutze den distributed-tracing Skill, um Request-Tracing über Microservices hinweg mit Jaeger und Tempo zu entwerfen und verständlich zu erklären. Behandelt Installationsgrundlagen, Trace- und Span-Konzepte, Kubernetes-Setup-Muster, Context Propagation sowie den praktischen Einsatz für Observability und die Analyse von Latenzproblemen.

Observability
Favoriten 0GitHub 32.6k
W
postmortem-writing

von wshobson

postmortem-writing unterstützt Teams dabei, blameless Incident-Postmortems mit Zeitleisten, Root-Cause-Analyse, beitragenden Faktoren, Auswirkungen und umsetzbaren Folgemaßnahmen zu erstellen – für die Berichtserstellung nach Ausfällen oder Beinahevorfällen.

Report Writing
Favoriten 0GitHub 32.5k
W
on-call-handoff-patterns

von wshobson

Lernen Sie die Skill on-call-handoff-patterns für zuverlässige Schichtübergaben kennen. Nutzen Sie sie, um Incident-Übergaben zu strukturieren sowie aktive Probleme, aktuelle Änderungen, den Eskalationsstatus und nächste Schritte für Reliability-Teams festzuhalten.

Reliability
Favoriten 0GitHub 32.5k
W
incident-runbook-templates

von wshobson

incident-runbook-templates unterstützt Teams dabei, strukturierte Incident-Response-Runbooks mit klaren Schritten für Triage, Eindämmung, Eskalation, Kommunikation und Wiederherstellung bei Ausfällen und operativen Playbooks zu erstellen.

Playbooks
Favoriten 0GitHub 32.5k
M
conducting-post-incident-lessons-learned

von mukul975

Der Skill conducting-post-incident-lessons-learned unterstützt Incident-Response-Teams dabei, strukturierte Nachbesprechungen durchzuführen, belastbare Zeitachsen zu erstellen, Ursachen zu identifizieren, festzuhalten, was funktioniert hat und was nicht, und jeden Vorfall mit Verantwortlichen, Fristen und Playbook-Updates in messbare Verbesserungen zu überführen.

Incident Response
Favoriten 0GitHub 0
Sre