Sre

Sre taxonomy generated by the site skill importer.

7 skills
W
python-observability

par wshobson

python-observability vous aide à instrumenter des services Python avec des logs structurés, des métriques, des traces, des IDs de corrélation et des pratiques à cardinalité maîtrisée pour le débogage en production et des déploiements d’observabilité plus sûrs.

Observability
Favoris 0GitHub 32.6k
W
slo-implementation

par wshobson

Utilisez le skill slo-implementation pour définir des SLI, des SLO, des budgets d’erreur et des alertes de burn rate pour les travaux de fiabilité. Il aide les équipes à transformer des objectifs de service en cibles mesurables grâce à des exemples de style PromQL et à des conseils pratiques issus de SKILL.md.

Reliability
Favoris 0GitHub 32.6k
W
distributed-tracing

par wshobson

Utilisez la skill distributed-tracing pour concevoir et expliquer le traçage des requêtes entre microservices avec Jaeger et Tempo. Couvre les bases d’installation, les concepts de trace et de span, les modèles de configuration Kubernetes, la propagation du contexte, ainsi que des usages concrets pour l’observabilité et le diagnostic de latence.

Observability
Favoris 0GitHub 32.6k
W
postmortem-writing

par wshobson

postmortem-writing aide les équipes à rédiger des postmortems d’incident sans recherche de coupable, avec chronologie, analyse des causes racines, facteurs contributifs, impact et actions de suivi concrètes après une panne ou un quasi-incident.

Report Writing
Favoris 0GitHub 32.5k
W
on-call-handoff-patterns

par wshobson

Découvrez la compétence on-call-handoff-patterns pour fiabiliser les relais entre astreintes. Utilisez-la pour structurer les passations d’incident, consigner les problèmes en cours, les changements récents, l’état des escalades et les prochaines actions des équipes Reliability.

Reliability
Favoris 0GitHub 32.5k
W
incident-runbook-templates

par wshobson

incident-runbook-templates aide les équipes à créer des runbooks structurés de réponse aux incidents, avec des étapes claires de triage, d’atténuation, d’escalade, de communication et de rétablissement pour les pannes et les playbooks opérationnels.

Playbooks
Favoris 0GitHub 32.5k
M
conducting-post-incident-lessons-learned

par mukul975

Le skill conducting-post-incident-lessons-learned aide les équipes Incident Response à mener des retours d’expérience structurés après incident, à établir des chronologies factuelles, à identifier les causes profondes, à consigner ce qui a bien fonctionné et ce qui a échoué, puis à transformer chaque incident en améliorations mesurables avec responsables, échéances et mises à jour des playbooks.

Incident Response
Favoris 0GitHub 0
Sre