Sre

Sre taxonomy generated by the site skill importer.

7 个技能

python-observability

作者 wshobson

python-observability 可帮助你为 Python 服务接入结构化日志、指标、链路追踪、correlation ID 以及有界基数模式，用于生产环境排障，并更稳妥地推进可观测性落地。

可观测性

收藏 0GitHub 32.6k

slo-implementation

作者 wshobson

使用 slo-implementation 来定义面向 Reliability 工作的 SLI、SLO、错误预算和 burn-rate 告警。它可帮助团队把服务目标转化为可衡量的指标，并结合类似 PromQL 的示例与来自 SKILL.md 的实用指导推进落地。

可靠性

收藏 0GitHub 32.6k

distributed-tracing

作者 wshobson

使用 distributed-tracing 技能，在 Jaeger 和 Tempo 环境中设计并讲解微服务间的请求追踪方案。内容涵盖安装基础、trace 与 span 概念、Kubernetes 部署模式、上下文传播，以及面向可观测性与延迟排障的实用用法。

可观测性

收藏 0GitHub 32.6k

postmortem-writing

作者 wshobson

postmortem-writing 可帮助团队撰写无责事故复盘，覆盖时间线、根因分析、影响范围、促成因素以及可执行的后续行动项，适用于服务中断或险些发生事故后的报告编写。

报告写作

收藏 0GitHub 32.5k

on-call-handoff-patterns

作者 wshobson

了解 on-call-handoff-patterns 技能，帮助值班交接更可靠。可用于规范事故交接，记录当前问题、近期变更、升级状态和后续行动，适合 Reliability 团队使用。

可靠性

收藏 0GitHub 32.5k

incident-runbook-templates

作者 wshobson

incident-runbook-templates 可帮助团队创建结构化的事故响应 runbook，为故障处理和运维 Playbook 提供清晰的分诊、缓解、升级、沟通与恢复步骤。

操作手册

收藏 0GitHub 32.5k

conducting-post-incident-lessons-learned

作者 mukul975

conducting-post-incident-lessons-learned 技能帮助 Incident Response 团队开展结构化的事后复盘，构建基于事实的时间线，识别根因，记录哪些做法有效、哪些失效，并通过负责人、截止日期和 playbook 更新，把每次事件转化为可衡量的改进。

事件响应

收藏 0GitHub 0