Sre

Sre taxonomy generated by the site skill importer.

7 个技能
W
python-observability

作者 wshobson

python-observability 可帮助你为 Python 服务接入结构化日志、指标、链路追踪、correlation ID 以及有界基数模式,用于生产环境排障,并更稳妥地推进可观测性落地。

可观测性
收藏 0GitHub 32.6k
W
slo-implementation

作者 wshobson

使用 slo-implementation 来定义面向 Reliability 工作的 SLI、SLO、错误预算和 burn-rate 告警。它可帮助团队把服务目标转化为可衡量的指标,并结合类似 PromQL 的示例与来自 SKILL.md 的实用指导推进落地。

可靠性
收藏 0GitHub 32.6k
W
distributed-tracing

作者 wshobson

使用 distributed-tracing 技能,在 Jaeger 和 Tempo 环境中设计并讲解微服务间的请求追踪方案。内容涵盖安装基础、trace 与 span 概念、Kubernetes 部署模式、上下文传播,以及面向可观测性与延迟排障的实用用法。

可观测性
收藏 0GitHub 32.6k
W
postmortem-writing

作者 wshobson

postmortem-writing 可帮助团队撰写无责事故复盘,覆盖时间线、根因分析、影响范围、促成因素以及可执行的后续行动项,适用于服务中断或险些发生事故后的报告编写。

报告写作
收藏 0GitHub 32.5k
W
on-call-handoff-patterns

作者 wshobson

了解 on-call-handoff-patterns 技能,帮助值班交接更可靠。可用于规范事故交接,记录当前问题、近期变更、升级状态和后续行动,适合 Reliability 团队使用。

可靠性
收藏 0GitHub 32.5k
W
incident-runbook-templates

作者 wshobson

incident-runbook-templates 可帮助团队创建结构化的事故响应 runbook,为故障处理和运维 Playbook 提供清晰的分诊、缓解、升级、沟通与恢复步骤。

操作手册
收藏 0GitHub 32.5k
M
conducting-post-incident-lessons-learned

作者 mukul975

conducting-post-incident-lessons-learned 技能帮助 Incident Response 团队开展结构化的事后复盘,构建基于事实的时间线,识别根因,记录哪些做法有效、哪些失效,并通过负责人、截止日期和 playbook 更新,把每次事件转化为可衡量的改进。

事件响应
收藏 0GitHub 0
Sre