Sre

Sre taxonomy generated by the site skill importer.

7 個技能
W
python-observability

作者 wshobson

python-observability 可協助你為 Python 服務導入結構化日誌、metrics、traces、correlation IDs,以及受控基數模式,支援正式環境除錯與更穩健的可觀測性 rollout。

Observability
收藏 0GitHub 32.6k
W
slo-implementation

作者 wshobson

使用 slo-implementation skill 來定義可靠性工作的 SLI、SLO、錯誤預算與 burn-rate 警示。它能協助團隊把服務目標轉成可衡量的指標,並提供 PromQL 風格範例與來自 SKILL.md 的實務指引。

可靠性
收藏 0GitHub 32.6k
W
distributed-tracing

作者 wshobson

使用 distributed-tracing 技能,搭配 Jaeger 與 Tempo 設計並說明微服務之間的請求追蹤。內容涵蓋安裝基礎、trace 與 span 概念、Kubernetes 部署模式、context propagation,以及用於可觀測性與延遲除錯的實務用法。

Observability
收藏 0GitHub 32.6k
W
postmortem-writing

作者 wshobson

postmortem-writing 可協助團隊撰寫不究責的事故檢討報告,涵蓋時間軸、根本原因分析、促成因素、影響範圍,以及可執行的後續行動項目,適合用於服務中斷或險些發生事故後的報告整理。

报告写作
收藏 0GitHub 32.5k
W
on-call-handoff-patterns

作者 wshobson

了解 on-call-handoff-patterns 技能,讓值班交接更可靠順暢。可用於整理事故交接內容,記錄目前進行中的問題、近期變更、升級處理狀態,以及 Reliability 團隊的下一步行動。

可靠性
收藏 0GitHub 32.5k
W
incident-runbook-templates

作者 wshobson

incident-runbook-templates 可協助團隊建立結構化的事件應變 runbook,針對服務中斷與營運 Playbooks,提供清楚的初步研判、緩解、升級通報、溝通與復原步驟。

操作手册
收藏 0GitHub 32.5k
M
conducting-post-incident-lessons-learned

作者 mukul975

conducting-post-incident-lessons-learned 技能可協助 Incident Response 團隊進行有結構的事後檢討,建立具事實依據的時間線,找出根因,整理哪些做法有效、哪些地方失誤,並把每次事故轉化為可衡量的改進項目,包括負責人、截止日期與 playbook 更新。

Incident Response
收藏 0GitHub 0
Sre