Sre

Sre taxonomy generated by the site skill importer.

7 個技能

python-observability

作者 wshobson

python-observability 可協助你為 Python 服務導入結構化日誌、metrics、traces、correlation IDs，以及受控基數模式，支援正式環境除錯與更穩健的可觀測性 rollout。

Observability

收藏 0GitHub 32.6k

slo-implementation

作者 wshobson

使用 slo-implementation skill 來定義可靠性工作的 SLI、SLO、錯誤預算與 burn-rate 警示。它能協助團隊把服務目標轉成可衡量的指標，並提供 PromQL 風格範例與來自 SKILL.md 的實務指引。

可靠性

收藏 0GitHub 32.6k

distributed-tracing

作者 wshobson

使用 distributed-tracing 技能，搭配 Jaeger 與 Tempo 設計並說明微服務之間的請求追蹤。內容涵蓋安裝基礎、trace 與 span 概念、Kubernetes 部署模式、context propagation，以及用於可觀測性與延遲除錯的實務用法。

Observability

收藏 0GitHub 32.6k

postmortem-writing

作者 wshobson

postmortem-writing 可協助團隊撰寫不究責的事故檢討報告，涵蓋時間軸、根本原因分析、促成因素、影響範圍，以及可執行的後續行動項目，適合用於服務中斷或險些發生事故後的報告整理。

报告写作

收藏 0GitHub 32.5k

on-call-handoff-patterns

作者 wshobson

了解 on-call-handoff-patterns 技能，讓值班交接更可靠順暢。可用於整理事故交接內容，記錄目前進行中的問題、近期變更、升級處理狀態，以及 Reliability 團隊的下一步行動。

可靠性

收藏 0GitHub 32.5k

incident-runbook-templates

作者 wshobson

incident-runbook-templates 可協助團隊建立結構化的事件應變 runbook，針對服務中斷與營運 Playbooks，提供清楚的初步研判、緩解、升級通報、溝通與復原步驟。

操作手册

收藏 0GitHub 32.5k

conducting-post-incident-lessons-learned

作者 mukul975

conducting-post-incident-lessons-learned 技能可協助 Incident Response 團隊進行有結構的事後檢討，建立具事實依據的時間線，找出根因，整理哪些做法有效、哪些地方失誤，並把每次事故轉化為可衡量的改進項目，包括負責人、截止日期與 playbook 更新。

Incident Response

收藏 0GitHub 0