作者 wshobson
python-observability 可協助你為 Python 服務導入結構化日誌、metrics、traces、correlation IDs,以及受控基數模式,支援正式環境除錯與更穩健的可觀測性 rollout。
作者 wshobson
python-observability 可協助你為 Python 服務導入結構化日誌、metrics、traces、correlation IDs,以及受控基數模式,支援正式環境除錯與更穩健的可觀測性 rollout。
作者 wshobson
使用 slo-implementation skill 來定義可靠性工作的 SLI、SLO、錯誤預算與 burn-rate 警示。它能協助團隊把服務目標轉成可衡量的指標,並提供 PromQL 風格範例與來自 SKILL.md 的實務指引。
作者 wshobson
使用 distributed-tracing 技能,搭配 Jaeger 與 Tempo 設計並說明微服務之間的請求追蹤。內容涵蓋安裝基礎、trace 與 span 概念、Kubernetes 部署模式、context propagation,以及用於可觀測性與延遲除錯的實務用法。
作者 wshobson
postmortem-writing 可協助團隊撰寫不究責的事故檢討報告,涵蓋時間軸、根本原因分析、促成因素、影響範圍,以及可執行的後續行動項目,適合用於服務中斷或險些發生事故後的報告整理。
作者 wshobson
了解 on-call-handoff-patterns 技能,讓值班交接更可靠順暢。可用於整理事故交接內容,記錄目前進行中的問題、近期變更、升級處理狀態,以及 Reliability 團隊的下一步行動。
作者 wshobson
incident-runbook-templates 可協助團隊建立結構化的事件應變 runbook,針對服務中斷與營運 Playbooks,提供清楚的初步研判、緩解、升級通報、溝通與復原步驟。
作者 mukul975
conducting-post-incident-lessons-learned 技能可協助 Incident Response 團隊進行有結構的事後檢討,建立具事實依據的時間線,找出根因,整理哪些做法有效、哪些地方失誤,並把每次事故轉化為可衡量的改進項目,包括負責人、截止日期與 playbook 更新。