作成者 wshobson
python-observability は、構造化ログ、メトリクス、トレース、Correlation ID、bounded-cardinality の実践パターンを使って、Python サービスを本番運用向けに計測し、デバッグしやすさと安全なオブザーバビリティ導入を支援します。
作成者 wshobson
python-observability は、構造化ログ、メトリクス、トレース、Correlation ID、bounded-cardinality の実践パターンを使って、Python サービスを本番運用向けに計測し、デバッグしやすさと安全なオブザーバビリティ導入を支援します。
作成者 wshobson
slo-implementation skillを使うと、信頼性向上の取り組みに向けてSLI、SLO、エラーバジェット、バーンレートアラートを定義できます。サービス目標を測定可能な指標に落とし込めるよう、PromQLスタイルの例とSKILL.mdの実践的なガイダンスを提供します。
作成者 wshobson
distributed-tracingスキルを使って、JaegerやTempoによるマイクロサービス間のリクエストトレーシングを設計・説明できます。インストールの基本、traceとspanの概念、Kubernetesでの設定パターン、コンテキスト伝播、可観測性の向上やレイテンシ調査に役立つ実践的な使い方までカバーしています。
作成者 wshobson
postmortem-writing は、障害やヒヤリハットの振り返りに向けて、タイムライン、根本原因分析、寄与要因、影響範囲、実行可能なフォローアップ項目を含む、責任追及を避けたインシデント事後報告書の作成をチームで進めるためのスキルです。
作成者 wshobson
on-call-handoff-patternsスキルを使って、確実なシフト引き継ぎを行う方法を学べます。インシデントの引き継ぎ内容を整理し、対応中の課題、直近の変更、エスカレーション状況、次のアクションをReliabilityチーム向けに漏れなく共有するのに役立ちます。
作成者 wshobson
incident-runbook-templates は、障害対応や運用 Playbooks 向けに、トリアージ、緩和策、エスカレーション、コミュニケーション、復旧までを明確に整理した構造化インシデント対応 runbook の作成を支援します。
作成者 mukul975
conducting-post-incident-lessons-learned スキルは、Incident Response チームが構造化された事後レビューを実施し、事実ベースのタイムラインを作成し、根本原因を特定し、うまくいった点と失敗した点を整理し、各インシデントを担当者・期限・プレイブック更新つきの測定可能な改善へつなげるのに役立ちます。