bởi wshobson
python-observability giúp bạn bổ sung structured logging, metrics, traces, correlation IDs và các mẫu bounded-cardinality cho dịch vụ Python, để gỡ lỗi production hiệu quả hơn và triển khai observability an toàn hơn.
bởi wshobson
python-observability giúp bạn bổ sung structured logging, metrics, traces, correlation IDs và các mẫu bounded-cardinality cho dịch vụ Python, để gỡ lỗi production hiệu quả hơn và triển khai observability an toàn hơn.
bởi wshobson
Dùng kỹ năng slo-implementation để xác định SLI, SLO, error budget và cảnh báo burn-rate cho công việc Reliability. Kỹ năng này giúp nhóm biến mục tiêu dịch vụ thành các chỉ số đo lường được, với ví dụ theo kiểu PromQL và hướng dẫn thực tế từ SKILL.md.
bởi wshobson
Dùng skill distributed-tracing để thiết kế và diễn giải việc truy vết request giữa các microservice với Jaeger và Tempo. Nội dung bao quát kiến thức cài đặt cơ bản, khái niệm trace và span, các mẫu thiết lập Kubernetes, context propagation, cùng cách áp dụng thực tế cho observability và gỡ lỗi độ trễ.
bởi wshobson
postmortem-writing giúp các nhóm xây dựng báo cáo postmortem sự cố theo hướng không đổ lỗi, với mốc thời gian, phân tích nguyên nhân gốc rễ, các yếu tố góp phần, mức độ ảnh hưởng và hạng mục theo dõi có thể hành động sau sự cố ngừng dịch vụ hoặc tình huống suýt xảy ra lỗi.
bởi wshobson
Tìm hiểu skill on-call-handoff-patterns để bàn giao ca trực ổn định và đáng tin cậy. Dùng skill này để chuẩn hóa bàn giao sự cố, ghi lại vấn đề đang mở, thay đổi gần đây, trạng thái leo thang xử lý và các bước tiếp theo cho đội Reliability.
bởi wshobson
incident-runbook-templates giúp các nhóm xây dựng runbook ứng phó sự cố có cấu trúc rõ ràng, với các bước phân loại ban đầu, giảm thiểu tác động, leo thang, truyền thông và khôi phục cho sự cố gián đoạn và Playbooks vận hành.
bởi mukul975
Skill conducting-post-incident-lessons-learned giúp các nhóm Incident Response tổ chức đánh giá sau sự cố theo quy trình rõ ràng, xây dựng dòng thời gian dựa trên факт, xác định nguyên nhân gốc rễ, ghi lại điều đã hiệu quả và chưa hiệu quả, rồi biến mỗi sự cố thành các cải tiến đo lường được với người phụ trách, thời hạn và cập nhật playbook.