Sre

Sre taxonomy generated by the site skill importer.

7 skills

python-observability

bởi wshobson

python-observability giúp bạn bổ sung structured logging, metrics, traces, correlation IDs và các mẫu bounded-cardinality cho dịch vụ Python, để gỡ lỗi production hiệu quả hơn và triển khai observability an toàn hơn.

Observability

Yêu thích 0GitHub 32.6k

slo-implementation

bởi wshobson

Dùng kỹ năng slo-implementation để xác định SLI, SLO, error budget và cảnh báo burn-rate cho công việc Reliability. Kỹ năng này giúp nhóm biến mục tiêu dịch vụ thành các chỉ số đo lường được, với ví dụ theo kiểu PromQL và hướng dẫn thực tế từ SKILL.md.

Reliability

Yêu thích 0GitHub 32.6k

distributed-tracing

bởi wshobson

Dùng skill distributed-tracing để thiết kế và diễn giải việc truy vết request giữa các microservice với Jaeger và Tempo. Nội dung bao quát kiến thức cài đặt cơ bản, khái niệm trace và span, các mẫu thiết lập Kubernetes, context propagation, cùng cách áp dụng thực tế cho observability và gỡ lỗi độ trễ.

Observability

Yêu thích 0GitHub 32.6k

postmortem-writing

bởi wshobson

postmortem-writing giúp các nhóm xây dựng báo cáo postmortem sự cố theo hướng không đổ lỗi, với mốc thời gian, phân tích nguyên nhân gốc rễ, các yếu tố góp phần, mức độ ảnh hưởng và hạng mục theo dõi có thể hành động sau sự cố ngừng dịch vụ hoặc tình huống suýt xảy ra lỗi.

Report Writing

Yêu thích 0GitHub 32.5k

on-call-handoff-patterns

bởi wshobson

Tìm hiểu skill on-call-handoff-patterns để bàn giao ca trực ổn định và đáng tin cậy. Dùng skill này để chuẩn hóa bàn giao sự cố, ghi lại vấn đề đang mở, thay đổi gần đây, trạng thái leo thang xử lý và các bước tiếp theo cho đội Reliability.

Reliability

Yêu thích 0GitHub 32.5k

incident-runbook-templates

bởi wshobson

incident-runbook-templates giúp các nhóm xây dựng runbook ứng phó sự cố có cấu trúc rõ ràng, với các bước phân loại ban đầu, giảm thiểu tác động, leo thang, truyền thông và khôi phục cho sự cố gián đoạn và Playbooks vận hành.

Playbooks

Yêu thích 0GitHub 32.5k

conducting-post-incident-lessons-learned

bởi mukul975

Skill conducting-post-incident-lessons-learned giúp các nhóm Incident Response tổ chức đánh giá sau sự cố theo quy trình rõ ràng, xây dựng dòng thời gian dựa trên факт, xác định nguyên nhân gốc rễ, ghi lại điều đã hiệu quả và chưa hiệu quả, rồi biến mỗi sự cố thành các cải tiến đo lường được với người phụ trách, thời hạn và cập nhật playbook.

Incident Response

Yêu thích 0GitHub 0