작성자 wshobson
python-observability는 Python 서비스에 구조화 로깅, 메트릭, 트레이스, correlation ID, bounded-cardinality 패턴을 적용해 프로덕션 디버깅을 더 수월하게 하고, 관측성 도입을 보다 안전하게 진행할 수 있도록 돕습니다.
작성자 wshobson
python-observability는 Python 서비스에 구조화 로깅, 메트릭, 트레이스, correlation ID, bounded-cardinality 패턴을 적용해 프로덕션 디버깅을 더 수월하게 하고, 관측성 도입을 보다 안전하게 진행할 수 있도록 돕습니다.
작성자 wshobson
slo-implementation 스킬을 사용하면 Reliability 작업에 필요한 SLI, SLO, 에러 버짓, burn-rate 알림을 정의할 수 있습니다. 팀이 서비스 목표를 측정 가능한 기준으로 구체화할 수 있도록 PromQL 스타일 예시와 SKILL.md의 실무 중심 가이드를 제공합니다.
작성자 wshobson
distributed-tracing 스킬을 활용해 Jaeger와 Tempo 기반의 마이크로서비스 요청 추적을 설계하고 설명할 수 있습니다. 설치 기본 사항부터 trace·span 개념, Kubernetes 구성 패턴, context propagation, 그리고 observability와 지연 시간 디버깅을 위한 실전 활용까지 폭넓게 다룹니다.
작성자 wshobson
postmortem-writing은 장애나 아차 사고 이후 보고서를 작성할 때, 타임라인·근본 원인 분석·기여 요인·영향 범위·실행 가능한 후속 조치를 포함한 비난 없는 사고 postmortem을 팀이 체계적으로 작성하도록 돕는 스킬입니다.
작성자 wshobson
안정적인 교대 전환을 위해 on-call-handoff-patterns 스킬을 익혀보세요. Reliability 팀이 인시던트 인수인계를 구조화하고, 진행 중인 이슈, 최근 변경 사항, 에스컬레이션 상태, 다음 조치를 빠짐없이 정리할 때 유용합니다.
작성자 wshobson
incident-runbook-templates는 장애 대응과 운영 Playbooks를 위해 트리아지, 완화, 에스컬레이션, 커뮤니케이션, 복구 단계를 명확히 정리한 구조화된 인시던트 대응 런북을 팀이 만들 수 있도록 돕습니다.
작성자 mukul975
conducting-post-incident-lessons-learned 스킬은 Incident Response 팀이 구조화된 사후 검토를 진행하고, 사실 기반 타임라인을 만들고, 근본 원인을 식별하고, 무엇이 효과적이었고 무엇이 실패했는지 기록하며, 각 사고를 담당자, 마감일, 플레이북 업데이트가 포함된 측정 가능한 개선으로 연결하도록 돕습니다.