slo-implementation

bởi wshobson

Dùng kỹ năng slo-implementation để xác định SLI, SLO, error budget và cảnh báo burn-rate cho công việc Reliability. Kỹ năng này giúp nhóm biến mục tiêu dịch vụ thành các chỉ số đo lường được, với ví dụ theo kiểu PromQL và hướng dẫn thực tế từ SKILL.md.

Stars32.6k

Yêu thích0

Bình luận0

Đã thêm30 thg 3, 2026

Danh mụcReliability

Lệnh cài đặt

npx skills add wshobson/agents --skill slo-implementation

Điểm tuyển chọn

Kỹ năng này đạt 68/100, tức là đủ điều kiện xuất hiện trong thư mục nhưng nên được tiếp cận như một khung làm việc dựa trên tài liệu hơn là một triển khai hoàn chỉnh dùng ngay. Repository có đủ nội dung thực tế để giúp agent nhận biết khi nào nên dùng, đồng thời cung cấp các ví dụ SLI/SLO hữu ích. Tuy vậy, việc áp dụng vẫn cần tự diễn giải thêm vì không có file hỗ trợ, bước cài đặt hay quy tắc vận hành rõ ràng ngoài phần markdown.

68/100

Điểm mạnh

Khả năng kích hoạt tốt: phần mô tả và mục "When to Use" xác định rõ phạm vi cho các tác vụ về mục tiêu độ tin cậy, SLI/SLO, error budget và alerting.
Nội dung quy trình có chiều sâu: kỹ năng này bao gồm các khái niệm SLI/SLO cụ thể và ví dụ PromQL cho availability và latency, thực tế hơn nhiều so với một prompt chung chung.
Độ rõ ràng để ra quyết định cài đặt khá tốt: người dùng có thể nhận ra đây là một framework để xác định SLI, SLO và error budget, không phải placeholder hay skill chỉ mang tính demo.

Điểm cần lưu ý

Khả năng triển khai vận hành còn phụ thuộc khá nhiều vào suy đoán vì repository không cho thấy script, tài liệu tham chiếu, tài nguyên hay lệnh cài đặt nào để biến framework này thành một workflow có thể chạy được.
Phần trích dẫn có nhắc tới một file bên ngoài (`references/slo-definitions.md`), nhưng các dấu hiệu cấu trúc lại không cho thấy có file tham chiếu nào, làm giảm độ tin cậy và tính đầy đủ.

Service Level Objectives Service Level Indicators Error Budget Sre Prometheus Metrics

Tổng quan

Tổng quan về skill slo-implementation

Skill slo-implementation giúp bạn biến các mục tiêu độ tin cậy còn mơ hồ thành các Service Level Indicator (SLI), Service Level Objective (SLO), error budget và logic cảnh báo cụ thể. Skill này đặc biệt phù hợp với SRE, platform team, backend engineer và product owner quan tâm đến độ tin cậy, những người cần một cách làm lặp lại được để xác định rõ “mức độ tốt đủ dùng” của tình trạng dịch vụ thực sự là gì.

Skill slo-implementation dùng để làm gì

Hãy dùng slo-implementation khi bạn cần:

xác định các mục tiêu độ tin cậy có thể đo lường cho một dịch vụ
chọn đúng loại SLI, chẳng hạn như availability hoặc latency
đặt mục tiêu SLO phù hợp với tác động kinh doanh
suy ra error budget từ mục tiêu đó
tạo cảnh báo dựa trên burn rate hoặc mức tiêu thụ SLO

Skill này hữu ích hơn một prompt chung chung kiểu “hãy viết cho tôi một SLO” vì nó cung cấp cấu trúc rõ ràng từ SLI đến SLO rồi SLA, đồng thời bám vào chi tiết triển khai như measurement window và truy vấn kiểu PromQL.

Ai nên cài đặt skill này

Slo-implementation skill là lựa chọn rất phù hợp nếu bạn đã có telemetry hoặc có thể sớm thu thập được. Nó đặc biệt hữu ích cho các team đang dùng metric theo phong cách Prometheus và muốn áp dụng thực hành độ tin cậy theo hướng SRE mà không phải tự dựng toàn bộ framework từ đầu.

Nó sẽ kém hữu ích hơn nếu:

bạn chưa có metric dịch vụ nào thực sự có ý nghĩa
vấn đề chính của bạn là incident response chứ không phải thiết kế mục tiêu độ tin cậy
bạn chỉ cần một tài liệu SLA phục vụ pháp lý hoặc giao tiếp với khách hàng

Điều người dùng quan tâm nhất trước khi áp dụng

Phần lớn người đang cân nhắc slo-implementation install thường muốn biết:

liệu skill này có đưa ra hướng dẫn thiết kế SLO có thể hành động được, chứ không chỉ nói lý thuyết
liệu nó có hỗ trợ chi tiết triển khai như truy vấn và cảnh báo hay không
liệu nó có giúp tránh các SLO tệ, chẳng hạn như mục tiêu uptime “cho đẹp số” nhưng vô nghĩa
liệu nó có đủ ngắn gọn để dùng trong workflow thực tế hay không

Ở các điểm này, skill làm khá thực dụng: nó bao quát các loại SLI phổ biến, ví dụ đặt mục tiêu và mối quan hệ giữa objective với error budget.

Điểm mạnh chính và những đánh đổi

Điểm khác biệt lớn nhất của slo-implementation là nó giữ trọng tâm vào đo lường độ tin cậy và thiết kế policy, thay vì trôi sang các lời khuyên observability quá chung chung. Chính sự tập trung này giúp bạn gọi skill đúng mục đích và dễ hơn.

Đổi lại, chất lượng đầu ra của skill phụ thuộc mạnh vào ngữ cảnh dịch vụ bạn cung cấp. Nếu bạn không nêu rõ user journey, traffic pattern, dependency, threshold và tên metric, kết quả tạo ra có thể nghe hợp lý nhưng rất khó đưa vào vận hành.

Cách dùng skill slo-implementation

Bối cảnh cài đặt cho skill slo-implementation

Hãy cài skill trong môi trường nơi agent của bạn có thể truy cập custom skills. Mẫu triển khai thường gặp là:

thêm source repository vào phần thiết lập skills
bật skill slo-implementation
gọi skill khi tác vụ của bạn là định nghĩa hoặc chỉnh sửa SLI, SLO, error budget hoặc cảnh báo dựa trên SLO

Nếu công cụ của bạn hỗ trợ cài skill trực tiếp, hãy dùng skill loader quen thuộc cho repository tại:
https://github.com/wshobson/agents/tree/main/plugins/observability-monitoring/skills/slo-implementation

Vì bằng chứng từ repository cho thấy skill này chỉ có SKILL.md, bạn nên đọc file đó trước tiên thay vì kỳ vọng có script hỗ trợ hay tài liệu tham chiếu bổ sung.

Hãy đọc file này trước

Bắt đầu với:

plugins/observability-monitoring/skills/slo-implementation/SKILL.md

File này chứa phần nội dung cốt lõi của slo-implementation guide: mục đích, khi nào nên dùng, cấu trúc SLI/SLO/SLA, các loại SLI phổ biến, ví dụ về target và các pattern triển khai.

Skill cần đầu vào gì để cho ra kết quả hữu ích

Để có slo-implementation usage chất lượng cao, hãy cung cấp cho agent:

tên dịch vụ và người dùng làm gì với dịch vụ đó
các user journey quan trọng nhất ở phía người dùng
metric và label hiện có
dashboard, alert hoặc PromQL hiện tại nếu có
lưu lượng truy cập và tính mùa vụ
mức độ quan trọng với kinh doanh và chi phí downtime
kỳ vọng về latency theo từng endpoint hoặc thao tác
các failure mode đã biết
bạn cần SLO nội bộ, căn chỉnh với SLA bên ngoài hay cả hai

Nếu thiếu những dữ liệu này, skill vẫn có thể phác thảo một SLO, nhưng thường sẽ mặc định về các target availability chung chung và SLI dựa trên request khá đơn giản.

Biến mục tiêu còn thô thành một prompt tốt

Prompt yếu:

“Create SLOs for my API.”

Prompt tốt hơn:

“Use the slo-implementation skill to define SLIs and SLOs for a multi-tenant payments API. Our critical user journeys are charge creation and webhook delivery. We use Prometheus. Available metrics include http_requests_total, http_request_duration_seconds_bucket, and queue retry counters. Propose 2 to 3 SLIs, recommend SLO targets, calculate monthly error budgets, and suggest burn-rate alerts. Exclude admin endpoints and health checks.”

Vì sao prompt này hiệu quả:

nó xác định rõ ranh giới dịch vụ
nó trỏ vào metric có thật
nó giới hạn phạm vi vào các user journey thực sự quan trọng
nó yêu cầu đúng các đầu ra mà skill được thiết kế để tạo ra

Workflow tốt nhất khi dùng lần đầu

Một luồng slo-implementation usage thực tế là:

chọn một dịch vụ, không phải toàn bộ platform
nêu tên 1 đến 3 user journey quan trọng
ánh xạ từng journey với các tín hiệu hiện có
yêu cầu skill đề xuất các SLI khả dĩ
rà soát xem các SLI đó có phản ánh trải nghiệm người dùng hay chỉ phản ánh nội tình hệ thống
đặt mục tiêu SLO ban đầu và error budget
phác thảo logic cảnh báo
kiểm tra xem metric hiện có có thực sự hỗ trợ thiết kế đó hay không
chỉnh lại threshold và exclusion trước khi rollout

Cách làm này tránh được lỗi rất phổ biến là cố định nghĩa policy độ tin cậy cho toàn doanh nghiệp chỉ trong một lần.

Những gì skill thường làm tốt

Slo-implementation skill mạnh nhất ở các việc:

đề xuất các pattern SLI phổ biến như availability và latency
giải thích mối quan hệ giữa SLI/SLO/SLA
chuyển mục tiêu độ tin cậy thành các tỷ lệ có thể đo lường
gợi ý khoảng target và cách diễn giải error budget
phác thảo cảnh báo dựa trên mức tiêu thụ SLO

Skill đặc biệt hữu ích khi bạn cần một bản nháp vận hành đầu tiên thật nhanh nhưng vẫn bám vào ngôn ngữ chuẩn của SRE.

Những chỗ team thường bị kẹt

Việc áp dụng thường chững lại vì một trong các lý do sau:

team không thống nhất được ranh giới dịch vụ nhìn từ phía người dùng
chỉ có metric hạ tầng, chưa có metric theo user journey
thiếu latency histogram nên các SLI dựa trên threshold khá yếu
metric lẫn bot traffic, internal job hoặc health check, làm méo cả tử số lẫn mẫu số
target được chọn vì yếu tố chính trị nội bộ thay vì dựa trên rủi ro và chi phí

Skill có thể giúp cấu trúc cuộc thảo luận, nhưng nó không thể tự tạo ra phép đo đáng tin cậy khi telemetry chưa tồn tại.

Mẫu prompt thực tế giúp tăng chất lượng đầu ra

Hãy yêu cầu skill tạo đầu ra ở định dạng sẵn sàng cho quyết định, ví dụ:

“List candidate SLIs with rationale and tradeoffs.”
“Recommend one primary SLO and one secondary guardrail SLO.”
“Show PromQL-style formulas for each SLI.”
“Identify exclusions that should not count against the SLO.”
“Suggest alerting windows for fast and slow burn.”

Những mẫu prompt này giúp đầu ra đạt mức có thể triển khai, thay vì chỉ dừng ở lời khuyên độ tin cậy mang tính khái niệm.

Cách dùng slo-implementation cho công việc Reliability

Với slo-implementation for Reliability, hãy dùng skill ở các thời điểm sau:

trước khi ra mắt một dịch vụ mới
trong quá trình cải thiện observability
sau khi các incident lặp đi lặp lại cho thấy alert hiện tại quá nhiễu
khi lãnh đạo yêu cầu các mục tiêu độ tin cậy gắn với tác động tới khách hàng
khi bạn cần gắn tốc độ phát triển engineering với policy error budget

Skill có giá trị nhất khi team đang chuyển từ tư duy “giám sát mọi thứ” sang “đo những gì thực sự quan trọng với người dùng”.

Câu hỏi thường gặp về skill slo-implementation

Slo-implementation có tốt hơn một prompt thông thường không?

Có, nếu tác vụ của bạn thực sự là thiết kế SLI/SLO. Một prompt thông thường có thể tạo ra các định nghĩa chấp nhận được, nhưng slo-implementation có khả năng cao hơn trong việc giữ đúng cấu trúc phân cấp, đưa ra công thức đo lường được và gắn target với error budget cũng như cảnh báo.

Skill slo-implementation có thân thiện với người mới bắt đầu không?

Ở mức vừa phải. Người mới vẫn có thể dùng, nhưng kết quả tốt nhất thường đến khi bạn đã biết các khái niệm SRE cơ bản và có một chút ngữ cảnh telemetry. Nếu bạn mới làm quen với SLO, hãy dùng skill cho một dịch vụ trước và rà soát từng metric được đề xuất rồi mới áp dụng.

Có bắt buộc phải dùng Prometheus không?

Không, nhưng nội dung của skill rõ ràng rất hợp với cách tư duy theo Prometheus và PromQL. Nếu bạn đang dùng Datadog, CloudWatch, Grafana hoặc stack khác, bạn vẫn có thể dùng logic này và chuyển các biểu thức metric sang nền tảng của mình.

Khi nào không nên dùng slo-implementation?

Không nên dùng slo-implementation làm công cụ chính nếu:

bạn cần ngôn ngữ SLA phục vụ pháp lý
bạn chưa có bất kỳ telemetry dịch vụ nào dùng được
vấn đề thực sự của bạn là ownership chứ không phải measurement
dịch vụ của bạn còn quá non để xác định các user journey ổn định

Trong các trường hợp đó, hãy instrument trước hoặc giải quyết bài toán operating model trước khi chính thức hóa SLO.

Skill này có giúp phần alerting không?

Có. Skill không chỉ dừng ở việc xác định target; nó còn hỗ trợ phần vận hành của error budget và cảnh báo dựa trên SLO. Nhờ vậy, nó hữu ích hơn một template chỉ dừng lại ở các phần trăm mục tiêu.

Cách cải thiện skill slo-implementation

Cung cấp bối cảnh kinh doanh, không chỉ metric kỹ thuật

Để cải thiện kết quả từ slo-implementation, hãy cho agent biết độ tin cậy có ý nghĩa thương mại như thế nào:

Workflow nào bị mất doanh thu khi suy giảm?
Nhóm người dùng nào là premium hoặc nhạy cảm với latency?
Thời gian tác động chấp nhận được là bao lâu?

Nhờ đó skill có thể chọn target thực tế hơn, thay vì mặc định sang những con số mang tính kỳ vọng như 99.99%.

Xác định ranh giới dịch vụ thật rõ ràng

Đầu vào tốt hơn cho slo-implementation guide là nêu rõ cái gì được tính và cái gì không. Ví dụ:

bao gồm các request ghi vào public API
loại trừ /healthz, admin route và internal batch job
chỉ đo việc hoàn tất thành công mà người dùng nhìn thấy, không chỉ là request được chấp nhận

Độ rõ ràng về ranh giới là một trong những yếu tố quyết định lớn nhất để một SLO có được tin tưởng hay không.

Cung cấp tên metric và truy vấn mẫu

Skill trở nên khả dụng hơn nhiều khi bạn chia sẻ telemetry thực tế. Một đầu vào tốt thường có:

tên metric
các chiều label
histogram bucket
truy vấn alert hiện tại
link dashboard hoặc snippet được copy ra

Điều này giúp đầu ra đi từ SLO ở mức khái niệm sang các định nghĩa gần như có thể triển khai ngay.

Tránh vanity SLI

Một lỗi rất phổ biến là chọn các metric dễ thu thập nhưng lại liên hệ yếu với trải nghiệm người dùng. Ví dụ:

pod restart
chỉ nhìn CPU saturation
uptime thô của một dependency mà không ánh xạ sang tác động thực tế lên dịch vụ

Hãy yêu cầu skill giải thích vì sao từng SLI phản ánh độ tin cậy mà người dùng cảm nhận được. Nếu skill không làm rõ được điều đó, hãy thay SLI đó.

Lặp lại sau bản nháp đầu tiên

Đầu ra đầu tiên từ slo-implementation nên được xem là bản nháp. Hãy cải thiện nó bằng cách hỏi:

“Which SLI is most representative of user harm?”
“What would make this SLO impossible to measure accurately?”
“Which exclusions are risky or easy to abuse?”
“How would this change for low-traffic services?”
“What alerting would reduce noise while protecting the error budget?”

Vòng lặp thứ hai này thường tạo ra thiết kế vận hành tốt hơn nhiều so với việc chấp nhận ngay bộ target đầu tiên.

Kiểm thử áp lực bằng incident trong quá khứ

Một trong những cách tốt nhất để cải thiện đầu ra của slo-implementation skill là đối chiếu các SLI và alert được đề xuất với incident có thật. Hãy hỏi:

SLO này có phát hiện được sự cố đó không?
nó có tính quá nhiều các lỗi vô hại không?
policy burn-rate có paging quá sớm hoặc quá muộn không?

Bước xác thực này biến một tài liệu trông gọn gàng thành thứ mà team có thể thực sự vận hành.

Chỉ làm từng dịch vụ một

Nếu kết quả nghe còn chung chung, rất có thể phạm vi đang quá rộng. Skill hoạt động tốt nhất khi tập trung vào một dịch vụ hoặc một user journey. Hãy tách các hệ thống lớn thành nhiều lượt làm riêng, rồi chuẩn hóa pattern sau.

Đánh giá & nhận xét

Chưa có đánh giá nào

Chia sẻ nhận xét của bạn

Đăng nhập để chấm điểm và để lại nhận xét cho skill này.

0/10000

Nhận xét mới nhất

Đang lưu...

Thêm skill trong danh mục này

error-handling-patterns

bởi wshobson

error-handling-patterns giúp các nhóm chọn giữa exceptions và Result types, phân loại lỗi, truyền ngữ cảnh và thiết kế graceful degradation để API và dịch vụ vận hành đáng tin cậy hơn.

Reliability

Yêu thích 1GitHub 32.6k

python-resilience

bởi wshobson

python-resilience là skill hướng dẫn giúp xử lý lỗi trong Python an toàn hơn với retry, exponential backoff, jitter, timeout và giới hạn thời gian retry. Hãy dùng skill này để triển khai các mẫu resilience thực tế cho các external call và áp dụng các wrapper kiểu tenacity với quy tắc retry rõ ràng hơn.

Reliability

Yêu thích 0GitHub 32.6k

on-call-handoff-patterns

bởi wshobson

Tìm hiểu skill on-call-handoff-patterns để bàn giao ca trực ổn định và đáng tin cậy. Dùng skill này để chuẩn hóa bàn giao sự cố, ghi lại vấn đề đang mở, thay đổi gần đây, trạng thái leo thang xử lý và các bước tiếp theo cho đội Reliability.

Reliability

Yêu thích 0GitHub 32.5k

incident-runbook-templates

bởi wshobson

incident-runbook-templates giúp các nhóm xây dựng runbook ứng phó sự cố có cấu trúc rõ ràng, với các bước phân loại ban đầu, giảm thiểu tác động, leo thang, truyền thông và khôi phục cho sự cố gián đoạn và Playbooks vận hành.

Playbooks

Yêu thích 0GitHub 32.5k

upgrade-stripe

bởi stripe

Hướng dẫn upgrade-stripe để nâng cấp phiên bản Stripe API, các SDK phía server, Stripe.js và SDK di động trong các codebase thực tế, kèm các bước làm việc thực tiễn cho Backend Development.

Backend Development

Yêu thích 0GitHub 1.5k

istio-traffic-management

bởi wshobson

istio-traffic-management giúp nhóm soạn các chính sách lưu lượng Istio như VirtualService, DestinationRule, Gateway và ServiceEntry cho canary, retries, circuit breaking và mirroring. Dùng nó để chuyển ý định triển khai thành các manifest định tuyến và khả năng chịu lỗi rõ ràng, kèm prompt thực dụng và điểm kiểm tra khi review.

Deployment

Yêu thích 0GitHub 32.6k

linkerd-patterns

bởi wshobson

linkerd-patterns giúp các nhóm áp dụng những mẫu triển khai Linkerd cho workload Kubernetes, bao gồm mTLS, sidecar injection, traffic splits, retries, timeouts, service profiles và lập kế hoạch multi-cluster cho các đợt rollout dựa trên Deployment.

Deployment

Yêu thích 0GitHub 32.6k

frontend-design

bởi anthropics

frontend-design giúp biến ý tưởng UI mơ hồ thành giao diện khác biệt, sẵn sàng production, với frontend code thực tế, định hướng thẩm mỹ rõ ràng và ít kiểu AI chung chung.

UI Design

Yêu thích 1GitHub 105.2k

create-colleague

bởi titanwings

create-colleague biến tài liệu đồng nghiệp, chat, email, ảnh chụp màn hình, dữ liệu Feishu và DingTalk thành một AI skill có thể chỉnh sửa, với đầu ra tách riêng phần công việc và chân dung, kèm các luồng cập nhật để tiếp tục tinh chỉnh theo thời gian.

Skill Authoring

Yêu thích 1GitHub 747

hyperframes

bởi heygen-com

hyperframes là một skill quy trình để xây dựng các bố cục video dựa trên HTML trong HyperFrames. Hãy dùng nó cho thẻ tiêu đề, lớp phủ, phụ đề, lồng tiếng, chuyển động phản ứng theo âm thanh và chuyển cảnh khi bạn cần hyperframes có cấu trúc, ưu tiên mã nguồn cho Video Editing. Skill này đề cao quyết định về bố cục, thời gian và hoạt ảnh hơn là các yêu cầu video chung chung chỉ dựa trên prompt.

Video Editing

Yêu thích 0GitHub 2.7k

kreuzberg

bởi kreuzberg-dev

Kreuzberg skill giúp bạn cài đặt và dùng Kreuzberg để trích xuất tài liệu trên hơn 91 định dạng, bao gồm PDF, file Office, hình ảnh, HTML, email và archive. Nội dung bao phủ các quy trình với Python, Node.js/TypeScript, Rust và CLI cho OCR, bảng biểu, metadata, xử lý hàng loạt và hướng dẫn phân tích cú pháp thực tế.

PDF Processing

Yêu thích 0GitHub 0

skill-creator

bởi anthropics

skill-creator là meta-skill soạn thảo skill, dùng để tạo skill mới, chỉnh sửa file SKILL.md hiện có, chạy eval, so sánh các biến thể và cải thiện mô tả trigger bằng script trong repo cùng công cụ review.

Skill Authoring

Yêu thích 2GitHub 105.1k

azure-identity-py

bởi microsoft

azure-identity-py giúp thiết lập xác thực Azure trong Python với Microsoft Entra ID. Hãy dùng skill này để chọn giữa DefaultAzureCredential, managed identity hoặc xác thực bằng service principal, cấu hình biến môi trường và xử lý các vấn đề về kiểm soát truy cập cũng như chuỗi credential. Hướng dẫn cài đặt, mẫu sử dụng và các lưu ý thiết lập thực tế đều được xây dựng dựa trên file skill của repo.

Access Control

Yêu thích 0GitHub 2.2k

claude-api

bởi anthropics

claude-api là kỹ năng thực tiễn để cài đặt và sử dụng Claude API cùng các Anthropic SDK. Nội dung giúp lập trình viên chọn đúng SDK hoặc dùng HTTP thô, tìm tài liệu theo ngôn ngữ, và triển khai streaming, tool use, files, batches cùng xử lý lỗi với ít phỏng đoán hơn.

API Development

Yêu thích 0GitHub 105k

wrangler

bởi cloudflare

wrangler skill giúp bạn tìm đúng lệnh CLI, cấu trúc cấu hình và các bước triển khai cho Cloudflare Workers. Hãy dùng nó khi cần tra cứu cách dùng wrangler, kiểm tra cài đặt wrangler, hoặc cần một hướng dẫn wrangler thực tế khi xây dựng hay phát hành Workers cho Backend Development.

Backend Development

Yêu thích 0GitHub 1.3k

clickhouse-best-practices

bởi ClickHouse

clickhouse-best-practices là skill best practices cho ClickHouse dành cho Database Engineering. Skill này hướng dẫn thiết kế schema, tối ưu truy vấn, chiến lược insert và kết nối agent bằng các khuyến nghị theo quy tắc, giúp việc kích hoạt, rà soát và trích dẫn cách dùng clickhouse-best-practices trong các workflow ClickHouse trở nên dễ dàng hơn.

Database Engineering

Yêu thích 0GitHub 412