slo-implementation

作者 wshobson

使用 slo-implementation skill 來定義可靠性工作的 SLI、SLO、錯誤預算與 burn-rate 警示。它能協助團隊把服務目標轉成可衡量的指標，並提供 PromQL 風格範例與來自 SKILL.md 的實務指引。

Stars32.6k

評論0

加入時間2026年3月30日

分類可靠性

安裝指令

npx skills add wshobson/agents --skill slo-implementation

編輯評分

這個 skill 的評分為 68/100，代表它可以列入目錄供使用者參考，但較適合視為以文件為核心的框架，而非可直接上手的完整實作。儲存庫提供了足夠的實際內容，能幫助 agent 判斷何時該使用它，也包含實用的 SLI/SLO 範例；不過若要真正採用，仍需要自行補足一些解讀，因為除了 markdown 內容之外，沒有支援檔案、安裝步驟或明確可見的操作規則。

68/100

亮點

觸發條件清楚：說明與「When to Use」段落明確界定了可靠性目標、SLI/SLO、錯誤預算與警示等任務範圍。
工作流程內容扎實：此 skill 包含具體的 SLI/SLO 概念，以及用於可用性與延遲的 PromQL 範例，實用性高於一般泛用提示。
安裝決策資訊算清楚：使用者可以看出這是一個用來定義 SLI、SLO 與錯誤預算的框架，不是占位內容，也不是僅供展示的 skill。

注意事項

在實際執行層面上仍有不少需要自行推敲之處，因為儲存庫中看不到能把這套框架轉成可執行工作流程的腳本、參考資源、其他支援內容或安裝指令。
摘錄內容提到外部檔案 (`references/slo-definitions.md`)，但從結構訊號來看似乎沒有對應的參考檔，這會削弱內容的完整性與可信度。

Service Level Objectives Service Level Indicators Error Budget Sre Prometheus Metrics

總覽

`slo-implementation` 技能總覽

slo-implementation skill 可協助你把模糊的可靠性目標，轉成具體的 Service Level Indicators (SLIs)、Service Level Objectives (SLOs)、error budgets，以及告警邏輯。它特別適合 SRE、平台團隊、後端工程師，以及重視可靠性的產品負責人，用一套可重複執行的方法，明確定義服務「什麼程度才算夠好」。

`slo-implementation` skill 適合拿來做什麼

當你需要以下工作時，就很適合使用 slo-implementation skill：

為服務定義可衡量的可靠性目標
選擇合適的 SLI 類型，例如 availability 或 latency
設定符合商業影響的 SLO 目標
由目標反推出 error budget
建立以 burn rate 或 SLO consumption 為基礎的告警

相較於泛泛地輸入「幫我寫一份 SLO」，這個 skill 更實用，因為它提供了從 SLI 到 SLO 再到 SLA 的結構化層次，並且把工作落實到實作細節，例如 measurement window 與 PromQL 風格查詢。

誰適合安裝它

如果你的團隊已經有 telemetry，或短期內拿得到 telemetry，slo-implementation skill 會非常適合。對於使用 Prometheus 風格 metrics、又想採用符合 SRE 方法的可靠性實務，但不想從零自建整套框架的團隊來說，它尤其有幫助。

以下情況則相對沒那麼適合：

你目前還沒有任何有意義的服務 metrics
你的主要問題是 incident response，而不是可靠性目標設計
你只需要一份法律用途或對客戶展示的 SLA 文件

使用者在採用前最在意什麼

多數在評估 slo-implementation install 的使用者，最想先確認的是：

它提供的是可執行的 SLO 設計協助，而不只是理論
它是否涵蓋查詢與告警這類實作細節
它能不能幫忙避開不良 SLO，例如只好看但沒意義的 uptime 目標
它是否夠精簡，能融入真實工作流程

在這幾點上，這個 skill 是偏實務導向的：它涵蓋常見 SLI 類型、目標設定範例，以及 objectives 與 error budgets 之間的關係。

主要優勢與取捨

slo-implementation 最大的差異點，在於它聚焦於可靠性衡量與政策設計，而不會一路發散成一般性的 observability 建議。這種聚焦讓它更容易被正確調用，也更容易產出貼近需求的內容。

但相對的，這個 skill 的效果高度取決於你提供的服務情境。如果你沒有清楚說明 user journeys、流量型態、相依性、門檻值與 metric 名稱，輸出雖然聽起來合理，實際上卻很難真正落地操作。

如何使用 `slo-implementation` skill

`slo-implementation` skill 的安裝情境

請把這個 skill 安裝在你的 agent 可以存取 custom skills 的環境中。常見做法如下：

把來源 repository 加到你的 skills 設定中
啟用 slo-implementation skill
當任務是定義或修訂 SLIs、SLOs、error budgets，或 SLO-based alerts 時再呼叫它

如果你的工具鏈支援直接安裝 skill，請用慣用的 skill loader 來載入這個 repository：
https://github.com/wshobson/agents/tree/main/plugins/observability-monitoring/skills/slo-implementation

根據 repository 內容來看，這個 skill 目前只有 SKILL.md，因此建議先讀這個檔案，而不要預期還會有 helper scripts 或其他額外參考資料。

先讀這個檔案

從這裡開始：

plugins/observability-monitoring/skills/slo-implementation/SKILL.md

這個檔案包含了 slo-implementation guide 的核心內容：用途、適用時機、SLI/SLO/SLA 階層、常見 SLI 類型、目標範例，以及實作模式。

要讓 skill 產出有用結果，你需要提供哪些輸入

如果想得到高品質的 slo-implementation usage 結果，請提供 agent：

服務名稱，以及使用者會拿它做什麼
最重要的 user-facing journeys
目前可用的 metrics 與 labels
現有 dashboards、alerts，或 PromQL（如果有）
流量規模與季節性變化
業務重要性與 outage 成本
各 endpoint 或 operation 的 latency 預期
已知的 failure modes
你需要的是 internal SLOs、對齊 external SLA，或兩者都要

若缺少這些資訊，這個 skill 還是能先草擬一版 SLO，但通常會傾向預設成通用型的 availability 目標，以及過度簡化、以 request 為主的 SLI。

把模糊需求改寫成有力的 prompt

較弱的 prompt：

「Create SLOs for my API.」

較好的 prompt：

「Use the slo-implementation skill to define SLIs and SLOs for a multi-tenant payments API. Our critical user journeys are charge creation and webhook delivery. We use Prometheus. Available metrics include http_requests_total, http_request_duration_seconds_bucket, and queue retry counters. Propose 2 to 3 SLIs, recommend SLO targets, calculate monthly error budgets, and suggest burn-rate alerts. Exclude admin endpoints and health checks.」

這樣寫有效的原因是：

它界定了服務邊界
它指向了真實存在的 metrics
它把範圍限制在有意義的 user journeys
它要求的輸出正是這個 skill 擅長產出的內容

第一次使用時的最佳工作流程

一個實用的 slo-implementation usage 流程如下：

先選一個服務，不要一口氣涵蓋整個平台
點名 1 到 3 個關鍵 user journeys
把每個 journey 對應到現有 signals
請 skill 提出候選 SLIs
檢查這些 SLIs 是否真正反映使用者體驗，而不是只有系統內部狀態
設定初始的 SLO 目標與 error budget
草擬告警邏輯
驗證現有 metrics 是否真的支撐這套設計
在 rollout 前再調整 thresholds 與 exclusions

這樣可以避開一種很常見的失敗模式：想一次就定出全企業通用的可靠性政策。

這個 skill 最擅長輸出哪些內容

slo-implementation skill 最強的地方在於：

提出常見的 SLI 模式，例如 availability 與 latency
解釋 SLI / SLO / SLA 之間的關係
把可靠性目標轉成可衡量的比率
建議合理的目標區間與 error budget framing
規劃以 SLO consumption 為基礎的告警方式

如果你需要快速產出第一版可操作的草案，並希望它建立在標準 SRE 語彙與思路上，這個 skill 會特別有幫助。

團隊通常會卡在哪裡

導入常見會卡在以下幾種情況：

團隊無法對 user-facing 的服務邊界達成共識
只有基礎設施層 metrics，沒有 user-journey 層級的 metrics
缺少 latency histograms，導致 threshold-based SLIs 很弱
metrics 混入 bot traffic、internal jobs 或 health checks，扭曲了 numerator 與 denominator
目標是出於政治因素決定，而不是依據風險與成本

這個 skill 可以幫助你把討論架構化，但如果缺少 telemetry，它也無法憑空創造可信的 measurement。

能提升輸出品質的實用 prompt 模式

你可以要求這個 skill 用「可供決策」的格式輸出，例如：

「List candidate SLIs with rationale and tradeoffs.」
「Recommend one primary SLO and one secondary guardrail SLO.」
「Show PromQL-style formulas for each SLI.」
「Identify exclusions that should not count against the SLO.」
「Suggest alerting windows for fast and slow burn.」

這些 prompt 模式能把輸出拉到接近可實作的等級，而不只是抽象的可靠性建議。

如何把 `slo-implementation` 用在 Reliability 工作中

若是要做 slo-implementation for Reliability，適合在以下時機使用：

新服務上線前
正在做 observability 改善工作時
反覆發生 incidents，顯示目前 alerts 噪音過多時
管理層要求把可靠性目標與客戶影響連結起來時
需要把工程交付速度和 error budget policy 連動時

當團隊正從「什麼都監控」轉向「衡量真正對使用者重要的事」時，它的價值最高。

`slo-implementation` skill FAQ

`slo-implementation` 比一般 prompt 更好嗎？

如果你的任務是 SLI / SLO 設計，那答案是肯定的。一般 prompt 也許能產出還過得去的定義，但 slo-implementation 更有機會保留正確階層、提供可量測公式，並把目標和 error budgets、alerting 串起來。

`slo-implementation` skill 對新手友善嗎？

算中度友善。新手也能用，但若你已經了解基本 SRE 概念，並且手上有一些 telemetry 情境，通常會得到更好的結果。如果你才剛接觸 SLO，建議先挑一個服務使用，並在採用前逐一檢查每個建議的 metric。

它一定要搭配 Prometheus 嗎？

不需要，但這個 skill 的內容明顯和 Prometheus 以及 PromQL 風格的思路很契合。如果你使用的是 Datadog、CloudWatch、Grafana 或其他堆疊，仍然可以沿用它的邏輯，再把 metric expressions 轉寫成你平台的語法。

什麼情況不該使用 `slo-implementation`？

以下情況不要把 slo-implementation 當成主要工具：

你需要的是法律用途的 SLA 文字
你沒有任何可用的服務 telemetry
你真正的問題是 ownership，而不是 measurement
你的服務還太早期，連穩定的 user journeys 都還定不下來

遇到這些情況時，應該先補 instrumentation，或先解決 operating model 的問題，再來正式化 SLO。

它也能協助處理 alerting 嗎？

可以。這個 skill 不只是定義目標而已；它也涵蓋 error budgets 的操作面，以及以 SLO 為基礎的 alerts。這讓它比那些只停留在百分比目標的 template 更實用。

如何改善 `slo-implementation` skill 的使用效果

提供商業脈絡，不要只有技術 metrics

若想提升 slo-implementation 的結果品質，請告訴 agent：在商業上，可靠性代表什麼：

哪個 workflow 一旦退化就會損失營收？
哪些使用者是 premium，或對 latency 特別敏感？
可接受的影響持續時間是多久？

這能幫助 skill 選出更現實的目標，而不是直接預設成像 99.99% 這種看起來很漂亮、但未必合理的數字。

明確定義服務邊界

更好的 slo-implementation guide 輸入，會明確寫出哪些要算、哪些不算。例如：

納入 public API 的 write requests
排除 /healthz、admin routes 與 internal batch jobs
只衡量使用者可見的成功完成，而不只是 request 被接受

邊界是否清楚，是一個 SLO 能不能被團隊信任的關鍵因素之一。

提供 metric 名稱與範例查詢

只要你分享真實 telemetry，這個 skill 的輸出就會立刻更可執行。好的輸入通常包括：

metric names
label dimensions
histogram buckets
目前的 alert queries
dashboard links 或貼上的 snippets

這能讓輸出從概念型 SLO，進一步接近幾乎可直接落地的定義。

避免 vanity SLIs

常見失敗模式之一，是挑了容易收集、但和使用者體驗關聯很弱的 metrics。例如：

pod restarts
單看 CPU saturation
某個 dependency 的原始 uptime，卻沒有對應到實際服務影響

請要求這個 skill 說明：為什麼每個 SLI 都能反映使用者感知到的可靠性。如果它說不出來，就應該替換掉那個 SLI。

第一版之後一定要再迭代

從 slo-implementation 得到的第一份輸出，應該視為草案。你可以透過以下追問來改善它：

「Which SLI is most representative of user harm?」
「What would make this SLO impossible to measure accurately?」
「Which exclusions are risky or easy to abuse?」
「How would this change for low-traffic services?」
「What alerting would reduce noise while protecting the error budget?」

這一輪第二次修正，通常會比直接接受第一版目標集合，產出更好的操作設計。

用歷史 incidents 來做壓力測試

提升 slo-implementation skill 輸出品質的最佳方式之一，就是把提議的 SLIs 與 alerts 拿去對照真實 incidents。你可以問：

這個 SLO 當時是否會偵測到問題？
它會不會把無害的失敗算得太多？
這套 burn-rate policy 會不會過早或過晚發出 page？

這個驗證步驟，能把一份看起來完整的文件，真正變成團隊可執行的東西。

一次只處理一個服務

如果結果看起來很制式、很空泛，通常代表範圍開太大了。這個 skill 在聚焦單一服務或單一 user journey 時效果最好。大型系統請拆成多次處理，之後再統一整理成標準化模式。

評分與評論

尚無評分

分享你的評論

登入後即可為這項技能評分並留言。

0/10000

此分類中的更多技能

error-handling-patterns

作者 wshobson

error-handling-patterns 可協助團隊判斷何時該用 exceptions 或 Result types、如何分類失敗、傳遞上下文，以及設計優雅降級，進而打造更可靠的 API 與服務。

可靠性

收藏 1GitHub 32.6k

python-resilience

作者 wshobson

python-resilience 是一項協助強化 Python 失敗處理安全性的指引型技能，涵蓋重試、指數退避、jitter、timeout 與有界重試視窗。可用來導入實用的外部呼叫韌性模式，並套用 tenacity 風格的包裝方式，讓重試規則更清楚一致。

可靠性

收藏 0GitHub 32.6k

on-call-handoff-patterns

作者 wshobson

了解 on-call-handoff-patterns 技能，讓值班交接更可靠順暢。可用於整理事故交接內容，記錄目前進行中的問題、近期變更、升級處理狀態，以及 Reliability 團隊的下一步行動。

可靠性

收藏 0GitHub 32.5k

incident-runbook-templates

作者 wshobson

incident-runbook-templates 可協助團隊建立結構化的事件應變 runbook，針對服務中斷與營運 Playbooks，提供清楚的初步研判、緩解、升級通報、溝通與復原步驟。

操作手册

收藏 0GitHub 32.5k

upgrade-stripe

作者 stripe

upgrade-stripe 指南，協助在真實程式碼庫中升級 Stripe API 版本、伺服器端 SDK、Stripe.js 與行動端 SDK，並提供 Backend Development 的實作步驟。

後端开发

收藏 0GitHub 1.5k

istio-traffic-management

作者 wshobson

istio-traffic-management 協助團隊撰寫 Istio 流量策略，如 VirtualService、DestinationRule、Gateway、ServiceEntry，涵蓋金絲雀、重試、斷路器與鏡像流量。用它把部署意圖轉成清楚的路由與韌性清單，並提供實用提示與審查檢核。

部署

收藏 0GitHub 32.6k

linkerd-patterns

作者 wshobson

linkerd-patterns 可協助團隊將 Linkerd 模式套用到 Kubernetes 工作負載，涵蓋 mTLS、sidecar injection、traffic splits、retries、timeouts、service profiles，以及以 Deployment 為基礎的 rollout 所需的 multi-cluster 規劃。

部署

收藏 0GitHub 32.6k

frontend-design

作者 anthropics

frontend-design 協助你把模糊的 UI 構想變成具有明確美感方向的獨特、可上線前端介面，產出真實可用的 frontend 程式碼，減少千篇一律的 AI 風格。

UI 設計

收藏 1GitHub 105.2k

create-colleague

作者 titanwings

create-colleague 可將同事文件、聊天紀錄、電子郵件、截圖、Feishu 與 DingTalk 資料整理成可編輯的 AI 技能，並分別產出工作與人物設定內容，也提供後續持續優化的更新流程。

Skill 編寫

收藏 1GitHub 747

hyperframes

作者 heygen-com

hyperframes 是一個工作流程技能，用於在 HyperFrames 中建立以 HTML 為基礎的影片組成內容。當你需要結構化、以程式碼為核心的 hyperframes 來處理影片剪輯時，可用於標題卡、疊加圖層、字幕、旁白、音訊反應動態，以及場景轉場。它更重視版面配置、時間安排與動畫決策，而不是泛用的、只靠提示詞的影片需求。

视频编辑

收藏 0GitHub 2.7k

kreuzberg

作者 kreuzberg-dev

這個 kreuzberg 技能可協助你安裝並使用 Kreuzberg 進行文件擷取，支援 91 種以上格式，包括 PDF、Office 檔案、圖片、HTML、電子郵件與壓縮檔。內容涵蓋 Python、Node.js/TypeScript、Rust 與 CLI 工作流程，適用於 OCR、表格、中繼資料、批次處理，以及實務解析指引。

PDF 处理

收藏 0GitHub 0

skill-creator

作者 anthropics

skill-creator 是一個用於撰寫技能的 meta-skill，可協助起草新技能、修改既有 `SKILL.md`、執行 eval、比較不同版本，並透過 repository 腳本與審查工具優化觸發描述。

Skill 編寫

收藏 2GitHub 105.1k

azure-identity-py

作者 microsoft

azure-identity-py 可協助你在 Python 中使用 Microsoft Entra ID 設定 Azure 驗證。可用來選擇 DefaultAzureCredential、managed identity 或 service principal 驗證，設定環境變數，並排除存取控制與 credential chain 問題。安裝指引、使用模式與實用設定說明皆根據 repo skill file 整理而成。

存取控制

收藏 0GitHub 2.2k

claude-api

作者 anthropics

claude-api 是一個實用技能，協助安裝並使用 Claude API 與 Anthropic SDK。它可幫助開發者在 SDK 與原生 HTTP 方案間做選擇、辨識對應語言文件，並以較少摸索完成串流、工具使用、檔案、批次與錯誤處理。

API 开发

收藏 0GitHub 105k

wrangler

作者 cloudflare

wrangler 技能可協助你找到 Cloudflare Workers 正確的 CLI 指令、設定結構與部署步驟。適合用在 wrangler 的使用方式、wrangler 安裝檢查，以及在為 Backend Development 建置或交付 Workers 時，取得實用的 wrangler 指南。

後端开发

收藏 0GitHub 1.3k

clickhouse-best-practices

作者 ClickHouse

clickhouse-best-practices 是一個用於資料庫工程的 ClickHouse 最佳實務技能。它以規則式建議引導 schema 設計、查詢調校、寫入策略與 agent 連線，讓 clickhouse-best-practices 在 ClickHouse 工作流程中的使用更容易被觸發、審查與引用。

資料庫工程

收藏 0GitHub 412

slo-implementation

slo-implementation 技能總覽

slo-implementation skill 適合拿來做什麼

誰適合安裝它

使用者在採用前最在意什麼

主要優勢與取捨

如何使用 slo-implementation skill

slo-implementation skill 的安裝情境

先讀這個檔案

要讓 skill 產出有用結果，你需要提供哪些輸入

把模糊需求改寫成有力的 prompt

第一次使用時的最佳工作流程

這個 skill 最擅長輸出哪些內容

團隊通常會卡在哪裡

能提升輸出品質的實用 prompt 模式

如何把 slo-implementation 用在 Reliability 工作中

slo-implementation skill FAQ

slo-implementation 比一般 prompt 更好嗎？

slo-implementation skill 對新手友善嗎？

它一定要搭配 Prometheus 嗎？

什麼情況不該使用 slo-implementation？

它也能協助處理 alerting 嗎？

如何改善 slo-implementation skill 的使用效果

提供商業脈絡，不要只有技術 metrics

明確定義服務邊界

提供 metric 名稱與範例查詢

避免 vanity SLIs

第一版之後一定要再迭代

用歷史 incidents 來做壓力測試

一次只處理一個服務

評分與評論

`slo-implementation` 技能總覽

`slo-implementation` skill 適合拿來做什麼

如何使用 `slo-implementation` skill

`slo-implementation` skill 的安裝情境

如何把 `slo-implementation` 用在 Reliability 工作中

`slo-implementation` skill FAQ

`slo-implementation` 比一般 prompt 更好嗎？

`slo-implementation` skill 對新手友善嗎？

什麼情況不該使用 `slo-implementation`？

如何改善 `slo-implementation` skill 的使用效果