slo-implementation

作成者 wshobson

slo-implementation skillを使うと、信頼性向上の取り組みに向けてSLI、SLO、エラーバジェット、バーンレートアラートを定義できます。サービス目標を測定可能な指標に落とし込めるよう、PromQLスタイルの例とSKILL.mdの実践的なガイダンスを提供します。

スター32.6k

お気に入り0

追加日2026年3月30日

カテゴリーReliability

インストールコマンド

npx skills add wshobson/agents --skill slo-implementation

編集スコア

このスキルの評価は68/100です。ディレクトリ掲載には十分ですが、すぐに使える完成済み実装というより、ドキュメント主導のフレームワークとして見るのが適切です。リポジトリには、どんな場面で使うべきかをエージェントが判断できるだけの実内容と、実践的なSLI/SLOの例が含まれています。一方で、markdown以外の補助ファイル、導入手順、運用ルールが見当たらないため、実際の採用にはある程度の読み解きと補完が必要です。

68/100

強み

トリガー条件が分かりやすく、説明文と"When to Use"セクションで、信頼性目標、SLI/SLO、エラーバジェット、アラート設計の用途が明確に整理されています。
ワークフロー内容に中身があり、可用性やレイテンシ向けの具体的なSLI/SLOの考え方とPromQL例が含まれているため、汎用的なプロンプトより実務に結びつけやすい構成です。
導入判断のしやすさは比較的良好で、これはSLI、SLO、エラーバジェットを定義するためのフレームワークであり、プレースホルダーやデモ専用スキルではないと判断できます。

注意点

運用面の実行は手探りになりやすく、リポジトリ上にスクリプト、参照リソース、補助ファイル、install commandが見当たらないため、フレームワークをそのまま実行可能なワークフローに落とし込むには追加の解釈が必要です。
抜粋では外部ファイル`references/slo-definitions.md`に言及していますが、構成上は参照ファイルの存在が確認できず、信頼性と内容の完全性にやや不安が残ります.

Service Level Objectives Service Level Indicators Error Budget Sre Prometheus Metrics

概要

slo-implementationスキルの概要

slo-implementation スキルは、あいまいな信頼性目標を、具体的な Service Level Indicator（SLI）、Service Level Objective（SLO）、エラーバジェット、アラート設計へ落とし込むためのスキルです。特に、SRE、プラットフォームチーム、バックエンドエンジニア、そして「どこまでが十分に健全なサービス状態なのか」を再現性ある形で定義したいプロダクトオーナーに向いています。

slo-implementationスキルの用途

slo-implementation スキルは、次のような場面で使うと効果的です。

サービスに対して測定可能な信頼性目標を定義したい
可用性やレイテンシなど、適切な SLI の種類を選びたい
ビジネス影響に見合った SLO ターゲットを設定したい
そのターゲットからエラーバジェットを導きたい
burn rate や SLO 消費量に基づくアラートを設計したい

単に「SLO を書いて」と頼む汎用プロンプトより有用なのは、SLI → SLO → SLA という構造を保ちながら、計測ウィンドウや PromQL 風クエリのような実装レベルの論点まで踏み込めるからです。

どんな人に導入が向いているか

slo-implementation skill は、すでにテレメトリがある、または近いうちに取得できるチームに特に適しています。とくに、Prometheus 系のメトリクスを使っていて、SRE に沿った信頼性運用をゼロから独自設計せずに進めたいチームには相性がよいです。

逆に、次のような場合は効果が薄くなります。

まだ意味のあるサービスメトリクスが存在しない
主な課題が信頼性目標の設計ではなくインシデント対応である
必要なのが法務・顧客向けの SLA 文書だけである

導入前にユーザーが特に気にする点

slo-implementation install を検討する多くのユーザーが知りたいのは、主に次の点です。

理論だけでなく、実際に使える SLO 設計支援が得られるか
クエリやアラートなど実装に踏み込んだ支援があるか
見栄えだけの uptime 目標のような、悪い SLO を避ける助けになるか
実務フローに組み込める程度に簡潔か

その点でこのスキルは実用寄りです。代表的な SLI パターン、ターゲット設定例、目標値とエラーバジェットの関係まで押さえています。

主な強みとトレードオフ

slo-implementation の大きな特徴は、汎用的な observability 論に流れず、信頼性の測定とポリシー設計に焦点を絞っていることです。このフォーカスのおかげで、呼び出し時の使いどころがぶれにくくなります。

一方で、出力品質は与えるサービス文脈に強く依存します。ユーザージャーニー、トラフィック特性、依存関係、しきい値、メトリクス名などを具体的に渡さないと、もっともらしく見えても運用に乗せにくい結果になりがちです。

slo-implementationスキルの使い方

slo-implementationスキルの導入コンテキスト

このスキルは、エージェントがカスタムスキルにアクセスできる環境へ導入します。一般的な流れは次のとおりです。

ソースリポジトリを skills のセットアップに追加する
slo-implementation スキルを有効化する
SLI、SLO、エラーバジェット、または SLO ベースのアラートを定義・見直ししたいタスクで呼び出す

ツールチェーンが直接のスキル導入に対応している場合は、通常の skill loader を使って次のリポジトリを指定します。
https://github.com/wshobson/agents/tree/main/plugins/observability-monitoring/skills/slo-implementation

このスキルについて、リポジトリ上で確認できる実体は SKILL.md のみなので、補助スクリプトや追加資料を期待するより、まずそのファイルを読む前提で進めるのが現実的です。

最初に読むべきファイル

まず確認すべきなのは次です。

plugins/observability-monitoring/skills/slo-implementation/SKILL.md

このファイルに、slo-implementation guide の中身がまとまっています。用途、使いどころ、SLI/SLO/SLA の階層、代表的な SLI タイプ、ターゲット例、実装パターンまで、実質的な情報はここにあります。

有用な出力に必要な入力情報

質の高い slo-implementation usage にするには、エージェントへ次の情報を渡してください。

サービス名と、ユーザーがそのサービスで何をしているか
もっとも重要なユーザー向けジャーニー
現在取得できているメトリクスとラベル
既存のダッシュボード、アラート、PromQL があればその内容
トラフィック量と季節変動
ビジネス上の重要度と障害コスト
エンドポイントや操作ごとのレイテンシ期待値
既知の障害モード
内部向け SLO が必要なのか、外部 SLA との整合も必要なのか、その両方なのか

これらがなくても SLO の草案自体は作れますが、可用性偏重の汎用ターゲットや、単純なリクエストベース SLI に寄りやすくなります。

ラフな目標を良いプロンプトに変える

弱いプロンプト:

“Create SLOs for my API.”

より良いプロンプト:

“Use the slo-implementation skill to define SLIs and SLOs for a multi-tenant payments API. Our critical user journeys are charge creation and webhook delivery. We use Prometheus. Available metrics include http_requests_total, http_request_duration_seconds_bucket, and queue retry counters. Propose 2 to 3 SLIs, recommend SLO targets, calculate monthly error budgets, and suggest burn-rate alerts. Exclude admin endpoints and health checks.”

このプロンプトが有効な理由:

サービス境界が明確
実在するメトリクスを示している
意味のあるユーザージャーニーにスコープを絞っている
スキルが得意とする出力を明示している

初回利用におすすめのワークフロー

実務的な slo-implementation usage の流れは次のとおりです。

プラットフォーム全体ではなく、まず 1 サービスに絞る
重要なユーザージャーニーを 1〜3 個挙げる
各ジャーニーを既存シグナルに対応づける
スキルに候補 SLI を出させる
その SLI がシステム内部ではなくユーザー体験を反映しているか確認する
初期 SLO ターゲットとエラーバジェットを設定する
アラートロジックを草案化する
実際にその設計をメトリクスで支えられるか検証する
本番導入前にしきい値や除外条件を見直す

こう進めると、企業全体の信頼性ポリシーを一度に定義しようとして破綻する、よくある失敗を避けられます。

このスキルが特に得意な出力

slo-implementation skill が強いのは次のような領域です。

可用性やレイテンシなど、定番の SLI パターン提案
SLI / SLO / SLA の関係整理
信頼性目標を測定可能な比率へ変換すること
ターゲット範囲の提案とエラーバジェットの考え方の整理
SLO 消費量に基づくアラートのたたき台作成

とくに、最初の運用可能なドラフトを素早く作りたい、かつ標準的な SRE 用語に沿って進めたいときに役立ちます。

チームが詰まりやすいポイント

導入が止まりやすい理由は、たいてい次のいずれかです。

ユーザー向けサービス境界についてチーム内で合意できない
インフラメトリクスしかなく、ユーザージャーニーに紐づくメトリクスがない
レイテンシヒストグラムがなく、しきい値型 SLI が弱い
bot トラフィック、内部ジョブ、health check がメトリクスに混ざり、分子・分母を歪めている
ターゲットがリスクやコストではなく政治的判断で決まっている

このスキルは議論を構造化する助けにはなりますが、テレメトリがない状態から信頼できる計測を作り出すことはできません。

出力品質を上げる実践的なプロンプトパターン

抽象論ではなく、意思決定に使える形で出力させるには、たとえば次のように依頼します。

“List candidate SLIs with rationale and tradeoffs.”
“Recommend one primary SLO and one secondary guardrail SLO.”
“Show PromQL-style formulas for each SLI.”
“Identify exclusions that should not count against the SLO.”
“Suggest alerting windows for fast and slow burn.”

こうしたプロンプトにすると、一般論の信頼性アドバイスではなく、実装に近いレベルの出力になりやすくなります。

信頼性業務でslo-implementationを使う場面

Reliability 向けの slo-implementation は、次のタイミングで使うと効果的です。

新しいサービスをリリースする前
observability 改善の取り組み中
繰り返し起きるインシデントから、現行アラートのノイズが明らかになったとき
経営層から、顧客影響と結びついた信頼性目標を求められたとき
開発速度とエラーバジェット運用を結び付けたいとき

とくに、「全部監視する」から「ユーザーにとって重要なものを測る」へ移行するチームにとって価値が高いです。

slo-implementationスキル FAQ

slo-implementationは普通のプロンプトより良いですか？

はい。タスクが SLI / SLO 設計に特化しているなら、その価値はあります。普通のプロンプトでもそれらしい定義は出せますが、slo-implementation のほうが階層構造を保ちやすく、測定可能な式を含め、ターゲットをエラーバジェットやアラートまでつなげやすい傾向があります。

slo-implementationスキルは初心者向けですか？

難易度は中程度です。初心者でも使えますが、良い結果を得るには基本的な SRE 概念と、ある程度のテレメトリ文脈を理解しているほうが有利です。SLO に不慣れなら、まず 1 サービスだけで試し、提案された各メトリクスを採用前にきちんとレビューするのが安全です。

Prometheusは必須ですか？

いいえ、必須ではありません。ただし、スキル内容は Prometheus や PromQL 的な考え方とかなり相性が良いのは明らかです。Datadog、CloudWatch、Grafana、その他のスタックを使っていても、ロジック自体は活用でき、メトリクス式を自分の基盤に合わせて読み替えられます。

どんな場合はslo-implementationを使わないほうがいいですか？

次のような場合、主力ツールとして slo-implementation を使うのは避けたほうがよいです。

法務向けの SLA 文言が必要
使えるサービステレメトリがほとんどない
本当の問題が計測ではなくオーナーシップにある
まだサービスが未成熟で、安定したユーザージャーニーを定義できない

こうしたケースでは、SLO を形式化する前に、まず計測基盤を整えるか、運用モデルの問題を解くべきです。

アラート設計にも役立ちますか？

はい。これはターゲット定義だけのスキルではなく、エラーバジェット運用や SLO ベースのアラートという運用面にも踏み込みます。単にパーセンテージ目標を並べて終わるテンプレートより実務向きです。

slo-implementationスキルを改善するには

技術メトリクスだけでなくビジネス文脈も渡す

slo-implementation の結果を良くしたいなら、信頼性がビジネス上何を意味するのかをエージェントに伝えてください。

どのワークフローが劣化すると売上に響くのか
どのユーザーがプレミアム顧客、あるいはレイテンシに敏感なのか
どの程度の影響時間なら許容されるのか

これにより、99.99% のような理想先行の数字へ安易に寄るのではなく、現実的なターゲットを選びやすくなります。

サービス境界を明示する

より良い slo-implementation guide 入力では、「何を含めて、何を含めないか」をはっきり書きます。たとえば次のような形です。

公開 API の write request は含める
/healthz、admin routes、内部 batch jobs は除外する
単なる request acceptance ではなく、ユーザーから見て成功した完了のみを測る

SLO が信頼されるかどうかは、この境界定義の明確さに大きく左右されます。

メトリクス名とサンプルクエリを渡す

実際のテレメトリを共有すると、このスキルは一気に実用的になります。良い入力の例は次のとおりです。

metric names
label dimensions
histogram buckets
current alert queries
dashboard links or copied snippets

これがあると、概念的な SLO 提案から、ほぼ実装可能な定義にまで出力を進めやすくなります。

見栄えだけのSLIを避ける

ありがちな失敗は、集めやすいがユーザー体験との結び付きが弱いメトリクスを選ぶことです。たとえば次のようなものです。

pod restarts
CPU saturation alone
raw uptime of a dependency with no service impact mapping

各 SLI が「なぜユーザーが感じる信頼性を表しているのか」を、スキルに説明させてください。説明できないなら、その SLI は差し替えるべきです。

最初のドラフト後に必ず反復する

slo-implementation の最初の出力は、完成版ではなく草案として扱うべきです。次のように問い返すと、設計がかなり改善します。

“Which SLI is most representative of user harm?”
“What would make this SLO impossible to measure accurately?”
“Which exclusions are risky or easy to abuse?”
“How would this change for low-traffic services?”
“What alerting would reduce noise while protecting the error budget?”

最初のターゲット案をそのまま採用するより、この 2 周目で運用設計の質が大きく上がることが多いです。

過去インシデントでslo-implementationを検証する

slo-implementation skill の出力改善で特に有効なのは、提案された SLI やアラートを実際の障害事例に照らして検証することです。たとえば次を確認します。

この SLO ならその問題を検知できたか
害のない失敗まで過剰にカウントしていないか
burn-rate policy は早すぎず遅すぎずページできたか

この検証を入れることで、見栄えのよい文書が、実際にチームで回せる設計に変わります。

一度に扱うのは1サービスずつにする

結果が抽象的すぎると感じるなら、たいていスコープが広すぎます。このスキルは、1 つのサービス、または 1 つのユーザージャーニーに絞ったときに最も力を発揮します。大きなシステムは複数回に分けて扱い、パターンの標準化はその後で行うのが得策です。

評価とレビュー

まだ評価がありません

レビューを投稿

このスキルの評価やコメントを投稿するにはサインインしてください。

0/10000

新着レビュー

保存中...

このカテゴリーの他のスキル

error-handling-patterns

作成者 wshobson

error-handling-patterns は、例外と Result 型の使い分け、障害の分類、コンテキストの伝搬、段階的な機能低下の設計を整理し、より信頼性の高い API やサービス設計を支援します。

Reliability

お気に入り 1GitHub 32.6k

python-resilience

作成者 wshobson

python-resilienceは、retry、exponential backoff、jitter、timeout、bounded retry windowを使って、Pythonの障害処理をより安全に設計するためのガイダンススキルです。外部APIや外部サービス呼び出し向けの実践的なレジリエンスパターンを導入し、tenacityスタイルのラッパーを、より明確なretryルールで適用したい場合に役立ちます。

Reliability

お気に入り 0GitHub 32.6k

on-call-handoff-patterns

作成者 wshobson

on-call-handoff-patternsスキルを使って、確実なシフト引き継ぎを行う方法を学べます。インシデントの引き継ぎ内容を整理し、対応中の課題、直近の変更、エスカレーション状況、次のアクションをReliabilityチーム向けに漏れなく共有するのに役立ちます。

Reliability

お気に入り 0GitHub 32.5k

incident-runbook-templates

作成者 wshobson

incident-runbook-templates は、障害対応や運用 Playbooks 向けに、トリアージ、緩和策、エスカレーション、コミュニケーション、復旧までを明確に整理した構造化インシデント対応 runbook の作成を支援します。

Playbooks

お気に入り 0GitHub 32.5k

upgrade-stripe

作成者 stripe

upgrade-stripe のガイド。Stripe API バージョン、サーバーサイド SDK、Stripe.js、モバイル SDK を実際のコードベースでアップグレードするための、Backend Development 向け実践手順をまとめています。

Backend Development

お気に入り 0GitHub 1.5k

istio-traffic-management

作成者 wshobson

istio-traffic-management は、VirtualService、DestinationRule、Gateway、ServiceEntry などの Istio トラフィックポリシーを作成し、カナリア、リトライ、サーキットブレーカー、ミラーリングに対応するためのスキルです。導入意図を明確なルーティング／レジリエンス向けマニフェストに落とし込む際に、実用的なプロンプトとレビュー観点で支援します。

Deployment

お気に入り 0GitHub 32.6k

linkerd-patterns

作成者 wshobson

linkerd-patternsは、KubernetesワークロードでLinkerdの実践パターンを適用するためのガイドです。mTLS、サイドカー注入、トラフィックスプリット、リトライ、タイムアウト、サービスプロファイル、Deploymentベースのロールアウトに向けたマルチクラスター計画までカバーします。

Deployment

お気に入り 0GitHub 32.6k

frontend-design

作成者 anthropics

frontend-designは、曖昧なUIアイデアから、汎用的でないスタイリングと明確な美的指針を備えた、個性的なプロダクション品質のフロントエンド実装を生成するのに役立つスキルです。

UI Design

お気に入り 1GitHub 105.2k

create-colleague

作成者 titanwings

create-colleague は、同僚に関するドキュメント、チャット、メール、スクリーンショット、Feishu、DingTalk のデータをもとに、編集可能な AI スキルを生成します。業務面と人物像を分けて出力でき、継続的に磨き込むための更新フローにも対応しています。

Skill Authoring

お気に入り 1GitHub 747

hyperframes

作成者 heygen-com

hyperframes は、HyperFrames で HTML ベースの動画コンポジションを構築するためのワークフロースキルです。タイトルカード、オーバーレイ、字幕、ナレーション、音に反応するモーション、シーン遷移など、Video Editing 向けに構造化されたコードファーストの hyperframes が必要なときに使えます。汎用的なプロンプトだけの動画依頼よりも、レイアウト、タイミング、アニメーションの設計を重視します。

Video Editing

お気に入り 0GitHub 2.7k

kreuzberg

作成者 kreuzberg-dev

このkreuzbergスキルは、PDF、Officeファイル、画像、HTML、メール、アーカイブなど91種類以上の形式に対応するKreuzbergの導入と活用を支援します。OCR、表、メタデータ、バッチ処理、実用的な解析の進め方まで、Python、Node.js/TypeScript、Rust、CLI の各ワークフローをカバーします。

PDF Processing

お気に入り 0GitHub 0

skill-creator

作成者 anthropics

skill-creator は、新規スキル作成、既存の SKILL.md 改訂、eval 実行、バリアント比較、トリガー説明の改善を支援する Skill Authoring 向けメタスキルです。リポジトリ内のスクリプトやレビュー補助を使った実務的な運用に向いています。

Skill Authoring

お気に入り 2GitHub 105.1k

azure-identity-py

作成者 microsoft

azure-identity-py は、Microsoft Entra ID を使った Python の Azure 認証設定を支援します。DefaultAzureCredential、マネージド ID、サービスプリンシパル認証の選択、環境変数の設定、アクセス制御や資格情報チェーンの問題のトラブルシュートに活用できます。インストール手順、利用パターン、実践的な設定メモは、repo の skill file に基づいています。

Access Control

お気に入り 0GitHub 2.2k

claude-api

作成者 anthropics

claude-apiは、Claude APIとAnthropic SDKの導入・実装を進めやすくする実用的なスキルです。SDKを使うかraw HTTPを選ぶかの判断、言語別ドキュメントの見極め、streaming、tool use、files、batches、error handlingの実装を、手探りを減らして進められます。

API Development

お気に入り 0GitHub 105k

wrangler

作成者 cloudflare

wranglerスキルは、Cloudflare Workersで正しいCLIコマンド、設定形式、デプロイ手順を見つけるのに役立ちます。wranglerの使い方、wranglerの導入確認、Backend DevelopmentでWorkersを作成・公開する際の実用的なwranglerガイドとして活用してください。

Backend Development

お気に入り 0GitHub 1.3k

clickhouse-best-practices

作成者 ClickHouse

clickhouse-best-practicesは、Database Engineering向けのClickHouseベストプラクティス skill です。スキーマ設計、クエリチューニング、insert戦略、エージェント接続を、ルールベースの推奨で整理して案内します。clickhouse-best-practices の使いどころを見極めやすく、レビューや引用にもつなげやすいので、ClickHouse のワークフローで活用しやすいのが特長です。

Database Engineering

お気に入り 0GitHub 412