slo-implementation
von wshobsonMit dem Skill slo-implementation definieren Teams SLIs, SLOs, Error Budgets und Burn-Rate-Alerts für Reliability-Arbeit. Er hilft dabei, Service-Ziele in messbare Vorgaben zu übersetzen, mit PromQL-nahen Beispielen und praxisorientierter Anleitung aus SKILL.md.
Dieser Skill erreicht 68/100. Damit ist er für Verzeichnisnutzer grundsätzlich geeignet, sollte aber eher als dokumentgetriebenes Framework denn als sofort einsatzbereite Implementierung betrachtet werden. Das Repository bietet genug konkrete Inhalte, damit ein Agent erkennt, wann es sinnvoll ist, und liefert praxisnahe SLI-/SLO-Beispiele. Für die Einführung ist jedoch weiterhin eigene Interpretation nötig, da es außer dem Markdown keine Support-Dateien, Installationsschritte oder sichtbaren operativen Regeln gibt.
- Gute Auffindbarkeit für passende Aufgaben: Die Beschreibung und der Abschnitt "When to Use" grenzen Aufgaben rund um Reliability-Ziele, SLI/SLOs, Error Budgets und Alerting klar ein.
- Substanzieller Workflow-Inhalt: Der Skill enthält konkrete SLI-/SLO-Konzepte und beispielhaftes PromQL für Verfügbarkeit und Latenz und ist damit deutlich praxisnäher als ein generischer Prompt.
- Die Eignung für eine Installationsentscheidung ist ordentlich erkennbar: Nutzer sehen, dass es sich um ein Framework zur Definition von SLIs, SLOs und Error Budgets handelt und nicht nur um einen Platzhalter oder einen reinen Demo-Skill.
- Die operative Umsetzung bleibt teilweise spekulativ, weil das Repository keine Skripte, Referenzen, Ressourcen oder Installationsbefehle zeigt, mit denen sich das Framework in einen lauffähigen Workflow überführen lässt.
- Der Auszug verweist auf eine externe Datei (`references/slo-definitions.md`), strukturelle Hinweise zeigen jedoch keine Referenzdateien. Das schwächt Vertrauen und Vollständigkeit.
Überblick über den slo-implementation-Skill
Der slo-implementation-Skill hilft dabei, vage Zuverlässigkeitsziele in konkrete Service Level Indicators (SLIs), Service Level Objectives (SLOs), Error Budgets und Alerting-Logik zu übersetzen. Er eignet sich besonders für SREs, Plattform-Teams, Backend-Engineers und Product Owner mit Reliability-Fokus, die einen wiederholbaren Weg brauchen, um festzulegen, was „ausreichend guter“ Servicezustand in der Praxis bedeutet.
Wofür der slo-implementation-Skill gedacht ist
Nutze den slo-implementation-Skill, wenn du:
- messbare Zuverlässigkeitsziele für einen Service definieren musst
- den passenden SLI-Typ auswählen willst, zum Beispiel Availability oder Latency
- ein SLO-Ziel festlegen möchtest, das zum geschäftlichen Impact passt
- daraus ein Error Budget ableiten willst
- Alerting auf Basis von Burn Rate oder SLO-Verbrauch aufsetzen musst
Nützlicher als ein generischer Prompt wie „write me an SLO“ ist das deshalb, weil der Skill eine klare Hierarchie von SLI über SLO bis SLA vorgibt und die Arbeit in konkrete Implementierungsdetails einbettet, etwa Messfenster und PromQL-ähnliche Abfragen.
Für wen sich die Installation lohnt
Der slo-implementation skill passt besonders gut, wenn bereits Telemetrie vorhanden ist oder in Kürze verfügbar sein wird. Besonders hilfreich ist er für Teams, die mit Prometheus-ähnlichen Metriken arbeiten und SRE-orientierte Reliability-Praktiken einführen wollen, ohne das gesamte Framework selbst neu zu entwerfen.
Weniger nützlich ist er, wenn:
- es noch keine aussagekräftigen Service-Metriken gibt
- das Hauptproblem eher Incident Response als das Design von Reliability-Zielen ist
- du nur ein rechtliches oder kundenorientiertes SLA-Dokument brauchst
Was Nutzer vor der Einführung am meisten wissen wollen
Wer nach slo-implementation install sucht, will in der Regel vor allem wissen:
- ob der Skill bei der SLO-Gestaltung konkret hilft und nicht nur Theorie liefert
- ob er Implementierungsdetails wie Queries und Alerts unterstützt
- ob er dabei hilft, schlechte SLOs zu vermeiden, etwa reine Vanity-Uptime-Ziele
- ob er kompakt genug ist, um in einem echten Workflow praktikabel zu sein
In diesen Punkten ist der Skill praxisnah: Er deckt gängige SLI-Typen ab, zeigt Beispiele für die Zieldefinition und erklärt den Zusammenhang zwischen Objectives und Error Budgets.
Zentrale Stärken und Trade-offs
Der wichtigste Unterschied von slo-implementation ist der klare Fokus auf Reliability-Messung und Policy-Design, statt in allgemeine Observability-Ratschläge abzudriften. Genau dieser Fokus macht den Skill in der Anwendung leichter steuerbar.
Der Trade-off: Der Skill ist nur so gut wie der Service-Kontext, den du mitgibst. Wenn User Journeys, Traffic-Muster, Abhängigkeiten, Schwellenwerte und Metriknamen fehlen, wirkt das Ergebnis zwar plausibel, lässt sich operativ aber nur schwer umsetzen.
So verwendest du den slo-implementation-Skill
Installationskontext für den slo-implementation-Skill
Installiere den Skill in einer Umgebung, in der dein Agent auf Custom Skills zugreifen kann. Ein typisches Vorgehen ist:
- das Quell-Repository in dein Skills-Setup aufnehmen
- den
slo-implementation-Skill aktivieren - ihn aufrufen, wenn es um das Definieren oder Überarbeiten von SLIs, SLOs, Error Budgets oder SLO-basierten Alerts geht
Wenn dein Tooling die direkte Skill-Installation unterstützt, verwende den üblichen Skill Loader für das Repository unter:
https://github.com/wshobson/agents/tree/main/plugins/observability-monitoring/skills/slo-implementation
Da die Repository-Hinweise für diesen Skill nur SKILL.md zeigen, solltest du diese Datei zuerst lesen und nicht mit Helper-Skripten oder zusätzlichen Referenzen rechnen.
Diese Datei zuerst lesen
Starte mit:
plugins/observability-monitoring/skills/slo-implementation/SKILL.md
Diese Datei enthält den eigentlichen Kern des slo-implementation guide: Zweck, Einsatzzeitpunkte, die Hierarchie aus SLI/SLO/SLA, gängige SLI-Typen, Zielbeispiele und Implementierungsmuster.
Welche Eingaben der Skill für brauchbare Ergebnisse braucht
Für hochwertige slo-implementation usage solltest du dem Agenten Folgendes mitgeben:
- den Servicenamen und was Nutzer damit tun
- die wichtigsten nutzerseitigen Journeys
- aktuell verfügbare Metriken und Labels
- vorhandene Dashboards, Alerts oder PromQL, falls vorhanden
- Traffic-Volumen und Saisonalität
- geschäftliche Kritikalität und Kosten von Ausfällen
- Latenzerwartungen nach Endpoint oder Operation
- bekannte Failure Modes
- ob du interne SLOs, eine Ausrichtung auf externe SLAs oder beides brauchst
Ohne diese Angaben kann der Skill zwar trotzdem ein SLO entwerfen, wird aber meist auf generische Availability-Ziele und vereinfachte request-basierte SLIs zurückfallen.
Aus einem groben Ziel einen starken Prompt machen
Schwacher Prompt:
- „Create SLOs for my API.“
Besserer Prompt:
- „Use the
slo-implementationskill to define SLIs and SLOs for a multi-tenant payments API. Our critical user journeys are charge creation and webhook delivery. We use Prometheus. Available metrics includehttp_requests_total,http_request_duration_seconds_bucket, and queue retry counters. Propose 2 to 3 SLIs, recommend SLO targets, calculate monthly error budgets, and suggest burn-rate alerts. Exclude admin endpoints and health checks.”
Warum das besser funktioniert:
- die Service-Grenze ist klar definiert
- es verweist auf reale Metriken
- der Scope wird auf relevante User Journeys begrenzt
- es fordert genau die Outputs an, für die der Skill gedacht ist
Bester Workflow für die erste Nutzung mit slo-implementation
Ein praktikabler Ablauf für slo-implementation usage ist:
- einen einzelnen Service wählen, nicht die gesamte Plattform
- 1 bis 3 kritische User Journeys benennen
- jede Journey auf vorhandene Signale abbilden
- den Skill nach möglichen SLIs fragen
- prüfen, ob diese SLIs wirklich die User Experience abbilden und nicht nur interne Systemzustände
- ein erstes SLO-Ziel und Error Budget festlegen
- Alerting-Logik entwerfen
- testen, ob die vorhandenen Metriken das Design tatsächlich tragen
- Schwellenwerte und Ausschlüsse vor dem Rollout nachschärfen
So vermeidest du den typischen Fehler, unternehmensweite Reliability-Policies in einem einzigen Durchgang definieren zu wollen.
Was der Skill voraussichtlich besonders gut liefert
Der slo-implementation skill ist besonders stark darin:
- gängige SLI-Muster wie Availability und Latency vorzuschlagen
- die Beziehungen zwischen SLI, SLO und SLA zu erklären
- Reliability-Ziele in messbare Verhältnisse zu übersetzen
- Zielbereiche und die Einordnung von Error Budgets vorzuschlagen
- Alerting auf Basis des SLO-Verbrauchs zu skizzieren
Besonders hilfreich ist das, wenn du schnell einen ersten operativen Entwurf brauchst, der in der üblichen SRE-Sprache formuliert ist.
Wo Teams typischerweise ins Stocken geraten
Die Einführung scheitert meist an einem dieser Punkte:
- das Team kann sich nicht auf eine nutzerseitige Service-Grenze einigen
- es gibt nur Infrastruktur-Metriken, aber keine Metriken entlang echter User Journeys
- Latenz-Histogramme fehlen, wodurch threshold-basierte SLIs schwach werden
- Metriken enthalten Bot-Traffic, interne Jobs oder Health Checks, die Zähler und Nenner verfälschen
- Ziele werden politisch statt auf Basis von Risiko und Kosten festgelegt
Der Skill kann helfen, die Diskussion zu strukturieren, aber er kann keine verlässliche Messgrundlage erfinden, wenn Telemetrie fehlt.
Praktische Prompt-Muster, die die Ergebnisqualität verbessern
Bitte den Skill darum, Ergebnisse in einem entscheidungsreifen Format auszugeben, zum Beispiel:
- „List candidate SLIs with rationale and tradeoffs.”
- „Recommend one primary SLO and one secondary guardrail SLO.”
- „Show PromQL-style formulas for each SLI.”
- „Identify exclusions that should not count against the SLO.”
- „Suggest alerting windows for fast and slow burn.”
Solche Prompt-Muster führen zu umsetzbaren Ergebnissen auf Implementierungsniveau statt zu abstrakten Reliability-Empfehlungen.
So nutzt du slo-implementation für Reliability-Arbeit
Für slo-implementation for Reliability ist der Skill besonders sinnvoll in diesen Situationen:
- vor dem Launch eines neuen Service
- während Arbeiten zur Verbesserung der Observability
- nachdem wiederkehrende Incidents gezeigt haben, dass die aktuellen Alerts zu viel Rauschen erzeugen
- wenn das Management Reliability-Ziele verlangt, die an den Kundeneffekt gekoppelt sind
- wenn du Engineering-Geschwindigkeit mit Error-Budget-Policies verknüpfen musst
Den größten Mehrwert hat der Skill, wenn ein Team vom Ansatz „alles monitoren“ zu „das messen, was für Nutzer wirklich zählt“ übergeht.
FAQ zum slo-implementation-Skill
Ist slo-implementation besser als ein normaler Prompt?
Ja, wenn es konkret um SLI/SLO-Design geht. Ein normaler Prompt kann brauchbare Definitionen erzeugen, aber slo-implementation hält die Hierarchie eher sauber ein, ergänzt messbare Formeln und verknüpft Ziele mit Error Budgets und Alerting.
Ist der slo-implementation-Skill anfängerfreundlich?
Eingeschränkt. Auch Einsteiger können ihn nutzen, die besten Ergebnisse kommen aber mit grundlegendem SRE-Wissen und etwas Telemetrie-Kontext. Wenn du neu bei SLOs bist, setze den Skill zuerst für einen einzelnen Service ein und prüfe jede vorgeschlagene Metrik, bevor du sie übernimmst.
Braucht man dafür Prometheus?
Nein, aber der Inhalt des Skills ist klar auf Prometheus- und PromQL-ähnliches Denken ausgerichtet. Wenn du Datadog, CloudWatch, Grafana oder einen anderen Stack nutzt, kannst du die Logik trotzdem verwenden und die Metrikausdrücke auf deine Plattform übertragen.
Wann sollte ich slo-implementation nicht verwenden?
Nutze slo-implementation nicht als Hauptwerkzeug, wenn:
- du rechtlich belastbare SLA-Formulierungen brauchst
- dir jegliche nutzbare Service-Telemetrie fehlt
- dein eigentliches Problem Ownership und nicht Messbarkeit ist
- dein Service noch zu unreif ist, um stabile User Journeys zu definieren
In solchen Fällen solltest du zuerst instrumentieren oder das Betriebsmodell klären, bevor du SLOs formalisierst.
Kann der Skill auch beim Alerting helfen?
Ja. Der Skill beschränkt sich nicht auf die Definition von Zielwerten, sondern unterstützt auch die operative Seite von Error Budgets und SLO-basierten Alerts. Dadurch ist er nützlicher als eine Vorlage, die bei Prozentzielen stehen bleibt.
So verbesserst du den slo-implementation-Skill
Geschäftskontext liefern, nicht nur technische Metriken
Um die Ergebnisse von slo-implementation zu verbessern, solltest du dem Agenten erklären, was Reliability geschäftlich bedeutet:
- Bei welchem Workflow geht Umsatz verloren, wenn er beeinträchtigt ist?
- Welche Nutzer sind Premium- oder besonders latenzsensibel?
- Wie lange ist eine Beeinträchtigung tolerierbar?
So kann der Skill realistische Ziele wählen, statt standardmäßig zu ambitionierten Zahlen wie 99.99% zu greifen.
Service-Grenzen explizit definieren
Ein stärkerer Input für den slo-implementation guide benennt klar, was zählt und was nicht. Zum Beispiel:
- öffentliche API-Schreibzugriffe einschließen
/healthz, Admin-Routen und interne Batch-Jobs ausschließen- nur erfolgreich sichtbare Nutzerabschlüsse messen, nicht bloß die Annahme einer Anfrage
Klarheit bei den Grenzen ist einer der wichtigsten Faktoren dafür, ob ein SLO später im Team als vertrauenswürdig gilt.
Metriknamen und Beispiel-Queries angeben
Der Skill wird deutlich praxisnäher, wenn du echte Telemetrie teilst. Guter Input umfasst:
- Metriknamen
- Label-Dimensionen
- Histogram-Buckets
- aktuelle Alert-Queries
- Dashboard-Links oder kopierte Snippets
So kann das Ergebnis von konzeptionellen SLOs zu fast direkt umsetzbaren Definitionen übergehen.
Vanity-SLIs vermeiden
Ein häufiger Fehlgriff ist die Wahl von Metriken, die leicht zu erfassen sind, aber nur schwach mit der tatsächlichen Nutzererfahrung zusammenhängen. Beispiele:
- pod restarts
- CPU saturation allein
- rohe Uptime einer Abhängigkeit ohne Abbildung auf echten Service-Impact
Bitte den Skill, für jeden SLI zu begründen, warum er die aus Nutzersicht wahrgenommene Reliability abbildet. Wenn das nicht überzeugend gelingt, solltest du diesen SLI ersetzen.
Nach dem ersten Entwurf iterieren
Das erste Ergebnis aus slo-implementation solltest du als Entwurf behandeln. Verbessere es mit Rückfragen wie:
- „Which SLI is most representative of user harm?”
- „What would make this SLO impossible to measure accurately?”
- „Which exclusions are risky or easy to abuse?”
- „How would this change for low-traffic services?”
- „What alerting would reduce noise while protecting the error budget?”
Dieser zweite Durchgang liefert in der Regel ein deutlich besseres operatives Design, als den ersten Satz an Zielwerten einfach zu übernehmen.
Mit historischen Incidents gegentesten
Eine der besten Methoden, um die Ausgabe des slo-implementation skill zu verbessern, ist der Abgleich der vorgeschlagenen SLIs und Alerts mit echten Incidents. Frage dabei:
- hätte dieses SLO das Problem erkannt?
- hätte es harmlose Fehler überbewertet?
- hätte die Burn-Rate-Policy zu früh oder zu spät gepaged?
Dieser Validierungsschritt macht aus einem sauberen Dokument etwas, mit dem Teams tatsächlich arbeiten können.
Je Durchgang nur einen Service betrachten
Wenn die Ergebnisse zu generisch wirken, ist der Scope wahrscheinlich zu breit. Der Skill funktioniert am besten, wenn er auf einen einzelnen Service oder eine einzelne User Journey fokussiert ist. Zerlege große Systeme in mehrere Durchgänge und standardisiere Muster erst im Anschluss.
