slo-implementation

von wshobson

Mit dem Skill slo-implementation definieren Teams SLIs, SLOs, Error Budgets und Burn-Rate-Alerts für Reliability-Arbeit. Er hilft dabei, Service-Ziele in messbare Vorgaben zu übersetzen, mit PromQL-nahen Beispielen und praxisorientierter Anleitung aus SKILL.md.

Stars32.6k

Favoriten0

Kommentare0

Hinzugefügt30. März 2026

KategorieReliability

Installationsbefehl

npx skills add wshobson/agents --skill slo-implementation

Kurationswert

Dieser Skill erreicht 68/100. Damit ist er für Verzeichnisnutzer grundsätzlich geeignet, sollte aber eher als dokumentgetriebenes Framework denn als sofort einsatzbereite Implementierung betrachtet werden. Das Repository bietet genug konkrete Inhalte, damit ein Agent erkennt, wann es sinnvoll ist, und liefert praxisnahe SLI-/SLO-Beispiele. Für die Einführung ist jedoch weiterhin eigene Interpretation nötig, da es außer dem Markdown keine Support-Dateien, Installationsschritte oder sichtbaren operativen Regeln gibt.

68/100

Stärken

Gute Auffindbarkeit für passende Aufgaben: Die Beschreibung und der Abschnitt "When to Use" grenzen Aufgaben rund um Reliability-Ziele, SLI/SLOs, Error Budgets und Alerting klar ein.
Substanzieller Workflow-Inhalt: Der Skill enthält konkrete SLI-/SLO-Konzepte und beispielhaftes PromQL für Verfügbarkeit und Latenz und ist damit deutlich praxisnäher als ein generischer Prompt.
Die Eignung für eine Installationsentscheidung ist ordentlich erkennbar: Nutzer sehen, dass es sich um ein Framework zur Definition von SLIs, SLOs und Error Budgets handelt und nicht nur um einen Platzhalter oder einen reinen Demo-Skill.

Hinweise

Die operative Umsetzung bleibt teilweise spekulativ, weil das Repository keine Skripte, Referenzen, Ressourcen oder Installationsbefehle zeigt, mit denen sich das Framework in einen lauffähigen Workflow überführen lässt.
Der Auszug verweist auf eine externe Datei (`references/slo-definitions.md`), strukturelle Hinweise zeigen jedoch keine Referenzdateien. Das schwächt Vertrauen und Vollständigkeit.

Service Level Objectives Service Level Indicators Error Budget Sre Prometheus Metrics

Überblick

Überblick über den slo-implementation-Skill

Der slo-implementation-Skill hilft dabei, vage Zuverlässigkeitsziele in konkrete Service Level Indicators (SLIs), Service Level Objectives (SLOs), Error Budgets und Alerting-Logik zu übersetzen. Er eignet sich besonders für SREs, Plattform-Teams, Backend-Engineers und Product Owner mit Reliability-Fokus, die einen wiederholbaren Weg brauchen, um festzulegen, was „ausreichend guter“ Servicezustand in der Praxis bedeutet.

Wofür der slo-implementation-Skill gedacht ist

Nutze den slo-implementation-Skill, wenn du:

messbare Zuverlässigkeitsziele für einen Service definieren musst
den passenden SLI-Typ auswählen willst, zum Beispiel Availability oder Latency
ein SLO-Ziel festlegen möchtest, das zum geschäftlichen Impact passt
daraus ein Error Budget ableiten willst
Alerting auf Basis von Burn Rate oder SLO-Verbrauch aufsetzen musst

Nützlicher als ein generischer Prompt wie „write me an SLO“ ist das deshalb, weil der Skill eine klare Hierarchie von SLI über SLO bis SLA vorgibt und die Arbeit in konkrete Implementierungsdetails einbettet, etwa Messfenster und PromQL-ähnliche Abfragen.

Für wen sich die Installation lohnt

Der slo-implementation skill passt besonders gut, wenn bereits Telemetrie vorhanden ist oder in Kürze verfügbar sein wird. Besonders hilfreich ist er für Teams, die mit Prometheus-ähnlichen Metriken arbeiten und SRE-orientierte Reliability-Praktiken einführen wollen, ohne das gesamte Framework selbst neu zu entwerfen.

Weniger nützlich ist er, wenn:

es noch keine aussagekräftigen Service-Metriken gibt
das Hauptproblem eher Incident Response als das Design von Reliability-Zielen ist
du nur ein rechtliches oder kundenorientiertes SLA-Dokument brauchst

Was Nutzer vor der Einführung am meisten wissen wollen

Wer nach slo-implementation install sucht, will in der Regel vor allem wissen:

ob der Skill bei der SLO-Gestaltung konkret hilft und nicht nur Theorie liefert
ob er Implementierungsdetails wie Queries und Alerts unterstützt
ob er dabei hilft, schlechte SLOs zu vermeiden, etwa reine Vanity-Uptime-Ziele
ob er kompakt genug ist, um in einem echten Workflow praktikabel zu sein

In diesen Punkten ist der Skill praxisnah: Er deckt gängige SLI-Typen ab, zeigt Beispiele für die Zieldefinition und erklärt den Zusammenhang zwischen Objectives und Error Budgets.

Zentrale Stärken und Trade-offs

Der wichtigste Unterschied von slo-implementation ist der klare Fokus auf Reliability-Messung und Policy-Design, statt in allgemeine Observability-Ratschläge abzudriften. Genau dieser Fokus macht den Skill in der Anwendung leichter steuerbar.

Der Trade-off: Der Skill ist nur so gut wie der Service-Kontext, den du mitgibst. Wenn User Journeys, Traffic-Muster, Abhängigkeiten, Schwellenwerte und Metriknamen fehlen, wirkt das Ergebnis zwar plausibel, lässt sich operativ aber nur schwer umsetzen.

So verwendest du den slo-implementation-Skill

Installationskontext für den slo-implementation-Skill

Installiere den Skill in einer Umgebung, in der dein Agent auf Custom Skills zugreifen kann. Ein typisches Vorgehen ist:

das Quell-Repository in dein Skills-Setup aufnehmen
den slo-implementation-Skill aktivieren
ihn aufrufen, wenn es um das Definieren oder Überarbeiten von SLIs, SLOs, Error Budgets oder SLO-basierten Alerts geht

Wenn dein Tooling die direkte Skill-Installation unterstützt, verwende den üblichen Skill Loader für das Repository unter:
https://github.com/wshobson/agents/tree/main/plugins/observability-monitoring/skills/slo-implementation

Da die Repository-Hinweise für diesen Skill nur SKILL.md zeigen, solltest du diese Datei zuerst lesen und nicht mit Helper-Skripten oder zusätzlichen Referenzen rechnen.

Diese Datei zuerst lesen

Starte mit:

plugins/observability-monitoring/skills/slo-implementation/SKILL.md

Diese Datei enthält den eigentlichen Kern des slo-implementation guide: Zweck, Einsatzzeitpunkte, die Hierarchie aus SLI/SLO/SLA, gängige SLI-Typen, Zielbeispiele und Implementierungsmuster.

Welche Eingaben der Skill für brauchbare Ergebnisse braucht

Für hochwertige slo-implementation usage solltest du dem Agenten Folgendes mitgeben:

den Servicenamen und was Nutzer damit tun
die wichtigsten nutzerseitigen Journeys
aktuell verfügbare Metriken und Labels
vorhandene Dashboards, Alerts oder PromQL, falls vorhanden
Traffic-Volumen und Saisonalität
geschäftliche Kritikalität und Kosten von Ausfällen
Latenzerwartungen nach Endpoint oder Operation
bekannte Failure Modes
ob du interne SLOs, eine Ausrichtung auf externe SLAs oder beides brauchst

Ohne diese Angaben kann der Skill zwar trotzdem ein SLO entwerfen, wird aber meist auf generische Availability-Ziele und vereinfachte request-basierte SLIs zurückfallen.

Aus einem groben Ziel einen starken Prompt machen

Schwacher Prompt:

„Create SLOs for my API.“

Besserer Prompt:

„Use the slo-implementation skill to define SLIs and SLOs for a multi-tenant payments API. Our critical user journeys are charge creation and webhook delivery. We use Prometheus. Available metrics include http_requests_total, http_request_duration_seconds_bucket, and queue retry counters. Propose 2 to 3 SLIs, recommend SLO targets, calculate monthly error budgets, and suggest burn-rate alerts. Exclude admin endpoints and health checks.”

Warum das besser funktioniert:

die Service-Grenze ist klar definiert
es verweist auf reale Metriken
der Scope wird auf relevante User Journeys begrenzt
es fordert genau die Outputs an, für die der Skill gedacht ist

Bester Workflow für die erste Nutzung mit slo-implementation

Ein praktikabler Ablauf für slo-implementation usage ist:

einen einzelnen Service wählen, nicht die gesamte Plattform
1 bis 3 kritische User Journeys benennen
jede Journey auf vorhandene Signale abbilden
den Skill nach möglichen SLIs fragen
prüfen, ob diese SLIs wirklich die User Experience abbilden und nicht nur interne Systemzustände
ein erstes SLO-Ziel und Error Budget festlegen
Alerting-Logik entwerfen
testen, ob die vorhandenen Metriken das Design tatsächlich tragen
Schwellenwerte und Ausschlüsse vor dem Rollout nachschärfen

So vermeidest du den typischen Fehler, unternehmensweite Reliability-Policies in einem einzigen Durchgang definieren zu wollen.

Was der Skill voraussichtlich besonders gut liefert

Der slo-implementation skill ist besonders stark darin:

gängige SLI-Muster wie Availability und Latency vorzuschlagen
die Beziehungen zwischen SLI, SLO und SLA zu erklären
Reliability-Ziele in messbare Verhältnisse zu übersetzen
Zielbereiche und die Einordnung von Error Budgets vorzuschlagen
Alerting auf Basis des SLO-Verbrauchs zu skizzieren

Besonders hilfreich ist das, wenn du schnell einen ersten operativen Entwurf brauchst, der in der üblichen SRE-Sprache formuliert ist.

Wo Teams typischerweise ins Stocken geraten

Die Einführung scheitert meist an einem dieser Punkte:

das Team kann sich nicht auf eine nutzerseitige Service-Grenze einigen
es gibt nur Infrastruktur-Metriken, aber keine Metriken entlang echter User Journeys
Latenz-Histogramme fehlen, wodurch threshold-basierte SLIs schwach werden
Metriken enthalten Bot-Traffic, interne Jobs oder Health Checks, die Zähler und Nenner verfälschen
Ziele werden politisch statt auf Basis von Risiko und Kosten festgelegt

Der Skill kann helfen, die Diskussion zu strukturieren, aber er kann keine verlässliche Messgrundlage erfinden, wenn Telemetrie fehlt.

Praktische Prompt-Muster, die die Ergebnisqualität verbessern

Bitte den Skill darum, Ergebnisse in einem entscheidungsreifen Format auszugeben, zum Beispiel:

„List candidate SLIs with rationale and tradeoffs.”
„Recommend one primary SLO and one secondary guardrail SLO.”
„Show PromQL-style formulas for each SLI.”
„Identify exclusions that should not count against the SLO.”
„Suggest alerting windows for fast and slow burn.”

Solche Prompt-Muster führen zu umsetzbaren Ergebnissen auf Implementierungsniveau statt zu abstrakten Reliability-Empfehlungen.

So nutzt du slo-implementation für Reliability-Arbeit

Für slo-implementation for Reliability ist der Skill besonders sinnvoll in diesen Situationen:

vor dem Launch eines neuen Service
während Arbeiten zur Verbesserung der Observability
nachdem wiederkehrende Incidents gezeigt haben, dass die aktuellen Alerts zu viel Rauschen erzeugen
wenn das Management Reliability-Ziele verlangt, die an den Kundeneffekt gekoppelt sind
wenn du Engineering-Geschwindigkeit mit Error-Budget-Policies verknüpfen musst

Den größten Mehrwert hat der Skill, wenn ein Team vom Ansatz „alles monitoren“ zu „das messen, was für Nutzer wirklich zählt“ übergeht.

FAQ zum slo-implementation-Skill

Ist slo-implementation besser als ein normaler Prompt?

Ja, wenn es konkret um SLI/SLO-Design geht. Ein normaler Prompt kann brauchbare Definitionen erzeugen, aber slo-implementation hält die Hierarchie eher sauber ein, ergänzt messbare Formeln und verknüpft Ziele mit Error Budgets und Alerting.

Ist der slo-implementation-Skill anfängerfreundlich?

Eingeschränkt. Auch Einsteiger können ihn nutzen, die besten Ergebnisse kommen aber mit grundlegendem SRE-Wissen und etwas Telemetrie-Kontext. Wenn du neu bei SLOs bist, setze den Skill zuerst für einen einzelnen Service ein und prüfe jede vorgeschlagene Metrik, bevor du sie übernimmst.

Braucht man dafür Prometheus?

Nein, aber der Inhalt des Skills ist klar auf Prometheus- und PromQL-ähnliches Denken ausgerichtet. Wenn du Datadog, CloudWatch, Grafana oder einen anderen Stack nutzt, kannst du die Logik trotzdem verwenden und die Metrikausdrücke auf deine Plattform übertragen.

Wann sollte ich slo-implementation nicht verwenden?

Nutze slo-implementation nicht als Hauptwerkzeug, wenn:

du rechtlich belastbare SLA-Formulierungen brauchst
dir jegliche nutzbare Service-Telemetrie fehlt
dein eigentliches Problem Ownership und nicht Messbarkeit ist
dein Service noch zu unreif ist, um stabile User Journeys zu definieren

In solchen Fällen solltest du zuerst instrumentieren oder das Betriebsmodell klären, bevor du SLOs formalisierst.

Kann der Skill auch beim Alerting helfen?

Ja. Der Skill beschränkt sich nicht auf die Definition von Zielwerten, sondern unterstützt auch die operative Seite von Error Budgets und SLO-basierten Alerts. Dadurch ist er nützlicher als eine Vorlage, die bei Prozentzielen stehen bleibt.

So verbesserst du den slo-implementation-Skill

Geschäftskontext liefern, nicht nur technische Metriken

Um die Ergebnisse von slo-implementation zu verbessern, solltest du dem Agenten erklären, was Reliability geschäftlich bedeutet:

Bei welchem Workflow geht Umsatz verloren, wenn er beeinträchtigt ist?
Welche Nutzer sind Premium- oder besonders latenzsensibel?
Wie lange ist eine Beeinträchtigung tolerierbar?

So kann der Skill realistische Ziele wählen, statt standardmäßig zu ambitionierten Zahlen wie 99.99% zu greifen.

Service-Grenzen explizit definieren

Ein stärkerer Input für den slo-implementation guide benennt klar, was zählt und was nicht. Zum Beispiel:

öffentliche API-Schreibzugriffe einschließen
/healthz, Admin-Routen und interne Batch-Jobs ausschließen
nur erfolgreich sichtbare Nutzerabschlüsse messen, nicht bloß die Annahme einer Anfrage

Klarheit bei den Grenzen ist einer der wichtigsten Faktoren dafür, ob ein SLO später im Team als vertrauenswürdig gilt.

Metriknamen und Beispiel-Queries angeben

Der Skill wird deutlich praxisnäher, wenn du echte Telemetrie teilst. Guter Input umfasst:

Metriknamen
Label-Dimensionen
Histogram-Buckets
aktuelle Alert-Queries
Dashboard-Links oder kopierte Snippets

So kann das Ergebnis von konzeptionellen SLOs zu fast direkt umsetzbaren Definitionen übergehen.

Vanity-SLIs vermeiden

Ein häufiger Fehlgriff ist die Wahl von Metriken, die leicht zu erfassen sind, aber nur schwach mit der tatsächlichen Nutzererfahrung zusammenhängen. Beispiele:

pod restarts
CPU saturation allein
rohe Uptime einer Abhängigkeit ohne Abbildung auf echten Service-Impact

Bitte den Skill, für jeden SLI zu begründen, warum er die aus Nutzersicht wahrgenommene Reliability abbildet. Wenn das nicht überzeugend gelingt, solltest du diesen SLI ersetzen.

Nach dem ersten Entwurf iterieren

Das erste Ergebnis aus slo-implementation solltest du als Entwurf behandeln. Verbessere es mit Rückfragen wie:

„Which SLI is most representative of user harm?”
„What would make this SLO impossible to measure accurately?”
„Which exclusions are risky or easy to abuse?”
„How would this change for low-traffic services?”
„What alerting would reduce noise while protecting the error budget?”

Dieser zweite Durchgang liefert in der Regel ein deutlich besseres operatives Design, als den ersten Satz an Zielwerten einfach zu übernehmen.

Mit historischen Incidents gegentesten

Eine der besten Methoden, um die Ausgabe des slo-implementation skill zu verbessern, ist der Abgleich der vorgeschlagenen SLIs und Alerts mit echten Incidents. Frage dabei:

hätte dieses SLO das Problem erkannt?
hätte es harmlose Fehler überbewertet?
hätte die Burn-Rate-Policy zu früh oder zu spät gepaged?

Dieser Validierungsschritt macht aus einem sauberen Dokument etwas, mit dem Teams tatsächlich arbeiten können.

Je Durchgang nur einen Service betrachten

Wenn die Ergebnisse zu generisch wirken, ist der Scope wahrscheinlich zu breit. Der Skill funktioniert am besten, wenn er auf einen einzelnen Service oder eine einzelne User Journey fokussiert ist. Zerlege große Systeme in mehrere Durchgänge und standardisiere Muster erst im Anschluss.

Bewertungen & Rezensionen

Noch keine Bewertungen

Teile deine Rezension

Melde dich an, um für diesen Skill eine Bewertung und einen Kommentar zu hinterlassen.

0/10000

Neueste Rezensionen

Wird gespeichert...

Mehr Skills in dieser Kategorie

error-handling-patterns

von wshobson

error-handling-patterns unterstützt Teams dabei, zwischen Exceptions und Result-Typen zu wählen, Fehler sauber zu klassifizieren, Kontext weiterzugeben und Graceful Degradation für zuverlässigere APIs und Services zu gestalten.

Reliability

Favoriten 1GitHub 32.6k

python-resilience

von wshobson

python-resilience ist ein Guidance-Skill für eine robustere Fehlerbehandlung in Python mit Retries, exponentiellem Backoff, Jitter, Timeouts und begrenzten Retry-Fenstern. Nutze ihn, um praxistaugliche Resilience-Patterns für externe Aufrufe einzusetzen und tenacity-ähnliche Wrapper mit klareren Retry-Regeln umzusetzen.

Reliability

Favoriten 0GitHub 32.6k

on-call-handoff-patterns

von wshobson

Lernen Sie die Skill on-call-handoff-patterns für zuverlässige Schichtübergaben kennen. Nutzen Sie sie, um Incident-Übergaben zu strukturieren sowie aktive Probleme, aktuelle Änderungen, den Eskalationsstatus und nächste Schritte für Reliability-Teams festzuhalten.

Reliability

Favoriten 0GitHub 32.5k

incident-runbook-templates

von wshobson

incident-runbook-templates unterstützt Teams dabei, strukturierte Incident-Response-Runbooks mit klaren Schritten für Triage, Eindämmung, Eskalation, Kommunikation und Wiederherstellung bei Ausfällen und operativen Playbooks zu erstellen.

Playbooks

Favoriten 0GitHub 32.5k

upgrade-stripe

von stripe

upgrade-stripe Guide zum Aktualisieren von Stripe-API-Versionen, serverseitigen SDKs, Stripe.js und mobilen SDKs in realen Codebasen – mit praxisnahen Schritten für die Backend-Entwicklung.

Backend Development

Favoriten 0GitHub 1.5k

istio-traffic-management

von wshobson

istio-traffic-management unterstützt Teams dabei, Istio-Traffic-Policies wie VirtualService, DestinationRule, Gateway und ServiceEntry für Canary-Releases, Retries, Circuit Breaking und Mirroring auszuarbeiten. Nutzen Sie die Skill, um Deployment-Absichten in klare Routing- und Resilience-Manifeste mit praxisnahen Prompts und Review-Prüfpunkten zu übersetzen.

Deployment

Favoriten 0GitHub 32.6k

linkerd-patterns

von wshobson

linkerd-patterns unterstützt Teams dabei, Linkerd-Muster für Kubernetes-Workloads anzuwenden, darunter mTLS, Sidecar Injection, Traffic Splits, Retries, Timeouts, Service Profiles und die Multi-Cluster-Planung für Deployment-basierte Rollouts.

Deployment

Favoriten 0GitHub 32.6k

frontend-design

von anthropics

frontend-design verwandelt vage UI-Ideen in markante, produktionsreife Interfaces mit echtem Frontend-Code, klarer Designrichtung und weniger generischem AI-Look.

UI Design

Favoriten 1GitHub 105.2k

create-colleague

von titanwings

create-colleague macht aus Dokumenten, Chats, E-Mails, Screenshots, Feishu- und DingTalk-Daten von Kolleg:innen ein bearbeitbares AI-Skill mit getrennten Ausgaben für Arbeitsweise und Persona sowie Update-Abläufen für die laufende Verfeinerung.

Skill Authoring

Favoriten 1GitHub 747

hyperframes

von heygen-com

hyperframes ist eine Workflow-Skill zum Erstellen von HTML-basierten Videokompositionen in HyperFrames. Nutze sie für Title Cards, Overlays, Untertitel, Voiceovers, audio-reactive Motion und Szenenübergänge, wenn du strukturierte, code-first hyperframes für Videoediting brauchst. Der Fokus liegt stärker auf Layout, Timing und Animation als auf allgemeinen Prompt-only-Videoanfragen.

Video Editing

Favoriten 0GitHub 2.7k

kreuzberg

von kreuzberg-dev

Die kreuzberg-Skill hilft dir, Kreuzberg zu installieren und für die Dokumentextraktion aus über 91 Formaten zu nutzen – darunter PDFs, Office-Dateien, Bilder, HTML, E-Mails und Archive. Abgedeckt werden Python-, Node.js-/TypeScript-, Rust- und CLI-Workflows für OCR, Tabellen, Metadaten, Stapelverarbeitung und praxisnahe Hinweise zum Parsen.

PDF Processing

Favoriten 0GitHub 0

skill-creator

von anthropics

skill-creator ist eine Meta-Skill zur Skill-Erstellung: neue Skills entwerfen, bestehende `SKILL.md` überarbeiten, Evals ausführen, Varianten vergleichen und Trigger-Beschreibungen mit Repo-Skripten und Review-Tools verbessern.

Skill Authoring

Favoriten 2GitHub 105.1k

azure-identity-py

von microsoft

azure-identity-py hilft dabei, Azure-Authentifizierung in Python mit Microsoft Entra ID einzurichten. Verwenden Sie es, um zwischen DefaultAzureCredential, Managed Identity oder Service-Principal-Authentifizierung zu wählen, Umgebungsvariablen zu konfigurieren und Probleme mit Zugriffskontrolle sowie der Credential-Kette zu beheben. Hinweise zur Installation, Nutzungsmuster und praktische Setup-Notizen basieren auf der Skill-Datei des Repos.

Access Control

Favoriten 0GitHub 2.2k

claude-api

von anthropics

claude-api ist ein praxisnahes Skill für Installation und Nutzung der Claude API und der Anthropic SDKs. Es hilft Entwicklern, den passenden SDK- oder HTTP-Weg zu wählen, sprachspezifische Doku zu finden und Streaming, Tool Use, Dateien, Batches und Fehlerbehandlung sicher umzusetzen.

API Development

Favoriten 0GitHub 105k

wrangler

von cloudflare

Die wrangler-Skill hilft dir, die richtigen CLI-Befehle, Konfigurationsstrukturen und Deploy-Schritte für Cloudflare Workers zu finden. Nutze sie für die wrangler-Verwendung, wrangler-Installationsprüfungen und als praxisnahen wrangler-Leitfaden beim Entwickeln oder Ausliefern von Workers für Backend Development.

Backend Development

Favoriten 0GitHub 1.3k

clickhouse-best-practices

von ClickHouse

clickhouse-best-practices ist ein ClickHouse-Best-Practices-Skill für Database Engineering. Er unterstützt bei Schemadesign, Query-Tuning, Insert-Strategien und Agenten-Anbindung mit regelbasierten Empfehlungen und macht die Nutzung von clickhouse-best-practices in ClickHouse-Workflows leichter auszulösen, zu prüfen und zu zitieren.

Database Engineering

Favoriten 0GitHub 412