slo-implementation
par wshobsonMettez en œuvre des Indicateurs de Niveau de Service (SLI), des Objectifs de Niveau de Service (SLO) et des budgets d'erreur pour définir et surveiller les cibles de fiabilité des services. Idéal pour les équipes SRE et toute personne souhaitant mesurer et améliorer la performance des services.
Vue d'ensemble
Qu'est-ce que slo-implementation ?
slo-implementation est une compétence pratique pour définir et mettre en œuvre des Indicateurs de Niveau de Service (SLI), des Objectifs de Niveau de Service (SLO) et des budgets d'erreur. Elle offre une approche structurée pour mesurer et gérer la fiabilité des services, facilitant ainsi l'équilibre entre stabilité opérationnelle et rapidité de développement.
À qui s'adresse cette compétence ?
Cette compétence est conçue pour les équipes Site Reliability Engineering (SRE), les ingénieurs DevOps et toute personne responsable du maintien de la qualité et de la disponibilité des services. Elle est particulièrement utile lorsque vous devez :
- Établir des objectifs de fiabilité clairs
- Mesurer la performance des services côté utilisateur
- Mettre en place des budgets d'erreur pour orienter les décisions de déploiement
- Configurer une surveillance et des alertes basées sur les SLO
Problèmes qu'elle résout
- Fournit un cadre clair pour définir et suivre les SLI et SLO
- Aide les équipes à fixer des objectifs de fiabilité réalistes et à mesurer les progrès
- Soutient les politiques de budgets d'erreur pour équilibrer innovation et fiabilité
- Permet une gestion des alertes et des incidents basée sur les données
Comment utiliser
Étapes d'installation
-
Ajoutez la compétence à votre projet :
npx skills add https://github.com/wshobson/agents --skill slo-implementation -
Consultez la documentation principale :
- Commencez par
SKILL.mdpour une vue d'ensemble et le workflow. - Explorez les fichiers complémentaires tels que
README.md,AGENTS.md,metadata.jsonainsi que les dossiersrules/,resources/oureferences/pour des contextes et exemples détaillés.
- Commencez par
-
Adaptez à votre environnement :
- Utilisez les modèles SLI et SLO fournis comme point de départ, mais personnalisez-les selon votre architecture de service, vos outils de surveillance et vos exigences métier.
- Référez-vous aux exemples de requêtes Prometheus pour les SLI de disponibilité, latence et durabilité, ou créez les vôtres en fonction de votre stack de métriques.
Concepts clés et workflow
- Hiérarchie SLI/SLO/SLA :
- SLA : Contrat externe avec les clients
- SLO : Objectif interne de fiabilité
- SLI : Mesure réelle de la performance du service
- Définition des SLI :
- Types courants : disponibilité, latence, durabilité
- Exemples de requêtes Prometheus fournis pour chacun
- Définition des SLO et budgets d'erreur :
- Utilisez les tableaux et références inclus pour fixer des objectifs pertinents
- Suivez les budgets d'erreur pour guider les décisions de déploiement et de retour en arrière
Quand utiliser slo-implementation
- Lancement de nouveaux services ou API
- Amélioration de la fiabilité des systèmes existants
- Mise en œuvre des pratiques SRE dans votre organisation
- Mise en place de la surveillance et des alertes basées sur l'impact réel utilisateur
FAQ
Que fait réellement slo-implementation ?
Elle fournit un cadre et des modèles pratiques pour définir, suivre et appliquer les SLI, SLO et budgets d'erreur. Cela aide les équipes à mesurer la fiabilité des services et à réagir de manière proactive aux incidents.
Comment démarrer avec slo-implementation ?
Installez la compétence avec la commande npx fournie, puis consultez SKILL.md et les fichiers associés pour comprendre le workflow recommandé. Adaptez les modèles et requêtes à votre stack de surveillance et à vos objectifs de fiabilité.
Puis-je utiliser slo-implementation avec mes outils de surveillance existants ?
Oui. La compétence fournit des exemples de requêtes Prometheus, mais vous pouvez adapter l'approche à tout système de métriques ou de surveillance supportant des mesures similaires.
slo-implementation est-elle réservée aux équipes SRE ?
Bien qu'elle soit conçue selon les meilleures pratiques SRE, toute équipe d'ingénierie souhaitant améliorer la fiabilité et la performance des services peut en tirer profit.
Où puis-je trouver plus d'exemples ou de références ?
Consultez le dossier references/ dans l'arborescence des fichiers de la compétence pour des définitions SLO supplémentaires et des guides d'implémentation. Utilisez l'onglet Fichiers pour parcourir toutes les ressources et scripts disponibles.
