W
slo-implementation
作者 wshobson实现服务级别指标(SLI)、服务级别目标(SLO)和错误预算,设定并监控服务可靠性目标。非常适合 SRE 团队及任何希望衡量和提升服务性能的人员。
Stars0
收藏0
评论0
收录时间2026年3月28日
分类前端开发
安装命令
npx skills add https://github.com/wshobson/agents --skill slo-implementation
概览
概览
什么是 slo-implementation?
slo-implementation 是一个实用技能,用于定义和实现服务级别指标(SLI)、服务级别目标(SLO)和错误预算。它提供了一个结构化的方法来衡量和管理服务可靠性,帮助您在运营稳定性和开发速度之间取得平衡。
谁适合使用此技能?
该技能面向站点可靠性工程(SRE)团队、DevOps 工程师以及任何负责维护服务质量和正常运行时间的人员。特别适用于需要:
- 建立明确的可靠性目标
- 衡量面向用户的服务性能
- 实施错误预算以指导发布决策
- 设置基于 SLO 的告警和监控
它解决了哪些问题
- 提供清晰的框架来定义和跟踪 SLI 与 SLO
- 帮助团队设定切实可行的可靠性目标并衡量进展
- 支持错误预算策略,平衡创新与可靠性
- 实现数据驱动的告警和事件响应
使用方法
安装步骤
-
将技能添加到您的项目中:
npx skills add https://github.com/wshobson/agents --skill slo-implementation -
查看主要文档:
- 从
SKILL.md开始,了解整体概览和工作流程。 - 浏览支持文件,如
README.md、AGENTS.md、metadata.json,以及rules/、resources/、references/目录,获取详细背景和示例。
- 从
-
根据您的环境进行调整:
- 使用提供的 SLI 和 SLO 模板作为起点,结合您的服务架构、监控工具和业务需求进行定制。
- 参考 Prometheus 查询示例,涵盖可用性、延迟和持久性 SLI,或根据您的指标体系创建自定义查询。
关键概念与工作流程
- SLI/SLO/SLA 层级关系:
- SLA: 与客户的外部合同
- SLO: 内部可靠性目标
- SLI: 服务性能的实际测量
- 定义 SLI:
- 常见类型包括可用性、延迟和持久性
- 提供了对应的 Prometheus 查询示例
- 设定 SLO 和错误预算:
- 利用附带的表格和参考资料设定有意义的目标
- 跟踪错误预算以支持发布和回滚决策
何时使用 slo-implementation
- 启动新服务或 API
- 提升现有系统的可靠性
- 在组织内推行 SRE 实践
- 基于真实用户影响设置监控和告警
常见问题
slo-implementation 实际能做什么?
它提供了一个框架和实用模板,用于定义、跟踪和执行 SLI、SLO 及错误预算,帮助团队衡量服务可靠性并主动响应事件。
如何开始使用 slo-implementation?
通过提供的 npx 命令安装技能,然后查看 SKILL.md 及相关文件,了解推荐的工作流程。根据您的监控体系和可靠性目标调整模板和查询。
我可以将 slo-implementation 与现有监控工具一起使用吗?
可以。该技能提供了 Prometheus 查询示例,但您也可以根据支持类似指标的任何监控系统调整使用方法。
slo-implementation 仅适用于 SRE 团队吗?
虽然设计时参考了 SRE 最佳实践,但任何希望提升服务可靠性和性能的工程团队都能从中受益。
哪里可以找到更多示例或参考资料?
请查看技能文件树中的 references/ 目录,获取更多 SLO 定义和实施指南。您也可以通过 Files 标签浏览所有可用资源和脚本。
评分与评论
暂无评分
分享你的评价
登录后即可为这个技能评分并发表评论。
G
0/10000
最新评论
保存中...
