W

slo-implementation

作者 wshobson

实现服务级别指标(SLI)、服务级别目标(SLO)和错误预算,设定并监控服务可靠性目标。非常适合 SRE 团队及任何希望衡量和提升服务性能的人员。

Stars0
收藏0
评论0
收录时间2026年3月28日
分类前端开发
安装命令
npx skills add https://github.com/wshobson/agents --skill slo-implementation
概览

概览

什么是 slo-implementation?

slo-implementation 是一个实用技能,用于定义和实现服务级别指标(SLI)、服务级别目标(SLO)和错误预算。它提供了一个结构化的方法来衡量和管理服务可靠性,帮助您在运营稳定性和开发速度之间取得平衡。

谁适合使用此技能?

该技能面向站点可靠性工程(SRE)团队、DevOps 工程师以及任何负责维护服务质量和正常运行时间的人员。特别适用于需要:

  • 建立明确的可靠性目标
  • 衡量面向用户的服务性能
  • 实施错误预算以指导发布决策
  • 设置基于 SLO 的告警和监控

它解决了哪些问题

  • 提供清晰的框架来定义和跟踪 SLI 与 SLO
  • 帮助团队设定切实可行的可靠性目标并衡量进展
  • 支持错误预算策略,平衡创新与可靠性
  • 实现数据驱动的告警和事件响应

使用方法

安装步骤

  1. 将技能添加到您的项目中:

    npx skills add https://github.com/wshobson/agents --skill slo-implementation
    
  2. 查看主要文档:

    • SKILL.md 开始,了解整体概览和工作流程。
    • 浏览支持文件,如 README.mdAGENTS.mdmetadata.json,以及 rules/resources/references/ 目录,获取详细背景和示例。
  3. 根据您的环境进行调整:

    • 使用提供的 SLI 和 SLO 模板作为起点,结合您的服务架构、监控工具和业务需求进行定制。
    • 参考 Prometheus 查询示例,涵盖可用性、延迟和持久性 SLI,或根据您的指标体系创建自定义查询。

关键概念与工作流程

  • SLI/SLO/SLA 层级关系:
    • SLA: 与客户的外部合同
    • SLO: 内部可靠性目标
    • SLI: 服务性能的实际测量
  • 定义 SLI:
    • 常见类型包括可用性、延迟和持久性
    • 提供了对应的 Prometheus 查询示例
  • 设定 SLO 和错误预算:
    • 利用附带的表格和参考资料设定有意义的目标
    • 跟踪错误预算以支持发布和回滚决策

何时使用 slo-implementation

  • 启动新服务或 API
  • 提升现有系统的可靠性
  • 在组织内推行 SRE 实践
  • 基于真实用户影响设置监控和告警

常见问题

slo-implementation 实际能做什么?

它提供了一个框架和实用模板,用于定义、跟踪和执行 SLI、SLO 及错误预算,帮助团队衡量服务可靠性并主动响应事件。

如何开始使用 slo-implementation?

通过提供的 npx 命令安装技能,然后查看 SKILL.md 及相关文件,了解推荐的工作流程。根据您的监控体系和可靠性目标调整模板和查询。

我可以将 slo-implementation 与现有监控工具一起使用吗?

可以。该技能提供了 Prometheus 查询示例,但您也可以根据支持类似指标的任何监控系统调整使用方法。

slo-implementation 仅适用于 SRE 团队吗?

虽然设计时参考了 SRE 最佳实践,但任何希望提升服务可靠性和性能的工程团队都能从中受益。

哪里可以找到更多示例或参考资料?

请查看技能文件树中的 references/ 目录,获取更多 SLO 定义和实施指南。您也可以通过 Files 标签浏览所有可用资源和脚本。

评分与评论

暂无评分
分享你的评价
登录后即可为这个技能评分并发表评论。
G
0/10000
最新评论
保存中...