slo-implementation

por wshobson

Use a skill slo-implementation para definir SLIs, SLOs, budgets de erro e alertas de burn rate em iniciativas de Reliability. Ela ajuda equipes a transformar metas de serviço em objetivos mensuráveis com exemplos no estilo PromQL e orientações práticas do SKILL.md.

Estrelas32.6k

Favoritos0

Comentários0

Adicionado30 de mar. de 2026

CategoriaReliability

Comando de instalação

npx skills add wshobson/agents --skill slo-implementation

Pontuação editorial

Esta skill recebe nota 68/100, o que significa que pode ser listada para usuários do diretório, mas deve ser encarada mais como um framework guiado por documentação do que como uma implementação pronta para uso. O repositório traz conteúdo real suficiente para ajudar um agente a identificar quando utilizá-la e oferece exemplos práticos de SLI/SLO, mas a adoção ainda exige alguma interpretação, já que não há arquivos de suporte, etapas de instalação nem regras operacionais visíveis além do markdown.

68/100

Pontos fortes

Boa capacidade de acionamento: a descrição e a seção "Quando usar" delimitam com clareza tarefas de metas de confiabilidade, SLI/SLO, budget de erro e alertas.
Conteúdo de workflow consistente: a skill inclui conceitos concretos de SLI/SLO e exemplos de PromQL para disponibilidade e latência, o que é mais acionável do que um prompt genérico.
Boa clareza para decisão de instalação: dá para entender que se trata de um framework para definir SLIs, SLOs e budgets de erro, e não de uma skill placeholder ou apenas demonstrativa.

Pontos de atenção

A execução operacional ainda depende bastante de interpretação, porque o repositório não mostra scripts, referências, recursos nem comando de instalação que transformem o framework em um workflow executável.
O trecho faz referência a um arquivo externo (`references/slo-definitions.md`), mas os sinais estruturais indicam que não há arquivos de referência, o que reduz a confiança e a sensação de completude.

Service Level Objectives Service Level Indicators Error Budget Sre Prometheus Metrics

Visão geral

Visão geral da skill slo-implementation

A skill slo-implementation ajuda a transformar metas vagas de confiabilidade em Service Level Indicators (SLIs), Service Level Objectives (SLOs), error budgets e lógica de alertas concretos. Ela é mais indicada para SREs, times de plataforma, engenheiros backend e product owners com foco em confiabilidade que precisam de uma forma repetível de definir o que significa, na prática, uma saúde de serviço “boa o bastante”.

Para que serve a skill slo-implementation

Use a skill slo-implementation quando você precisar:

definir metas mensuráveis de confiabilidade para um serviço
escolher o tipo certo de SLI, como disponibilidade ou latência
definir uma meta de SLO alinhada ao impacto no negócio
derivar um error budget a partir dessa meta
criar alertas com base em burn rate ou consumo de SLO

Ela é mais útil do que um prompt genérico do tipo “escreva um SLO para mim” porque oferece uma hierarquia estruturada de SLI para SLO para SLA e ancora o trabalho em detalhes de implementação, como janelas de medição e consultas no estilo PromQL.

Quem deve instalar

A slo-implementation skill faz mais sentido se você já tem telemetria ou consegue obtê-la em breve. Ela é especialmente útil para times que usam métricas no estilo Prometheus e querem adotar práticas de confiabilidade alinhadas a SRE sem precisar inventar o framework do zero.

Ela é menos útil se:

você ainda não tem métricas de serviço realmente úteis
seu principal problema é resposta a incidentes, e não desenho de metas de confiabilidade
você só precisa de um documento de SLA com foco jurídico ou voltado ao cliente

O que mais importa para quem está avaliando a adoção

A maioria das pessoas que pesquisam por slo-implementation install quer saber:

se a skill entrega ajuda prática para desenhar SLOs, e não só teoria
se ela cobre detalhes de implementação, como queries e alertas
se ela ajuda a evitar SLOs ruins, como metas vaidosas de uptime
se ela é concisa o bastante para entrar em um fluxo real de trabalho

Nesses pontos, a skill é prática: ela cobre tipos comuns de SLI, exemplos de definição de metas e a relação entre objetivos e error budgets.

Principais pontos fortes e tradeoffs

O principal diferencial de slo-implementation é manter o foco em medição de confiabilidade e desenho de políticas, em vez de escorregar para conselhos genéricos de observabilidade. Esse foco torna a skill mais fácil de acionar com qualidade.

O tradeoff é que a skill só será tão boa quanto o contexto do serviço que você fornecer. Se você não especificar jornadas de usuário, padrões de tráfego, dependências, thresholds e nomes de métricas, a saída pode soar plausível, mas será difícil de operacionalizar.

Como usar a skill slo-implementation

Contexto de instalação da skill slo-implementation

Instale a skill no ambiente em que seu agente consegue acessar skills customizadas. Um padrão comum é:

adicionar o repositório de origem à sua configuração de skills
habilitar a skill slo-implementation
acioná-la quando a tarefa for definir ou revisar SLIs, SLOs, error budgets ou alertas baseados em SLO

Se a sua ferramenta permitir instalação direta de skills, use o carregador de skills habitual para o repositório em:
https://github.com/wshobson/agents/tree/main/plugins/observability-monitoring/skills/slo-implementation

Como as evidências no repositório mostram apenas o arquivo SKILL.md para essa skill, planeje ler esse arquivo primeiro, em vez de esperar scripts auxiliares ou referências extras.

Leia este arquivo primeiro

Comece por:

plugins/observability-monitoring/skills/slo-implementation/SKILL.md

Esse arquivo contém o conteúdo principal do slo-implementation guide: propósito, quando usar, hierarquia SLI/SLO/SLA, tipos comuns de SLI, exemplos de metas e padrões de implementação.

Quais entradas a skill precisa para gerar algo útil

Para obter uma slo-implementation usage de alta qualidade, forneça ao agente:

o nome do serviço e o que os usuários fazem com ele
as jornadas mais importantes voltadas ao usuário
as métricas e labels disponíveis hoje
dashboards, alertas ou PromQL já existentes, se houver
volume de tráfego e sazonalidade
criticidade para o negócio e custo de indisponibilidade
expectativas de latência por endpoint ou operação
modos de falha conhecidos
se você precisa de SLOs internos, alinhamento com SLA externo ou ambos

Sem isso, a skill ainda consegue rascunhar um SLO, mas tende a cair em metas genéricas de disponibilidade e SLIs simplistas baseados apenas em requisições.

Como transformar uma meta vaga em um prompt forte

Prompt fraco:

“Create SLOs for my API.”

Prompt melhor:

“Use the slo-implementation skill to define SLIs and SLOs for a multi-tenant payments API. Our critical user journeys are charge creation and webhook delivery. We use Prometheus. Available metrics include http_requests_total, http_request_duration_seconds_bucket, and queue retry counters. Propose 2 to 3 SLIs, recommend SLO targets, calculate monthly error budgets, and suggest burn-rate alerts. Exclude admin endpoints and health checks.”

Por que isso funciona:

define o limite do serviço
aponta para métricas reais
restringe o escopo a jornadas de usuário relevantes
pede saídas para as quais a skill foi feita

Melhor fluxo de trabalho para usar a skill slo-implementation pela primeira vez

Um fluxo prático de slo-implementation usage é:

escolher um serviço, e não a plataforma inteira
nomear de 1 a 3 jornadas críticas do usuário
mapear cada jornada para sinais já existentes
pedir à skill SLIs candidatos
revisar se esses SLIs refletem a experiência do usuário, e não apenas aspectos internos do sistema
definir uma meta inicial de SLO e um error budget
rascunhar a lógica de alertas
testar se as métricas realmente sustentam o desenho proposto
revisar thresholds e exclusões antes do rollout

Isso evita um erro comum: tentar definir uma política corporativa de confiabilidade para toda a empresa de uma vez só.

O que a skill tende a entregar bem

A slo-implementation skill é mais forte em:

propor padrões comuns de SLI, como disponibilidade e latência
explicar as relações entre SLI, SLO e SLA
traduzir metas de confiabilidade em razões mensuráveis
sugerir faixas de metas e enquadramento de error budget
esboçar alertas baseados em consumo de SLO

Ela ajuda bastante quando você precisa de um primeiro rascunho operacional com rapidez e quer que ele venha ancorado na linguagem padrão de SRE.

Onde os times costumam travar

A adoção geralmente emperra por um destes motivos:

o time não consegue concordar sobre qual é o limite do serviço voltado ao usuário
só existem métricas de infraestrutura, e não métricas de jornada de usuário
faltam histogramas de latência, então SLIs com threshold ficam fracos
as métricas incluem tráfego de bots, jobs internos ou health checks, o que distorce numerador e denominador
as metas são escolhidas por política interna, e não com base em risco e custo

A skill pode ajudar a estruturar a conversa, mas não consegue inventar medição confiável quando a telemetria não existe.

Padrões de prompt práticos que melhoram a qualidade da saída

Peça que a skill produza saídas em um formato pronto para decisão, por exemplo:

“List candidate SLIs with rationale and tradeoffs.”
“Recommend one primary SLO and one secondary guardrail SLO.”
“Show PromQL-style formulas for each SLI.”
“Identify exclusions that should not count against the SLO.”
“Suggest alerting windows for fast and slow burn.”

Esses padrões de prompt geram saídas com nível de implementação, em vez de conselhos abstratos sobre confiabilidade.

Como usar slo-implementation em trabalho de Reliability

Para slo-implementation for Reliability, use a skill nestes momentos:

antes de lançar um novo serviço
durante iniciativas de melhoria de observabilidade
depois que incidentes recorrentes mostrarem que seus alertas atuais geram ruído
quando a liderança pedir metas de confiabilidade conectadas ao impacto no cliente
quando você precisar conectar velocidade de engenharia à política de error budget

Ela é mais valiosa quando o time está saindo do “monitorar tudo” para “medir o que realmente importa para os usuários”.

FAQ da skill slo-implementation

A slo-implementation é melhor do que um prompt comum?

Sim, se sua tarefa for especificamente desenhar SLI/SLO. Um prompt comum pode gerar definições aceitáveis, mas slo-implementation tem mais chances de preservar a hierarquia, incluir fórmulas mensuráveis e conectar metas a error budgets e alertas.

A skill slo-implementation é amigável para iniciantes?

Moderadamente. Iniciantes conseguem usá-la, mas os melhores resultados vêm quando você já conhece conceitos básicos de SRE e tem algum contexto de telemetria. Se você está começando em SLOs, use a skill primeiro em um serviço só e revise cada métrica proposta antes de adotá-la.

Ela exige Prometheus?

Não, mas o conteúdo da skill claramente se encaixa bem em uma forma de pensar alinhada a Prometheus e PromQL. Se você usa Datadog, CloudWatch, Grafana ou outra stack, ainda pode aproveitar a lógica e traduzir as expressões de métricas para a sua plataforma.

Quando eu não devo usar slo-implementation?

Não use slo-implementation como ferramenta principal se:

você precisa de linguagem jurídica de SLA
você não tem nenhuma telemetria de serviço aproveitável
seu problema real é ownership, e não medição
seu serviço ainda é imaturo demais para definir jornadas de usuário estáveis

Nesses casos, instrumente primeiro ou resolva o problema de modelo operacional antes de formalizar SLOs.

Ela também ajuda com alertas?

Sim. A skill não trata apenas da definição de metas; ela também cobre o lado operacional de error budgets e alertas baseados em SLO. Isso a torna mais útil do que um template que para em metas percentuais.

Como melhorar a skill slo-implementation

Forneça contexto de negócio, não só métricas técnicas

Para melhorar os resultados de slo-implementation, diga ao agente o que confiabilidade significa comercialmente:

Qual fluxo perde receita quando se degrada?
Quais usuários são premium ou sensíveis à latência?
Qual duração de impacto é tolerável?

Isso ajuda a skill a escolher metas realistas, em vez de cair em números aspiracionais como 99.99%.

Defina explicitamente os limites do serviço

Uma entrada mais forte para o slo-implementation guide deixa claro o que conta e o que não conta. Por exemplo:

incluir requests de escrita da API pública
excluir /healthz, rotas administrativas e jobs internos em batch
medir apenas a conclusão bem-sucedida e visível para o usuário, não só a aceitação da requisição

Clareza de escopo é um dos fatores que mais determinam se um SLO será confiável para o time.

Forneça nomes de métricas e queries de exemplo

A skill se torna muito mais acionável quando você compartilha telemetria real. Uma boa entrada inclui:

nomes de métricas
dimensões de labels
buckets de histograma
queries de alerta atuais
links de dashboards ou trechos copiados

Isso permite que a saída evolua de SLOs conceituais para definições quase prontas para implementar.

Evite SLIs de vaidade

Um erro comum é escolher métricas fáceis de coletar, mas com ligação fraca com a experiência real do usuário. Exemplos:

reinícios de pod
saturação de CPU isoladamente
uptime bruto de uma dependência sem mapeamento para impacto no serviço

Peça que a skill justifique por que cada SLI reflete a confiabilidade percebida pelo usuário. Se ela não conseguir, substitua esse SLI.

Itere depois do primeiro rascunho

Sua primeira saída de slo-implementation deve ser tratada como rascunho. Melhore-a perguntando:

“Which SLI is most representative of user harm?”
“What would make this SLO impossible to measure accurately?”
“Which exclusions are risky or easy to abuse?”
“How would this change for low-traffic services?”
“What alerting would reduce noise while protecting the error budget?”

Essa segunda passada normalmente produz um desenho operacional muito melhor do que aceitar o primeiro conjunto de metas.

Faça um teste de estresse com incidentes históricos

Uma das melhores formas de melhorar a saída da slo-implementation skill é comparar os SLIs e alertas propostos com incidentes reais. Pergunte:

esse SLO teria detectado o problema?
ele teria contado falhas inofensivas em excesso?
a política de burn rate teria paginado cedo demais ou tarde demais?

Essa etapa de validação transforma um documento bem montado em algo que os times realmente conseguem operar.

Use um serviço por vez

Se os resultados parecerem genéricos, o escopo provavelmente está amplo demais. A skill funciona melhor quando fica focada em um único serviço ou em uma única jornada de usuário. Divida sistemas grandes em passadas separadas e só depois padronize os padrões.

Avaliações e comentários

Ainda não há avaliações

Compartilhe sua avaliação

Faça login para deixar uma nota e um comentário sobre esta skill.

0/10000

Avaliações mais recentes

Salvando...

Mais skills nesta categoria

error-handling-patterns

por wshobson

error-handling-patterns ajuda equipes a decidir entre exceptions e tipos Result, classificar falhas, propagar contexto e projetar graceful degradation para APIs e serviços mais confiáveis.

Reliability

Favoritos 1GitHub 32.6k

python-resilience

por wshobson

python-resilience é uma skill de orientação para lidar com falhas em Python com mais segurança, usando retries, exponential backoff, jitter, timeouts e janelas de retry limitadas. Use esta skill para adotar padrões práticos de resiliência em chamadas externas e aplicar wrappers no estilo tenacity com regras de retry mais claras.

Reliability

Favoritos 0GitHub 32.6k

on-call-handoff-patterns

por wshobson

Aprenda a usar a skill on-call-handoff-patterns para fazer transições de turno com mais confiabilidade. Use-a para estruturar handoffs de incidentes, registrar problemas ativos, mudanças recentes, estado de escalonamento e próximas ações para equipes de Reliability.

Reliability

Favoritos 0GitHub 32.5k

incident-runbook-templates

por wshobson

incident-runbook-templates ajuda equipes a criar runbooks estruturados de resposta a incidentes, com etapas claras de triagem, mitigação, escalonamento, comunicação e recuperação para indisponibilidades e Playbooks operacionais.

Playbooks

Favoritos 0GitHub 32.5k

upgrade-stripe

por stripe

Guia da skill upgrade-stripe para atualizar versões da API do Stripe, SDKs server-side, Stripe.js e SDKs mobile em bases de código reais, com passos práticos para Desenvolvimento Backend.

Backend Development

Favoritos 0GitHub 1.5k

istio-traffic-management

por wshobson

istio-traffic-management ajuda equipes a criar políticas de tráfego do Istio como VirtualService, DestinationRule, Gateway e ServiceEntry para canary, retries, circuit breaking e mirroring. Use para transformar a intenção de deploy em manifests claros de roteamento e resiliência, com prompts práticos e checagens de revisão.

Deployment

Favoritos 0GitHub 32.6k

linkerd-patterns

por wshobson

linkerd-patterns ajuda equipes a aplicar padrões do Linkerd em workloads no Kubernetes, incluindo mTLS, injeção de sidecar, traffic splits, retries, timeouts, service profiles e planejamento multi-cluster para rollouts baseados em Deployment.

Deployment

Favoritos 0GitHub 32.6k

frontend-design

por anthropics

frontend-design transforma ideias vagas de UI em interfaces marcantes e prontas para produção, com código frontend real, direção estética clara e menos visual genérico de IA.

UI Design

Favoritos 1GitHub 105.2k

create-colleague

por titanwings

create-colleague transforma documentos, chats, emails, capturas de tela, dados do Feishu e do DingTalk de colegas em uma skill de IA editável, com saídas separadas de trabalho e persona, além de fluxos de atualização para refinamento contínuo.

Skill Authoring

Favoritos 1GitHub 747

hyperframes

por heygen-com

hyperframes é uma skill de fluxo de trabalho para criar composições de vídeo baseadas em HTML no HyperFrames. Use-a para cards de título, sobreposições, legendas, narração, movimento reativo ao áudio e transições de cena quando precisar de hyperframes estruturados e orientados por código para Edição de Vídeo. Ela prioriza decisões de layout, tempo e animação em vez de pedidos genéricos de vídeo só com prompt.

Video Editing

Favoritos 0GitHub 2.7k

kreuzberg

por kreuzberg-dev

A skill kreuzberg ajuda você a instalar e usar o Kreuzberg para extração de documentos em mais de 91 formatos, incluindo PDFs, arquivos do Office, imagens, HTML, e-mail e arquivos compactados. Ela cobre fluxos de trabalho em Python, Node.js/TypeScript, Rust e CLI para OCR, tabelas, metadados, processamento em lote e orientações práticas de parsing.

PDF Processing

Favoritos 0GitHub 0

skill-creator

por anthropics

skill-creator é uma meta-skill de criação de Skills para rascunhar novas skills, revisar arquivos SKILL.md, rodar evals, comparar variantes e melhorar descrições de trigger com scripts e ferramentas de revisão do repositório.

Skill Authoring

Favoritos 2GitHub 105.1k

azure-identity-py

por microsoft

azure-identity-py ajuda a configurar autenticação Azure em Python com o Microsoft Entra ID. Use-o para escolher entre `DefaultAzureCredential`, managed identity ou autenticação por service principal, configurar variáveis de ambiente e resolver problemas de controle de acesso e da cadeia de credenciais. As orientações de instalação, os padrões de uso e as notas práticas de configuração são baseados no arquivo de skill do repositório.

Access Control

Favoritos 0GitHub 2.2k

claude-api

por anthropics

claude-api é uma skill prática para instalar e usar a Claude API e os SDKs da Anthropic. Ajuda desenvolvedores a escolher entre o SDK certo ou HTTP bruto, encontrar a documentação por linguagem e implementar streaming, tool use, arquivos, batches e tratamento de erros com menos tentativa e erro.

API Development

Favoritos 0GitHub 105k

wrangler

por cloudflare

A skill wrangler ajuda você a encontrar os comandos corretos de CLI, os formatos de configuração e as etapas de deploy para Cloudflare Workers. Use-a para uso do wrangler, checagens de instalação do wrangler e um guia prático de wrangler ao criar ou publicar Workers para Backend Development.

Backend Development

Favoritos 0GitHub 1.3k

clickhouse-best-practices

por ClickHouse

clickhouse-best-practices é uma skill de melhores práticas para ClickHouse voltada para Engenharia de Banco de Dados. Ela orienta o desenho de schema, a otimização de queries, a estratégia de inserts e a conectividade com agentes por meio de recomendações baseadas em regras, deixando o uso de clickhouse-best-practices mais fácil de acionar, revisar e citar em fluxos de trabalho do ClickHouse.

Database Engineering

Favoritos 0GitHub 412