ab-test-setup
por coreyhaines31ab-test-setup ajuda você a planejar e desenhar experimentos A/B e multivariados estatisticamente robustos, da hipótese ao tamanho de amostra e métricas, antes de implementar tracking ou mudanças de código.
Visão geral
O que é ab-test-setup?
ab-test-setup é uma habilidade para desenhar experimentos A/B e multivariados rigorosos antes de qualquer coisa ir para produção. Ela orienta o assistente de IA a atuar como um especialista em experimentação: esclarecer objetivos do teste, construir boas hipóteses, escolher as métricas adequadas e planejar tamanho de amostra e duração usando referências estruturadas.
Em vez de sair direto rodando um teste de divisão de tráfego, ab-test-setup ajuda você a criar um plano de teste sólido, para que os resultados sejam estatisticamente válidos e acionáveis — não apenas ruído.
Para quem é essa habilidade?
Use ab-test-setup se você é:
- Times de growth ou marketing de produto planejando experimentos em landing pages, fluxos de onboarding ou páginas de preço.
- Profissionais de performance otimizando anúncios, criativos de campanha ou funis e que precisam de testes estatisticamente robustos.
- Times de SEO e conteúdo testando títulos, layouts ou calls to action em páginas de alto valor.
- Desenvolvedores e product managers que dão suporte à experimentação e querem um framework de planejamento consistente e documentado.
Se você só precisa de ideias de copy ou mudanças de layout sem necessariamente testá-las, essa habilidade é exagero; use em vez disso sua skill de conteúdo ou CRO.
Que problemas o ab-test-setup resolve?
Esta habilidade foi criada para situações em que o usuário diz coisas como:
- "Queremos fazer um teste A/B do título da nossa homepage."
- "Devemos rodar um teste multivariado nesses elementos?"
- "Qual versão é melhor e como devemos testá-la?"
- "Por quanto tempo devemos rodar este experimento?"
- "Temos tráfego suficiente para este teste?"
ab-test-setup foca em:
- Esclarecer o contexto: o que você está tentando melhorar, performance atual e restrições.
- Construir uma hipótese forte usando um framework estruturado.
- Escolher o tipo de teste (A/B vs. A/B/n vs. multivariado) com base em tráfego e objetivos.
- Planejar tamanho de amostra e duração, usando o guia de tamanho de amostra incluído.
- Definir métricas (primárias, secundárias e de segurança/guardrail) alinhadas aos objetivos do negócio.
- Evitar armadilhas comuns, como testar variantes demais com pouco tráfego ou tomar decisão cedo demais ("peeking").
Para implementação de tracking, use a skill analytics-tracking. Para ideias de otimização de conversão em nível de página, use page-cro em conjunto com ab-test-setup.
Quando ab-test-setup é uma boa opção?
Esta habilidade é uma boa opção quando:
- Você está comparando duas ou mais abordagens e precisa medir qual performa melhor.
- Você tem ou espera tráfego suficiente para rodar um teste A/B significativo.
- Você se preocupa com significância estatística e evitar falsos positivos.
- Vários stakeholders precisam de um plano de teste claro e documentado.
Ela não é uma boa opção quando:
- Você tem tráfego extremamente baixo, em que testes A/B significativos são irreais.
- Você está fazendo mudanças pontuais de design sem mensuração.
- Você só precisa de configuração de analytics ou event tracking (use
analytics-trackingnesse caso).
Como usar
Instalação
Instale ab-test-setup no ambiente do seu agente usando o skills CLI:
npx skills add https://github.com/coreyhaines31/marketingskills --skill ab-test-setup
Após a instalação:
- Abra o diretório
skills/ab-test-setupno seu editor ou visualizador de arquivos. - Comece por
SKILL.mdpara entender como o assistente deve abordar o planejamento de testes A/B. - Revise as pastas
references/eevals/para ver o material de apoio e o comportamento esperado.
Principais arquivos e pastas
Para obter valor rapidamente, foque nestes arquivos:
SKILL.md– Instruções centrais. Define a mentalidade de experimentação, perguntas de diagnóstico iniciais e princípios fundamentais, como começar com uma hipótese e testar uma coisa de cada vez.references/sample-size-guide.md– Diretrizes para calcular ou estimar tamanhos de amostra, entender o minimum detectable effect (MDE) e planejar a duração do teste.references/test-templates.md– Modelos prontos para planos de teste, documentação de resultados e atualizações para stakeholders.evals/evals.json– Prompts de exemplo e outputs esperados que mostram como a habilidade deve se comportar em cenários reais.
Use esses arquivos como referência ao configurar seu agente ou para alinhar a documentação interna de experimentação à mesma estrutura.
Fluxo de trabalho típico com ab-test-setup
A habilidade foi desenhada em torno de um fluxo de experimentação repetível.
1. Reunir contexto
Quando um usuário pede um teste A/B, o agente deve primeiro entender:
- Contexto do teste – Qual página, feature ou canal está sendo testado? Qual mudança está sendo considerada?
- Estado atual – Taxa de conversão base ou métrica principal e volume atual de tráfego.
- Restrições – Limitações técnicas, complexidade de implementação, prazos e ferramentas (por exemplo, Optimizely, alternativas ao Google Optimize, framework interno).
Se você tiver um arquivo compartilhado de contexto de marketing de produto (por exemplo, product-marketing-context.md descrito no repo), o agente deve lê-lo primeiro e só perguntar o que estiver faltando ou for específico do teste.
2. Definir uma hipótese forte
ab-test-setup promove um formato estruturado de hipótese, como visto em evals/evals.json e references/test-templates.md:
Because [observation], we believe [change] will cause [outcome], which we'll measure by [metric].
Na prática, o agente deve:
- Transformar ideias vagas ("testar um título mais focado em benefícios") em previsões específicas.
- Conectar cada hipótese a dados ou observações claras (analytics, pesquisas, feedback de usuário).
- Atrelar o resultado diretamente a uma métrica de negócio primária (por exemplo, taxa de cadastro, add-to-cart rate).
3. Escolher o design de teste adequado
Usando os princípios em SKILL.md e os exemplos em evals/evals.json, o agente ajuda a decidir:
- A/B vs. A/B/n vs. multivariado – Por exemplo, desencorajando testar quatro cores de botão com tráfego mínimo, se isso deixar o teste sem poder estatístico.
- Foco em uma variável principal – Incentivar testar uma mudança principal por vez, para que os resultados sejam interpretáveis.
- Alocação de tráfego – Em geral 50/50 para A/B simples, mas os templates suportam setups mais complexos.
Isso é especialmente útil para times de marketing e SEO que tendem a querer testar muitos elementos de uma vez.
4. Planejar tamanho de amostra e duração
O arquivo references/sample-size-guide.md oferece ao agente um framework para:
- Explicar taxa de conversão base, MDE, significância e poder.
- Usar tabelas de referência rápida ou fórmulas para estimar tamanho de amostra por variante.
- Traduzir isso em uma duração aproximada do teste com base no tráfego.
- Destacar erros comuns, como testes sem poder estatístico suficiente e ignorar ajustes para múltiplas variantes.
Por exemplo, em um prompt de avaliação, espera-se que o agente estime o tamanho de amostra necessário para 15.000 visitantes/mês e baseline de 3,2%, e depois recomende uma duração realista de teste.
5. Definir métricas e guardrails
Usando os padrões em test-templates.md, o agente deve ajudar você a:
- Escolher uma métrica primária que represente o principal resultado (por exemplo, taxa de cadastro).
- Adicionar métricas secundárias para entendimento mais profundo (por exemplo, click-through rate, microconversões).
- Definir métricas de guardrail para evitar impactos negativos (por exemplo, bounce rate, error rate, revenue per visitor).
Isso é especialmente valioso em experimentos de otimização de anúncios e conteúdo para SEO, em que ganhos locais podem prejudicar a performance geral se os guardrails forem ignorados.
6. Produzir um plano de teste estruturado
Com as informações coletadas, o agente pode gerar um plano usando os templates de references/test-templates.md, incluindo:
- Visão geral e responsável pelo teste.
- Hipótese e justificativa.
- Desenho do teste e observações de implementação.
- Descrição das variantes (controle e desafiantes).
- Definição de métricas e plano de segmentação.
Você pode colar esse plano na sua ferramenta de experimentação, documentação interna ou ticket no JIRA para manter os testes consistentes e revisáveis.
Como ab-test-setup funciona com outras skills
- Com
analytics-tracking: ab-test-setup define o que e por que testar; analytics-tracking define como capturar eventos, metas ou conversões. - Com
page-cro: page-cro ajuda a gerar ideias do que mudar; ab-test-setup decide quais ideias testar primeiro e como.
Use as duas para um fluxo de experimentação completo: ideação → priorização → desenho do teste → implementação → análise.
FAQ
Quando devo usar ab-test-setup em vez de simplesmente mudar a página?
Use ab-test-setup quando:
- A mudança pode ter impacto relevante para o negócio (por exemplo, etapas do funil principal, páginas de alto tráfego).
- Os stakeholders vão perguntar "Isso realmente funcionou?" e você precisa de evidência confiável.
- Você está otimizando ações contínuas de marketing ou SEO e quer um processo repetível.
Para ajustes triviais ou puramente visuais, em que você não pretende medir impacto, um plano completo de teste A/B não é necessário.
ab-test-setup calcula tamanhos de amostra exatos?
A habilidade não inclui uma biblioteca dedicada de cálculo. Em vez disso, usa a lógica e os exemplos de references/sample-size-guide.md para:
- Explicar quais inputs você precisa.
- Estimar tamanhos de amostra razoáveis ou direcionar você para calculadoras online.
- Avisar quando o seu tráfego provavelmente é baixo demais para testes confiáveis.
Para contextos críticos ou altamente regulados, você ainda deve validar os cálculos com seu time de analytics ou ciência de dados.
Posso usar ab-test-setup para mais de duas variantes?
Sim. Embora a ideia central sejam testes A/B, a documentação e os templates suportam experimentos A/B/n e multivariados. A skill também enfatiza que adicionar mais variantes exige tamanhos de amostra maiores e durações mais longas, temas abordados no guia de tamanho de amostra.
Como ab-test-setup lida com “peeking” e parada antecipada?
Os prompts de avaliação exigem explicitamente que o agente:
- Alerta sobre o problema de peeking (checar resultados com muita frequência e encerrar o teste cedo demais).
- Recomende uma duração fixa de teste ou um limite de amostra antes de declarar um vencedor.
Isso ajuda a manter a validade estatística, especialmente em decisões importantes de marketing e produto.
ab-test-setup é apenas para páginas web?
Não. Os princípios se aplicam a:
- Experimentos em sites e landing pages.
- Testes de produto dentro do app.
- Testes de e-mail e jornadas de lifecycle.
- Experimentos de criativos e mensagens em anúncios.
Sempre que você puder atribuir usuários aleatoriamente a variantes e acompanhar resultados, ab-test-setup pode ajudar a desenhar o experimento.
Como saber se tenho tráfego suficiente para um teste A/B?
Use as orientações em references/sample-size-guide.md:
- Comece pela sua taxa de conversão base e visitantes mensais.
- Defina um minimum detectable effect — qual é o menor efeito que vale a pena detectar.
- Use as tabelas ou fórmulas para estimar o tamanho de amostra por variante.
- Compare com o seu tráfego para ver se o teste levaria um tempo razoável.
Se a duração estimada for extremamente longa, o agente pode recomendar:
- Combinar páginas ou campanhas semelhantes para aumentar a amostra.
- Testar mudanças maiores e mais impactantes (MDE maior).
- Usar outros métodos de pesquisa (feedback qualitativo, testes de usabilidade) em vez de teste A/B.
E se eu só quiser ideias de copy ou design?
ab-test-setup parte do pressuposto de que você quer medir qual versão vence. Se você só quer ideias de copy ou layout sem rodar um teste:
- Use uma skill focada em conteúdo ou CRO (como
page-cro) para gerar ideias. - Opcionalmente, volte ao ab-test-setup depois se decidir validar essas ideias via teste.
Onde posso ver exemplos de bons outputs desta skill?
Veja evals/evals.json na pasta ab-test-setup. Ela inclui prompts realistas (por exemplo, testando títulos de homepage ou cores de botão) e expectativas detalhadas de como o agente deve responder, incluindo:
- Estrutura de hipótese.
- Raciocínio sobre tamanho de amostra e duração.
- Seleção de métricas.
- Alertas sobre armadilhas comuns.
Você pode usar esses exemplos como benchmark ao integrar ou personalizar a habilidade no seu próprio ambiente.
