ab-test-setup
作者 coreyhaines31ab-test-setup 帮助你在实施埋点或改代码之前,就从假设、样本量到指标设计好统计上可靠的 A/B 和多变量实验方案。
概览
ab-test-setup 是什么?
ab-test-setup 是一个用于在上线前设计严谨 A/B 和多变量实验的技能。它会引导 AI 助手扮演“实验专家”的角色:澄清测试目标、撰写有力的假设、选择合适的指标,并通过结构化参考资料来规划样本量和测试时长。
相比直接上来就跑一个 split test,ab-test-setup 先帮你搭好实验方案,确保结果在统计上有效、可解释,而不是随机噪音。
这个技能适合谁?
在以下情况下你可以使用 ab-test-setup:
- 增长团队或产品营销团队:在做落地页、引导流程或定价页的实验规划。
- 效果广告/投放团队:优化广告、Campaign 创意或转化漏斗,需要统计上可靠的测试结果。
- SEO 与内容团队:在高价值页面上测试标题、排版或 CTA(call to action)。
- 开发和产品经理:负责支持实验,希望有一套一致、可沉淀的测试规划方法论。
如果你只是想要一些文案或布局的灵感,并不打算做测试,这个技能会显得太重;此时更适合用你的内容或 CRO 相关技能。
ab-test-setup 解决什么问题?
这个技能专为以下类型的需求场景设计,例如用户会说:
- “我们想对首页主标题做 A/B test。”
- “这些元素要不要做 multivariate test?”
- “哪个版本更好,我们应该怎么测?”
- “这个实验要跑多久?”
- “我们的流量够做这个测试吗?”
ab-test-setup 主要关注:
- 梳理背景:你想提升什么、当前表现怎样、有哪些约束条件。
- 构建强假设:用结构化框架搭建可验证的假设。
- 选择测试类型:根据流量和目标,在 A/B、A/B/n 与 multivariate 之间做选择。
- 规划样本量和测试时长:基于内置的 sample-size guide 做预估。
- 定义指标体系:设计与业务目标匹配的主指标、次级指标和 guardrail 指标。
- 规避常见坑:如低流量场景下测试太多版本,或过早看数下结论(“peeking”)。
如果你要做 埋点和追踪实现,请使用 analytics-tracking skill。若需要 页面级别转化优化灵感,可与 page-cro 搭配 ab-test-setup 一起使用。
什么时候适合用 ab-test-setup?
以下情况适合使用这个技能:
- 你在对比两种或多种方案,需要 量化对比谁的表现更好。
- 你已经有或预计会有 足够的流量 来支撑有意义的 A/B test。
- 你重视 统计显著性,希望避免“假胜利(false wins)”。
- 有多个相关方,需要一份清晰、成文的测试方案。
以下情况则不太适合:
- 你的网站 流量非常低,很难做出有意义的 A/B 测试。
- 你只是做一些 一次性的设计改动,没有打算量化评估效果。
- 你只需要做 analytics 配置 或事件追踪(此时用
analytics-tracking更合适)。
使用方式
安装
通过 skills CLI 将 ab-test-setup 安装到你的 agent 环境:
npx skills add https://github.com/coreyhaines31/marketingskills --skill ab-test-setup
安装完成后:
- 在编辑器或文件浏览器中打开
skills/ab-test-setup目录。 - 从
SKILL.md开始阅读,了解助手应如何进行 A/B test 规划。 - 查看
references/和evals/文件夹,了解支撑材料和预期行为示例。
关键文件和目录
若想快速上手,重点关注以下文件:
SKILL.md– 核心说明文档。定义实验思维、初始评估问题,以及诸如“从假设出发”“一次只测一个主要变量”等核心原则。references/sample-size-guide.md– 关于如何计算或估算样本量、理解最小可检测效应(MDE)、规划测试时长的指南。references/test-templates.md– 可直接复用的测试方案模板、结果记录模板和对相关方的更新模板。evals/evals.json– 示例 prompt 与期望输出,展示这个 skill 在真实场景下应有的表现方式。
你可以在配置 agent 时参考这些内容,或将其用作内部实验文档结构的对齐标准。
使用 ab-test-setup 的典型流程
该技能围绕一套可重复的实验流程设计。
1. 收集背景信息
当用户提出要做 A/B test 时,agent 首先需要弄清:
- 测试背景 – 测的是哪个页面、功能或渠道?计划改动什么?
- 当前状态 – 当前转化率或核心指标,以及现有流量情况。
- 约束条件 – 技术限制、实现复杂度、时间线和所用工具(如 Optimizely、Google Optimize 替代方案、自研框架)。
如果你有共享的产品营销背景文件(例如 repo 中提到的 product-marketing-context.md),agent 应先读取该文件,只就缺失或本次测试特有的信息向你提问。
2. 定义有力的假设
ab-test-setup 推崇一种结构化的假设格式,可在 evals/evals.json 和 references/test-templates.md 中看到:
Because [observation], we believe [change] will cause [outcome], which we'll measure by [metric].
在实际使用中,agent 应该:
- 把模糊想法(例如“试试强调利益点的标题”)转化为 具体的预测。
- 将每个假设与 数据或明确观察 挂钩(analytics、调研、用户反馈等)。
- 将预期结果直接关联到一个 核心业务指标(如注册率、加购率)。
3. 选择合适的测试设计
结合 SKILL.md 中的原则和 evals/evals.json 的示例,agent 会帮助决策:
- A/B vs. A/B/n vs. multivariate – 比如在流量很小的情况下,会提示不要同时测四种按钮颜色,以免测试功效不足。
- 聚焦单一变量 – 鼓励一次只测试一个主要改动,保证结果可解释。
- 流量分配 – 简单 A/B 通常为 50/50,模板同样支持更复杂的分配方案。
这对经常想“一口气多测几个元素”的营销和 SEO 团队尤其有帮助。
4. 规划样本量和测试时长
references/sample-size-guide.md 为 agent 提供了一个框架,用于:
- 解释 基准转化率、MDE、显著性和检验效能(power) 这些概念。
- 利用速查表或公式估算每个版本所需的 样本量。
- 根据流量,将样本量折算成大致的 测试时长。
- 提醒 常见错误,例如测试功效不足、忽视多版本带来的调整需求等。
例如,在某个 eval prompt 中,agent 需要基于每月 15,000 访客和 3.2% 基准转化率估算样本量,并给出合理的测试时长建议。
5. 定义指标与 guardrail
结合 test-templates.md 中的模式,agent 会帮你:
- 选择一个代表主要结果的 主指标(如注册率)。
- 增加用于深入理解表现的 次级指标(如点击率、微转化)。
- 设置 guardrail 指标,避免局部优化损伤整体表现(如跳出率、错误率、每访客收入等)。
这对广告优化和 SEO 内容实验尤其重要,因为局部提升如果没有 guardrail 保护,可能拖累整体表现。
6. 输出结构化测试方案
在收集好信息后,agent 可以基于 references/test-templates.md 输出一份结构化的测试方案,包括:
- 概览和 owner 信息。
- 假设与背景理由。
- 测试设计和实现说明。
- 各版本描述(对照组与挑战者版本)。
- 指标定义与分群方案。
你可以将这份方案复制到实验平台、内部文档或 JIRA ticket 中,确保测试过程可复用、可审阅。
ab-test-setup 如何与其他技能协同工作
- 与
analytics-tracking搭配:ab-test-setup 负责定义要测 什么 以及为什么测;analytics-tracking 负责定义 如何 采集事件、目标或转化。 - 与
page-cro搭配:page-cro 帮你产出要改什么的创意;ab-test-setup 帮你决定先测哪些创意以及如何测。
将它们组合使用,可以覆盖完整实验流程:灵感 → 优先级排序 → 测试设计 → 实施 → 分析。
常见问题(FAQ)
什么时候该用 ab-test-setup,而不是直接改页面?
在以下情况适合使用 ab-test-setup:
- 这次改动可能对业务有 显著影响(例如核心漏斗步骤或高流量页面)。
- 相关方会问:“这次改动到底有没有用?”——而你需要拿得出手的证据。
- 你在持续优化 营销或 SEO 投入,需要一套可重复的流程。
对于不打算衡量影响的细微或纯视觉调整,就没必要做完整的 A/B 测试方案。
ab-test-setup 会帮我精确计算样本量吗?
该技能本身不包含专门的样本量计算库。它会基于 references/sample-size-guide.md 中的逻辑和示例来:
- 说明你需要准备哪些输入。
- 估算合理的样本量,或引导你使用在线计算器。
- 当流量过低导致测试不可靠时发出提醒。
对于业务关键或强监管场景,建议仍由你的 analytics 或数据科学团队校验最终计算结果。
ab-test-setup 能支持两个以上的版本吗?
可以。虽然核心概念是 A/B testing,但文档和模板都支持 A/B/n 和 multivariate 实验。同时,技能会强调:版本越多,需要的样本量和测试时长也要相应增加,这些内容在 sample-size guide 中都有覆盖。
ab-test-setup 如何处理“peeking”和提前停止?
在 eval prompt 中会明确要求 agent:
- 提醒 peeking 问题(过于频繁查看结果并提前结束测试)。
- 建议在宣布胜出版本前设定 固定测试时长或样本阈值。
这有助于保证统计结论的可靠性,尤其对高风险的营销和产品决策非常重要。
ab-test-setup 只适用于网页吗?
不是。其原理同样适用于:
- 网站和落地页实验。
- App 内产品测试。
- 邮件与用户生命周期旅程实验。
- 广告创意与文案测试。
只要你能够随机分配用户到不同版本并跟踪结果,ab-test-setup 就能帮助你设计实验。
如何判断我的流量是否足够做 A/B test?
参考 references/sample-size-guide.md 中的指引:
- 从你的 基准转化率 和 月访客数 开始。
- 先确定一个 最小可检测效应(MDE) —— 即值得你去检测的最小改变量。
- 利用表格或公式估算每个版本所需的 样本量。
- 将样本量与现有流量对比,评估测试需要的时间是否合理。
如果估算结果显示测试周期会非常长,agent 可能会建议你:
- 合并相似页面或 Campaign 以提高样本量。
- 测试 影响更大、改动更猛 的方案(更大的 MDE)。
- 使用其他研究方法(如定性访谈、可用性测试),而不是 A/B testing。
如果我只想要文案或设计建议怎么办?
ab-test-setup 默认假设你希望 测出哪个版本更好。如果你只是想要文案或布局灵感,不打算跑测试:
- 使用你的内容或 CRO 类技能(例如
page-cro)来生成创意。 - 如果之后决定要通过测试来验证这些创意,再回到 ab-test-setup 进行实验设计即可。
哪里可以看到这个技能的优秀输出示例?
在 ab-test-setup 文件夹中的 evals/evals.json 里可以找到。这些示例包含真实感很强的 prompt(如首页标题或按钮颜色测试)以及对 agent 回复的详细预期,包括:
- 假设结构。
- 样本量与测试时长的推理过程。
- 指标选择。
- 对常见陷阱的提醒。
在集成或自定义该技能时,你可以将这些示例作为效果对标。
