C

ab-test-setup 帮助你在实施埋点或改代码之前,就从假设、样本量到指标设计好统计上可靠的 A/B 和多变量实验方案。

Stars0
收藏0
评论0
收录时间2026年3月27日
分类数据分析
安装命令
npx skills add https://github.com/coreyhaines31/marketingskills --skill ab-test-setup
概览

概览

ab-test-setup 是什么?

ab-test-setup 是一个用于在上线前设计严谨 A/B 和多变量实验的技能。它会引导 AI 助手扮演“实验专家”的角色:澄清测试目标、撰写有力的假设、选择合适的指标,并通过结构化参考资料来规划样本量和测试时长。

相比直接上来就跑一个 split test,ab-test-setup 先帮你搭好实验方案,确保结果在统计上有效、可解释,而不是随机噪音。

这个技能适合谁?

在以下情况下你可以使用 ab-test-setup:

  • 增长团队或产品营销团队:在做落地页、引导流程或定价页的实验规划。
  • 效果广告/投放团队:优化广告、Campaign 创意或转化漏斗,需要统计上可靠的测试结果。
  • SEO 与内容团队:在高价值页面上测试标题、排版或 CTA(call to action)。
  • 开发和产品经理:负责支持实验,希望有一套一致、可沉淀的测试规划方法论。

如果你只是想要一些文案或布局的灵感,并不打算做测试,这个技能会显得太重;此时更适合用你的内容或 CRO 相关技能。

ab-test-setup 解决什么问题?

这个技能专为以下类型的需求场景设计,例如用户会说:

  • “我们想对首页主标题做 A/B test。”
  • “这些元素要不要做 multivariate test?”
  • “哪个版本更好,我们应该怎么测?”
  • “这个实验要跑多久?”
  • “我们的流量够做这个测试吗?”

ab-test-setup 主要关注:

  • 梳理背景:你想提升什么、当前表现怎样、有哪些约束条件。
  • 构建强假设:用结构化框架搭建可验证的假设。
  • 选择测试类型:根据流量和目标,在 A/B、A/B/n 与 multivariate 之间做选择。
  • 规划样本量和测试时长:基于内置的 sample-size guide 做预估。
  • 定义指标体系:设计与业务目标匹配的主指标、次级指标和 guardrail 指标。
  • 规避常见坑:如低流量场景下测试太多版本,或过早看数下结论(“peeking”)。

如果你要做 埋点和追踪实现,请使用 analytics-tracking skill。若需要 页面级别转化优化灵感,可与 page-cro 搭配 ab-test-setup 一起使用。

什么时候适合用 ab-test-setup?

以下情况适合使用这个技能:

  • 你在对比两种或多种方案,需要 量化对比谁的表现更好
  • 你已经有或预计会有 足够的流量 来支撑有意义的 A/B test。
  • 你重视 统计显著性,希望避免“假胜利(false wins)”。
  • 有多个相关方,需要一份清晰、成文的测试方案。

以下情况则不太适合:

  • 你的网站 流量非常低,很难做出有意义的 A/B 测试。
  • 你只是做一些 一次性的设计改动,没有打算量化评估效果。
  • 你只需要做 analytics 配置 或事件追踪(此时用 analytics-tracking 更合适)。

使用方式

安装

通过 skills CLI 将 ab-test-setup 安装到你的 agent 环境:

npx skills add https://github.com/coreyhaines31/marketingskills --skill ab-test-setup

安装完成后:

  1. 在编辑器或文件浏览器中打开 skills/ab-test-setup 目录。
  2. SKILL.md 开始阅读,了解助手应如何进行 A/B test 规划。
  3. 查看 references/evals/ 文件夹,了解支撑材料和预期行为示例。

关键文件和目录

若想快速上手,重点关注以下文件:

  • SKILL.md – 核心说明文档。定义实验思维、初始评估问题,以及诸如“从假设出发”“一次只测一个主要变量”等核心原则。
  • references/sample-size-guide.md – 关于如何计算或估算样本量、理解最小可检测效应(MDE)、规划测试时长的指南。
  • references/test-templates.md – 可直接复用的测试方案模板、结果记录模板和对相关方的更新模板。
  • evals/evals.json – 示例 prompt 与期望输出,展示这个 skill 在真实场景下应有的表现方式。

你可以在配置 agent 时参考这些内容,或将其用作内部实验文档结构的对齐标准。

使用 ab-test-setup 的典型流程

该技能围绕一套可重复的实验流程设计。

1. 收集背景信息

当用户提出要做 A/B test 时,agent 首先需要弄清:

  • 测试背景 – 测的是哪个页面、功能或渠道?计划改动什么?
  • 当前状态 – 当前转化率或核心指标,以及现有流量情况。
  • 约束条件 – 技术限制、实现复杂度、时间线和所用工具(如 Optimizely、Google Optimize 替代方案、自研框架)。

如果你有共享的产品营销背景文件(例如 repo 中提到的 product-marketing-context.md),agent 应先读取该文件,只就缺失或本次测试特有的信息向你提问。

2. 定义有力的假设

ab-test-setup 推崇一种结构化的假设格式,可在 evals/evals.jsonreferences/test-templates.md 中看到:

Because [observation], we believe [change] will cause [outcome], which we'll measure by [metric].

在实际使用中,agent 应该:

  • 把模糊想法(例如“试试强调利益点的标题”)转化为 具体的预测
  • 将每个假设与 数据或明确观察 挂钩(analytics、调研、用户反馈等)。
  • 将预期结果直接关联到一个 核心业务指标(如注册率、加购率)。

3. 选择合适的测试设计

结合 SKILL.md 中的原则和 evals/evals.json 的示例,agent 会帮助决策:

  • A/B vs. A/B/n vs. multivariate – 比如在流量很小的情况下,会提示不要同时测四种按钮颜色,以免测试功效不足。
  • 聚焦单一变量 – 鼓励一次只测试一个主要改动,保证结果可解释。
  • 流量分配 – 简单 A/B 通常为 50/50,模板同样支持更复杂的分配方案。

这对经常想“一口气多测几个元素”的营销和 SEO 团队尤其有帮助。

4. 规划样本量和测试时长

references/sample-size-guide.md 为 agent 提供了一个框架,用于:

  • 解释 基准转化率、MDE、显著性和检验效能(power) 这些概念。
  • 利用速查表或公式估算每个版本所需的 样本量
  • 根据流量,将样本量折算成大致的 测试时长
  • 提醒 常见错误,例如测试功效不足、忽视多版本带来的调整需求等。

例如,在某个 eval prompt 中,agent 需要基于每月 15,000 访客和 3.2% 基准转化率估算样本量,并给出合理的测试时长建议。

5. 定义指标与 guardrail

结合 test-templates.md 中的模式,agent 会帮你:

  • 选择一个代表主要结果的 主指标(如注册率)。
  • 增加用于深入理解表现的 次级指标(如点击率、微转化)。
  • 设置 guardrail 指标,避免局部优化损伤整体表现(如跳出率、错误率、每访客收入等)。

这对广告优化和 SEO 内容实验尤其重要,因为局部提升如果没有 guardrail 保护,可能拖累整体表现。

6. 输出结构化测试方案

在收集好信息后,agent 可以基于 references/test-templates.md 输出一份结构化的测试方案,包括:

  • 概览和 owner 信息。
  • 假设与背景理由。
  • 测试设计和实现说明。
  • 各版本描述(对照组与挑战者版本)。
  • 指标定义与分群方案。

你可以将这份方案复制到实验平台、内部文档或 JIRA ticket 中,确保测试过程可复用、可审阅。

ab-test-setup 如何与其他技能协同工作

  • analytics-tracking 搭配:ab-test-setup 负责定义要测 什么 以及为什么测;analytics-tracking 负责定义 如何 采集事件、目标或转化。
  • page-cro 搭配:page-cro 帮你产出要改什么的创意;ab-test-setup 帮你决定先测哪些创意以及如何测。

将它们组合使用,可以覆盖完整实验流程:灵感 → 优先级排序 → 测试设计 → 实施 → 分析。

常见问题(FAQ)

什么时候该用 ab-test-setup,而不是直接改页面?

在以下情况适合使用 ab-test-setup:

  • 这次改动可能对业务有 显著影响(例如核心漏斗步骤或高流量页面)。
  • 相关方会问:“这次改动到底有没有用?”——而你需要拿得出手的证据。
  • 你在持续优化 营销或 SEO 投入,需要一套可重复的流程。

对于不打算衡量影响的细微或纯视觉调整,就没必要做完整的 A/B 测试方案。

ab-test-setup 会帮我精确计算样本量吗?

该技能本身不包含专门的样本量计算库。它会基于 references/sample-size-guide.md 中的逻辑和示例来:

  • 说明你需要准备哪些输入。
  • 估算合理的样本量,或引导你使用在线计算器。
  • 当流量过低导致测试不可靠时发出提醒。

对于业务关键或强监管场景,建议仍由你的 analytics 或数据科学团队校验最终计算结果。

ab-test-setup 能支持两个以上的版本吗?

可以。虽然核心概念是 A/B testing,但文档和模板都支持 A/B/nmultivariate 实验。同时,技能会强调:版本越多,需要的样本量和测试时长也要相应增加,这些内容在 sample-size guide 中都有覆盖。

ab-test-setup 如何处理“peeking”和提前停止?

在 eval prompt 中会明确要求 agent:

  • 提醒 peeking 问题(过于频繁查看结果并提前结束测试)。
  • 建议在宣布胜出版本前设定 固定测试时长或样本阈值

这有助于保证统计结论的可靠性,尤其对高风险的营销和产品决策非常重要。

ab-test-setup 只适用于网页吗?

不是。其原理同样适用于:

  • 网站和落地页实验。
  • App 内产品测试。
  • 邮件与用户生命周期旅程实验。
  • 广告创意与文案测试。

只要你能够随机分配用户到不同版本并跟踪结果,ab-test-setup 就能帮助你设计实验。

如何判断我的流量是否足够做 A/B test?

参考 references/sample-size-guide.md 中的指引:

  • 从你的 基准转化率月访客数 开始。
  • 先确定一个 最小可检测效应(MDE) —— 即值得你去检测的最小改变量。
  • 利用表格或公式估算每个版本所需的 样本量
  • 将样本量与现有流量对比,评估测试需要的时间是否合理。

如果估算结果显示测试周期会非常长,agent 可能会建议你:

  • 合并相似页面或 Campaign 以提高样本量。
  • 测试 影响更大、改动更猛 的方案(更大的 MDE)。
  • 使用其他研究方法(如定性访谈、可用性测试),而不是 A/B testing。

如果我只想要文案或设计建议怎么办?

ab-test-setup 默认假设你希望 测出哪个版本更好。如果你只是想要文案或布局灵感,不打算跑测试:

  • 使用你的内容或 CRO 类技能(例如 page-cro)来生成创意。
  • 如果之后决定要通过测试来验证这些创意,再回到 ab-test-setup 进行实验设计即可。

哪里可以看到这个技能的优秀输出示例?

ab-test-setup 文件夹中的 evals/evals.json 里可以找到。这些示例包含真实感很强的 prompt(如首页标题或按钮颜色测试)以及对 agent 回复的详细预期,包括:

  • 假设结构。
  • 样本量与测试时长的推理过程。
  • 指标选择。
  • 对常见陷阱的提醒。

在集成或自定义该技能时,你可以将这些示例作为效果对标。

评分与评论

暂无评分
分享你的评价
登录后即可为这个技能评分并发表评论。
G
0/10000
最新评论
保存中...