ab-test-setup

作者 coreyhaines31

ab-test-setup 可帮助团队把实验想法整理成可执行的 Conversion A/B 测试方案。你可以用它定义假设、选择 A/B 或 A/B/n、估算样本量和测试周期、设定核心指标与护栏指标，并借助仓库模板产出结构化的测试 brief。

Stars17.3k

收录时间2026年3月29日

分类转化

安装命令

npx skills add coreyhaines31/marketingskills --skill ab-test-setup

编辑评分

这项 skill 得分为 78/100，作为目录收录项表现扎实，适合希望获得结构化 A/B 测试规划支持的用户。该仓库提供了清晰的触发语、较完整的工作流指导以及实用的参考资料，因此相比通用提示词，agent 更有机会给出更好的结果。不过用户也应预期，它更偏向规划与设计能力，而不是带工具支撑的落地执行包。

78/100

亮点

触发性强：描述中覆盖了许多自然的用户表达，如“A/B test”、“split test”、“哪个版本更好”以及“这个测试该跑多久”。
内容具备实际操作价值：`SKILL.md` 涵盖假设设计、测试约束和实验原则，并提供样本量与测试计划模板的参考。
来自 evals 的可信信号：evals 明确了预期行为，例如检查产品与营销语境、定义指标、处理样本量问题，以及提醒不要过早偷看结果。

注意点

实施层面的助力有限：仓库没有提供脚本、安装步骤或针对特定工具的执行说明，因此 agent 仍需要自行判断如何把方案真正落地。
工作流信号不算理想：结构信号显示 workflow 0，因此部分分步执行细节可能需要推断，而不是有明确规定。

Marketing 分析测试转化率优化战略工作流 GTM GA4

概览

ab-test-setup 技能概览

ab-test-setup 是做什么的

ab-test-setup 技能可以把一个模糊的实验想法，转成一份真正可执行、适用于 Conversion 工作的测试方案。它特别适合市场团队、增长团队、产品营销人员和 PM，用来判断该测什么、测试结构怎么搭、以及当前流量是否足以产出有效结论。

谁适合安装这个技能

如果你经常需要这类帮助，建议安装 ab-test-setup：

headline 或 CTA 实验
landing page 和 signup flow 测试
围绕 messaging 或 offer 调整做 variant 规划
sample size、测试时长和 statistical significance 相关问题
判断一个想法到底应不应该做 A/B test

如果你的团队已经有不少实验想法，但缺少一套可重复使用的实验 brief，ab-test-setup 会尤其有价值。

它真正要解决的问题

大多数失败的测试，并不是因为 variant 想法本身很差，而是因为 setup 不够扎实：没有清晰的 hypothesis、一次改太多东西、没有 baseline、没有可检测的 effect target，或者缺少 guardrails。ab-test-setup skill 的设计目标，就是在上线前强制补上这些最容易缺失的实验纪律。

这个技能和通用 prompt 的区别

普通 prompt 往往只能给你一些测试点子。ab-test-setup 更强调产出一个有效的实验计划：

从 hypothesis 出发，而不只是“试两个版本看看”
会要求 baseline conversion rate 和 traffic
会纳入 sample size 和 test duration 的判断
会区分 A/B、A/B/n 和 multivariate 的适用场景
会提醒你避免 peeking 和 underpowered tests
会指向 repo 里的 templates 和 sample-size 参考资料

最适合与不适合的使用场景

最适合：

你已经明确页面、受众和目标
你需要快速整理出结构化的 test brief
你想为 Conversion 实验拿到更高质量的 prompts

不适合：

你当前更需要 instrumentation 或 event tracking 设计
你只是想要页面改写建议，不需要 testing plan
你的流量很低，更适合寻找正式测试之外的替代方案

如何使用 ab-test-setup 技能

在你的 skills 环境中安装 ab-test-setup

按目录基线里展示的仓库安装方式执行：

npx skills add https://github.com/coreyhaines31/marketingskills --skill ab-test-setup

安装后，优先打开：

skills/ab-test-setup/SKILL.md
skills/ab-test-setup/references/sample-size-guide.md
skills/ab-test-setup/references/test-templates.md
skills/ab-test-setup/evals/evals.json

这些文件比快速扫一眼更重要，因为它们直接体现了这个技能预期的决策流程、输出结构和质量标准。

先读这几个文件

如果你在使用 ab-test-setup 前只能看三个文件，优先看：

SKILL.md，了解触发条件和规划逻辑
references/sample-size-guide.md，判断可行性和测试时长
references/test-templates.md，明确你希望模型最终产出的结构

然后再看 evals/evals.json，了解这个技能在真实 prompt 下如何界定“好答案”。

ab-test-setup 需要哪些输入

当你提供以下信息时，这个技能的表现会明显更好：

被测试的 page 或 feature
primary conversion event
当前 baseline conversion rate
每月或每周 traffic volume
拟议改动
audience segment
tooling constraints
timeline 或 launch window
对 false positives 的风险容忍度

如果没有 baseline 和 traffic，ab-test-setup usage 就会更偏泛化，决策参考价值也会下降。

如果有 product marketing context，先提供

repo 明确要求技能先检查 .agents/product-marketing-context.md 或 .claude/product-marketing-context.md。这很关键，因为好的实验设计高度依赖：

audience
positioning
core claims
current messaging strategy
funnel stage

如果你的环境里有这个文件，务必让模型先读它，再开始问那些重复的发现性问题。

把一个粗糙想法写成更强的 ab-test-setup prompt

弱 prompt：

We want to test our homepage headline. What should we do?

更好的 prompt：

Use ab-test-setup to plan an A/B test for our homepage headline. Current headline: "The All-in-One Project Management Tool." Proposed direction: more benefit-focused messaging for SaaS team leads. Baseline signup rate is 3.2%. We get about 15,000 homepage visitors per month. Primary goal is signup rate. We can implement one variant only, 50/50 traffic split, in our existing testing tool. Please create a hypothesis, recommend test type, estimate sample needs and likely duration, define primary/secondary/guardrail metrics, and flag risks like peeking or low power.

第二种写法能给技能足够上下文，让它产出的是一份计划，而不是泛泛的 brainstorming。

直接指定你真正需要的输出格式

参考文件里已经包含了可复用模板，所以你可以直接要求输出为以下格式之一：

experiment brief for approval
launch checklist
test plan template
stakeholder update
post-test readout shell

实用 prompt：

Use the test plan template format from references/test-templates.md and fill only fields we can support with the data provided. Mark missing assumptions clearly.

这样可以减少后续清理工作，也能更早暴露缺失输入。

把这个技能用于做决策，而不只是生成点子

最有效的 ab-test-setup guide 工作流通常是：

描述拟议改动
说明业务目标
提供 baseline 和 traffic
询问这个测试是否可行
让它给出明确的 metrics 和运行条件
最后再让它推荐 variants

这个顺序很重要。它能避免团队在根本达不到足够 sample size 的测试上投入过多精力。

了解它强制执行的核心规划规则

从源码来看，这个技能特别强调：

从清晰的 hypothesis 开始
一次只测一个变量
定义 primary、secondary 和 guardrail metrics
估算 sample size 和 minimum duration
不要因为早期带噪声的“胜利”就提前结束测试

如果你的组织经常上线“quick tests”却没有这些控制项，ab-test-setup 的价值会非常直接。

如何把 ab-test-setup 用在 Conversion 工作中

在使用 ab-test-setup for Conversion 时，不要只给出 variant 想法，还要补充业务层面的 stakes。好的输入包括：

当前 conversion bottleneck
为什么你认为当前页面表现不佳
你预期改动会通过什么机制生效
最低值得采取行动的 lift
哪些 segments 绝对不能下降

示例：

We think our pricing page CTA underperforms because it asks for commitment too early. Plan an A/B test comparing "Start Free Trial" vs "See Plans First." Baseline click-through is 6.8%, downstream trial-start rate is 2.1%, and pricing page traffic is 40,000 sessions/month. We care most about completed trial starts, not just button clicks. Include guardrails so a CTR lift does not hide lower-quality signups.

这种 prompt 会比单纯让它做 button-color test，更有助于产出正确的 metric 设计。

什么时候这个技能会反驳你的想法

当 ab-test-setup 说出下面这些话时，往往正是它最有帮助的时候：

这个不该做成 multivariate
你的流量不够支撑四个 variants
你的 MDE 设得不现实
你的 primary metric 离被测试改动太远
你一次混入了太多改动，无法做因果学习

这种“反驳”是功能价值的一部分，不是使用摩擦。

基于 repo 内容支持的常见用例

从技能文本和 evals 来看，适合的使用场景包括：

homepage headline A/B tests
pricing 或 signup 页面上的 CTA variant 测试
判断 A/B/n 是否现实可行
根据 traffic 和 baseline 规划测试时长
为实验 rollout 创建结构化文档

evals 也表明，这个技能应该能识别类似“should we test 4 CTA colors?” 这样的随意请求，并把用户引导到更扎实的实验设计上。

ab-test-setup 技能 FAQ

ab-test-setup 适合初学者吗？

适合，前提是你已经清楚自己的页面和目标。这个技能会补上初学者最容易漏掉的结构：hypothesis、sample size 思维、metrics 和 duration。但如果你需要的是从零开始的统计学入门，它就没那么合适。

相比普通 prompting，它的最大优势是什么？

最大优势是“约束”。ab-test-setup 不只是生成 variants，还会先界定这个测试值不值得做，以及要怎样测量才算有效。很多时候，这比单纯生成点子更省时间。

我必须提供精确的 traffic 和 conversion 数据吗？

精确数据当然最好，但方向性估算也依然有用。如果你手上只有粗略数字，请明确说出来。技能依然可以产出一个 planning draft，只是 sample-size 和 duration 建议的可信度会更低。

ab-test-setup 能处理两个以上的 variants 吗？

可以，但它也应该明确提醒你：variant 越多，对 sample 的要求越高。如果 traffic 不大，A/B test 通常会比 A/B/n 或 multivariate testing 更实际。

什么情况下不该用 ab-test-setup？

以下场景不建议把它当作主工具：

tracking 缺失或不可靠
traffic 太低，无法做出有意义的 inference
你需要的是 CRO rewrite，而不是 test plan
改动太大，真正的阻碍在 implementation feasibility
你现在首先需要 analytics instrumentation design

这个技能是否绑定某个 testing platform？

没有迹象表明它被锁定在某个平台。这个技能偏规划导向，所以只要你能明确 traffic split、metrics 和 implementation constraints，它就应该能配合大多数 experimentation tools 使用。

ab-test-setup 能帮助做 post-test analysis 吗？

可以，但只是部分支持。模板里包含 results documentation，不过它最强的价值仍然在上线前的 setup。更适合把它用来在测试开始前先定义什么才算成功。

如何改进 ab-test-setup 技能的使用效果

提供更强的 hypothesis，而不只是 variant 请求

差的输入：

Test this new copy against the old copy.

更好的输入：

Because users may not understand our current value proposition quickly, we believe replacing feature-led copy with outcome-led copy will increase signup starts among first-time visitors. We will measure signup rate as the primary metric and bounce rate plus demo-request rate as secondary checks.

这样的信息能让 ab-test-setup 检验一个因果逻辑，而不仅仅是比较两个文案成品。

提供最小可用的实验数据集

想提升 ab-test-setup 输出质量，尽量始终包含以下信息：

baseline conversion rate
traffic volume
minimum meaningful lift
exact conversion event
audience
implementation constraints
acceptable test duration

这些输入会直接提升 sample-size 逻辑和 feasibility 建议的质量。

避开最常见的失败模式

输出质量差，通常都来自这些问题之一：

一个测试里打包了太多改动
没有 baseline metric
把 vanity metric 当作 primary KPI
只问 significance，却不面对 traffic 现实
测的是上游 micro-metric，但真实业务目标在下游

如果你能在提问前先修正这些问题，技能的实用性会高很多。

明确告诉技能哪些指标不能变差

更强的 ab-test-setup skill prompt 会包含 guardrails，例如：

lead quality
refund rate
bounce rate
activation rate
revenue per visitor

这样可以避免出现“假胜利”：表层指标上升了，但业务质量反而下降。

把 sample-size 参考文件当作可行性筛选器

在花时间想 variants 之前，先看 references/sample-size-guide.md。它能帮助你回答：

这个测试能否在合理窗口内完成？
你想要的 lift 是否小到几乎检测不出来？
减少 variants 会不会更聪明？
与其做细微 tweak，是不是应该测试更大的改动？

对于安装决策来说，这是 repo 里价值最高的文件之一。

尽量复用模板，不要总是输出 freeform 内容

references/test-templates.md 是推动团队真正采用这套方法的最快路径。你可以直接让模型填写：

test plan
prioritization scorecard
stakeholder update
hypothesis bank entry

freeform 回答虽然容易生成，但更难落地执行。

第一版出来后，记得再迭代一轮

完成第一轮 ab-test-setup usage 后，建议再做一次 refinement：

收紧 hypothesis
把范围缩到一个变量
用可执行定义替换掉含糊 metrics
确认 traffic split 和 duration
追问还有哪些 assumptions 缺失

很多时候，第二轮优化带来的提升，比继续增加 variant 点子更大。

把 ab-test-setup 与相邻技能搭配使用，但要分工清楚

这个技能本身已经指出了相邻需求：

如果 measurement setup 才是阻碍，使用 analytics-tracking
如果你在正式测试前需要页面级优化思路，使用 page-cro

这种分工很有用。ab-test-setup 最强的场景，是你已经知道自己想评估什么改动，只差一份有效、可落地的实验计划。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

ua-campaign

作者 Eronred

ua-campaign 技能可帮助你为移动应用规划并优化付费用户获取（UA）投放，重点关注安装量、CPI、ROAS 和渠道组合。它适用于 Apple Search Ads、Meta、Google UAC、TikTok 及其他效果渠道的 ua-campaign 指南式决策；当你需要的是可落地的实操方案，而不只是广告文案时，就可以使用它。

广告优化

收藏 0GitHub 1.2k

referral-program

作者 Eronred

referral-program 可帮助你设计、上线并优化应用内推荐或邀请体系，以提升转化。你可以用它来选择奖励、定义邀请机制、评估 deep-link 依赖、降低作弊风险，并结合 CAC 和 LTV 设定激励规模。这是一份面向真实分享行为产品的实用 referral-program 指南。

转化

收藏 0GitHub 1.2k

rating-prompt-strategy

作者 Eronred

rating-prompt-strategy 帮你决定应用何时、以何种方式、向哪些用户请求评价，从而在不打扰用户的前提下提升星级评分。这个 rating-prompt-strategy 技能适用于 iOS 和 Android 场景，能帮助你提升转化、优化评价请求时机，并在低分阶段后进行修复。

转化

收藏 0GitHub 1.2k

seo-ecommerce

作者 AgriciDaniel

seo-ecommerce 可帮助分析和优化产品页面、Google Shopping 可见度、市场平台排名，以及产品 schema。既可单独用于站内 SEO，也可结合 DataForSEO Merchant API 做竞品定价和市场平台关键词缺口分析。它面向需要可落地、基于证据修复方案的电商运营和 SEO 团队。

SEO 内容

收藏 0GitHub 0

homepage-audit

作者 BrianRWagner

homepage-audit 是一项以转化为目标的技能，用于审查首页和落地页，找出页面为什么没有转化，并将发现整理成优先级明确的修复方案。适用于你手头有 URL、截图或首屏文案，希望获得结构化反馈、改写建议和下一步行动时。

转化

收藏 0GitHub 0

copywriting

作者 coreyhaines31

copywriting 技能可帮助智能体撰写或改写以转化为目标的网站与落地页文案。它会指导页面结构，优先检查产品营销相关的上下文文件，并支持主页、定价页、功能页、关于页和产品页的实际安装判断与使用。

文案写作

收藏 0GitHub 17.3k

onboarding-optimization

作者 Eronred

onboarding-optimization 技能可帮助优化首次使用流程，减少早期流失，并提升激活率，让更多新用户尽快体验到首次价值。当你需要一套结构化、以转化为导向的 onboarding-optimization 方法时，可以使用这份从安装到激活的指南，结合实用的诊断与迭代下一步。

转化

收藏 0GitHub 1.2k

android-aso

作者 Eronred

android-aso 是一款用于 Google Play ASO 的技能，帮助提升 Android 应用在商店中的曝光和转化。你可以用它来规划标题、简短描述、完整描述、关键词、评分、截图以及 Play Store 实验；它提供的是面向 Google Play 的专门指导，而不是泛泛的 iOS 建议。它是一份实用的 android-aso 指南，适合用于 SEO 内容和商店列表决策。

SEO 内容

收藏 0GitHub 1.2k

popup-cro

作者 coreyhaines31

popup-cro 用于创建并优化以转化为目标的 popups、modals、slide-ins 和 sticky bars。它提供安装、设置与使用指引，并结合实用建议帮助你判断 triggers、offers、表单摩擦、移动端 UX、frequency rules 以及产品场景是否匹配。

转化

收藏 0GitHub 17.3k

paywall-upgrade-cro

作者 coreyhaines31

paywall-upgrade-cro 可帮助团队优化产品内付费墙、升级页面、试用到期提示和功能门槛。你可以了解它适合什么场景、如何安装、应优先阅读哪些文件，以及如何将它用于 freemium、试用转付费和套餐升级等转化优化工作。

转化

收藏 0GitHub 17.3k

page-cro

作者 coreyhaines31

page-cro 是一项用于审查营销页面并找出可落地转化优化方案的 CRO 技能。你可以用它分析落地页、定价页、首页、功能页和博客页，并结合目标、流量来源、受众和转化阻碍等明确信息进行评估。内容还包含安装参考、工作流建议、提示词示例，以及以实验为导向的使用方式。

转化

收藏 0GitHub 17.3k

onboarding-cro

作者 coreyhaines31

onboarding-cro 可用于优化注册后的引导流程、用户激活和 time-to-value。你可以从 marketingskills repo 安装它，用来诊断 onboarding 阻力、定义 aha moment、优化 checklists 和 empty states，并把表现不佳的首次使用流程转化为可衡量的实验。

转化

收藏 0GitHub 17.3k

lead-magnets

作者 coreyhaines31

lead-magnets 可帮助你为邮箱留资和潜在客户获取规划更合适的 lead magnet。你可以用它来选择内容形式、查看基准参考、阅读关键文件，并将 offer 与以产品转化为目标的路径衔接起来。

内容营销

收藏 0GitHub 17.3k

form-cro

作者 coreyhaines31

form-cro 是一项用于审计和优化非注册类表单的技能，适用于线索收集、联系、Demo 申请、报名、问卷、报价以及结账类表单。它可帮助团队减少字段摩擦、诊断放弃原因，并基于仓库内指南、eval 示例以及清晰的安装与使用路径来重构表单。

转化

收藏 0GitHub 17.3k

monetization-strategy

作者 phuryn

monetization-strategy 可帮助你为产品或功能头脑风暴 3-5 个现实可行的收入模型，并评估受众匹配度、风险、定价机制和验证实验。它更适合作为 Pricing Strategy 决策的 monetization-strategy 指南，而不是一个泛用的“赚钱”提示词。

定价策略

收藏 0GitHub 11k

ab-test-analysis

作者 phuryn

ab-test-analysis 帮助你以统计学严谨性评估 A/B 测试结果，包括样本量校验、置信区间、显著性检验，以及上线/延长/停止建议。可用于实验复盘、split test 解读和 Data Analysis 工作流中的决策支持。

数据分析

收藏 0GitHub 11k