ab-test-setup
作者 coreyhaines31ab-test-setup 協助你在實作追蹤或改動程式碼之前,就先完整規劃並設計具統計可信度的 A/B 與多變量實驗,從假設、樣本數到指標一併思考清楚。
概觀
什麼是 ab-test-setup?
ab-test-setup 是一個專門用來在上線前設計嚴謹 A/B 與多變量實驗的技能。它會引導 AI 助理扮演「實驗設計專家」:釐清測試目標、撰寫扎實的假設、選擇合適的指標,並依照結構化參考資料來規劃樣本數與測試期間。
與其急著直接跑分流測試,ab-test-setup 會先幫你建立穩健的測試計畫,確保結果在統計上具有意義且可採取行動,而不是只是隨機雜訊。
誰適合使用這個技能?
如果你符合以下情況,可以考慮使用 ab-test-setup:
- 成長或產品行銷團隊,需要為 landing pages、onboarding 流程或 pricing pages 規劃實驗。
- 效能行銷人員,要優化廣告、活動素材或 funnel,並且需要統計上扎實的測試結果。
- SEO 與內容團隊,要在高價值頁面上測試標題、版面或行動呼籲(CTA)。
- 開發者與產品經理,負責支援實驗並希望有一致且可被記錄的規劃框架。
如果你只是想要文案或版面調整的點子,卻不打算測試它們,這個技能會太重;比較適合改用你現有的內容或 CRO 類技能。
ab-test-setup 解決什麼問題?
這個技能針對以下常見情境而設計,例如使用者會說:
- 「我們想對首頁標題做 A/B test。」
- 「這些元素要不要做 multivariate test?」
- 「哪個版本比較好?要怎麼測試?」
- 「這個實驗要跑多久才夠?」
- 「我們的流量夠跑這個測試嗎?」
ab-test-setup 專注於:
- 釐清背景情境:你想改善什麼、目前表現基準,以及相關限制條件。
- 建立強而有力的假設,並套用結構化框架。
- 選擇測試類型(A/B vs. A/B/n vs. multivariate),依據流量與目標做決定。
- 規劃樣本數與測試時間,運用內建的 sample-size 指南。
- 定義指標(主要、次要與 guardrail 指標),並與商業目標對齊。
- 避免常見陷阱,例如在低流量下測太多變體,或是太早下結論(「偷看」結果)。
若是要處理 追蹤實作,請使用 analytics-tracking 技能。若需要 頁面層級的轉換優化點子,可搭配 page-cro 與 ab-test-setup 一起使用。
什麼時候 ab-test-setup 特別適合?
這個技能特別適合在以下情況使用:
- 你要比較兩種以上做法,並且 需要衡量哪一個表現更好。
- 你已經有或預期會有 足夠的流量 來執行具有意義的 A/B 測試。
- 你重視 統計顯著性並希望避免「假贏家」。
- 有多個利害關係人,需要一份清楚且有文件記錄的測試計畫。
而在以下情況就不太適合:
- 你的流量 極低,幾乎不可能做出有意義的 A/B 測試。
- 你只是做 一次性的設計調整,也不打算量測成效。
- 你只需要 分析工具設定 或事件追蹤(改用
analytics-tracking會更適合)。
使用方式
安裝
使用 skills CLI 將 ab-test-setup 安裝到你的 agent 環境中:
npx skills add https://github.com/coreyhaines31/marketingskills --skill ab-test-setup
安裝完成後:
- 在編輯器或檔案瀏覽器中打開
skills/ab-test-setup目錄。 - 先閱讀
SKILL.md,了解助理在進行 A/B 測試規劃時應有的思路與流程。 - 檢視
references/與evals/資料夾,了解相關參考資料與預期行為範例。
重要檔案與資料夾
若想快速上手,建議先聚焦這幾個檔案:
SKILL.md– 核心指引。說明實驗思維、初步評估要問的問題,以及關鍵原則,例如先從假設出發、一次只測一項主要變更等。references/sample-size-guide.md– 說明如何計算或估算樣本數、理解 minimum detectable effect (MDE),並據此規劃測試時間。references/test-templates.md– 可直接套用的測試計畫模板、結果紀錄格式與利害關係人更新範本。evals/evals.json– 實際情境的提示與預期輸出範例,示範此技能在真實情境中應如何回應。
你可以將這些檔案當成設定 agent 的參考,或用來讓內部實驗文件與此框架保持一致。
使用 ab-test-setup 的典型流程
這個技能是以可重複的實驗工作流程為核心設計。
1. 蒐集背景資訊
當使用者提出要做 A/B 測試時,agent 應先了解:
- 測試情境 – 要測的是哪個頁面、功能或渠道?考慮的變更是什麼?
- 目前狀況 – 既有轉換率或關鍵指標、目前流量量級。
- 限制條件 – 技術限制、實作複雜度、時程與工具(例如 Optimizely、Google Optimize 替代方案、自建框架)。
如果你有共用的 product marketing context 檔案(例如 repo 中提到的 product-marketing-context.md),agent 應先閱讀該檔,只再詢問缺少或本次測試才需要的資訊。
2. 定義扎實的假設
ab-test-setup 推薦使用在 evals/evals.json 與 references/test-templates.md 中示範的結構化假設格式:
Because [observation], we believe [change] will cause [outcome], which we'll measure by [metric].
實務上,agent 應該要:
- 把模糊想法(例如「試試看主打利益的標題」)轉成 具體的預測。
- 將每個假設連結到 資料或明確觀察(分析數據、研究結果、使用者回饋)。
- 讓預期結果直接對應到 主要商業指標(如註冊轉換率、加入購物車比例)。
3. 選擇合適的測試設計
運用 SKILL.md 的原則與 evals/evals.json 的範例,agent 會協助決定:
- A/B vs. A/B/n vs. multivariate – 例如當流量很低時,會建議不要一次測四種按鈕顏色,以免測試力不足。
- 聚焦單一變數 – 鼓勵一次只測一個主要變化,讓結果更容易解讀。
- 流量分配 – 一般 A/B 會建議 50/50,但模板也支援更複雜的配置。
這對容易一次想測很多元素的行銷與 SEO 團隊特別有幫助。
4. 規劃樣本數與測試期間
references/sample-size-guide.md 提供 agent 一套框架,用來:
- 說明 基準轉換率、MDE、顯著性與檢定力(power) 等概念。
- 使用速查表或公式估算每個變體所需的 樣本數。
- 將樣本數轉換為在目前流量下大約需要的 測試時間。
- 提醒常見錯誤,例如測試力不足、忽略多變體調整等問題。
例如,在某個 evaluation 提示中,agent 預期要對「每月 15,000 訪客、基準轉換率 3.2%」估算所需樣本數,並建議合理的測試期間。
5. 定義指標與 guardrail
依照 test-templates.md 中的模式,agent 會協助你:
- 選定代表主要成果的 主要指標(如註冊轉換率)。
- 加上 次要指標,用來更深入理解結果(例如點擊率、微轉換)。
- 設定 guardrail 指標,避免對整體表現造成負面影響(例如跳出率、錯誤率、每訪客營收)。
這對廣告優化與 SEO 內容實驗尤其重要,因為局部的成長若忽略 guardrail,可能會拖累整體績效。
6. 產出結構化測試計畫
在蒐集完資訊後,agent 會運用 references/test-templates.md 的模板輸出一份計畫,內容通常包含:
- 概要與負責人資訊。
- 假設與背後的依據。
- 測試設計與實作注意事項。
- 變體說明(控制組與挑戰者組)。
- 指標定義與切分分析規劃。
你可以將這份計畫貼到實驗工具、內部文件或 JIRA ticket 中,讓測試更一致、易於審查與追蹤。
ab-test-setup 與其他技能如何搭配
- 搭配
analytics-tracking:ab-test-setup 負責定義要測「什麼」以及「為什麼要測」,而 analytics-tracking 則負責「如何」蒐集事件、目標或轉換。 - 搭配
page-cro:page-cro 協助產生要改什麼的點子;ab-test-setup 則協助決定先測哪些點子,以及如何設計測試。
將它們一起使用,就能形成完整的實驗流程:發想 → 排優先順序 → 測試設計 → 實作 → 分析。
常見問題(FAQ)
什麼時候應該用 ab-test-setup,而不是直接改頁面?
在以下情況,建議使用 ab-test-setup:
- 這次變更可能對 商業成果有明顯影響(例如核心 funnel 步驟、高流量頁面)。
- 利害關係人可能會問:「這真的有用嗎?」而你需要有說服力的證據。
- 你正在持續優化 行銷或 SEO 成效,並希望建立可重複的流程。
若只是微小或純視覺上的調整,且不打算量測影響,就不需要完整的 A/B 測試計畫。
ab-test-setup 會幫我算精確的樣本數嗎?
這個技能本身沒有內建專用的計算函式庫。它會依據 references/sample-size-guide.md 中的邏輯與示例:
- 說明你需要哪些輸入參數。
- 協助估算合理的樣本數,或引導你使用線上計算工具。
- 當流量可能太低,導致結果不可靠時發出警示。
若是在關鍵性高或高度受監管的情境,仍建議由你的分析或資料科學團隊複核計算結果。
我可以用 ab-test-setup 測兩個以上的版本嗎?
可以。雖然核心概念是 A/B testing,但文件與模板都支援 A/B/n 與 multivariate 實驗。此技能也會特別提醒:增加變體數量會需要更大的樣本數與更長的測試時間,相關內容都在 sample-size 指南中有說明。
ab-test-setup 如何處理「偷看結果」與過早停止?
在 evaluation 提示中,特別要求 agent 要:
- 提醒 peeking 問題(太頻繁查看結果並過早停測)。
- 建議在宣告贏家前,先設定好 固定測試期間或樣本門檻。
這有助於維持統計有效性,尤其是在關鍵行銷與產品決策上。
ab-test-setup 只能用在網頁上嗎?
不只如此。這些原則也適用於:
- 網站與 landing page 實驗。
- App 或產品內功能測試。
- Email 與生命周期旅程測試。
- 廣告素材與訊息溝通實驗。
只要能隨機分配使用者到不同版本並追蹤結果,就能利用 ab-test-setup 來設計實驗。
怎麼判斷我的流量是否足夠做 A/B 測試?
可以參考 references/sample-size-guide.md 的說明:
- 先確定你的 基準轉換率 與 每月訪客數。
- 決定一個 minimum detectable effect:也就是值得被偵測到的最小變化幅度。
- 使用指南中的表格或公式,估算每個變體所需的 樣本數。
- 再用現有流量換算,看測試是否能在合理時間內完成。
如果估算出來需要跑非常久,agent 可能會建議:
- 合併相似頁面或活動,以擴大樣本量。
- 測試 更大、影響力更高的變更(提高 MDE)。
- 改採其他研究方法,例如質化訪談、使用者測試,而不是 A/B 測試。
如果我只想要文案或設計建議怎麼辦?
ab-test-setup 預設你想要 量測 哪個版本表現更佳。如果你只是想要文案或版面點子,暫時不想跑測試,可以:
- 改用以內容或 CRO 為主的技能(例如
page-cro)產生點子。 - 若之後決定要透過測試驗證這些點子,再回來使用 ab-test-setup 規劃實驗。
我要去哪裡看這個技能的優良輸出範例?
請查看 ab-test-setup 資料夾中的 evals/evals.json。裡面包含貼近實務的提示(例如測試首頁標題或按鈕顏色)以及詳細的預期回應,包括:
- 假設的結構。
- 樣本數與測試期間的推理過程。
- 指標選擇。
- 對常見陷阱的提醒。
你可以將這些範例當成 benchmark,作為你在自家環境中整合或客製化這個技能時的參考。
