ab-test-setup
von coreyhaines31ab-test-setup hilft dir, statistisch belastbare A/B- und multivariate Tests zu planen und zu konzipieren – von der Hypothese über Stichprobengröße und Kennzahlen bis zur Struktur des Testplans, bevor du Tracking oder Codeänderungen umsetzt.
Übersicht
Was ist ab-test-setup?
ab-test-setup ist ein Skill für die Konzeption fundierter A/B- und multivariater Experimente, bevor irgendetwas live geht. Er steuert den AI-Assistenten so, dass er wie ein Experimentiervorhaben-Spezialist agiert: Testziele klären, saubere Hypothesen formulieren, passende Metriken auswählen und Stichprobengröße sowie Testdauer anhand strukturierter Referenzen planen.
Statt direkt einen Split-Test zu starten, hilft dir ab-test-setup, einen soliden Testplan zu erstellen, damit die Ergebnisse statistisch valide und handlungsrelevant sind – und nicht nur Rauschen.
Für wen ist dieser Skill gedacht?
Nutze ab-test-setup, wenn du:
- Growth- oder Produktmarketing-Teams unterstützt, die Experimente auf Landing Pages, Onboarding-Flows oder Pricing-Seiten planen.
- Performance-Marketer bist, der Anzeigen, Creatives oder Funnels optimiert und belastbare Tests braucht.
- SEO- und Content-Teams betreust, die Headlines, Layouts oder Calls-to-Action auf besonders wichtigen Seiten testen.
- Developer oder Product Manager bist, der Experimente unterstützt und ein konsistentes, dokumentiertes Planungs-Framework nutzen möchte.
Wenn du nur Ideen für Copy- oder Layout-Änderungen brauchst, ohne sie zu testen, ist dieser Skill überdimensioniert – nutze stattdessen deinen Content- oder CRO-Skill.
Welche Probleme löst ab-test-setup?
Dieser Skill ist für Situationen gedacht, in denen Nutzer Dinge sagen wie:
- "Wir wollen unsere Homepage-Headline A/B-testen."
- "Sollten wir auf diesen Elementen einen multivariaten Test fahren?"
- "Welche Version ist besser und wie testen wir das?"
- "Wie lange sollten wir das Experiment laufen lassen?"
- "Haben wir genug Traffic für diesen Test?"
ab-test-setup konzentriert sich auf:
- Klärung des Kontexts: Was soll verbessert werden, wie ist die aktuelle Performance und welche Rahmenbedingungen gibt es?
- Aufbau einer klaren Hypothese mithilfe eines strukturierten Frameworks.
- Wahl des Testtyps (A/B vs. A/B/n vs. multivariat) basierend auf Traffic und Zielen.
- Planung von Stichprobengröße und Laufzeit mithilfe des integrierten Sample-Size-Guides.
- Definition von Metriken (Primary, Secondary und Guardrail), die zu deinen Business-Zielen passen.
- Vermeidung typischer Fallstricke wie zu viele Varianten bei wenig Traffic oder zu frühe Entscheidungen („peeking“).
Für die Tracking-Implementierung nutze den Skill analytics-tracking. Für seitenbezogene Conversion-Optimierungsideen verwende page-cro zusätzlich zu ab-test-setup.
Wann ist ab-test-setup eine gute Wahl?
Dieser Skill eignet sich, wenn:
- Du zwei oder mehr Ansätze vergleichen und messen musst, welcher besser performt.
- Du genug Traffic hast oder erwartest, um einen aussagekräftigen A/B-Test zu fahren.
- Dir statistische Signifikanz und das Vermeiden von Schein-Gewinnern wichtig sind.
- Mehrere Stakeholder einen klaren, dokumentierten Testplan benötigen.
Er ist weniger geeignet, wenn:
- Du sehr wenig Traffic hast, sodass sinnvolle A/B-Tests unrealistisch sind.
- Du einmalige Designänderungen ohne Messung vornimmst.
- Du nur Analytics-Setup oder Event-Tracking brauchst (nutze stattdessen
analytics-tracking).
Verwendung
Installation
Installiere ab-test-setup in deiner Agent-Umgebung mit der skills CLI:
npx skills add https://github.com/coreyhaines31/marketingskills --skill ab-test-setup
Nach der Installation:
- Öffne das Verzeichnis
skills/ab-test-setupin deinem Editor oder Dateibrowser. - Starte mit
SKILL.md, um zu verstehen, wie der Assistent an die A/B-Test-Planung herangehen soll. - Sieh dir die Ordner
references/undevals/an, um das Begleitmaterial und das erwartete Verhalten kennenzulernen.
Wichtige Dateien und Ordner
Für einen schnellen Einstieg konzentriere dich auf diese Dateien:
SKILL.md– Zentrale Anweisungen. Definiert die Experimentierhaltung, Einstiegsfragen zur Situationsanalyse und Kernprinzipien wie „mit einer Hypothese starten“ und „eine Sache nach der anderen testen“.references/sample-size-guide.md– Leitfaden zur Berechnung oder Schätzung von Stichprobengrößen, zum Verständnis von Minimum Detectable Effect (MDE) und zur Planung der Testdauer.references/test-templates.md– Einsatzfertige Vorlagen für Testpläne, Ergebnisdokumentation und Stakeholder-Updates.evals/evals.json– Beispiel-Prompts und erwartete Outputs, die zeigen, wie sich der Skill in realen Szenarien verhalten soll.
Nutze diese Referenzen beim Konfigurieren deines Agents oder um deine interne Experimentier-Dokumentation an die gleiche Struktur anzugleichen.
Typischer Workflow mit ab-test-setup
Der Skill ist um einen wiederholbaren Experimentier-Workflow herum aufgebaut.
1. Kontext erfassen
Wenn ein Nutzer um einen A/B-Test bittet, sollte der Agent zuerst verstehen:
- Testkontext – Welche Seite, welches Feature oder welcher Kanal wird getestet? Welche Änderung steht im Raum?
- Ist-Zustand – Aktuelle Conversion Rate oder Schlüsselmetrik, aktuelles Traffic-Volumen.
- Restriktionen – Technische Limits, Implementierungsaufwand, Timelines und Tools (z. B. Optimizely, Google-Optimize-Alternativen, Inhouse-Framework).
Wenn du eine geteilte Product-Marketing-Kontextdatei nutzt (z. B. product-marketing-context.md wie im Repo beschrieben), sollte der Agent diese zuerst lesen und anschließend nur nach Informationen fragen, die fehlen oder testspezifisch sind.
2. Eine starke Hypothese definieren
ab-test-setup fördert ein strukturiertes Hypothesenformat, wie in evals/evals.json und references/test-templates.md gezeigt:
Because [observation], we believe [change] will cause [outcome], which we'll measure by [metric].
In der Praxis sollte der Agent:
- Vage Ideen ("try a benefit headline") in konkrete Vorhersagen übersetzen.
- Jede Hypothese mit Daten oder klaren Beobachtungen verknüpfen (Analytics, Research, User-Feedback).
- Das Ergebnis direkt an eine primäre Business-Metrik koppeln (z. B. Signup-Rate, Add-to-Cart-Rate).
3. Das passende Testdesign wählen
Unter Nutzung der Prinzipien in SKILL.md und der Beispiele in evals/evals.json hilft der Agent bei der Entscheidung:
- A/B vs. A/B/n vs. multivariat – etwa indem davon abgeraten wird, vier Button-Farben bei sehr wenig Traffic zu testen, wenn der Test dadurch zu schwach wird.
- Fokus auf eine Variable – Empfehlung, jeweils nur eine Hauptänderung zu testen, damit Ergebnisse interpretierbar bleiben.
- Traffic-Allokation – Typischerweise 50/50 für einfache A/B-Tests, die Templates unterstützen aber auch komplexere Setups.
Das ist besonders hilfreich für Marketing- und SEO-Teams, die gerne viele Elemente gleichzeitig testen würden.
4. Stichprobengröße und Dauer planen
Die Datei references/sample-size-guide.md gibt dem Agenten ein Framework, um:
- Baseline-Conversion-Rate, MDE, Signifikanz und Power zu erklären.
- Mithilfe von Referenztabellen oder Formeln die Stichprobengröße pro Variante zu schätzen.
- Daraus eine ungefähre Testdauer basierend auf dem Traffic abzuleiten.
- Auf häufige Fehler hinzuweisen, z. B. zu schwache Tests oder das Ignorieren von Anpassungen bei vielen Varianten.
In einem der Evaluation-Prompts soll der Agent z. B. die benötigte Stichprobengröße bei 15.000 Besuchern/Monat und einer Baseline von 3,2 % schätzen und anschließend eine realistische Testdauer empfehlen.
5. Metriken und Guardrails definieren
Mithilfe der Muster in test-templates.md sollte der Agent dir helfen:
- Eine primäre Metrik zu wählen, die das Hauptergebnis abbildet (z. B. Signup-Rate).
- Sekundäre Metriken für ein tieferes Verständnis zu ergänzen (z. B. Click-Through-Rate, Mikro-Conversions).
- Guardrail-Metriken festzulegen, um schädliche Effekte zu vermeiden (z. B. Bounce Rate, Error Rate, Revenue per Visitor).
Das ist besonders wertvoll bei Anzeigenoptimierung und SEO-Content-Experimenten, bei denen lokale Zugewinne die Gesamtperformance verschlechtern können, wenn Guardrails fehlen.
6. Einen strukturierten Testplan erstellen
Mit den gesammelten Informationen kann der Agent einen Plan auf Basis der Templates aus references/test-templates.md ausgeben, inklusive:
- Überblick und Verantwortlichkeiten.
- Hypothese und Begründung.
- Testdesign und Hinweise zur Implementierung.
- Variantenbeschreibung (Control und Challenger).
- Metrikdefinitionen und Segmentierungsplan.
Du kannst diesen Plan in dein Experimentier-Tool, interne Docs oder ein JIRA-Ticket übernehmen, um Tests konsistent und nachvollziehbar zu halten.
Wie ab-test-setup mit anderen Skills zusammenspielt
- Mit
analytics-tracking: ab-test-setup definiert, was und warum du testest; analytics-tracking legt fest, wie Events, Goals oder Conversions erfasst werden. - Mit
page-cro: page-cro hilft, Ideen für Änderungen zu generieren; ab-test-setup priorisiert, welche Ideen zuerst getestet werden und wie.
Nutze sie zusammen für einen vollständigen Experimentier-Workflow: Ideation → Priorisierung → Testdesign → Implementierung → Analyse.
FAQ
Wann sollte ich ab-test-setup nutzen statt die Seite einfach zu ändern?
Nutze ab-test-setup, wenn:
- Die Änderung relevanten Business-Impact haben kann (z. B. zentrale Funnel-Schritte, hochfrequentierte Seiten).
- Stakeholder fragen werden: "Hat das wirklich etwas gebracht?" – und du belastbare Belege brauchst.
- Du laufende Marketing- oder SEO-Aktivitäten optimierst und einen wiederholbaren Prozess etablieren möchtest.
Für triviale oder rein kosmetische Anpassungen, deren Impact du nicht messen willst, ist ein vollständiger A/B-Testplan nicht nötig.
Berechnet ab-test-setup exakte Stichprobengrößen?
Der Skill enthält keine eigenständige Calculator-Library. Stattdessen nutzt er die Logik und Beispiele in references/sample-size-guide.md, um:
- Zu erklären, welche Inputs du brauchst.
- Sinnvolle Stichprobengrößen zu schätzen oder dich zu Online-Rechnern zu führen.
- Dich zu warnen, wenn dein Traffic vermutlich zu niedrig für zuverlässige Tests ist.
Für kritische oder stark regulierte Kontexte solltest du Berechnungen zusätzlich mit deinem Analytics- oder Data-Science-Team validieren.
Kann ich ab-test-setup für mehr als zwei Varianten verwenden?
Ja. Auch wenn der Kern A/B-Tests sind, unterstützen die Dokumentation und Templates A/B/n- und multivariate Experimente. Der Skill betont außerdem, dass zusätzliche Varianten größere Stichproben und längere Laufzeiten erfordern – beides ist im Sample-Size-Guide abgedeckt.
Wie geht ab-test-setup mit „Peeking“ und frühem Abbruch um?
Die Evaluation-Prompts verlangen ausdrücklich, dass der Agent:
- Vor dem Peeking-Problem warnt (zu häufiges Prüfen der Ergebnisse und frühzeitiger Abbruch).
- Eine fixe Testdauer oder Stichproben-Schwelle empfiehlt, bevor ein Gewinner erklärt wird.
Das hilft, die statistische Validität zu sichern – insbesondere bei wichtigen Marketing- und Produktentscheidungen.
Ist ab-test-setup nur für Webseiten gedacht?
Nein. Die Prinzipien gelten für:
- Website- und Landing-Page-Experimente.
- In-App-Produkt-Tests.
- E-Mail- und Lifecycle-Journey-Tests.
- Ad-Creative- und Messaging-Experimente.
Überall dort, wo du Nutzer zufällig auf Varianten verteilen und Ergebnisse tracken kannst, hilft dir ab-test-setup beim Design des Experiments.
Woher weiß ich, ob ich genug Traffic für einen A/B-Test habe?
Nutze den Leitfaden in references/sample-size-guide.md:
- Starte mit deiner Baseline-Conversion-Rate und den monatlichen Besuchern.
- Lege einen Minimum Detectable Effect fest – also wie groß die Veränderung sein muss, damit sich ein Test lohnt.
- Nutze Tabellen oder Formeln, um die erforderliche Stichprobengröße pro Variante zu schätzen.
- Vergleiche das mit deinem Traffic, um zu sehen, ob der Test in angemessener Zeit durchführbar ist.
Wenn die benötigte Dauer extrem lang wäre, könnte der Agent empfehlen:
- Ähnliche Seiten oder Kampagnen zu bündeln, um die Stichprobe zu vergrößern.
- größere, wirkungsstärkere Änderungen zu testen (größerer MDE).
- Statt A/B-Tests andere Research-Methoden zu nutzen (qualitatives Feedback, User-Tests).
Was, wenn ich nur Copy-Ideen oder Design-Vorschläge möchte?
ab-test-setup geht davon aus, dass du messen willst, welche Version gewinnt. Wenn du nur Text- oder Layout-Ideen ohne Test brauchst:
- Nutze deinen Content- oder CRO-fokussierten Skill (z. B.
page-cro), um Ideen zu generieren. - Du kannst später zu ab-test-setup zurückkehren, wenn du einige dieser Ideen per Test validieren möchtest.
Wo finde ich Beispiele für gute Outputs dieses Skills?
Sieh dir evals/evals.json im Ordner ab-test-setup an. Dort findest du realistische Prompts (z. B. Tests von Homepage-Headlines oder Button-Farben) und detaillierte Erwartungen an die Antworten des Agents, einschließlich:
- Hypothesenstruktur.
- Begründung von Stichprobengröße und Testdauer.
- Metrikauswahl.
- Hinweise auf typische Fallstricke.
Du kannst diese Beispiele als Benchmark nutzen, wenn du den Skill in deiner eigenen Umgebung integrierst oder anpasst.
