Erinnern Sie sich noch an Ihren ersten E-Mail-A/B-Test? Wahrscheinlich wussten Sie gerade genug zu dem Thema, um Ihren Test auf die Beine zu stellen, aber gleichzeitig auch nicht genug, um gleich alles richtig zu machen.
So geht es den meisten Marketern: Sie wissen, dass sie eine Stichprobe brauchen, die groß genug ist, und dass sie den Test lange genug laufen lassen müssen, um aussagekräftige Ergebnisse zu erlangen. … Aber das war‘s dann auch schon. Wie groß ist „groß genug“ und wie lange ist „lange genug“?
Falls Sie sich diese Fragen auch schon einmal gestellt haben, so sind sie damit nicht allein. Es handelt sich dabei nämlich um zwei der häufigsten gestellten Fragen zum Thema A/B-Tests.
In diesem Beitrag wollen wir versuchen, diese Fragen in einem praktischen Kontext zu beantworten, um es Ihnen zu ermöglichen, selber die richtige Stichprobengröße und den richtigen Zeitrahmen für Ihre Tests zu bestimmen.
Theorie vs. Realität von Stichprobengröße und Zeitrahmen bei A/B-Tests
Die Theorie besagt, dass erst dann ein Gewinner zwischen Variante A und Variante B bestimmt werden kann, wenn die Ergebnisse einen signifikanten Unterschied zwischen beiden Varianten zeigen. Die Stichprobengröße und Art der Durchführung hängen dabei von der Größe Ihres Unternehmens ab, und davon, ob statistisch relevante Ergebnisse schon nach Stunden, Tagen oder erst nach Wochen bereitstehen. Die Theorie besagt, dass Sie die Phase, in der Sie Ergebnisse sammeln, nicht zeitlich begrenzen sollten.
Bei vielen A/B-Tests ist Warten kein Problem. Wenn wir beispielsweise den Titel einer Landing-Page testen, ist es okay, ein paar Monate auf die Ergebnisse zu warten. Das Gleiche gilt für die Gestaltung von Blog-CTAs – aber in dem Fall würden wir sowieso auf die langfristige Lead-Generierung abzielen.
Wenn es allerdings um E-Mails geht, haben wir nicht immer ausreichend Zeit, um Ergebnisse abzuwarten.
1) Jede E-Mail hat ein begrenztes Publikum
Im Gegensatz zu A/B-Tests für Landing-Pages (bei denen jederzeit ein größeres Publikum eingebunden werden kann) kann man nach dem Klick auf „Senden“ seine E-Mail-Tests nicht mehr auf zusätzliche Personen ausweiten. Also müssen Sie sich vorher überlegen, wie Sie Ihre Tests am besten gestalten. Dabei sollten Sie wie folgt vorgehen: Senden Sie einen A/B-Test an den kleinstmöglichen Teil Ihrer Kontaktliste, der trotzdem groß genug ist, um statistisch relevante Ergebnisse zu liefern. Versenden Sie danach die erfolgreichere Variante an den Rest Ihrer Liste.
2) E-Mail-Marketing ist zeitabhängig
Wenn Sie nur noch Augen für die Ergebnisse Ihrer Tests haben, verpassen Sie am Ende noch den richtigen Zeitpunkt für den Versand Ihrer Marketing-E-Mails. Das könnte im Endeffekt schädlicher sein als eine statistisch nicht relevante Gewinner-E-Mail an eines Ihrer Segmente zu versenden.
Noch dazu werden Ihre Marketing-E-Mails normalerweise zu einer bestimmten Tageszeit versendet. Entweder sollen sie die Einführung einer neuen Kampagne einläuten oder die Empfänger dann erwischen, wenn sie gerade ihren Posteingang checken. Wenn Sie also abwarten, bis Ihre Tests statistisch relevant werden, sind Ihre E-Mails im Endeffekt möglicherweise weder relevant noch zeitnah. Dann kann Ihre Nachricht nicht mehr den gewünschten Zweck erfüllen.
Genau deshalb haben viele A/B-Testprogramme ein eingebautes Zeitlimit. Wenn am Ende der eingestellten Zeit kein statistisch relevantes Ergebnis erzielt wurde, wird einfach eine Variante (die Sie zuvor bestimmt haben) an den Rest der Liste verschickt. So können Sie gleichzeitig A/B-Tests für Ihre E-Mails durchführen und – um Ihrem Marketing-Zeitplan ebenfalls gerecht zu werden – Kontakten zeitnah relevante Inhalte schicken.
Wer A/B-Tests durchführen und seine E-Mails zur richtigen Zeit rausschicken will, muss demnach Stichprobengröße und Timing optimieren.
Sehen wir uns daher an, wie Sie anhand Ihrer Daten die ideale Stichprobengröße und den bestmöglichen Zeitrahmen für Ihren Test bestimmen.
So legen Sie Stichprobengröße und Zeitrahmen für A/B-Tests fest
Wenden wir uns nun also dem eigentlichen Thema dieses Beitrags zu: der Berechnung der Stichprobengröße und des Zeitrahmens für Ihre A/B-Tests.
Wie schon zuvor erwähnt, können Sie jeden A/B-Test nur an ein begrenztes Publikum versenden. Daher ist es ratsam, zunächst herauszufinden, wie groß der kleinstmögliche Teil Ihrer Liste ist, mit dem Sie noch statistisch relevante Ergebnisse erzielen können. Dabei können Sie folgendermaßen vorgehen:
1) Finden Sie heraus, ob Sie überhaupt genug Kontakte in Ihrer Liste haben, um einen A/B-Test durchzuführen
1.000 Kontakte sollten es schon sein. Je kleiner die Liste, desto größer wird das Segment der Liste, das in den A/B-Test einfließt. Andernfalls lassen sich keine statistisch relevanten Ergebnisse ermitteln.
Bei einer sehr kleinen Liste müssen also möglicherweise 85 % oder 95 % der Kontakte getestet werden. Die Ergebnisse für den Rest der Liste wären dann so minimal, dass Sie Ihre E-Mail-Varianten eigentlich gleich an die komplette Liste hätten schicken können. Es kann schon sein, dass Ihre Ergebnisse in diesem Fall nicht statistisch relevant sind, aber wenigstens lernen Sie etwas dazu, während Sie Ihre Liste weiter mit Kontakten füllen.
Hinweis für HubSpot-Kunden: 1.000 Kontakte ist auch das Minimum, das wir für unsere Benchmark-Tests benötigen. Wenn Ihre Liste weniger als 1.000 Kontakte enthält, verschicken wir Variante A an eine Hälfte Ihrer Liste und Variante B an die andere Hälfte.
2) Nutzen Sie einen Rechner für die Stichprobengröße
Es gibt online viele verschiedene Rechner, mit denen Sie die benötigte Stichprobengröße Ihrer A/B-Tests ermitteln können. So z. B. dieses Tool des trendfish Marktforschungs-Instituts:
3) Geben Sie Konfidenzlevel, Konfidenzintervall und Grundgesamtheit in das Tool ein.
Holla! Das ist mal Jargon … was genau bedeuten diese Termini im Kontext Ihrer E-Mails?
Grundgesamtheit: Ihre Stichprobe steht stellvertretend für eine größere Anzahl von Menschen. Diese größere Gruppe ist Ihre Grundgesamtheit (auch als „Population“ bezeichnet).
Bei Ihren E-Mails ist die Grundgesamtheit die Zahl der Kontakte, denen Ihre E-Mail zugestellt wird – nicht die Zahl der Kontakte, denen Sie eine E-Mail senden. Sie können diese Grundgesamtheit berechnen, indem Sie sich die letzten drei bis fünf E-Mails ansehen, die Sie an diese Liste gesendet haben, und die durchschnittliche Anzahl an zugestellten E-Mails bestimmen. (Wir benutzen den Durchschnitt bei der Berechnung unserer Stichprobe, da die Gesamtzahl der zugestellten E-Mails variiert.)
Konfidenzintervall: Vielleicht ist Ihnen dieser Ausdruck unter dem Begriff „Fehlergrenze“ oder „Fehlertoleranz“ geläufig. Diese wird in vielen Umfragen – vor allem politischen – eingesetzt. Es handelt sich um das Intervall der Ergebnisse, das Ihr A/B-Test erklären kann, nachdem die ganze Grundgesamtheit durchlaufen wurde.
Wenn Sie beispielsweise ein Intervall von 5 % haben und 60 % der Empfänger Ihre Variante öffnen, können Sie davon ausgehen, dass zwischen 55 % (60 minus fünf) und 65 % (60 plus fünf) der Empfänger Ihre E-Mail geöffnet hätten. Je größer das Intervall, desto sicherer können Sie sein, dass die tatsächliche Reaktion der Grundgesamtheit in dem Intervall akkurat repräsentiert wird. Allerdings sind die Ergebnisse mit größeren Intervallen weniger eindeutig. Aber das ist nun mal ein Kompromiss, den Sie eingehen müssen.
Für unsere Zwecke müssen wir uns nicht allzu detailliert mit den Konfidenzintervallen auseinandersetzen. Wenn Sie gerade das erste Mal mit A/B-Tests arbeiten, empfehlen wir, kleinere Intervalle zu nutzen (z. B. 5 %).
Konfidenzniveau: Das Konfidenzniveau zeigt Ihnen, mit welcher Wahrscheinlichkeit Ihre Stichprobenergebnisse innerhalb des Konfidenzintervalls liegen. Je niedriger der Prozentsatz, desto unzuverlässiger sind Ihre Ergebnisse. Je höher der Prozentsatz, desto mehr Kontakte brauchen Sie auch in Ihrer Stichprobe.
Bitte beachten: Je nachdem, welches Tool Sie verwenden, müssen Sie vielleicht auch die Fehlerwahrscheinlichkeit angeben (so auch in dem oben verlinkten Tool), also die Wahrscheinlichkeit, dass die Stichprobenergebnisse NICHT innerhalb des Konfidenzintervalls liegen. Je höher der Prozentsatz, desto unzuverlässiger sind Ihre Ergebnisse.
Hinweis für HubSpot-Kunden: Unsere E-Mail-App verwendet ein Konfidenzniveau von 85 %, um einen Gewinner zu bestimmen. Da diese Option in diesem Tool nicht verfügbar ist, empfehle ich einen Level von 95 % einzustellen.
Bei manchen Rechnern können Sie zudem auch die Streuung der zu testenden Optionen angeben. Da wir im Rahmen von A/B-Tests allerdings mit gleichwertig gewichteten Varianten arbeiten, sollten Sie hier einen Wert von 50 % verwenden.
Beispiel:
Nehmen wir mal an, dass wir gerade unseren ersten A/B-Test durchführen. Unsere Liste besteht aus 1.000 Kontakten und wir haben eine Zustellungsrate von 95 %. Wir wollen mit 95 %-iger Sicherheit sagen können, dass die Kennzahlen unserer Gewinner-E-Mail innerhalb eines 5-Prozentpunkte-Intervalls der Kennzahlen unserer Grundgesamtheit liegen.
Also geben wir Folgendes in unser Tool ein:
- Grundgesamtheit: 950
- Konfidenzniveau/Fehlerwahrscheinlichkeit: 95 % / 5 %
- Konfidenzintervall/Fehlertoleranz: 5 %
Et voilà! Der Rechner sollte Ihnen nun die ideale Stichprobengröße berechnen. In unserem Beispiel beträgt die Stichprobengröße: 274.
Dabei handelt es sich um die Mindestgröße von einer Ihrer Varianten. Wenn Sie bei Ihren E-Mails also eine Kontrollgruppe und eine Variante haben, müssen Sie diese Zahl verdoppeln. Wenn Sie eine Kontrollgruppe und zwei Varianten hätten, würden Sie die Zahl verdreifachen. Und so weiter und so fort …
6) Bei einigen E-Mail-Programmen müssen Sie die Stichprobengröße eventuell als Prozentsatz angeben
Das gilt auch für HubSpot-Kunden. Wenn Sie A/B-Tests für E-Mails durchführen, müssen Sie den Prozentsatz der Kontakte angeben, die am Test teilnehmen – und nicht bloß die reine Größe der Stichprobe.
Teilen Sie dafür Ihre Stichprobe durch die Gesamtzahl der Kontakte in Ihrer Liste. Wenn wir die Zahlen aus unserem früheren Beispiel benutzen, sieht das dann so aus:
274/1000 = 27.4 %
Das bedeutet, dass jede Version (die Kontroll-E-Mail und die Variante) an 27–28 % Ihres Publikums gesendet werden muss; das sind also ungefähr 55 % Ihrer gesamten Liste.
Und das war‘s auch schon für die Stichprobengröße. Sehen wir uns nun an, wie Sie einen Versandzeitpunkt bestimmen können.
Die Auswahl eines geeigneten Zeitrahmens für Ihren A/B-Test
Jetzt wird‘s ernst. Jetzt müssen Sie bestimmen, wie lange Ihr A/B-Test eigentlich läuft, bevor eine Version an den Rest der Liste verschickt wird. Bei diesem Aspekt sind wir weniger auf die Statistik angewiesen. Aber sie sollten trotzdem Ihre alten Daten benutzen, damit Sie bessere Entscheidungen treffen können.
Wenn kein Zeitdruck besteht und Ihre Gewinner-E-Mail nicht zu einem bestimmten Zeitpunkt verschickt werden muss, dann sollten Sie sich hierfür Ihre Analytics ansehen.
Finden Sie heraus, ab welchem Zeitpunkt die Öffnungs-/Klickraten (oder Ihre entsprechenden Erfolgskennzahlen) Ihrer E-Mails sinken. Sehen Sie sich dafür auch Ihre früher versendeten E-Mails. Z. B.: Welchen Anteil Ihrer Klicks insgesamt bekamen Sie am ersten Tag? Falls sich herausstellt, dass 70 % Ihrer Klicks innerhalb der ersten 24 Stunden erfolgten und an den darauffolgenden Tagen bloß 5 % der Klicks, dann macht es Sinn, den Zeitrahmen für Ihren A/B-Test auf 24 Stunden zu begrenzen. Es würde sich in dem Fall nicht lohnen, den Test wegen einer unwesentlichen Anzahl an Daten unnötig in die Länge zu ziehen. Nach Ende des festgelegten Zeitrahmens von 24 Stunden sollte Ihr E-Mail-Programm Ihnen dann zeigen, ob es möglich war, einen definitiven Gewinner zu bestimmen.
Und dann sind Sie dran. Sofern Sie eine ausreichend große Stichprobe haben und am Ende des Zeitrahmens ein statistisch relevanter Gewinner identifiziert wurde, werden die meisten E-Mail-Marketing-Programme automatisch den Gewinner an den Rest Ihrer Liste versenden. Sofern Sie eine ausreichend große Stichprobe haben und am Ende des Zeitrahmens kein statistisch relevanter Gewinner identifiziert wurde, ermöglicht Ihnen Ihr E-Mail-Marketing-Programm möglicherweise, automatisch die Version Ihrer Wahl zu versenden.
Wenn Sie mit einer kleineren Stichprobe arbeiten oder einen A/B-Test an jeweils die Hälfte Ihrer Liste verschicken möchten, bestimmen Sie selber, wann Sie die nächste E-Mail versenden.
Wenn ein gewisser Zeitdruck besteht und Sie festlegen müssen, wann der Gewinner an den Rest der Liste versendet wird, versuchen Sie den spätesten geeigneten Zeitpunkt zu finden, der noch im Zeitrahmen liegt und die Wirksamkeit Ihrer anderen E-Mails nicht beeinträchtigt.
Sagen wir z. B., dass Sie um 18:00 Uhr eine E-Mail versenden für einen Ausverkauf, der um Mitternacht endet. Da wäre es keine gute Idee, den Gewinner Ihres A/B-Tests erst um 23:00 Uhr zu bestimmen. Sie sollten dem Rest Ihrer Liste also eher gegen 20:00 oder 21:00 Uhr schreiben. So haben auch alle, die nicht Teil des A/B-Tests waren, genug Zeit, um auf Ihre E-Mail zu reagieren.
Damit sind wir auch bereits am Ende angelangt. Nachdem Sie also diese Berechnungen vorgenommen und Ihre Daten analysiert haben, sind Sie hoffentlich besser auf Ihren nächsten A/B-Test vorbereitet – der statistisch relevant ist und Ihnen tatsächlich bei Ihrem E-Mail-Marketing hilft.