Praxisguide
Bei der Konzeption von A/B-Tests stellt sich irgendwann die Frage, wie viele Testvarianten denn sinnvollerweise in einem Test laufen können.
In sehr vielen Fällen wird diese Entscheidung aus dem Bauch heraus getroffen. In diesem Praxisguide skizzieren wir deshalb einen Ansatz auf Basis der statistischen Hintergründe.
Autor
Julian Kleinknecht
Bei der Konzeption von A/B-Tests stellt sich irgendwann die Frage, wie viele Testvarianten denn sinnvollerweise in einem Test laufen können. In sehr vielen Fällen wird diese Entscheidung aus dem Bauch heraus getroffen. In diesem Praxisguide skizzieren wir deshalb einen besseren Ansatz.
Die Entscheidung für eine bestimmte Anzahl an Testvarianten ist immer durch zwei konkurrierende Ziele gekennzeichnet:
Einerseits sollten so viele Varianten wie möglich getestet werden:
Bei weniger Varianten werden dagegen statistisch signifikante Ergebnisse schneller erzielt. Je mehr Varianten vorhanden sind, desto länger muss auf signifikante Ergebnisse gewartet werden bzw. diese werden erst gar nicht erreicht.
Das Ziel ist es deshalb diese beiden Ziele abzuwägen und einen Kompromiss zu finden. Hierzu schätzt man, wie lange es für nur eine Testvariante benötigt, bis statistisch signifikante Ergebnisse gesammelt werden. Wenn diese Zeit kurz genug ist, kann eine weitere Testvariante hinzugefügt werden.
Wie sammelt man statistisch signifikante Daten?
Die meisten Testing-Tools bieten ein Live-Dashboard eines laufenden Tests an, dass insbesondere eine Spalte mit Bezeichnungen wie „Statistical Significance“ oder „Chance to Beat Baseline“ enthält.
Ausschnitts des Dashboards in VWO
Diese Zahl bedeutet:
Im obigen Screenshot gibt es also eine 22%ige Chance, dass die Testvariante tatsächlich nicht besser als die Kontrollvariante ist. Dieser Fall wird „Fehler 1. Art“ oder auch „false positive“ genannt.
So weit, so gut. Diese Dashboards verleiteten jedoch dazu, Tests zu starten und jeden Tag nachzuschauen, ob Testvarianten schon als signifikant angezeigt werden. Dann wird ein Test beendet.
Dieses Vorgehen ist nicht korrekt! Mit der Ausnahme von Optimizely arbeiten alle Testing-Tools eingesetzte statistischen Verfahren unter der Annahme, dass die Anzahl der Testteilnehmer im Voraus definiert wurde. Wenn der Testzeitraum nicht vorher bestimmt wurde, sind die Signifikanz-Anzeigen nicht relevant.
Wenn man sich andere Anwendungen statistischer Tests ansieht, wird klar, dass auch dort die Testdauer vor Beginn des Tests festgelegt wird. Wenn die Wirksamkeit eines neuen Medikaments in einer Studie mit Kontrollvariante=Placebo und Testvariante=Medikament überprüft wird, werden auch nicht jede Woche neue Teilnehmer gesucht, sondern diese Zahl zu Beginn festgelegt.
Wie kann man die benötigte Dauer für eine Testvariante berechnen? Hierzu gibt es verschiedene Online-Tools, die einem die Rechenarbeit abnehmen. Wir empfehlen den Sample Size Calculator von Evan Miller, die Sie hier erreichen: evanmiller.org/ab-testing/sample-size.html
Um die Testdauer zu bestimmen, müssen Sie vier Werte eingeben bzw. per Schieberegler auswählen:
Dieser Wert steht für die derzeitige Conversion-Rate. Im nächsten Kapitel beschreiben wir, wie Sie diese ermitteln.
Weiterbildung per eLearning.
Keine Anmeldung notwendig
Dieser Wert bezeichnet die Steigerung der Conversion-Rate, die mindestens – mit der weiter unten eingestellten Sicherheit – identifiziert werden soll. Um die Steigerung in Prozent anzugeben, wählen Sie den Radiobutton „relative“ aus.
Je größer eine Steigerung der Conversion-Rate ist, desto wahrscheinlicher, dass diese Steigerung nicht zufällig zustande kam. Genau auf dem Unterschied der Conversion-Rate basieren die statistischen Tests, welche der Signifikanz zugrunde liegen. Im Umkehrschluss heißt dies natürlich, dass geringe Steigerungen schwieriger zu identifizieren sind. Tests müssen entsprechend länger laufen.
Die Conversion-Rate-Steigerung ist vor dem Test natürlich nicht bekannt – sonst müsste man den Test erst gar nicht durchführen. Sie müssen diesen Wert also schätzen. Orientieren Sie sich an diesen Überlegungen:
Die statistische Power steht für die Wahrscheinlichkeit, mit der man eine Steigerung identifiziert, falls eine Testvariante in der Tat besser ist. Eine Power von 0,8 bedeutet also, dass durchschnittlich in 4 von 5 Fällen eine tatsächlich vorhandene Steigerung auch erkannt wird. Im Umkehrschluss bedeutet dies, dass 20% aller tatsächlichen Steigerungen nicht erkannt werden.
Wie auch im Tool voreingestellt, wird 0,80 in den meisten Fällen als Wert verwendet. Dieser Wert basiert jedoch nicht auf mathematischen Gründen, sondern hat sich so eingebürgert.
Dieser Begriff wurde im zweiten Kapitel erläutert. Für das Signifikanzniveau hat sich der Wert 0,05 bzw. dessen Umkehrung 0,95 eingebürgert.
Dieser Wert ist offensichtlich höher als 0,80. Dies bedeutet, dass es als schlimmer angesehen wird, eine Steigerung als signifikant auszuweisen, die nicht tatsächlich vorhanden ist, als eine tatsächlich vorhandene Steigerung zu „verpassen“.
Auch diese Zahl ist mehr oder weniger willkürlich. Wollen Sie ganz sicher sein, dass Ergebnisse nicht zufällig zustande gekommen sind, dann erhöhen Sie den Wert auf beispielsweise 0,99.
Die zu messende Steigerung ist geschätzt. Und die statistische Power und das Signifikanzniveau auch festlegt. Jetzt geht es daran, die aktuelle Conversion-Rate in den Rechner einzugeben.
Weiterbildung per eLearning.
Keine Anmeldung notwendig
Dies scheint auf den ersten Blick offensichtlich: Ins Webanalyse-Tool geschaut. Die Conversion-Rate nachgeschaut. Fertig.
Seitenübergreifende Conversion-Rate in Google Analytics
Dieser Wert ist aus zwei Gründen jedoch häufig nicht passend:
Zumindest bei Google Analytics sind Besucher, auch „Sessions“ genannt, im Nenner.
Wie berechnet man also die testspezifische Conversion-Rate? Die Definition der Conversion-Rate lautet: Anzahl Conversions / Anzahl Besucher. Diese beiden Werte schreiben wir nun näher.
Bestimmen Sie zuerst die Anzahl der wahrscheinlich am Test teilnehmenden Besucher. Wird der Test auf allen Seiten laufen, schauen Sie in Google Analytics im Bericht Zielgruppe > Übersicht nach.
Wir gehen hier davon aus, dass es zwischen dem aktuell im Webanalyse-Tool ausgewählten Zeitraum und dem tatsächlichen Testzeitraum keine signifikanten Schwankungen gibt. Wegen der Weihnachtszeit können die meisten Händler
den Dezember beispielsweise nicht mit dem Januar vergleichen. Aber auch Werbekampagnen beeinflussen die Anzahl der Testteilnehmer.
Passen Sie die Zahlen im Webanalyse-Tool entsprechend an oder wählen den geplanten Testzeitraum im vorigen Jahr (falls es seit diesem Zeitraum nicht schon zu großen Veränderungen der Conversions und Besucher gekommen ist).
Wird der Test nur auf bestimmten Seiten, beispielsweise nur Produktdetailseiten, laufen, dann erstellen Sie ein Segment wie dieses:
Wir gehen davon aus, dass man Produktdetailseiten daran identifizieren kann, dass sie als einzige Seiten mit „.html“ enden. Finden Sie für Ihre Website ein analoges Kriterium. Der Praxisguide „Seiten sinnvoll gruppieren“ gibt eine konkrete Anleitung hierzu.
Wenden Sie dieses Segment auf den Bericht Zielgruppe > Übersicht an und notieren die Anzahl der Nutzer.
Bei einem seitenübergreifenden Test verwenden Sie die Gesamtzahl der Conversions. Falls es sich um eine E-Commerce-Transaktion handelt, schauen Sie in Google Analytics unter Conversions > E-Commerce > Übersicht nach.
Für Tests bestimmter Seiten wenden Sie das im vorigen Unterkapitel beschriebene Segment auf genau diesen Bericht an und notieren Sie die Anzahl.
Nun können Sie die aktuelle testspezifische Conversion-Rate berechnen. Tragen Sie diese Zahl nun in den Rechner ein. Denken Sie daran, einen Punkt als Dezimaltrennzeichen zu verwenden.
Nachdem die beiden Werte eingegeben und die Schieberegler eingestellt sind, zeigt das Tool an, wie viele Testteilnehmer für dieses Szenario benötigt werden.
In unserem Beispiel werden 40.629 Testteilnehmer pro Variante benötigt. Da die Kontrollvariante auch Teil des Tests ist, werden also für einen Test mit einer Variante 81.258 Testteilnehmer benötigt.
Basierend auf der Anzahl der voraussichtlichen Testteilnehmer aus Kapitel 4.3 können Sie nun einschätzen, wie lange der Test laufen wird.
Wird der Test wahrscheinlich nur zwei Wochen dauern, dann fügen Sie noch eine weitere Testvariante hinzu. Berechnen Sie dann, wie lange ein Test mit Kontrollvariante plus zwei Varianten dauern würde.
Wird der Test mit nur einer Testvariante schon 6 Wochen dauern, dann belassen Sie es bei nur einer Testvariante.