Praxisguide

Wie viele Varianten können beim A/B-Test getestet werden?

Bei der Konzeption von A/B-Tests stellt sich irgendwann die Frage, wie viele Testvarianten denn sinnvollerweise in einem Test laufen können.

In sehr vielen Fällen wird diese Entscheidung aus dem Bauch heraus getroffen. In diesem Praxisguide skizzieren wir deshalb einen Ansatz auf Basis der statistischen Hintergründe.

1. Zwischen zwei Zielen abwägen

Bei der Konzeption von A/B-Tests stellt sich irgendwann die Frage, wie viele Testvarianten denn sinnvollerweise in einem Test laufen können. In sehr vielen Fällen wird diese Entscheidung aus dem Bauch heraus getroffen. In diesem Praxisguide skizzieren wir deshalb einen besseren Ansatz.

Die Entscheidung für eine bestimmte Anzahl an Testvarianten ist immer durch zwei konkurrierende Ziele gekennzeichnet:

Einerseits sollten so viele Varianten wie möglich getestet werden:

  • Desto mehr Testvarianten, desto höher die Wahrscheinlichkeit, dass eine zu einer Steigerung der Conversion-Rate führt.
  • Es können spezifischere Testhypothesen getestet werden. Beispielweise können in einem Test von Vorteilen/USPs neben der Auswahl der Vorteile auch deren Position auf der Seite getestet werden.

Bei weniger Varianten werden dagegen statistisch signifikante Ergebnisse schneller erzielt. Je mehr Varianten vorhanden sind, desto länger muss auf signifikante Ergebnisse gewartet werden bzw. diese werden erst gar nicht erreicht.

Das Ziel ist es deshalb diese beiden Ziele abzuwägen und einen Kompromiss zu finden. Hierzu schätzt man, wie lange es für nur eine Testvariante benötigt, bis statistisch signifikante Ergebnisse gesammelt werden. Wenn diese Zeit kurz genug ist, kann eine weitere Testvariante hinzugefügt werden.

2. Grundlage: Statistische Signifikanz

Wie sammelt man statistisch signifikante Daten?

Die meisten Testing-Tools bieten ein Live-Dashboard eines laufenden Tests an, dass insbesondere eine Spalte mit Bezeichnungen wie „Statistical Significance“ oder „Chance to Beat Baseline“ enthält.

Ausschnitts des Dashboards in VWO

Diese Zahl bedeutet:

  • Angenommen die Testvariante ist tatsächlich nicht besser als die Kontrollvariante.
  • In wie vielen Fällen beobachten wir trotzdem eine Conversion-Rate-Steigerung?
  • Hieraus wird dann der Umkehrwert gebildet.

Im obigen Screenshot gibt es also eine 22%ige Chance, dass die Testvariante tatsächlich nicht besser als die Kontrollvariante ist. Dieser Fall wird „Fehler 1. Art“ oder auch „false positive“ genannt.

So weit, so gut. Diese Dashboards verleiteten jedoch dazu, Tests zu starten und jeden Tag nachzuschauen, ob Testvarianten schon als signifikant angezeigt werden. Dann wird ein Test beendet.

Dieses Vorgehen ist nicht korrekt! Mit der Ausnahme von Optimizely arbeiten alle Testing-Tools eingesetzte statistischen Verfahren unter der Annahme, dass die Anzahl der Testteilnehmer im Voraus definiert wurde. Wenn der Testzeitraum nicht vorher bestimmt wurde, sind die Signifikanz-Anzeigen nicht relevant.

Wenn man sich andere Anwendungen statistischer Tests ansieht, wird klar, dass auch dort die Testdauer vor Beginn des Tests festgelegt wird. Wenn die Wirksamkeit eines neuen Medikaments in einer Studie mit Kontrollvariante=Placebo und Testvariante=Medikament überprüft wird, werden auch nicht jede Woche neue Teilnehmer gesucht, sondern diese Zahl zu Beginn festgelegt.

3. Testdauer berechnen

Wie kann man die benötigte Dauer für eine Testvariante berechnen? Hierzu gibt es verschiedene Online-Tools, die einem die Rechenarbeit abnehmen. Wir empfehlen den Sample Size Calculator von Evan Miller, die Sie hier erreichen: evanmiller.org/ab-testing/sample-size.html

Um die Testdauer zu bestimmen, müssen Sie vier Werte eingeben bzw. per Schieberegler auswählen:

3.1 Baseline conversion rate

Dieser Wert steht für die derzeitige Conversion-Rate. Im nächsten Kapitel beschreiben wir, wie Sie diese ermitteln.

3.2 Minimum Detectable Effect

Dieser Wert bezeichnet die Steigerung der Conversion-Rate, die mindestens – mit der weiter unten eingestellten Sicherheit – identifiziert werden soll. Um die Steigerung in Prozent anzugeben, wählen Sie den Radiobutton „relative“ aus.

Je größer eine Steigerung der Conversion-Rate ist, desto wahrscheinlicher, dass diese Steigerung nicht zufällig zustande kam. Genau auf dem Unterschied der Conversion-Rate basieren die statistischen Tests, welche der Signifikanz zugrunde liegen. Im Umkehrschluss heißt dies natürlich, dass geringe Steigerungen schwieriger zu identifizieren sind. Tests müssen entsprechend länger laufen.

Die Conversion-Rate-Steigerung ist vor dem Test natürlich nicht bekannt – sonst müsste man den Test erst gar nicht durchführen. Sie müssen diesen Wert also schätzen. Orientieren Sie sich an diesen Überlegungen:

  • Wie gut oder schlecht ist die zu testende Seite? Bei einer Seite mit offensichtlichen Probleme ist eine hohe Steigerung sehr viel einfach zu erzielen als bei einer „grundoptimierten“ Seite erstellt auf der Basis von Best Practices.
  • Welche Steigerungen von Conversion-Rates haben Sie in den vergangenen Tests gesehen?
  • Wie stark kann das Kaufverhalten überhaupt beeinflusst werden? Sind Sie beispielsweise ein Monopolist oder haben eine sehr starke Position am Markt, dann sind hohe Steigerungen eher unwahrscheinlich.

3.3 Statistical power

Die statistische Power steht für die Wahrscheinlichkeit, mit der man eine Steigerung identifiziert, falls eine Testvariante in der Tat besser ist. Eine Power von 0,8 bedeutet also, dass durchschnittlich in 4 von 5 Fällen eine tatsächlich vorhandene Steigerung auch erkannt wird. Im Umkehrschluss bedeutet dies, dass 20% aller tatsächlichen Steigerungen nicht erkannt werden.

Wie auch im Tool voreingestellt, wird 0,80 in den meisten Fällen als Wert verwendet. Dieser Wert basiert jedoch nicht auf mathematischen Gründen, sondern hat sich so eingebürgert.

3.4 Significance level

Dieser Begriff wurde im zweiten Kapitel erläutert. Für das Signifikanzniveau hat sich der Wert 0,05 bzw. dessen Umkehrung 0,95 eingebürgert.

Dieser Wert ist offensichtlich höher als 0,80. Dies bedeutet, dass es als schlimmer angesehen wird, eine Steigerung als signifikant auszuweisen, die nicht tatsächlich vorhanden ist, als eine tatsächlich vorhandene Steigerung zu „verpassen“.

Auch diese Zahl ist mehr oder weniger willkürlich. Wollen Sie ganz sicher sein, dass Ergebnisse nicht zufällig zustande gekommen sind, dann erhöhen Sie den Wert auf beispielsweise 0,99.

4. Conversion-Rate des Tests berechnen

Die zu messende Steigerung ist geschätzt. Und die statistische Power und das Signifikanzniveau auch festlegt. Jetzt geht es daran, die aktuelle Conversion-Rate in den Rechner einzugeben.

4.1 Verschiedene Arten von Conversion-Rates

Dies scheint auf den ersten Blick offensichtlich: Ins Webanalyse-Tool geschaut. Die Conversion-Rate nachgeschaut. Fertig.

Seitenübergreifende Conversion-Rate in Google Analytics

Dieser Wert ist aus zwei Gründen jedoch häufig nicht passend:

  • In vielen Fälle läuft der Test nicht auf allen Seiten. Es wird also nicht die seitenübergreifende, sondern die Conversion-Rate der zu testenden Seite benötigt.
  • Diese Conversion-Rate basiert auf Besuchen (ohne „r“). A/B-Tests arbeiten jedoch meistens mit Besuchern (mit „r“) im Nenner. Mit anderen Worten: Testteilnehmer müssen sich beim ersten Besuch konvertieren.

Zumindest bei Google Analytics sind Besucher, auch „Sessions“ genannt, im Nenner.

Wie berechnet man also die testspezifische Conversion-Rate? Die Definition der Conversion-Rate lautet: Anzahl Conversions / Anzahl Besucher. Diese beiden Werte schreiben wir nun näher.

4.2 Anzahl Besucher

Bestimmen Sie zuerst die Anzahl der wahrscheinlich am Test teilnehmenden Besucher. Wird der Test auf allen Seiten laufen, schauen Sie in Google Analytics im Bericht Zielgruppe > Übersicht nach.

 

Wir gehen hier davon aus, dass es zwischen dem aktuell im Webanalyse-Tool ausgewählten Zeitraum und dem tatsächlichen Testzeitraum keine signifikanten Schwankungen gibt. Wegen der Weihnachtszeit können die meisten Händler

den Dezember beispielsweise nicht mit dem Januar vergleichen. Aber auch Werbekampagnen beeinflussen die Anzahl der Testteilnehmer.

Passen Sie die Zahlen im Webanalyse-Tool entsprechend an oder wählen den geplanten Testzeitraum im vorigen Jahr (falls es seit diesem Zeitraum nicht schon zu großen Veränderungen der Conversions und Besucher gekommen ist).

Wird der Test nur auf bestimmten Seiten, beispielsweise nur Produktdetailseiten, laufen, dann erstellen Sie ein Segment wie dieses:

Wir gehen davon aus, dass man Produktdetailseiten daran identifizieren kann, dass sie als einzige Seiten mit „.html“ enden. Finden Sie für Ihre Website ein analoges Kriterium. Der Praxisguide „Seiten sinnvoll gruppieren“ gibt eine konkrete Anleitung hierzu.

Wenden Sie dieses Segment auf den Bericht Zielgruppe > Übersicht an und notieren die Anzahl der Nutzer.

4.3 Anzahl Conversion

Bei einem seitenübergreifenden Test verwenden Sie die Gesamtzahl der Conversions. Falls es sich um eine E-Commerce-Transaktion handelt, schauen Sie in Google Analytics unter Conversions > E-Commerce > Übersicht nach.

Für Tests bestimmter Seiten wenden Sie das im vorigen Unterkapitel beschriebene Segment auf genau diesen Bericht an und notieren Sie die Anzahl.

Nun können Sie die aktuelle testspezifische Conversion-Rate berechnen. Tragen Sie diese Zahl nun in den Rechner ein. Denken Sie daran, einen Punkt als Dezimaltrennzeichen zu verwenden.

5. Anzahl Testteilnehmer und Dauer des Tests

Nachdem die beiden Werte eingegeben und die Schieberegler eingestellt sind, zeigt das Tool an, wie viele Testteilnehmer für dieses Szenario benötigt werden.

In unserem Beispiel werden 40.629 Testteilnehmer pro Variante benötigt. Da die Kontrollvariante auch Teil des Tests ist, werden also für einen Test mit einer Variante 81.258 Testteilnehmer benötigt.

Basierend auf der Anzahl der voraussichtlichen Testteilnehmer aus Kapitel 4.3 können Sie nun einschätzen, wie lange der Test laufen wird.

Wird der Test wahrscheinlich nur zwei Wochen dauern, dann fügen Sie noch eine weitere Testvariante hinzu. Berechnen Sie dann, wie lange ein Test mit Kontrollvariante plus zwei Varianten dauern würde.

Wird der Test mit nur einer Testvariante schon 6 Wochen dauern, dann belassen Sie es bei nur einer Testvariante.

ConversionBoosting