Gründe und Lösungsansätze

Gleicher Test verschiedene Ergebnisse

Ein bereits abgeschlossener Test wird sehr ähnlich (oder ganz gleich) erneut gestartet. Die Ergebnisse des neuen Tests sehen aber vollkommen anders aus. War das ganze Testen umsonst? Kann man den Ergebnissen nicht trauen?

Jeder Conversion-Optimierer kennt das folgende Problem. Es wurde ein Test durchgeführt, bei dem ein Element auf der Seite verändert wurde. Ein Testgewinner wird gefunden und vielleicht sogar als dauerhafte Lösung umgesetzt. Später wird – zufällig oder zur Kontrolle – der gleiche Test erneut ausgeführt, dieses Mal sind die Ergebnisse aber überraschender Weise anders, als im ersteln Test. Entweder gewinnt nun eine andere Testvariante oder die Ergebnisse sind nicht aussagekräftig.

Natürlich sollte dies im besten Fall nie passieren. Trotzdem gibt es solche Ergebnisse jedoch immer wieder. Die Gründe dafür sind vielfältig. Meist wurde nicht sauber gearbeitet – in der Planung, Durchführung oder Auswertung des Tests. Es kann aber auch ganz andere Gründe geben, die man nicht immer verhindern kann. Die Problemquellen zu verstehen, ist aber schon der erste Schritt zur Lösung des Problems.

Häufige Gründe

Um solche Fehler in den eigenen Test zu finden, ist es hilfreich die häufigsten Gründe zu kennen.

1.) Nicht richtig getestet

Damit Tests miteinander vergleichen werden können, müssen diese richtig geplant, programmiert, durchgeführt und ausgewertet werden. Die wichtigsten Punkte sind dabei: eine gute Qualitätssicherung (damit keine technischen Probleme bei der Testauslieferung auftreten) und natürlich ein richtig funktionierendes Splittesting und Tracking. Wenn falsch getestet wurde, ist vielleicht eines der Testergebnisse rein zufällig.

2.) Traffic hat sich verändert

Ein häufiger Grund für unterschiedliche Testergebnisse sind Veränderungen im Traffic. Wenn beispielsweise der Anteil von Affiliate-Traffic steigt, Adwords kurzzeitig deaktiviert (oder für mehr Traffic „aufgedreht“) wurde oder eine Werbekampagnen (möglicherweise durch eine Bannerkampagne) Besucher auf die Seite spült, hat dies großen Einfluss auf die Testergebnisse. Besucher von verschiedenen Traffic-Kanälen haben andere Anforderungen an Zielseitigen, Ansprache und Prozess – was man allein schon an unterschiedlichen Conversion-Rates sieht. Wenn der Traffic(-Mix) sich verändert hat, sind die Ergebnisse möglicherweise beide valide – für ihre jeweiligen Rahmenbedingungen.

3.) Nicht richtig ausgewertet

Oft liegt das Problem gar nicht im neuen Test – sondern im alten. Wurde dieser wirklich richtig ausgewertet? War das Ergebnis wirklich statistisch valide? Checken Sie nochmals die Signifikanz, das Signifikanz-Intervall und ob es Peaks im Testzeitraum gab, die bisher nicht berücksichtigt wurden. Wenn dann bei genauer Betrachung die Signifikanz des ersten Tests auf 80% oder sogar weniger sinkt, muss man sich nicht wundern, wenn ein neuer Test doch andere Ergebnisse liefert. (Gleiches gilt aber natürlich auch für den neuen Test!).

Achtung: Es lohnt sich in Excel nachzurechnen und sich die Zahlen genauer anzusehen. Manche Testing-Tools sind bei der Signifikanz-Anzeige etwas “optimistisch”, beispielsweise, damit auch kleine Websites schnell “signifikante” Tests durchführen können. Wenn aber beispielsweise die Anzahl der Conversions unter 100 pro Variante ist, kann man auf eine Signifikanz-Anzeige meist auch verzichten – weil einfach noch zu wenige Daten gesammelt worden sind..

4.) Kleine Änderung mit großer Wirkung

Wurde wirklich 100% das selbe getestet oder gab es doch kleine, feine Abweichungen im Testaufbau? Man wundert sich manchmal, welchen großen Einfluss, kleine Änderungen haben können. Auf den ersten Blick sieht dies dann so aus, als wenn es gar keine Änderungen gäbe und nur das Ergebnis schwankt. Tatsächlich konnte man aber sogar eine wertvolle Erkenntnis generieren – nämlich zur Wichtigkeit des kleinen, feinen Elements, das sich geändert hat.

Aber nicht nur Änderungen an Testvarianten und Control können Einfluss auf die Testergebnisse haben. Je nach dem, wie der Test genau aufgebaut ist und was getestet wird, können auch Veränderungen an anderen Teilen der Website bzw. des Online-Shops einen Einfluss auf die Testergebnisse haben. Beispielsweise, wenn der Warenkorb umgestaltet wurde und nun die frühere Gewinnervariante nicht mehr zu dieser Neugestaltung passt. Eine besondere Dimension sind Änderungen auf den Seiten der Mitbewerber. Auch diese können Testergebnisse beeinflussen! Beispielsweise könnte durch eine Rabattaktionen eines Wettbewerbers auf einmal der Preis der Produkts deutlich an Wichtigkeit gewinnen und die Faktoren, die ehemals den Testgewinner ausmachten, gerade keine Relevanz mehr haben.

5.) Saisonalitäten

Im Winter verkaufen sich Schlitten besser, als im Sommer. Das wundert soweit keinen. Neben solchen offensichtlichen Saisonalitäten, gibt es jedoch auch speziellere, die vielleicht nicht gleich ins Auge stechen. Sind vielleicht Ferien? Ist gerade eine große Messe? Gab es einen kräftigen Wetterumschwung? Ist gerade ein großes Fussballturnier? All dieses und viele andere, vergleichbare Ereignisse, über die man sich Gedanken machen muss.

Lösungen

Um solche Einflüsse auf die Testergebnisse zu finden, bringt es aber nichts, die oben genannten Punkte wie Checkliste abzuarbeiten. Die Tücke liegt meist im Detail und oberflächlich ist gar solcher Einfluss zu erkennen – bei genauer Betrachtung aber trotzdem vorhanden und die Ergebnisse verzerrend.

Es gibt jedoch recht einfache – wenn auch manchmal rech aufwendige Wege – solche Einflüsse zu isolieren und dann zu eliminieren: Die Segmentierung der Testergebnisse. Die Funktionen hierfür finden Sie entweder im Testing-Tool oder Sie können dies einfach mit Ihrer Web-Analyse-Software machen. (Achtung: Bei manchen Testing-Tools müssen Sie die Segmente bereits vor dem Start des Tests anlegen. Hier bietet es sich an, die Daten in der Web-Analytics-Software auszuwerten.)

Schritt 1: Traffic segmentieren

“Segmentieren” bedeutet, die gesammelten Daten nach verschiedenen Kriterien zu unterteilen und getrennte Testergebnisse für jede Unterteilung (=Segment) zu ermitteln.

Beispiel für Segmente:

  • Zeit Segmentierung nach Zeit bedeutet, das Verhalten der Besucher in verschiedenen Zeitabschnitten isoliert zu betrachten. Gab es einen Tag mit besonders viel Traffic und/oder Conversions? Schwankt an bestimmten Tagen die Conversion-Rate stärker als sonst? Auch eine Analyse der Daten auf Stundenebene kann sinnvoll sein, beispielsweise um kurze Trafficspitzen zu isolieren oder Trackingprobleme zu erkennen.
  • Traffic-Quelle Schauen Sie sich die Testergebnisse aufgeteilt nach dem jeweiligen Traffic-Kanal (Organische Suche, SEM, Direct-Type-In, Display-Kampagnen, Affiliate etc.) an. Wo möglich ist es auch sinnvoll auf Kampagnen- oder sogar Keyword-Ebene herunter zu brechen.
  • Gerät Besucher sind mit immer unterschiedlicheren Geräten unterwegs. Unterscheiden Sie mindestens Mobil, Tablet und Desktop. Zusätzlich ist die Unterscheidung zwischen Windows und MacOS bzw. Android und iOS sinnvoll. Möglicherweise bietet sich auch die Segmentierung nach Browsertyp an, um Darstellungsproblemen auf die Schliche zu kommen.
  • Neue vs. Wiederkehrende Besucher
  • Geo-Segmente
  • Einstiegsseiten

Schritt 2: Segmente identifizieren

Spannend sind nun die Segmente, bei denen die Testergebnisse von denen des Gesamttests abweichen.

Beispiel: Im Gesamtest hat Variante B einen Uplift von 9% erreicht. Im Segment “Affiliate-Traffic” gewinnt aber die Control-Variante deutlich und Variante B hat dort einen Downlift von 4%. Wenn nun auch noch ausreichend Traffic in dem Segment ist und so dieser Einfluss auch tatsächlich auf die Gesamtergebnisse durchschlägt, haben Sie einen Kandidaten für ein Segment gefunden, das Ihre Testergebnisse verfälschen kann.

Schritt 3: Segmente ausschließen

Sie können nun (im Testing-Tool, wahrscheinlich aber einfacher in Ihrer Web-Analyse-Lösung) einen Report anlegen, der dieses Segment aus den Testergebnissen herausfiltert.

Mit etwas Glück finden Sie genau solcher Einflussfaktoren, damit die (gefilterten) Testergebnisse beider Tests nun zusammen passen, d.h. gleiche (oder zumindest sehr ähnliche) Ergebnisse zeigen. Sie haben dann gleich zwei wertvolle Erkenntnisse gesammelt: 1.) Wissen Sie nun, dass die Tests doch valide waren und 2.) wissen Sie nun, welchen Einflüssen Ihre Tests unterliegen und können dies zukünftig bei der Testplanung berücksichtigen, beispielsweise in dem Traffic gleich vom Test ausgeschlossen wird oder individuelle Tests für diese besonderen Segmente erstellt werden.

Schritt 4: Einflüsse erkennen

Die Daten in den Segmenten zeigen leider jedoch nur selten den tatsächlichen Einflussfaktor auf. Zwar kann erkannt werden, wo es ungewöhnliche Messdaten gibt – was aber tatsächlich zu den Abweichungen führt, ist daraus nicht zu erkennen. Was heißt es, wenn – um beim obigen Beispiel zu bleiben – der Affiliate-Traffic abweichendes Verhalten zeigt? Was bedeutet es, wenn es an zwei Tagen massive Peaks gegeben hat?

Hier bedarf es nun einer tieferen Recherche, die über die reine Datenanalyse hinaus geht. Diese Recherche ist jedoch sehr wertvoll, Sie lernen Ihre Besucher besser kennen, kommen technischen Problemen auf die Spur und haben Sie die Chance, Ihren Online-Erfolg noch besser aufzustellen.

Der Autor

Julian Kleinknecht - Geschäftsführer & Gründer

Julian Kleinknecht
Geschäftsführer & Gründer

Julian Kleinknecht hat viele Jahre Erfahrung in den Bereichen Web-Analyse und A/B-Testing und teilt sein Wissen oft bei LinkedIn.

ConversionBoosting als Magazin - gedruckt oder digital
  • 68 Seiten Conversion-Wissen gedruckt oder digital
  • Kostenlos per Post oder als Download

ConversionBoosting