ConversionBoosting Research

Agile Roadmaps für Website-Tests

Website-Testing wird oft spontan betrieben, das heißt es wird ohne Überlegen entschieden, welche Tests aus einer Liste an Ideen als nächstes durchgeführt werden. Auf diese Weise wird jedoch viel Potential verschenkt, da nicht die Tests mit dem größten Potential zuerst durchgeführt werden und es zu Leerlaufzeiten zwischen Tests kommt, weil Tests nicht rechtzeitig startklar sind.

Statt Testing spontan zu betrieben, sollte eine Test-Roadmap aufgestellt werden. Diese legt fest, welche Tests in welcher Reihenfolge durchgeführt werden sollen. Auf diese Weise kann besser geplant werden, wann welche Vorbereitungen abgeschlossen sein müssen.

1. Einleitung

Website-Testing wird oft spontan betrieben. Es wird ohne Überlegen entschieden, welche Tests aus einer Liste an Ideen oder Hypothesen als nächstes durchgeführt werden. Dadurch wird jedoch viel Potential verschenkt, da

  • nicht die Tests mit dem größten Potential zuerst durchgeführt werden und
  • es zu Leerlaufzeiten zwischen Tests kommt, weil Tests nicht rechtzeitig startklar sind.

Statt Testing spontan zu betreiben, sollte eine Test-Roadmap aufgestellt werden. Diese legt fest, welche Tests in welcher Reihenfolge durchgeführt werden sollen. Auf diese Weise können die vielversprechendsten Tests rechtzeitigt fertig gestellt werden.

Wie erstellt man eine Test-Roadmap? Voraussetzung dafür ist, dass zuvor gesammelten Hypothesen priorisiert wurden. Der Praxisguide „Testhypothesen und -ideen priorisieren“ beschreibt diesen Prozess Schritt für Schritt. Nachdem unser Prozess durchlaufen wurde, liegt jetzt eine Liste an Testszenarien mit zugehörigen Werten für den geschätzten Aufwand sowie den geschätzten Einfluss auf die Ziele vor (verl. Kapitel 3 des obigen Praxisguides).

In diesem Praxisguide erläutern wir, zuerst in welcher Form eine Roadmap am besten gepflegt werden sollte (Kapitel 2).

Danach wenden wir uns der Frage zu, welche Anforderungen an eine Roadmap bestehen. Diese Anforderungen sind

  • Wichtige Aktionen berücksichtigen (Kapitel 3.1)
  • Minimale Dauer pro Test (Kapitel 3.2)
  • Aufwändige und einfach umzusetzende Tests abwechseln (Kapitel 3.3)
  • Voneinander unabhängige Tests durchführen (Kapitel 3.4)

Das vierte Kapitel thematisiert die beiden Fragen wichtige Frage, wie viele Tests im Voraus geplant werden sollten und wie die Roadmap im Laufe der Zeit an unterschiedliche Veränderungen angepasst werden sollte.

2. Wie Roadmap verwalten?

Es gibt verschiedene Möglichkeiten, wie eine Roadmap verwaltet werden kann. Dazu gehören unter anderem:

  • eine PowerPoint-Präsentation
  • ein Excel-Dokument
  • ein physisches Whiteboard im Büro

Jede dieser Möglichkeiten hat Vor- und Nachteile, die nun kurz diskutiert werden. Je nachdem, wie groß das Unternehmen ist und ob die Roadmap auch mit anderen Teams geteilt werden soll, eignet sich eine andere Form.

2.1 Präsentation

Wegen manchmal großer Aversionen gegen Excel-Tabellen, ist eine solche Präsentation weniger abschreckend und damit zugänglicher als eine Excel-Tabelle. Wenn die Roadmap also mit vielen Kollegen und Partner geteilt werden soll, kann eine PowerPoint-Präsentation eine gute Wahl sein.

Die Folie könnte wie folgt aussehen. Jedem Monat wurde eine Spalte zugewiesen und die zu testenden Seitentypen oder Themen entsprechen den Zeilen.

2.2 Excel-Tabelle

Eine wichtige Aufgabe der Roadmap ist es, dass Marketingaktionen oder andere wichtige Termine eingetragen werden und Tests entsprechend geplant werden können. In Präsentationen ist dies schwierig umzusetzen. Im Conversion-Team empfiehlt es sich deshalb die Roadmap in einer Tabellenkalkulation zu verwalten.

In unserer Vorlage wurden alle Aktionen und wichtigen Termine in den oberen Spalten platziert. Zusätzlich wurde alle Daten auf den Tag genau in der 10. Zeile notiert.

Download der Vorlage hier

2.3 Whiteboard

Wenn im Büro des Conversion-Teams oder dessen Teamleiters eine freie Wand vorhanden ist, kann die Roadmap auch auf einer (physischen) Tafel verwaltet werden. Auf diese Weise sind alle geplanten Tests und andere Termine, welche die Reihenfolge der Tests bestimmen, immer im Blick.

VIDEO
Die 7 größten Fehler bei A/B-Tests – die Sie garantiert schon einmal selbst gemacht haben!

Die 7 größten Fehler bei A/B-Tests – die Sie garantiert schon einmal selbst gemacht haben!

Am 16. August 2017 zeigen die Experten Kamal Karim (Kameleoon) und Jörg Dennis Krüger (ConversionBoosting), welche Fehler bei A/B-Tests häufig gemacht werden.

3. Anforderungen an Roadmap

Welche Anforderungen gibt es an eine gute Roadmap? Welche Bedingungen müssen bei deren anfänglicher Entwurf (vergl. Kapitel 4) und Anpassungen an veränderte Umstände (vergl. Kapitel 5) berücksichtigt werden?

3.1 Relevante Aktionen und Ereignisse berücksichtigen

Alle Aktionen und Daten, welche einen Einfluss auf zukünftige Tests haben könnten, sollten in der Roadmap eingetragen werden. Wie in der beispielhaften Tabelle aus Kapitel 2.2 ersichtlich wird, können diese Daten in drei Kategorien eingeteilt werden:

  • Marketing-Aktionen (sowohl offline wie online)
  • Veränderungen an der Website
  • Äußere Einflüsse / Saisonalität

Generell gilt: Je stärker das Geschäftsmodell von Saisonalitäten und (in geringerem Maße) bestimmten Marketing-Aktionen abhängt, desto stärker müssen Tests im Voraus geplant werden.

3.1.1 Marketingaktionen

Es sollten sowohl Offline- wie Online-Aktivitäten in die Roadmap eingetragen und Tests entsprechend abgestimmt werden. Beispiel für Offline-Aktivitäten sind traditionelle Kampagnen im TV, Radio, Print oder der Außenwerbung. Alle diese Ausgaben führen zu mehr Besuchern auf der Website. Neue Investitionen im Online-Marketing könnte eine neue Display-Kampagne oder zusätzlichen Besuchern aus dem Google AdSense-Netzwerk sein, die auch mehr Traffic bringen.

Weshalb sind diese zusätzlichen Besucher für die Roadmap von Bedeutung? Es gibt drei unterschiedliche Gründe. Erstens führen mehr Besucher wahrscheinlich auch zu mehr Conversions. Es vergeht also weniger Zeit bis statistisch signifikante Ergebnisse erzielt werden. Die für einen Test eingeplante Zeit (vergl. Kapitel 3.2) wird also kürzer. 

Zweitens führen die zusätzlichen Besucher zu einer anderen Zusammensetzung des Traffics und damit möglicherweise auch zu andere Anforderungen durch die Besucher. Der zusätzlich eingekaufte Traffic ist in fast allen Fällen von schlechterer Qualität. Besucher, die durch einen Fernsehspot oder eine Display-Anzeige auf eine Website kommen, haben häufig noch keine konkrete Kaufabsicht, sondern sind vielleicht durch die Werbung zum ersten Mal auf einen Shop oder ein Produkt aufmerksam geworden. Die verschiedenen Anforderungen dieser Besucher könnten sich also beispielsweise darin zeigen, dass sie mehr Informationen benötigen als Besucher, die über Brand-Suchbegriffe oder den Direkteinstieg auf die Website gekommen sind.

Wenn nun eine große Kampagne in der Mitte eines Tests gestartet wird, werden die Testergebnisse quasi in zwei Hälfte geteilt. Wenn das Verhalten der zusätzlichen Besucher nun sehr verschiedene von dem der „normalen“ Besucher ist, dann sollten die beiden Hälften als zwei verschiedene Tests ausgewertet werden. Da der Test jedoch mit sehr viel mehr Conversions geplant wurde, werden die beiden Hälfte jeweils keine statistisch signifikanten Ergebnisse liefern.

Drittens müssen, falls vorhanden, Landing Pages, die außerhalb des Shops oder Content-Management-System betrieben werden, manuell angepasst werden, damit Besucher der neuen Werbekanäle abgeholt werden.

Wie diese drei Gründe belegen, ist es essentiell, dass das Conversion-Team sowohl mit dem Offline- wie dem Onlinemarketing-Team in engem Kontakt steht und zukünftige Aktionen in die Roadmap aufnimmt.

3.1.2 Veränderungen an der Website

Für Online-Shops können Veränderungen an der Website zum Beispiel eine modifizierte Navigation oder neue Filter auf den Kategorieseiten sein. Auf Landing Pages zur Lead Generation können möglicherweise neue Fotos oder überarbeitete Widgets wie Kreditrechner eingeführt werden.

Es ist aus zwei Gründen wichtig zu wissen, wann diese Veränderungen umgesetzt werden. Falls Veränderungen an Seitentypen vorgenommen werden, auf denen gerade ein Test läuft oder auf denen Tests geplant sind, muss vielleicht der Code der Testvarianten angepasst werden.

Außerdem gilt es darauf zu achten, dass diese Elemente frühzeitig getestet werden bevor sie für alle Besucher implementiert werden. Es ist eine Woche vor der Veröffentlichung der neuen Filter, diese zu testen.

Abhängig von der Struktur des Unternehmens gilt es mit der IT-Abteilung oder dem Produktmanagement zu kommunizieren und sicherzustellen, dass alle Termine in der Roadmap eingetragen sind.

3.1.3 Äußere Einflüsse

Die dritte Art von Daten, welche in der Roadmap bedachten werden müssen, sind äußere Einflüsse, die nicht in der Hand des Unternehmens liegen. Dazu gehören unter anderem

  • Verkaufsphasen wie Weihnachten [1] und in geringerem Maße Ostern
  • Großereignisse wie eine Fußball-WM oder Olympische Spiele
  • sowie die Jahreszeiten.

Ähnlich zum Einfluss der Marketingaktionen gibt es mehrere Einflüsse dieser Termine auf die Roadmap. Erstens führen diese Ereignisse entweder zu mehr Besuchern (Weihnachten) bzw. weniger Besucher (Fußball-WM, Sommermonate) und damit zu kürzeren bzw. längeren Testzeiträumen.

Zweitens verändern sich – besonders in Verkaufsphasen wie Weihnachten – die Anforderungen der Besucher. Während normalerweise Produkte in den meisten Fällen für den Besucher gekauft werden, werden zur Advents- und Weihnachtszeit vor allem Geschenke gesucht.

In der Roadmap gilt es alle – für die jeweilige Website relevanten – Ereignisse einzutragen und beim Planen von Tests zu beachten.

3.2 Wie viel Zeit pro Test einplanen?

Nun zu einer weiteren wichtigen und sehr häufig gestellten Frage: Wie viele Tage müssen für einen Test in der Roadmap eingeplant werden? Die Antwort auf diese Frage hängt von vielen verschiedenen Faktoren ab, die nun im Einzelnen nacheinander erläutert werden.

3.2.1 Einfluss von Wochentagen kontrollieren

Möglicherweise ist das Besucherverhalten an verschiedenen Wochentagen unterschiedlich. Angenommen Testvariante 1 einer Landing Page enthält viele Informationen und spricht daher eher Käufer an, die mehr Zeit für eine Kaufentscheidung benötigen. Diese recherchieren unter der Woche am Arbeitsplatz und kaufen am Wochenende. Testvariante 2 zielt dagegen auf den schnellen Sale, welcher schon unter der Woche erfolgt. Wenn ein Test nun nur während einem Wochenende, aber zwei Arbeitswochen läuft, werden die Im-Büro-Recherchierer-und-daheim-Käufer nicht vollständig gezählt.

Der Mindestzeitraum für einen Test beträgt 14 Tage.

3.2.2 Einfluss der Tageszeit kontrollieren

Nach dem Ende eines Tests sollten nur komplette Tage ausgewertet werden, das heißt der erste und letzte Tag eines Tests sollte „abgeschnitten“ werden. Analog zu Wochentagen wird dadurch sichergestellt, dass die Tageszeit einen Einfluss auf die Performance einer Testvariante hat.

Der Mindestzeitraum für einen Test beträgt also 14+2 = 16 Tage.

3.2.3 Einfluss der Latenz kontrollieren

Für verschiedene Produkte bzw. Produktkategorien dauert es verschieden lang bis eine Kaufentscheidung fällt. In der Sprache des traditionellen Marketings ist dies die Unterscheidung zwischen High-Involvement- und Low-Involvement-Produkten. Angenommen sehr viele der Käufe werden erst zwei Tage nach dem Erstkontakt mit der Website getätigt.

Am ersten Tag eines Tests führen Besucher also Conversions durch, die schon früher überzeugt wurden zu kaufen. Diese Conversions können also nicht der Testvarianten zugeschrieben werden.

Der Mindestzeitraum für einen Test beträgt also 16 Tage + durchschnittliche Latenz (siehe Webanalyse-Tool).

3.2.4 Freitagnachmittag keine Tests starten

Nach dem Start eines neuen Tests sollten alle Zahlen, besonders die Anzahl der Conversions, im Auge behalten werden. Können Conversions durchgeführt werden (oder funktioniert der Call-to-Action in manchen Browsern nicht?) und werden diese korrekt aufgezeichnet? Falls es zu schwerwiegenden Problemen kommt, kann der Test sofort pausiert werden.

Wenn das Conversion-Team aber an Samstagen nicht arbeitet, kann dies nicht sichergestellt werden.

Tests sollten Freitagnachmittag nicht gestartet werden und deshalb bis zu zwei Tagen Verzögerung kommen.

3.2.5 Statistische Signifikanz

Nun zum wichtigsten Kriterium der Dauer eines Tests. Tests dürfen erst dann beendet werden, wenn sie ein (vor Beginn des Tests) festgelegtes Signifikanzniveau erreicht haben. Wie lange dies dauert, bestimmt maßgelblich, wie viele Tage pro Test eingeplant werden müssen.

Doch wie lange dauert es bis eine Testvariante zu einem statistisch signifikanten Ergebnis führt? Dies wird von vier Faktoren bestimmt:

  • der aktuellen Conversion Rate
  • der geschätzten Anzahl an Testteilnehmer
  • der Anzahl der zu testenden Varianten
  • der geschätzte Einfluss des Tests auf das Ziel, beispielsweise also auf die Conversion Rate – je größer der Einfluss, desto schneller werden statistisch signifikante Ergebnisse erzielt.

Der letzte Wert in der Liste ist natürlich, derjenige, welche nur schwer abzuschätzen ist. Hier sollten die gleichen Überlegungen wie schon beim Priorisieren von Tests angewandt werden. Für eine ausführliche Erläuterung siehe Kapitel 4 des Praxisguides „Testhypothesen und -ideen priorisieren“.

Wenn alle vier Werte notiert bzw. geschätzt wurden, können Sie in Online-Rechner eingegeben werden, welche die voraussichtliche Dauer des Tests bestimmt. Zwei Beispiele dafür sind die Rechner des VWO und von convert.com.

Ein Faktor, den beide Tools bei den Berechnungen nicht explizit machen ist der statistische Begriff der „Power“. Dies ist ein Maß für die Wahrscheinlichkeit, einen tatsächlich vorhandenen Einfluss einer Testvariante zu registrieren. Es wird in beiden Rechnern mit einer Power von 80% gerechnet. Dies bedeutet, dass in 4 von 5 Fällen ein tatsächlich vorhandener Einfluss entdeckt wird. In den restlichen 20% der Fälle geschieht dies nicht – es wird also ein sogenannter Fehler 2. Art (die Nullhypothese hätte eigentlich verworfen werden soll) begangen.

3.3 Aufwändige und einfache Tests abwechseln

Eine weitere Anforderung an die Roadmap besteht darin, dass aufwändige mit einfach umzusetzenden Tests abgewechselt werden sollten. Für eine Anleitung zum Schätzen der Aufwände eines Tests verweisen wir wieder auf den Praxisguides „Testhypothesen und -ideen priorisieren“ (Kapitel 5).

Aber warum sollte man überhaupt aufwändige und weniger aufwändige Tests in der Roadmap abwechseln? Wenn mehrere aufwändige Tests nacheinander durchgeführt werden sollen, stellt dies eine große Herausforderung vor allem an die Webentwicklung oder das Webdesign dar. Wenn Testvarianten also nicht rechtzeitigt fertiggestellt werden, ist es besser, einen zwar weniger aussichtsreichen, dafür aber startklaren Test zu starten Auf diese Weise wird so wenig Zeit wie möglich verspielt.

3.4 3.4 Voneinander unabhängige Tests durchführen

Aufeinander folgende Tests sollten unabhängig voneinander sein. Sonst wäre nicht genug Zeit vorhanden, die gewonnenen Erkenntnisse des vorigen Tests in die Testvarianten des neuen Tests aufzunehmen.

Angenommen in einem ersten Test wurde getestet, an welcher Position Produktempfehlungen platziert werden soll. Direkt danach soll identifiziert werden, welche Art von Produktempfehlungen („Ähnliche Artikel“, „Andere Kunden kauften auch“ oder „Passende Artikel“) den besten Einfluss auf Conversions und Umsatz haben. Es wäre gar nicht genug Zeit, die Produktempfehlungen standardmäßig an der Gewinnerposition anzuzeigen, bevor der Test der Art der Produktempfehlungen starten kann.

Ein von Produktempfehlungen unabhängiger Test sollte dazwischen geschoben werden.

4. Agile Roadmap

Zwei wichtige Fragen sind bis jetzt noch nicht beantwortet worden. Diese sind:

  • Wie viele Tests sollen überhaupt im Voraus geplant und in der Roadmap festgehalten werden? (Kapitel 4.3)
  • Wann und wie sollte die Roadmap im Laufe der Zeit angepasst werde? (Kapitel 4.2)

Um beide Fragen zu beantworten, soll zuerst unsere Konzeption von agilem Website-Testing vorgeschlagen werden.

4.1 Agiles Website-Testing

Der Begriff der „Agilität“ (engl. „agile“) kommt aus der Softwareentwicklung, wo er bereits 1999 im Buch „Extreme Programming“ implizit und 2001 im „Agile Manifesto“ explizit formuliert wurde. Die Grundlage eines agilen Vorgehens ist ein bewegliches Vorgehen und damit eine Abkehr von der klassischen Projektplanung mit GANTT-Diagrammen zur langfristigen Projektplanung.

Im Agile Manifesto liest sich das so: „Durch diese Tätigkeit [Software entwickeln] haben wir diese Werte zu schätzen gelernt: … (4) Reagieren auf Veränderung mehr als das Befolgen eines Plans.“

Ein solches agiles Vorgehen ist in der Conversion-Optimierung deshalb erfolgreich, weil die Rahmenbedingungen und Zielsetzungen einer Website einem sehr schnellen Wandel unterliegen. Website sind insbesondere keine Softwareprodukte, sondern ein Marketingkanal, der schnell auf Veränderungen und Trends reagieren muss. Langfristige Planungen müssten entsprechend immer neu angepasst werden. Bei einem agilen Vorgehen entfällt diese Anpassung, da von vorne herein mit Änderungen gerecht und entsprechend auf eine langfristige Planung verzichtet wird.

4.2 Anpassungen der Roadmap

Beispielhafte mögliche Anpassungen der Roadmap im Laufe von Website-Tests sind unter anderem:

  • Beim Test von zusätzlichen Trust-Elementen hat sich herausgestellt, dass diese einen großen Einfluss auf die Conversion Rate haben. In Folge dessen soll dieses Thema noch dringend weiter getestet werden – alle anderen Tests werden nach hinten verschoben.
  • Die andere Richtung: Testvarianten der Produktbilder haben keinerlei Einfluss auf die Conversion Rate. Weitere Tests der Produktbilder sollten deshalb herunter priorisiert werden.
  • Für eine von der Offlinemarketing-Abteilung geplante TV-Kampagne müssen sehr kurzfristig spezielle Landing Pages erstellt werden. Dies zieht alle Ressourcen vom „normalen“ Testing-Betrieb ab und verzögert diesen um zwei Wochen.
  • Nachdem ein Test mit falschen Einstellungen durchgeführt wurde, muss er noch mal durchgeführt werden.
  • Eine für das Conversion-Team überraschende neue Display-Kampagne (siehe Kapitel 3.1.1) führt zu einer starken Veränderung der Traffic-Zusammensetzung und ein Test muss weitere zwei Wochen laufen, bevor statistisch signifikante Ergebnisse erzielt werden können.

4.3 Wie Roadmaps planen? Wie viele Tests im Voraus?

Wie sollte eine Roadmap aber dann geplant werden? Und wie viele Tests sollten im Voraus geplant werden?

Wir empfehlen: Nicht zu viel Zeit mit der anfänglichen Roadmap verbringen! Es sollten nicht mehr als 3-4 Tests im Voraus geplant werden. Die Roadmap wird bei iterativem Optimieren sowieso schnell wieder über den Haufen geworfen, wie in den Szenarien im vorigen Unterkapitel deutlich wird.

Generell gilt also: Je agiler, desto besser. Sie können dadurch nicht nur schneller auf Veränderungen reagieren (vergl. Kapitel 4.2), sondern auch vielversprechende Tests ohne aufwändiges Verändern der Roadmap hochpriorisieren.

Das Arbeiten ohne feste Roadmap heißt jedoch nicht, dass Vorbereitungen zu Tests nicht frühzeitigt angestoßen werden müssen! Natürlich gilt auch beim agilen Vorgehen, das aufwändige Tests so früh wie möglich umgesetzt werden sollten.

Bei der Euphorie für agiles Vorgehen dürfen jedoch die Anforderungen an die Roadmap auf dem dritten Kapitel nicht vergessen werden. Je mehr Aktionen/Saisonalität/Anpassungen an der Website es gibt, desto strenger und langfristiger muss eine Roadmap aufgestellt werden.

[1] Unsere Vortragsaufzeichnung „(Mehr) Erfolg im Weihnachtsgeschäft“ gibt einen Überblick über alle Vorkehrungen, die speziell für das Weihnachtsgeschäft getroffen werden sollte.

ConversionBoosting