A/B-Tests sind Schnee von gestern!? (Meinungen zum Multi-armed Bandid Ansatz)

Website-Testing ist ein Hype-Thema. Leider. Dies führt insbesondere zu drei spannenden Entwicklungen:

  1. Das Thema eignet sich für reißerische Beiträge in allen Medien. Entsprechend versucht jeder ein Stück vom Kuchen abzubekommen.
  2. Thesen wie „A/B-Testing ist ineffizient“ finden viel Interesse, da sich gerade viele Entscheider mit dem Thema befassen.
  3. Obwohl aller darüber lesen, haben die meisten nicht mal einen Hauch von Ahnung über was sie hier eigentlich reden.

Diese drei Dinge in Kombination sind sehr ärgerlich für diejenigen, die sich wirklich intensiv mit dem Thema befassen und die Hintergründe kennen. Denn diese Experten werden dauernd mit Fragen konfrontiert, die entweder einfach lächerlich sind oder diese versuchen das Thema viel zu stark zu vereinfachen.

Ein aktuelles Beispiel ist die Diskussion rund um eine permanGeneral Certificate of Secondary Education ent optimierte Auslieferung von Seiteninhalten („Multi-armed Bandid Algorithm“) im Vergleich zu „klassischen“ A/B-Testings.

Steve Hanov hat dazu in seinem Blog ein paar Zeilen Code veröffentlicht und promotet dies als Alternative zu A/B-Testing (und gehört damit zur Gruppe B meiner obigen Aufzählung). Er fordert indirekt jeden auf, kein A/B-Testing mehr zu betreiben, sondern einen solchen Ansatz zu verfahren. T3N hat diesen Beitrag neutral ins Deutsche übertragen und zur Diskussion gestellt (Gruppe A).

Als Antwort darauf hat das Team von Visual Website Optimizer einen sehr ausführlichen Beitrag veröffentlicht, der jedem ans Herz gelegt werden kann, weil er sehr ausführlich die Problemstellung beschreibt. Am Wichtigsten ist das Fazit, dass ich so unterschreiben kann (Übersetzung von mir):

So wie Sie aus den Ergebnissen sehen können, gibt es einen klaren Kompromiss zwischen der durchschnittlichen Conversion-Rate und die Zeit es braucht, um statistische Signifikanz zu erkennen. Darüber hinaus ist es auch klar, dass alle Vorteile von Multi-einarmiger Bandit Algorithmen verschwindigen, wenn die Conversion-Rate von verschiedenen Versionen ähnlich ist. Das einzige Szenario, in dem ein Multi-Armed Bandit Algorithmus am Besten funktionieren würde ist, wenn die Conversion-Rate der verschiedenen Versionen massiv anders ist (das ist selten in der Praxis). Selbst in solchen Fällen würde man jedoch bereits bei einfacher Randomisierung rasend schnell eine statistische Signifikanz erkennen, so dass für die restliche Zeit die beste Version eingesetzt werden könnte.

Dies soll nicht zu sagen, dass Multi-armed Bandit Algorithmen nutzlos sind. Sie sind dort sehr nützlich, wo Sie eine kontinuierliche und ständige Optimierung durchführen und häufig Versionen hinzugefügt oder entfernt werden. Ein solches Vorgehen ist auch in den Fällen nützlich, in denen Sie sich leisten können, lange zu warten, bis Sie mit Sicherheit wissen, welche Version die beste ich. (Oder in Fällen, wo Sie sich um Wissen und die Gewissheit nicht kümmern, sondern einfach Ihre durchschnittliche Conversion-Rate optimieren wollen.)

Der direkt Vergleich von A/B-Tests und Multi-armed Bandit Algorithmen ist falsch, weil sie eindeutig für verschiedene Zwecke gedacht sind. A/B-Tests sind für Experimente, in denen ein karer Fokus darauf liegt statistische Signifikanz und damit verbundene Erkenntnisse zu erreichen, während Multi-armed Bandit Algorithmen für die kontinuierliche Optimierung geeignet sind, wo der Fokus auf die bestmögliche durchschnittliche Conversion-Rate gelegt wird.

Testingtools wie Adobe Test&Target bieten solche Funktionen zur permanenten Optimierung auf Basis eines multi-armed Bandid Ansatzes schon seit vielen Jahren. Das Ganze ist jedoch deutlich komplexer, als in dem Blogbeitrag von Steve Hanov dargestellt wird, da eine solche permanente Optimierung natürlich für jedes einzelne Besuchersegment getrennt stattfinden muss, um wirklich effizient zu sein. Zudem muss – möglichst automatisch – erkannt werden, welche sinnvollen Segmente es gibt. Denkt man diesen Weg nur kurz weiter, ist man bei Themen wie Bahavioral Targeting, die genau den gleichen Ansatz verfolgen (jedoch natürlich noch auf deutlichen größeren Datenpools basieren).

Und genau durch dieses Weiterdenken erkennt man dann auch den Unterschied zwischen den beiden Ansätzen „Testing“ und „Permanent optimierte Aussteuerung“, denn beides hat zwar viel gemeinsam, ist eng verwandt und baut sogar aufeinander auf – ist aber doch sehr unterschiedlich.

Testing dient dazu, Besucherverhalten zu ergründen. Die Testergebnisse zeigen Ihnen die Vorlieben und Bedürfnisse genauso wie die Abneigungen Ihrer Besuchersegmente. Sie wissen dann beispielsweise, dass Sie Besuchern über den Suchbegriff „Sixt Autovermietung“ ganz andere Informationen liefern müssen, als Besuchern über den Suchbegriff „Autvermietung günstig“. So können Sie nun Ihr gesamtes Onlinekonzept auf Basis von validen Ergebnissen optimieren und klar beantworten, was für wen gut funktioniert – und was nicht. Sie erkennen zudem wie stark unterschiedlich der Einfluss solcher Änderungen ist und können den Einfluss in Euro berechnen.

Mit dem Multi-armed Bandid Ansatz erreicht man jedoch nur sehr aufwendig valide Testergebnisse und generiert so nur sehr wenige bis gar keine validen Erkenntnisse über das Besucherverhalten.

Permanent optimierte Aussteuerung dient dazu, von verschiedenen Varianten immer die auszuliefern, die derzeit am besten funktioniert. Sie erhalten keine Informationen, wie unterschiedlich die einzelnen Varianten funktionieren. Sie erhalten kein Wissen, dass Sie strategisch nutzen können. Sie können nicht beantworten, ob etwas besser oder schlechter funktioniert und wie. Zudem ist die permanente Optimierung schnell sehr komplex, da ein solch einfacher Ansatz wie von Steve Hanov, in der Praxis viel mehr Nachteile als Vorteile hat. Die „Auto-optimiting campaigns“ von Tools wie Adobe Test&Target funktionieren da viel feiner und komplexer, was jedoch die Gefahr mit sich bringt, dass man das Verhalten des Systems und die Gründe für eine Aussteuerung nicht genau nachvollziehen kann – was für das Vertrauen in solche Systeme schwierig ist und noch weniger Erkenntnisse zulässt.

Derzeit kann jedem nur geraten werden, durch Splittests (A/B und multivariat) Besucher besser kennenzulernen und Verhalten zu ergründen. Ab einem gewissen – sehr fortschrittlichen – Reifestadium, das in Europa vielleicht eine Hand voll Unternehmen erreicht hat, kann man dann an Vorgehen wie die permanent optimierte Aussteuerung als zusätzliches Werkzeug denken. Zu dem Zeitpunkt weiß man dann jedoch, aufgrund der Testing-Erfahrung, auch über die Vor- und Nachteile und die Vorzüge und Probleme des Vorgehens. Zudem weiß man dann auch soviel, dass man keinem 20-Zeiler aus einem Blog seine Budgets anvertraut, sondern komplexere Modelle nutzt, die viel effizienter sind.

Die große Gefahr jedoch darf man nicht aus den Augen verlieren: durch die permanente Optimierung sichern Sie auch dann nur, dass immer die (wahrscheinlich) beste Variante aus einem vorhandenen Pool ausgesteuert wird. Um sich aber tatsächlich weiterzuentwickeln, Trends nicht verschlafen und neue Akzente setzen zu können, müssen Sie wieder „normal“ testen, um schnell aussagekräftige Ergebnisse für Ihre Planungen zu haben.

Der Autor

Julian Kleinknecht - Geschäftsführer & Gründer

Julian Kleinknecht
Geschäftsführer & Gründer

Julian Kleinknecht hat viele Jahre Erfahrung in den Bereichen Web-Analyse und A/B-Testing und teilt sein Wissen oft bei LinkedIn.

ConversionBoosting als Magazin - gedruckt oder digital
  • 68 Seiten Conversion-Wissen gedruckt oder digital
  • Kostenlos per Post oder als Download

ConversionBoosting