Der Sieger eines Tests ist nicht immer der Gewinner: das Simpson-Paradoxon

Ein A/B Test: Sie testen Landingpage A und Testvariante B. Am Ende der Testphase werfen Sie einen Blick auf segmentierte Testergebnisse. Bei Besuchern, die über Bannerwerbung auf Reiseblogs kamen, lag die Conversion-Rate der Landing-Page B über der von A. Und bei denjenigen, die über Bannerwerbung auf Bücherblogs kamen, siegte ebenfalls Landingpage „B“ über „A“.  Das bedeutet: „B“ ist definitiv der Sieger des A/B Tests. Richtig? Irgendwie schon. Allerdings gibt es durchaus die Möglichkeit, dass Sie das gar nicht erkennen, weil „A“ scheinbar doch gewonnen hat. Willkommen in der kunterbunten Welt der Paradoxien.

Zweimal gesiegt und doch verloren

Die Paradoxie, der wir uns hier widmen, heißt Simpson-Paradoxon und entstammt dem Bereich der Statistik. Streng genommen gehört sie gar nicht zu den Paradoxien im eng definierten mathematischen Sinne, aber sie liefert doch so kurios erscheinende Ergebnisse, dass sie sich in den Augen vieler Menschen den Namen „Paradoxon“ verdient hat. Entdeckt wurde das Simpson Paradoxon bereits im Jahr 1951 und doch schafft es dieses Paradoxon noch immer, viele Menschen zu verblüffen.

In Bezug auf A/B Tests zeigt es nämlich eindrucksvoll, dass Seite „B“ in unserem Beispiel zwar in 2 von 2 betrachteten Segmenten der Sieger mit höchster Conversion-Rate sein kann. Sie zeigt sich aber dennoch nicht als Sieger, wenn man die Segmente zusammenzieht und das Gesamtergebnis betrachtet. So etwas ist durchaus möglich, wenn die einzelnen Segmente unterschiedlich groß sind. Da das vielleicht für alle, die das Simpson-Paradoxon noch nicht kennen, etwas unglaubwürdig und unverständlich klingt, ist wohl ein Beispiel angebracht? Finde ich auch!

Ein Beispiel für das Simpson-Paradoxon

Gehen wir einmal weiter von der Landing-Page in den Versionen „A“ und „B“ aus. Sie dient als erste Anlaufstation für potenzielle Kunden, die auf Werbebanner geklickt haben, mit denen für einen Türkei-Reiseführer geworben wird. Die Banner werden auf zwei verschiedenen Kategorien von Blogs platziert: einmal auf Tourismus-Blogs und einmal auf Bücher-Blogs.

Variante

Besucher

Conversions

Conversion-Rate

Lift

A

100

6

6%

B

800

56

7%

+17%

Darstellung des Traffics für das Segment “Banner auf Bücher-Blogs”

Banner auf Bücher-Blogs

  • Version A hat 100 Besucher über das Banner auf dem Bücher-Blog, von denen 6 zu Käufern werden. Die Conversion-Rate liegt bei sechs Prozent.

  • Version B hat 800 Besucher über das Banner auf dem Bücher-Blog, von denen 56 zu Käufern werden. Die Conversion-Rate erreicht sieben Prozent.

Variante

Besucher

Conversions

Conversion-Rate

Lift

A

900

70

7,7%

B

200

16

8%

+4%

Darstellung des Traffics für das Segment “Banner auf Reise-Blogs”

Banner auf Reise-Blogs

  • Version A hat 900 Besucher über das Banner auf Reise-Blogs und 70 Leute, die zu Käufern werden, was eine Conversion-Rate von 7,7 Prozent ergibt.

  • Version „B“ hat 200 Besucher über Reise-Blogs und 16 davon werden Käufer, sodass sich eine Conversion-Rate von acht Prozent ergibt.

Wir halten bis hierhin fest: Version „B“ der Landingpage hat in beiden Fällen für die höhere Conversion-Rate gesorgt. Der Sieger ist: Variante „B“! Aber nun errechnen wir die gesamte Conversion-Rate ohne Blick auf die Segmente.

Variante

Besucher

Conversions

Conversion-Rate

Lift

A

1.000

76

7,6%

B

1.000

72

7,2%

– 5%

Darstellung des unsegmentierten Gesamttraffics

  • Variante „A“ der Landingpage hatte insgesamt 1.000 Besucher, von denen 76 zu Kunden wurden und erreichte damit eine Conversion-Rate von 7,6 Prozent.

  • Variante „B“ hatte ebenfalls 1.000 Besucher, von denen insgesamt 72 zu Kunden wurden. Die Conversion-Rate liegt bei 7,2 Prozent.

Der Sieger ist in diesem Fall: Variante „A“!

Rechnen Sie es nach. Es ist wirklich so. Beim Blick auf die beiden Segmente wird jedes Mal „Variante „B“ der Sieger, während bei der Gesamtschau dennoch „A“ zum Meister gekürt wird. Lassen wir einmal die Frage weg, wie realistisch angegebene Conversion-Raten sind. Wir möchten hier auch nicht allzu tief in die komplexe Welt der Statistik eindringen. Nur soviel: In einem A/B Test entscheidet der Zufall, ob ein Besucher auf Landingpage-Variante „A“ oder „B“ geleitet wird. Die Segmente (hier: Bücherblogs/Reiseblogs) können jedoch eine unterschiedlich hohe Anzahl an Testpersonen zum Test beisteuern. Darüber hinaus ist der Zufall ein launischer Kandidat und kann wie in unserem Beispiel durchaus dazu führen, dass:

  • viel mehr Besucher von Reiseblogs auf Landingpage-Variante „A“ als auf „B“ landen,

  • während „B“ von weitaus mehr Besuchern angesteuert wird, die von Bücherblogs kommen.

Solch eine Konstellation macht kuriose Ergebnisse wie das oben aufgezeigte möglich.

Und was jetzt?

Echter und wirtschaftlich bedeutender sind die Ergebnisse, die Variante „B“ in den Segmenten erzielt hat, während der Erfolg der Variante „A“ in diesem Fall vor allem auf Tücken der Statistik beruht. Letztlich bedeutet die Existenz des Simpson Paradoxons eine Hürde für die richtige Interpretation errechneter Conversion-Raten. Es bedarf daher ein wenig Erfahrung, Fehlinterpretationen zu vermeiden. Wer sie nicht besitzt, sollte Fachleute zu Rate ziehen, die ihn beim Testen unterstützen. Ganz allgemein gilt: Belassen Sie es bei der Interpretation von Test-Ergebnissen nicht beim Blick auf das Gesamtergebnis. Schauen Sie sich auch die Ergebnisse in Segmenten an, um dem Simpson Paradoxon keine Chance zu geben.

Der Autor

Julian Kleinknecht - Geschäftsführer & Gründer

Julian Kleinknecht
Geschäftsführer & Gründer

Julian Kleinknecht hat viele Jahre Erfahrung in den Bereichen Web-Analyse und A/B-Testing und teilt sein Wissen oft bei LinkedIn.

ConversionBoosting als Magazin - gedruckt oder digital
  • 68 Seiten Conversion-Wissen gedruckt oder digital
  • Kostenlos per Post oder als Download

ConversionBoosting