A/B-Test - Durchführung und Auswertung

In diesem Blogbeitrag erfahrt ihr wie ihr A/B-Tests richtig durchführen und gängige Fehler minimieren könnt, um eine relevante Datenerhebung und -auswertung zu gewährleisten. Wir klären euch über die wichtigsten Irrtümer auf und zeigen an einem einfachen Beispiel, wie ihr die statistische Signifikanz eurer Testergebnisse ausrechnen könnt. Eine allgemeine Einführung über A/B-Tests findet ihr in unserem Blogbeitrag „Was sind A/B-Tests?“.

Der Testablauf

Im folgenden Abschnitt informieren wir euch über die Testvorbereitung und den Ablauf von A/B-Tests. Hierzu zählt die richtige Hypothesenbildung, die Unterteilung der Ergebnisse in primäre und sekundäre Ziele und die korrekte Durchführung des Testvorgangs.

A/B-Test Hypothesenbildung

Der Test beginnt bereits mit der Entwicklung einer geeigneten Hypothese, um zu definieren, was überhaupt untersucht werden soll und welche Variable in entsprechende Varianten aufgeteilt wird. Die Hypothese enthält stets eine Zielformulierung, in der eine Auswirkung der Variable auf das Ziel unterstellt wird. So könnte eine Hypothese wie folgt lauten: „Eine Farbänderung des CTA-Buttons führt zu einem Anstieg der Conversions.“

Mithilfe einer Hypothese lassen sich dann die Key-Performance-Indikatoren identifizieren, die während des A/B-Tests erhoben werden sollen. In unserem Beispiel wird die Variable „Farbe CTA-Button“ geändert und die Anzahl der Conversions als Indikator für die Bewertung herangezogen.

Unterteilung in primäre und sekundäre Ziele

Die möglichen Erkenntnisse aus einem A/B-Test können durchaus vielschichtig sein und die jeweiligen KPIs liefern zusätzliche Informationen über das Nutzerverhalten, die nicht immer eindeutig zu interpretieren sind. So kann es der Fall sein, dass der Absatz im Online Shop steigt, aber der Wert des durchschnittlichen Warenkorbs sinkt.

Die primären Ziele sind diejenigen, die das ursprüngliche Motiv für die Erstellung des A/B-Tests darstellen. Die sekundären Ziele eines A/B-Tests sind die zusätzlichen Informationen, die über das Nutzerverhalten entstehen. So ist die Hypothese anfangs auf mögliche Schwächen in der Formulierung zu testen und in ihrer Relevanz einzuordnen.

Der Testvorgang

Die Websitebesucher weisen nie die gleichen Eigenschaften auf und saisonale Schwankungen, wie etwa zu Weihnachten, führen beispielsweise in Online Shops zur Verzerrung durchschnittlicher Konversionsraten. Dementsprechend sollten A/B-Tests über längere und konstante Zeiträume (mehrere Wochen) durchgeführt werden und eine große Stichprobengesamtheit gewährleistet sein. Websitebesitzer mit geringem Traffic sollten den Testzeitraum entsprechend verlängern.

Die Auswertung – statistische Signifikanz

Nachdem alle relevanten Daten erfasst wurden, ist das Ergebnis des A/B-Tests dahingehend zu überprüfen, ob ein statistischer Zusammenhang zwischen den unterschiedlichen Varianten und der Konversionsrate besteht. Das Testergebnis ist dann statistisch signifikant, wenn die formulierte Alternativhypothese von unseren Daten gestützt wird.

Die erhobenen A/B-Test Daten

Zunächst muss ein Signifikanzniveau festgelegt werden. Normalerweise wird der Schwellenwert auf 95% gesetzt, womit das Signifikanzniveau bei 5% liegt. Am Ende des Beitrages kommen wir hierauf zurück.

Nach der Datenerhebung wird die Anzahl der Konversionen und Nicht-Konversionen durch die Gesamtzahl der Besucher geteilt, um die prozentualen Anteile zu errechnen. Als Beispiel nehmen wir für die A-Variante 300 und für die B-Variante 600 Konversionen (insgesamt 900) und für Nicht-Konversionen bei der A-Variante 900 und für die B-Variante 1.200 (insgesamt 2.100). Das ergibt einen Stichprobenumfang von 3.000 Websitebesucher, von denen – unabhängig der einzelnen Varianten - 30% konvertiert und 70% nicht konvertiert sind.

Den Erwartungswert ausrechnen

Nachdem wir die prozentualen Anteile an konvertierten und nicht-konvertierten Besuchern errechnet haben, können wir die Anteile als Faktor für die Gesamtbesucherzahlen der jeweiligen Varianten nehmen, um den Erwartungswert für Konversionen und Nicht-Konversionen für die jeweiligen Varianten auszurechnen.

So kommen 1.200 von den 3.000 Besuchern von der Variante A. Dementsprechend multiplizieren wir die Besucheranzahl der Variante A mit den errechneten prozentualen Anteilen für die Conversions und Nicht-Conversions (1.200 x 0,3 = 360 und 1.200 x 0,7 = 840). Wir wiederholen die Rechnung mit den Werten für Variante B (1.800 x 0,3 = 540 und 1.800 x 0,7 = 1.260). Jetzt verfügen wir über die durchschnittlichen Erwartungswerte.

Der Chi-Quadrat-Wert

Nun können wir die Abweichung von unseren erhobenen Daten mit den ermittelten Erwartungswerten ausrechnen und die Ergebnisse in Beziehung setzen. Das Ergebnis wird als Chi-Quadrat-Wert bezeichnet. Um diesen zu erhalten wird folgende Rechnung angewendet: ((erwarteter Wert – tatsächlicher Wert)² / erwarteter Wert) = Chi-Quadrat-Wert.

Für die „Variante 1 – Conversions“ und die Variante 1 – keine Conversions“ sehen die Rechnung dann wie folgt aus: ((360 – 300)² / 360) = 10 und ((840 – 900)² / 840) = 4,29. Für die „Variante 2 – Conversions“ erhalten wir den Wert 6,67 und für „Variante 2 – keine Conversions“ 2,89. Nachdem wir alle Ergebnisse aufsummiert haben erhalten wir den Wert 23,85.

Mit einem Blick auf die Chi-Quadrat-Tabelle kann der Wert eingeordnet werden. Die Tabelle zeichnet am Zeilenanfang die Freiheitsgrade „n“ und in den Spalten die ausgewählten Wahrscheinlichkeiten „p“ aus. Wir haben ein Signifikanzniveau in Höhe von 5% festgelegt und zwei Varianten erstellt, die dem „Freiheitsgrad n = 1“ entsprechen.

Nun können wir aus der Tabelle den kritischen Chi-Quadrat Wert ablesen (Zeile n1 und Spalte p0.95), der 3,84 entspricht. Da wir mit unseren fiktiven Häufigkeiten auf den Wert 23,85 kommen, wurde eine statistische Signifikanz nachgewiesen. Das bedeutet das die Evidenz der Annahme, dass die Änderung der Variablen die Conversion-Rate nicht beeinflusst, anhand unserer Stichprobendaten sehr gering ist.

Die häufigsten A/B-Test Fehler

Im folgenden Abschnitt listen wir für euch die häufigsten Fehler auf, die in der Durchführung eines A/B-Tests begangen werden. Diese reichen vom Setup und der Einrichtung eines A/B-Tests bis hin zur Analyse und Interpretation der erhobenen Daten.

Hypothesenbildung und Indikatoren

Wenn die Alternativhypothese nicht spezifisch genug ist, da die Formulierung zu vage beziehungsweise zu allgemein gehalten ist, wird die Messbarkeit mithilfe Key Performance Indikatoren erschwert. Ohne der Bestimmung einer eindeutigen Variable kann kein A/B-Test realistisch ausgeführt werden.

Die Stichprobengröße ist nicht repräsentativ

Ein weiterer Fehler ist eine zu geringe Stichprobengröße und somit fehlende Repräsentativität im Bezug zur Grundgesamtheit. Es gibt viele Online-Rechner mit Hilfe derer die ideale Stichprobengröße für eure Website errechnet werden kann. Unter Umständen kann die eigenständige Berechnung des Stichprobenumfangs als ungeübter Statistiker kompliziert sein.

Der Testzeitraum ist zu kurz

Um aussagekräftige Ergebnisse zu erhalten und die Verzerrung über Zufälle größtenteils auszuschließen, muss neben der Stichprobengröße auch der Testzeitraum für den A/B-Test berechnet werden. Hierfür werden die Stichprobengröße der Variante am Tag, die Conversion-Rate und die relative Verbesserung der Conversion-Rate unter Miteinbezug des Schwellenwerts herangezogen. Auch hier gibt es Online-Rechner die den optimalen Testzeitraum bestimmen.

Fazit

Mit der richtigen Formulierung von Hypothesen und Ableitung der relevanten Key-Performance Indikatoren sowie einer stringenten Testdurchführung und Auswertung, steht einem erfolgreichen A/B-Test nichts im Wege. Es ist jedoch wichtig im Hinterkopf zu behalten, dass für eine langfristige Optimierung der Website-Conversions viele weitere Faktoren eine Rolle spielen und die Veränderung von Webelementen nur einen Teilausschnitt darstellt.

Allgemein