Twinkle | Digital Commerce

Echte winnaars

2023-05-11
1000562
  • [tips]
  • 2:29

A/B-testen worden steeds vaker gebruikt om te bepalen wat wel en wat niet werkt voor je webshop. Niet elke test levert direct rendement op, dat is logisch. Des te groter is de blijdschap als er wel een positief significant verschil wordt gemeten in een A/B-test. Maar is dat significante verschil wel waar? Hoe vaak zijn jouw winnende testen eigenlijk echte winnaars?

Tekst: Ton Wesseling

Welke significantiegrens hanteer je?

In een A/B-test toets je hoe groot de kans is dat het gemeten verschil kan zijn ontstaan door toeval. Je bepaalt vooraf wanneer je het risico op toeval accepteert. Een normaal uitgangspunt voor veel organisaties is een P-waarde (de waarschijnlijkheidswaarde) van 0,1. Dit vertaalt zich naar een significantiegrens van 90%. Een A/B-testuitslag waarbij het verschil ten faveure van de nieuwe versie 90% significant of meer is, wordt dan gezien als een positief significant resultaat.

Hiermee wordt het risico geaccepteerd dat in één van de tien A/B-testen zonder effect in de werkelijkheid er toch een positief significant verschil gemeten wordt. Werken met een hogere significantiegrens wordt vaak vermeden om te voorkomen dat de kans op het vinden van winnaars erg klein wordt (er zijn dan veel meer bezoekers en conversies nodig).

Met welke Power toets je?

Power geeft aan hoe groot de kans is om in een A/B-test een significant resultaat te meten bij een bepaalde significantiegrens, wanneer er in werkelijkheid inderdaad een verschil is. Hoe kleiner het verschil is dat je wilt kunnen detecteren, hoe meer bezoekers en conversies er nodig zijn in de A/B-test. Te weinig Power in A/B-testen zorgt er vaak voor dat verschillen die er in werkelijkheid wel zijn, niet gemeten kunnen worden. De meeste organisaties werken met een Power van 80%. Zij willen dat in 80% van de A/B-testen waarin er in werkelijkheid een winnaar is, ook daadwerkelijk een positief significant resultaat uit de A/B-test komt.

Gemeten versus echte winnaars

Uit eerder onderzoek blijkt dat organisaties gemiddeld 25% significante positieve resultaten meten in hun A/B-testen: 100 A/B-testen = 25 gemeten winnaars. Met de gangbare Power van 80% en de significantiegrens van 90% kun je uitrekenen hoeveel van deze winnaars echte winnaars zijn (en niet een vals positief resultaat). In dit voorbeeld is dat 69%. Dit is op het randje van acceptabel. Ruim 3 op de 10 winnaars zijn geen echte winnaars. Iets om bij stil te staan voordat je conclusies uit hypotheses trekt!

Soms werken organisaties met een significantiegrens van 80%, omdat dit fijn veel extra gemeten winnaars oplevert. Niet 25%, maar bijvoorbeeld 35%. Het aantal echte winnaar daalt in dit voorbeeld echter naar 57% en dat is zodanig veel dat zelfs je absoluut aantal echte winnaars lager is (waarbij je niet weet wat de echte winnaars onder je gemeten winnaars zijn). Blijf dit goed berekenen, voordat je keuzes maakt met welke significantiegrens je gaat werken.

Webanalisten.nl
Dit artikel is geschreven door Ton Wesseling, evidence-based growth specialist, voor analyse- en optimalisatieplatform Webanalisten.nl. Het originele artikel, inclusief de volledige waarheidsmatrix, kun je hier terugvinden.