Twinkle | Digital Commerce

Conversietip: omarm significantie

2024-05-15
1000562
  • 2:18

Bepalen of een A/B-test een significant resultaat heeft opgeleverd, gebeurt door middel van een statistische toets. Dit zijn vaste formules waar calculators voor beschikbaar zijn. Toch roepen de resultaten vaak nog vragen op bij mensen met minder statistische kennis.

Tekst: Ton Wesseling

Een vraag over A/B-testresultaten die regelmatig in mijn inbox verschijnt is: ‘Als ik mijn Minimaal Detecteerbaar Effect (MDE) bereken met jouw spreadsheet of met de steekproefgroottecalculator van AB-testguide, krijg ik een MDE van X%. Als ik een iets kleiner effect invoer in bijvoorbeeld de testevaluatiecalculator van AB-testguide (met hetzelfde aantal bezoekers en conversies), is het resultaat nog steeds significant. Hoe kan dat?’

Dit is een schijnbare discrepantie die voortkomt uit een fundamenteel aspect van statistische analyse. De MDE-berekeningen hebben een statistische power-drempel van 80%. Daarmee streven we met een A/B-test naar een kans van 80% dat we een écht effect correct identificeren. En hier ligt de sleutel tot het antwoord: de power-drempel van 80% zorgt ervoor dat A/B-testresultaten kleiner dan de berekende MDE nog steeds als significant kunnen worden gedetecteerd.

De invloed van power

Als we de resultaten van honderden malen dezelfde A/B-test met een bepaald effect visualiseren, vormen ze een normale verdeling (de Bell curve). Deze verdeling loopt uiteen van kleinere effecten dan het ware effect, tot effecten die groter zijn. De vooraf ingestelde power-drempel van 80% zorgt ervoor dat 80% van deze resultaten als significant worden geïdentificeerd (als het effect daadwerkelijk bestaat). Voorafgaand aan de test kun je hierdoor berekenen wat op basis van het aantal verwachte bezoekers bij een power van 80% het daadwerkelijk effect minimaal moet zijn (MDE).

Onder dit raamwerk kunnen effecten kleiner dan de MDE nog steeds statistisch significant zijn. Dit komt doordat we ons niet alleen richten op het detecteren van effecten die groter zijn dan de MDE; we streven naar een alomvattende beoordeling van de effectenverdeling en -significantie. Het is cruciaal om te erkennen dat een significant resultaat belangrijk is, ongeacht of het de eerder berekende MDE overtreft.

Lagere power-drempel

Wanneer je MDE-berekeningen uitvoert met een power van 50%, zullen alle significante resultaten qua effect gelijk aan of hoger dan de MDE zijn. Toch wordt deze lagere drempel niet aanbevolen. Het kan namelijk leiden tot meer valse negatieven (het niet detecteren van ware effecten), denkend dat een template een ‘haalbare’ MDE heeft, wat niet het geval is.

Voor de meeste organisaties zijn de valse negatieven een grotere zorg dan de valse positieven (verklaren dat er een significant effect is, terwijl dat er in werkelijkheid niet is). Blijf daarom werken met een power van 80% voor het berekenen van MDE's en maak je geen zorgen wanneer je A/B testresultaat significant is, maar lager dan de berekende MDE. Dit is een winnaar en dit wil je implementeren.

Webanalisten.nl
Dit artikel is geschreven door Ton Wesseling, Evidence-based Growth specialist, voor analyse- en optimalisatieplatform Webanalisten.nl. Het originele artikel lees je hier.