Twinkle | Digital Commerce

Betrouwbare data

2022-11-02
1000562
  • [tips]
  • 2:31

Beslissingen nemen op basis van de uitslag van een A/B-test is een uitstekend idee. Het is dé methodiek om causaliteit aan te tonen, om te begrijpen wat het effect is van een wijziging. Dit gaat echter mis wanneer de metingen van je A/B-test niet betrouwbaar zijn. Hoe voorkom je dat?

Tekst: Ton Wesseling

SRM-Error

Binnen je A/B-test verdeel je normaliter de gehele populatie random in twee groepen van 50 procent. De realiteit is dat na afloop van de A/B-test deze twee groepen niet geheel in balans zijn. Kleine afwijkingen zijn normaal. Pas wanneer de kans minder dan 1 procent is dat de afwijking in populatieverdeling door toeval is ontstaan (de huidige industriestandaard), moet je je zorgen gaan maken. Dan is er sprake van een Sample Ratio Mismatch (SRM-)Error. Je wilt dit niet alleen beoordelen voor je totale aantal bezoekers, maar ook voor belangrijke subsegmenten zoals nieuw en terugkerend bezoek, devices, browsers en herkomst. De praktijk leert dat 5 tot 10 procent van de A/B-testen SRM-Errors bevat. Dit kan meerdere, vooral technische, redenen hebben. Dit moet je natuurlijk onderzoeken, begrijpen en verbeteren, maar je kunt vooral een A/B-testuitslag met een SRM-Error niet accepteren. Door een onbalans in populatie kun je eenvoudig verkeerde beslissingen nemen.

A/A-testen

Je hebt vast wel eens een A/A-test uitgevoerd. Dezelfde pagina testen tegen dezelfde pagina om meetfouten en andere errors te spotten, maar ook om te zien of het resultaat van deze A/A-test geen significante uitslag heeft. De realiteit is echter dat de uitslag wel significant zou kunnen zijn. De P-value (waarschijnlijkheidswaarde) van een eenzijdige A/A-test ligt tussen 0 en 1, waarbij de kans op een uitslag van 0.50 (de verwachte uitslag) of 0.72 of 0.34 of zelfs 0.02 (significant) even groot is. Om te testen of jouw A/B-test uitslagen wel betrouwbaar zijn moet je niet één, maar honderd of meer A/A-testen uitvoeren (of simuleren), waarbij je de P-value van elke uitslag plot op een lijn van 0.00 tot 1.00. Pas als deze plot een evenredige verdeling geeft over de hele lijn, is je systeem in balans. Wanneer je plot erg afwijkt naar links of naar rechts, dan zul je te vaak verkeerde winnaars of verkeerde verliezers meten. Een A/A-test reeksplot in onbalans vraagt om uitzoeken en oplossen!

HyperLogLog++

Meerdere webanalyse oplossingen maken gebruik van het HyperLogLog(++) algoritme om bij grote datareeksen sneller cijfers in rapportages te laten zien. Dit gaat wel ten koste van een Standaard Error van 2 procent. Deze afwijking is natuurlijk niet plezierig voor het bepalen van het resultaat van je A/B-test. Je wilt rekenen met ruwe data. In Universal Analytics van Google was dit algoritme nog een optie die je kon uitzetten voor de rapportages (hoewel het standaard aan staat bij nieuwe accounts), in GA4 is het een vast gegeven geworden. Alleen als je de data exporteert naar BigQuery heb je ruwe data. Let hierop bij het analyseren van je A/B-test! Ook Adobe en andere leveranciers maken gebruik van dit algoritme om rapportages te versnellen.

Webanalisten.nl
Dit artikel is geschreven door Ton Wesseling, evidence-based growth specialist, voor analyse- en optimalisatieplatform Webanalisten.nl. Het originele artikel vind je hier.