Twinkle | Digital Commerce

'Stop niet met testen bij significantie'

2017-05-27
180101
  • 1:51

Veel A/B-testen lopen tot er significante verschillen worden waargenomen, waarna ze worden afgebroken. Softwareaanbieders bieden een signaalfunctie voor significantie zelfs als extra feature in hun testpakketten aan. ‘Maar je moet niet kijken naar de resultaten onderweg.’

Dat zei data scientist Lukas Vermeer van Booking.com vanochtend op het Webanalytics Congres in Houten. De keynoter speaker gaf er een presentatie over data science, volgens hem ‘de kunst van het stellen van de juiste vragen en het zoeken van antwoorden’.

Bij Booking.com, door Vermeer beschreven als ‘het best bewaarde geheim van Amsterdam’, lopen continu talloze A/B-testen om in 42 talen zoveel mogelijk boekingen te genereren bij bijna een half miljoen hotels. ‘Veel marketeers gebruiken tools als Optimizely en Visual Website Optimizer voor A/B-tests. Iedereen kent denk ik wel de situatie dat een test dicht tegen significantie aanzit en dat je hoopvol achter je scherm zit te wachten tot dat punt bereikt wordt om conclusies te kunnen trekken.’

Verleidelijke valkuil
Heel verleidelijk, aldus Vermeer, maar ook een valkuil. Hij onderbouwde dat door te wijzen op ‘A/A-tests’ die hij uitvoerde. Daarbij is de ene variant precies gelijk aan de andere. ‘We hebben verschillende van die experimenten gedaan. Van de tests bleek 60 tot 80 procent ergens significant tussen de tien- en de honderdduizend vertoningen, zonder feitelijke verschillen op de site. Als je dan ophoudt met testen, dan is je testresultaat afhankelijk van de manier hoe je zelf kijkt. Pas op dat de patronen die je ziet niet het gevolg zijn van de manier waarop je analyseert’, hield hij de zaal voor.

‘We A/B testen ook de koffieautomaat’
Booking.com gelooft heilig in datagedreven beslissingen. ‘We A/B testen zelfs de koffieautomaat’, aldus Vermeer. ‘Als iemand voorstelt om een bepaalde nieuwe test te draaien dan is het standaardantwoord: “Heb je het al eens op zijn kop gezet?”, letterlijk hè. Dat geldt voor logo’s, lijsten, recommendations et cetera. We zetten die op zijn kop, draaien ze om en testen dan eerst eens wat er gebeurt onder een groep gebruikers. Als er niets verandert, wordt duidelijk welke mensen bij ons beter iets anders kunnen gaan doen.’

Lees ook: