Twinkle | Digital Commerce

Hoe houd je Google Analytics schoon?

2017-05-27
25081410
  • 4:29

Ook na de verkiezingen in de Verenigde Staten bleef de campagnemachine draaien. Ditmaal in Google Analytics. Een nieuwe vorm van spam bevuilde de Analytics-rapporten van bedrijven. Hoe houd je je Google Analytics schoon?

Tekst: Sven Buning

In verschillende Google Analytics accounts verscheen in de taalrapporten de tekst: ‘Secret.ɢoogle.com You are invited! Enter only with this ticket URL. Copy it. Vote for Trump!’. Een nieuwe vorm van spam die wij nog niet eerder gezien hadden. Dit vermeende verkeer had namelijk geen obscure referral, notoire internetprovider of onbepaalde hostnaam, maar kwam slechts toevallig, met het doorlopen van de taalrapporten aan het licht. Aangezien dit soort nepdata steeds vaker de Google Analytics rapporten verschijnt, is het zaak om een juiste aanpak te bepalen die deze en andere vormen van spam tijdig signaleert en buiten de deur houdt.

Impact en uitsluiting van taalspam
Hoewel de spam in de taalrapporten een geringe impact heeft op het totale aantal sessies en de gemeten engagement, is het toch aan te raden om alert te zijn op deze ontwikkeling. Makers en verspreiders van dit type spam worden namelijk steeds creatiever in het binnendringen van de Google Analytics-rapporten, waarbij taalspam de meest recente vorm is.

Uiteindelijk hebben wij deze spam weten uit te sluiten met het volgende viewfilter:

Het verkeer met malafide taalinstellingen wordt met de volgende regular expression \s[^s]*\s|.{15,}|\.|, uitgesloten. Mocht u hetzelfde type spam in uw rapporten aantreffen, controleer dan eerst of het patroon ook overeenkomt met de karakters in de expressie die wij hebben toegepast.

Spam bots
Een andere veel geziene vorm van ‘fake’ verkeer in web analytics-rapporten zijn spam bots. Dit zijn programmaatjes die geautomatiseerd online het web doorlopen en informatie verzamelen. Deze bots kunnen tot doel hebben om e-mailadressen te verzamelen, website-inhoud te scrapen, malware te verspreiden of zelfs welbewust het verkeer van websites te beïnvloeden. Wanneer deze programma’s in staat zijn om trackingscripts, zoals gebruikt door Google Analytics, te triggeren dan zal er verkeer in uw rapporteren verschijnen dat geen daadwerkelijke bezoekers representeert. Spam bots zijn in staat om ‘fake’ referral headers te sturen zodat hun oorsprong niet te achterhalen is.

Er zijn een aantal manier om dit nepverkeer aan te pakken. Er kan een filter gecreëerd worden waarbij verkeer van bepaalde domeinen wordt uitgesloten. Hiervoor moet op view-niveau gekozen worden voor het uitsluiten van ‘Campagnebron’, waarbij als filterpatroon alle verdachte domeinen worden opgenomen. Ditzelfde type filter is eventueel ook mogelijk op basis van Internet Server Provider (ISP)-niveau. Online is er verder een ‘Blacklist’ van referrer spam te raadplegen waar je kunt nagaan of jouw verkeer een spam referrer bevat.

Google biedt binnen de interface ook zelf een oplossing om bot-verkeer uit te sluiten. In de beheermodule is het op view-niveau mogelijk om de selectie-box ‘Bots filteren’ aan te vinken, waarmee verkeer van alle bekende bots en spiders wordt uitgesloten.

Ghost spam
Ghost referral spam’ verwijst naar verkeer dat wel als bezoek in de rapporten van GA wordt geregistreerd, maar waarbij nooit een daadwerkelijk bezoek is gebracht. Ook niet door een bot of spider. Dit verkeer kan op twee manieren in uw rapporten terecht komen. Doordat de UA-code van uw webproperty is ‘gekaapt’, waarbij verkeer (sessies maar ook events of zelfs transacties) op een ander domein wordt gemeten maar door het gebruik van uw UA-code aan uw website wordt toegekend. Een andere methode is door middel van het ‘Measurement Protocol’ ‘fake’ http-requests naar de Google server te sturen. In dat geval heeft er nooit, op geen enkel domein een sessie plaatsgevonden, maar wordt er verkeer in de rapporten geregistreerd omdat deze kunstmatig, via het communicatieprotocol, aan uw GA-account wordt gerelateerd.

Dit verkeer is op te sporen door in de Acquisitie-rapporten als secundaire dimensie ‘Hostnaam’ toe te voegen. Wanneer de waarde ‘(not set)’ is, is dit een teken dat er sprake is van ‘Ghost referrer spam’. Ook vreemde events, transacties, maar dus ook verwijzingen naar taalinstellingen kunnen het resultaat zijn van ‘Ghost referral spam’.

Er zijn twee methoden om de genoemde vormen van spam uit te sluiten in Google Analytics.

Methode #1: voor het uitsluiten van verkeer met een vreemde hostnaam kan er een filter worden toegevoegd aan een Analytics-view waarbij alleen geldige hostnamen worden opgenomen:

- Voeg een nieuw filter toe met als naam bijvoorbeeld: ‘Hostnaam filter’.
- Kies voor een aangepast filtertype.
- Kies voor opnemen en dan het filterveld ‘Hostnaam’.
- Bij filterpatroon vul je vervolgens jouw eigen ‘Hostnamen’ in, gescheiden door een ‘|’. Dit ziet er dan als volgt uit: blog.mijndomein.nl|www.mijndomein.nl|mijndomein.folder.nl.

Methode #2: voor ‘Ghost referrer spam’ zonder host bestaat er een oplossing die wel wat extra tagging en configuratie vergt:

- Voeg bij ieder paginaverzoek een ‘security key’ toe aan de URL door middel van een virtuele pageview. Van deze URL’s weet je zeker dat het bezoek daadwerkelijk heeft plaatsgevonden (de trackingcode is immers getriggered).
- Maak een filter op view-niveau aan dat alleen bezoek met ‘Aanvraag-URL’s’ opneemt waarin de ‘security key staat’.
- Creëer een ‘Zoeken en vervangen’-filter waarbij je de ‘security key’ vervangt voor een / zodat de URL’s weer hun oorspronkelijke structuur terugkrijgen (bijvoorbeeld: /Skey2017-1/).

Laatste tip
Om je te helpen bij het controleren op vreemde en mogelijk dus malafide data, is het aan te raden om een ‘Aangepaste melding’ in te stellen. Hiermee kun je instellen dat er een e-mail verstuurd moet worden zodra zich een verdachte ontwikkeling in het verkeer voordoet. Om zo’n melding in te stellen moet binnen de beheerder module voor ‘Aangepaste melding’ gekozen worden. Deze melding kan bijvoorbeeld afgaan bij een verhoging van de bounce rate met 50 procent binnen een dag, een verdubbeling van het directe verkeer of een andere snelle stijging of daling in je data. Kijk om de conditie te kunnen bepalen naar de schommelingen in de historische data, zodat je voor jouw eigen verkeer kunt bepalen wat ‘verdacht’ is.

Sven Buning is data & analytics consultant bij metapeople.