Twinkle | Digital Commerce

Terug naar de basis: shopanalyse met log files

2017-05-27
180101

Voordat Google Analytics bestond werd door menig webmaster gebruik gemaakt van statistiekenprogramma’s als Awstats of Webalyzer. Deze software toont statistieken afkomstig uit de log  files van de server. Hoe kunt u log files inzetten voor uw webwinkel? Terug naar de basis.

Tekst: Marthijn Hoiting

Vrijwel elke server houdt elke server request (bezoeken van een pagina of laden van een afbeelding) bij in een log file. Daarin is in de meeste gevallen de volgende informatie te vinden:

  1. Server IP
  2. Datum + tijd
  3. Methode (GET / POST)
  4. Opgehaalde URL-key of bestandsnaam
  5. HTTP statuscode
  6. Bestandsgrootte in bytes
  7. Referrer informatie (optioneel)
  8. User-agent

Bijvoorbeeld:
66.249.79.89 - - [22/Apr/2015:12:25:23 +0200] "GET /website-url/ HTTP/1.1" 200 22423 "http://www.referendewebsite.nl/url-key/" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Hiermee wordt het volledige verkeer van een website of webshop inzichtelijk. En ook het verkeer van bots en spiders (en de belangrijke zoekmachines). Daarnaast kan met een aanpassing in de server configuratie ook referral (de verwijzende website) informatie worden meegegeven. Deze data zijn zeer interessant en kunnen een aanvulling zijn op de data die u momenteel via Google Webmastertools of Analytics binnen krijgt. De data afkomstig uit deze tools zijn namelijk niet 100 procent accuraat. De log files liegen echter niet en geven informatie prijs die niet met andere tools inzichtelijk wordt.

Een log file download je van de server. Dit kunt u eenmalig handmatig doen, maar ook automatisch. Afhankelijk van de grootte van uw log file kunt u deze openen in Excel. Het kan zijn dat uw log file te groot is om te bewerken met Excel. Download dan Splunk om uw log files te doorzoeken en filteren. Deze tool biedt ook de mogelijkheid om de log files automatisch op te halen, te rapporteren en te visualiseren. Filter uw eigen IP-adres eventueel uit de log files voor een reëler beeld.

De analyses die u kunt toepassen op een log file zijn eindeloos, maar om het gemakkelijk te maken hebben we enkele toepassingen hieronder opgesomd.

Analyse van zoekmachine-robots en -spiders
Wanneer u inzicht in uw log file heeft, is het mogelijk om te zien welke pagina’s geïndexeerd worden door een zoekmachine en wanneer, hoevaak en hoe snel dit plaats gevonden heeft.

Zo weet u aan welke pagina’s uw crawlbudget wordt besteed. Tegen welke errors en crawlproblemen een zoekmachine aanloopt (4xx en 5xx errors, waardoor een pagina niet is te bezoeken).

Zoekmachine-robots lopen tegen 5xx errors aan
Wanneer u tegen een 500, 502 of 503 error aanloopt, dan heeft de server onvoldoende capaciteit om de server request af te handelen. Er wordt in een te korte tijd teveel informatie opgehaald, wat niet snel genoeg geserveerd kan worden. Om dit te voorkomen kan de capaciteit van de server worden uitgebreid of het crawltempo terug brengen van de robot waar het om gaat. Dit kan in Google- of Bing Webmastertools. Voor andere spiders kan het met een crawl-delay in het robots.txt-bestand.

Zoekmachine-robots lopen tegen 4xx errors aan
Wanneer er een server request wordt gedaan naar een pagina of bestand dat niet meer bestaat, dan levert dit een 404 error op. Als u de referral informatie in de log file bekijkt, dan weet u vanaf welke pagina wordt verwezen naar deze inhoud. Het kan zijn dat een interne pagina foutief verwijst, dan kan dit direct opgelost worden door de link aan te passen. Iets lastiger wordt het wanneer een externe pagina foutief verwijst. Vraag of de link aangepast kan worden naar de nieuwe locatie of plaats een 301 redirect naar de nieuwe inhoud. Daarbij heeft het aanpassen van de link de voorkeur boven een 301 redirect, omdat bij de laatste oplossing linkjuice verloren gaat. Probeer 404 errors die het vaakst opgevraagd worden als eerste op te lossen.

Controleer of afbeeldingen niet te groot zijn
Omdat de bestandsgrootte en de bestandsnaam van elke server request worden meegegeven in de log file, wordt het mogelijk om te kijken welke afbeeldingen veel traffic kosten om op te halen. Grote afbeeldingen zijn slecht voor de laadtijden van een pagina en het dataverkeer van de server.

Selecteer alle server requests naar afbeeldingen door te filteren op .png .jpg of .gif. Kijk vervolgens naar de bestandsgrootte. Dit is aangegeven in bytes. (131072 bytes vormen samen 1 mb)

Welke pagina’s bezoekt een zoekmachine wél en welke níet?
Elke website krijgt een crawlbudget toegewezen. Een zoekmachine heeft te weinig capaciteit om elke pagina op het web te indexeren, daarom zullen ze hun recources inzetten voor de meest waardevolle pagina’s. Op den duur zal een zoekmachine stoppen met indexeren als pagina’s weinig onderscheidend meer zijn. Een log file is de manier om te kijken welke pagina’s een zoekmachine vooral wel bezoekt en welke pagina’s nooit of te weinig bezoek krijgen. Aan de hand van de user-agent kan gekeken worden of het om een bot of spider gaat.

"Mozilla/5.0 (compatible; Googlebot/2.1; http://www.google.com/bot.html)" is een voorbeeld van een user-agent van de Google bot.

Controleer altijd of het IP-adres dat zich voordoet daadwerkelijk de spider is waar het om gaat. Hoe u dat voor Google doet leest u hier

Welke delen van de website of webshop krijgen veel of weinig bezoek van een zoekmachine?
Zijn er delen van de website die vaak en voor een groot deel geïndexeerd worden of delen die weinig geindexeerd worden? Filter op categoriepaden om een overzicht te krijgen.

Wat is het gedrag van een afzonderlijk IP-adres?
Door naar alle requests gemaakt door één IP-adres te kijken, kan het bezochte pad achterhaald worden.

Wordt er gebruik gemaakt van 302 redirects?
Een redirect kan permanent zijn of tijdelijk. In het laatste geval is er sprake van een 302 redirect. Het nadeel van een dergelijke redirect is is dat deze geen linkwaarde doorgeeft. Controleer uw log file daarom op eventuele 302 redirects.

Zijn er meerdere opvolgende 301 of 302 redirects?
Wordt een gebruiker, robot of spider meerdere keren geredirect bij een server request? Dit is niet aan te raden. Een request heeft altijd milliseconden vertraging tot gevolg. Daarnaast zal een zoekmachine bij meerdere opvolgende redirects op den duur stoppen met het volgen van deze redirects. Spoor de opvolgende redirects op en vervang ze door een enkele redirect.

Zijn er pagina’s en bestanden die niet volledig gedownload worden?
Door te filteren op een specifieke url-key krijgt u een overzicht van alle keren dat hiervoor een request heeft plaats gevonden. Door de bestandsgrootte te vergelijken kunt u zien of een bestand elke keer volledig wordt gedownload (houd er rekening mee dat de bestandsgrootte tussentijds gewijzigd kan zijn). Het kan zijn dat het volledige bestand niet gedownload kan worden om verschillende redenen.

Conclusie
De mogelijkheden die het analyseren van een log file biedt zijn groot. Download ze en sta versteld van de informatie die een log file bevat.

Marthijn Hoiting is online marketeer bij Guapa Media.