Een website heb je niet voor niets. Je wilt natuurlijk bezoekers die je pagina’s bekijken, artikelen lezen of producten bestellen! Het is dan uiteindelijk ook handig, soms zelfs noodzakelijk, om te weten welke pagina of pagina’s bezocht worden en hoe veel keer dat gebeurt.
Bij onze basic en premium hostingpakketten wordt dit standaard door de hostingserver zelf bijgehouden. Deze zijn terug te vinden in het controlepaneel onder Statistieken / Logs. Per domeinnaam of sub-domein worden simpele statistieken weergegeven, gesorteerd op maand met grafiekjes en tabelletjes.
Hartstikke handig. Toch? Dan moet je wel weten waar je naar kijkt en, belangrijker nog, hoe je moet interpreteren wat je ziet. Wat is bijvoorbeeld het verschil tussen een Hit en een Visit? Wat is een Page, is dat gewoon een pagina?
Statistieken lezen
De eerste tabel geeft eigenlijk direct de meeste informatie die je zoekt. De termen kunnen wat verwarrend zijn, daarom eerst daar maar eens duidelijkheid in verschaffen.
Total Hits |
Het aantal keren dat (een onderdeel van) de website werd opgevraagd. Dit lijkt soms heel hoog, maar vergis je niet. Eén pagina met 10 plaatjes telt als 11 hits: de pagina zelf en ieder van de tien plaatjes los. |
Total Files |
Het aantal keren dat een bestand terug werd gestuurd naar de gebruiker. Dit is doorgaans minder dan het aantal hits, omdat sommige onderdelen van de website in een browser kunnen worden opgeslagen. Denk bijvoorbeeld aan een logo dat op iedere pagina hetzelfde is, dat logo hoeft niet bij ieder pagina-bezoek te worden gedownload. |
Total Pages |
Het aantal keren dat één van de pagina’s is bezocht. Hier betreft het wel volledige pagina’s, dus één pagina met tien plaatjes telt gewoon als één pagina. |
Total Visits |
Het aantal bezoekers van de website. Hier worden dus niet individuele pagina’s geteld, maar worden individuele bezoekers apart bijgehouden. Tip: ruwweg zou je dus uit kunnen rekenen hoe veel pagina’s iedere bezoeker aan doet door ‘Total Pages’ door ‘Total Visits’ te delen. |
Total KBytes |
Iedere bezoeker download wat van de website. Code, afbeeldingen, informatie. Dat zijn allemaal bytes die over het internet verstuurd worden. Het aantal kilobytes aan dataverkeer dat de website heeft gegenereerd is normaal gesproken niet echt belangrijk om te weten, omdat tegenwoordig dataverkeer praktisch ongelimiteerd kan worden aangeboden. |
Total Unique Sites |
Het aantal unieke bezoekers van de website gebaseerd op het IP-adres of de hostnaam van de bezoeker. Tip: door ‘Total Visits’ te delen door ‘Total Unique Sites’ kun je dus ongeveer bepalen hoe vaak bezoekers terugkeren naar de website. Zijn er 1000 visits maar slechts 300 Unique Sites, betekent dat dat iedere bezoeker de website ongeveer 3 keer bezocht heeft. |
Total Unique URLs |
Het aantal unieke pagina’s dat bezocht is. Tip: Deel ‘Total Pages’ door ‘Total Unique URLs’ om te bepalen hoe vaak een gemiddelde pagina bezocht wordt. |
Total Unique Referrers |
Een referrer is een pagina die doorlinkt naar een website. Denk hierbij bijvoorbeeld aan een advertentie via Google Adwords of een vermelding op een forum of blog. Het aantal ‘Unique Referrers’ is dus het aantal links via welke een bezoeker de website gevonden heeft. |
Total Unique User Agents |
User agents zijn doorgaans browsers. Je kunt hieruit afleiden hoeveel van de bezoekers gebruik maken van bijvoorbeeld Edge, Chrome, Firefox of nog wat anders. In principe is dit niet zo heel spannend, maar het kan makkelijk zijn om te bepalen of een website geoptimaliseerd kan worden voor één bepaalde browser (nooit een goed idee overigens!) |
Verderop de pagina staat dezelfde informatie, maar dan verder uitgewerkt met extra statistieken, grafieken en tabellen. Wanneer je bovenstaande uitleg naast de betreffende tabel houdt, krijg je dus een redelijk overzicht van wat de server aan verkeer heeft waargenomen.
AVG, anyone?
De oplettende lezer heeft zich natuurlijk al lang bedacht dat hier iets niet aan klopt. Als de server (in beheer van Flexwebhosting dus) dit soort gegevens monitort en daar statistieken uit haalt, valt dit dan niet onder de AVG? Moet het apart aangegeven worden en mag het überhaupt wel?
Goede vraag! Een van de belangrijkste punten uit de AVG is dat persoonsgegevens die naar een bepaalde persoon kunnen leiden, niet zomaar mogen worden opgeslagen of verwerkt. In dit geval is een IP-adres ook een persoonsgegeven en zelfs een User Agent zou daar onder kunnen vallen, mits er een IP-adres is waarvandaan die User Agent af komt.
Waarom kunnen deze statistieken dan toch worden bijgehouden? Heel simpel.
De server slaat uitgebreide logs op voor vijf dagen. In deze logs staat:
- Het tijdstip van het bezoek;
- Het IP-adres van de bezoeker;
- De opgevraagde pagina;
- Het resultaat van deze aanvraag (is het gelukt, kwam er een foutmelding, bestond de pagina wel?)
- De User Agent waarmee de pagina werd opgeroepen;
Als je al deze informatie bij elkaar op telt, heb je het dus echt wel over persoonsgegevens. Deze logs worden door de server bijgehouden en voor een korte periode bewaard, niet alleen om statistieken van te maken maar juist om te kunnen controleren of en wanneer er iets fout gaat.
Als een site gehackt wordt, kunnen we op basis van deze logs namelijk vaak bepalen hoe dat het gebeurd is. Welke URL werd er aangeroepen vanuit welk IP-adres? Valt het te blokkeren of betreft het hier een lekke plug-in in bijvoorbeeld WordPress of Joomla?
Vijf dagen is een redelijke termijn om deze informatie te behouden. Je merkt immers nooit direct wanneer een hacker zich naar binnen heeft weten te wurmen. Dat kan best wel eens morgen zijn, of misschien wel pas na het weekend.
Als die vijf dagen vervolgens voorbij zijn, worden die uitgebreide logs verwijderd. Geheel volgens AVG is er dan geen spoor meer van deze persoonsgegevens te vinden.
Ondertussen zijn er dan wel die statistieken van gemaakt. Uit die gegevens zijn de persoonsgegevens inmiddels verwijderd of zijn dusdanig uit elkaar getrokken dat ze niet meer te herleiden vallen naar een specifieke persoon of bepaalde bezoeker. IP-adressen worden niet opgeslagen *. User Agents wel, maar alleen om te turven. En alle andere informatie valt niet onder de categorie ‘persoonsgegevens’.
Privacy: check!
* Standaard worden IP-adressen door Webalizer wel opgeslagen bij het omgezetten tot statistieken. Op ons shared hosting platform wordt in het eerste kwartaal van 2020 een configuratie-wijziging uitgerold, waardoor de IP-adressen daarbij weggepoetst worden.
Betrouwbaarheid
Hoe betrouwbaar zijn de statistieken die de hostingserver bijhoudt? Als we hier een eerlijk oordeel over vellen, zou de uitkomst zijn dat je beter voor een alternatief kunnen kiezen. Dit komt door de manier waarop dat deze statistieken worden bijgehouden.
Ieder bezoek aan de website wordt door de server zelf bijgehouden. Hierbij wordt dus alleen maar de basis informatie opgeslagen, zoals datum en tijd, het IP-adres, de pagina of het bestand dat werd aangevraagd. Daar houdt het dan vervolgens mee op.
Waar geen rekening mee wordt gehouden, is met wie die bezoeker daadwerkelijk is. Ben je het zelf? Is het de buurman? Of is het Google, Bing of Yahoo die je website komen indexeren?
Daarnaast is er ook totaal geen indicatie van de herkomst van de bezoekers. Demografische informatie, zoals een land, is nauwelijks te herleiden. Dit is natuurlijk wel belangrijk om te weten, want als het grootste gedeelte van je bezoekers uit België of Duitsland komt en je woont toevallig in die grensstreek, zou je kunnen overwegen om je werkgebied te gaan uitbreiden.
Ten slotte maken spammers en hackers ook vaak gebruik van technieken die een aanvraag nabootsen en daarbij verkeerd beginnen of niet helemaal afmaken. Dit doen ze bijvoorbeeld om een website te scouten, om te zien of het waard is om er meer aandacht aan te besteden. Dit soort aanvragen worden door de server als legaal gezien (en dus verkeer), terwijl een geavanceerdere dienst deze negeert.
Alternatieven
Natuurlijk zijn er meer mogelijkheden dan alleen maar de statistieken-software die DirectAdmin standaard installeert en bijhoudt. Je kunt ze over het algemeen onderverdelen in twee categorieën:
a) Lokaal, op het hostingpakket zelf geïnstalleerd
b) Online, bij een derde partij gehost
In de eerste categorie valt bijvoorbeeld Piwik. Dit is een stukje software dat je op je hostingpakket zelf installeert en koppelt aan een database. Vervolgens voeg je een stukje extra code toe aan iedere pagina van je website en Piwik doet de rest. Inzien van die resultaten gaat dan vaak via een subdomein van je eigen website.
In de tweede categorie kun je denken aan Google Analytics. Zoals de naam al doet vermoeden, is dit een dienst die door Google wordt aangeboden om je websites in de gaten te houden.
Beide varianten zijn gratis te gebruiken. Piwik is Open Source, wat zo veel wil zeggen als 'je kunt de hele broncode lezen', mocht je willen. Ontwikkelaars met ervaring in PHP kunnen dus precies controleren wat de software doet en daar door middel van plug-ins op inhaken om extra functionaliteit in te bouwen. De ontwikkelaars van Piwik verdienen zelf geld door advertentie-inkomsten of het leveren van support.
Analytics van Google is ook gratis, alleen wordt daar vermoedelijk op een andere manier betaald. Ze zeggen wel eens dat voor bedrijven zoals Google en Facebook persoonlijke informatie de prijs is die je betaalt voor het gebruik van die dienst. Dat zal in dit geval niet minder zijn, alleen welke informatie dat er dan daadwerkelijk gebruikt kan worden, is natuurlijk een raadsel.
Beide types van statistiek-providers hebben zo hun voor- en nadelen. Eén voordeel van de lokale software zoals Piwik is dat de informatie niet in handen komt van een derde partij zoals Google, maar dat deze niet buiten de digitale deur van onze hostingserver komt.
Dit is ook meteen weer een nadeel, want als er bijvoorbeeld een nieuw netwerk van spammers of een nieuwe hack-methode wordt ontdekt die de statistieken kan beïnvloeden, zal Google Analytics of een andere online dienst dit meteen door kunnen voeren. Bij een lokale Piwik installatie moet je dan zelf eerst updaten.
Een ander punt in het voordeel van een online dienst is nog dat deze ook kan checken of de website überhaupt nog online is. Google doet dit bijvoorbeeld standaard al. Op het moment dat de website niet bereikbaar is, wordt dat opgemerkt en genoteerd. Maak je daarentegen gebruik van een lokaal geïnstalleerde dienst, zal die ook niet werken als de server down is of de website om een andere reden niet bereikbaar is.
Conclusie
Onder de streep zijn er dus feitelijk drie manieren om een website te monitoren en de bezoekers in de gaten te houden.
Je kunt gebruik maken van de basis functionaliteit die door de server zelf wordt geboden. Hier hoef je niks voor te doen, maar je levert in op betrouwbaarheid.
Wil je meer informatie zonder daar veel moeite voor te hoeven doen, kiest je voor een online dienst zoals Google Analytics. Gemakkelijk in te stellen en uitgebreide mogelijkheden, maar het levert wel een extra vermelding op in je privacy-verklaring.
Wilt je uitgebreide statistieken zonder dat er een derde partij zich er mee bemoeit? Doe het dan zelf met een lokaal geïnstalleerde dienst. Het kost even wat kennis en tijd om het op te zetten, maar dan heb je wel the best of both worlds.