10 profils d'internaute difficile ou impossible à tracker

Dans cette discipline complexe qu'est le profilage des internautes, il faut malheureusement composer avec toute une série d'obstacles entravant le bon fonctionnement du processus permettant la récupération de données analytiques. Entre l'obsession quasi paranoïaque d'une certaine caste d'internautes cherchant absolument par tous les moyens à être les moins traçables possibles, ou au contraire la masse des internautes "moyens" n'ayant aucune compétence technique en la matière, les statistiques se voient amputées de certaines données (comme la géolocalisation ou les paramètres de navigateur). Ainsi, le comportement de l'internaute vient se mêler à un imbroglio de contraintes techniques aboutissant à une dizaine de causes de la non récupération des données d'un visiteur.

Notez au passage que cet article est la suite annoncée du billet consacré aux 10 données analytiques transmises implicitement par l'internaute.


1 - Le visiteur pressé, trop rapide

Ce type de visiteur repart généralement aussi vite qu'il arrive : il est capable de décider en une poignée de secondes si la page Web en cours de chargement l'intéresse ou pas. Pour la plupart des solutions webanalytics, ces visiteurs sont assez difficiles à tracker puisqu'ils ont la facheuse tendance de quitter la page avant que le script ait eu le temps de comptabiliser leur passage.

2 - Le visiteur utilisant un navigateur sans Javascript

Plusieurs raisons à cela : un navigateur trop ancien, le javascript désactivé par défaut ou des paramètres de sécurité trop restrictifs. Selon W3Schools, en 2008 aux USA, 5% des internautes n'utilisaient pas le Javascript. Un autre facteur agravant est celui des sites pour mobiles : de nombreux sites optimisés pour téléphone portable ne s'embarassent pas du Javascript (d'ailleurs relativement mal pris en charge sur Safari mobile).

3 - Le visiteur réfractaire à toute forme de publicité

Certains utilisateurs ont une réaction épidermique à toute forme d'annonce publicitaire. Ils s'emploient activement à passer au tavers de vos solutions de monétisation via AdBlock (voir la "EasyPrivacy" liste) ou d'autres addons comme Ghostery, qui ont notamment pour conséquence de bloquer le Javascript.

4 - Les robots des moteurs de recherche et les "fausses" visites

Ces visiteurs (crawlers, spiders, wgets, accelarators, caching proxies) ont un statut un peu particulier : ils sont volontairement ignorés des solutions webanalytics, et par voie de conséquence, sont non comptabilisés. Si leur visite vous intéresse, les outils s'appuyant sur les logs des serveurs (les "bot tracker" comme CrawlTrack) peuvent éventuellement fournir ce genre d'information.

5 - Le visiteur associé à une IP dynamique ou partagée

Les internautes détectés par IP sont appelés "visiteur unique" : l'information est généralement fiable, sauf dans le cas des connectés en 3G ou via modem 56k puisque leur IP est dynamique. C'est également le cas de la plupart des clients Orange : les livebox se réinitialisent plusieurs fois par semaine et une nouvelle IP est attribuée à chaque fois. Conséquence directe : ces visiteurs sont considérés comme nouveaux. Dans un autre contexte, si deux internautes dépendent de la même connexion (réseau local ou professionnel), alors il est possible qu'ils soient confondus par votre solution webanalytic.

6 - Le visiteur utilisant un navigateur sans cookie

En réalité, ce type de visiteur est comptabilisé mais il est systématiquement considéré comme nouveau, même s'il s'agit d'un habitué de votre site. Les cookies sont désactivés, à moins qu'il les efface à la fin de chaque session, par réflexe ou nécessité. Pour information, le visiteur détecté via son cookie est appelé "visiteur distinct" : il s'agit vraisemblablement d'une nouvelle notion, plus fiable que le visiteur unique (on estime qu'environ 5% des internautes bloquent leurs cookies).

7 - Le visiteur situé derrière un proxy

Comptabilisés, ils sont en revanche systématiquement considérés comme nouveaux, et sont mal géolocalisés : en effet, le proxy se substitue aux données analytiques de votre navigateur et empêche tout échange direct entre browser et outil webanalytic.

8 - Le visiteur de minuit moins cinq

Si une visite commence le jour J, avant minuit, et se termine le jour J + 1 alors il est probable que l'internaute soit comptabilisé deux fois, les outils webanalytics réinitialisant généralement leurs données à minuit sans se préoccuper des sessions en cours.

9 - Le visiteur vouant un culte à son anonymat

Ce type de visiteur ne souhaite fournir aucune information, ni plus ni moins. Il désactive délibérément le Javascript et les cookies de son navigateur. Il s'empart de la moindre parcelle d'anonymat : il utilise tous les paramètres opt-out mis à sa disposition, et la version SSL du moteur de Google. Concrètement, il fait en sorte que son ordinateur ne communique jamais avec Google Analytics ou se positionne carrément derrière un proxy. En somme : il cumule toutes les précédentes solutions empêchant la récupération de données.

10 - Le visiteur "novice" ou de cybercafé

À l'opposé, il y a l'internaute profane : il n'a aucune notion technique relative aux navigateurs et aux sites Internet. Il n'a donc aucune intention particulière à l'égard de la transmission de ses données personnelles. Mais il ne sait ni ce qu'est le Javascript, ni un cookie, ni une adresse IP, ni un paramètre de sécurité... Or, les ordinateurs publics sont généralement réputés sécurisés à outrance (au point d'en être parfois pratiquement inutilisables). Difficile dans ces conditions de tracker quoi que ce soit de fiable.


Bien sûr, il existe plusieurs solutions pour freiner ces vecteurs de perte d'information (il sera peut-être opportun d'y consacrer un article). Mais bien souvent, il s'agit bien plus d'une rustine que d'une vraie solution pérenne. C'est pourquoi il est important de rappeler qu'il est largement préférable de s'intéresser aux 95% des internautes fournissant un niveau significatif de connaissance et permettant de prendre des décisions éclairées, plutôt que de s'enliser et se soucier du non-suivi des 5% restant.