10 profils d'internaute difficile ou impossible à tracker
Publié par Guillaume Main dans le dossier Analyse | 20 septembre 2010
Dans cette discipline complexe qu'est le profilage des internautes, il faut malheureusement composer avec toute une série d'obstacles entravant le bon fonctionnement du processus permettant la récupération de données analytiques. Entre l'obsession quasi paranoïaque d'une certaine caste d'internautes cherchant absolument par tous les moyens à être les moins traçables possibles, ou au contraire la masse des internautes "moyens" n'ayant aucune compétence technique en la matière, les statistiques se voient amputées de certaines données (comme la géolocalisation ou les paramètres de navigateur). Ainsi, le comportement de l'internaute vient se mêler à un imbroglio de contraintes techniques aboutissant à une dizaine de causes de la non récupération des données d'un visiteur.
Notez au passage que cet article est la suite annoncée du billet consacré aux 10 données analytiques transmises implicitement par l'internaute.
1 - Le visiteur pressé, trop rapide
Ce type de visiteur repart généralement aussi vite qu'il arrive : il est capable de décider en une poignée de secondes si la page Web en cours de chargement l'intéresse ou pas. Pour la plupart des solutions webanalytics, ces visiteurs sont assez difficiles à tracker puisqu'ils ont la facheuse tendance de quitter la page avant que le script ait eu le temps de comptabiliser leur passage.
2 - Le visiteur utilisant un navigateur sans Javascript
Plusieurs raisons à cela : un navigateur trop ancien, le javascript désactivé par défaut ou des paramètres de sécurité trop restrictifs. Selon W3Schools, en 2008 aux USA, 5% des internautes n'utilisaient pas le Javascript. Un autre facteur agravant est celui des sites pour mobiles : de nombreux sites optimisés pour téléphone portable ne s'embarassent pas du Javascript (d'ailleurs relativement mal pris en charge sur Safari mobile).
3 - Le visiteur réfractaire à toute forme de publicité
Certains utilisateurs ont une réaction épidermique à toute forme d'annonce publicitaire. Ils s'emploient activement à passer au tavers de vos solutions de monétisation via AdBlock (voir la "EasyPrivacy" liste) ou d'autres addons comme Ghostery, qui ont notamment pour conséquence de bloquer le Javascript.
4 - Les robots des moteurs de recherche et les "fausses" visites
Ces visiteurs (crawlers, spiders, wgets, accelarators, caching proxies) ont un statut un peu particulier : ils sont volontairement ignorés des solutions webanalytics, et par voie de conséquence, sont non comptabilisés. Si leur visite vous intéresse, les outils s'appuyant sur les logs des serveurs (les "bot tracker" comme CrawlTrack) peuvent éventuellement fournir ce genre d'information.
5 - Le visiteur associé à une IP dynamique ou partagée
Les internautes détectés par IP sont appelés "visiteur unique" : l'information est généralement fiable, sauf dans le cas des connectés en 3G ou via modem 56k puisque leur IP est dynamique. C'est également le cas de la plupart des clients Orange : les livebox se réinitialisent plusieurs fois par semaine et une nouvelle IP est attribuée à chaque fois. Conséquence directe : ces visiteurs sont considérés comme nouveaux. Dans un autre contexte, si deux internautes dépendent de la même connexion (réseau local ou professionnel), alors il est possible qu'ils soient confondus par votre solution webanalytic.
6 - Le visiteur utilisant un navigateur sans cookie
En réalité, ce type de visiteur est comptabilisé mais il est systématiquement considéré comme nouveau, même s'il s'agit d'un habitué de votre site. Les cookies sont désactivés, à moins qu'il les efface à la fin de chaque session, par réflexe ou nécessité. Pour information, le visiteur détecté via son cookie est appelé "visiteur distinct" : il s'agit vraisemblablement d'une nouvelle notion, plus fiable que le visiteur unique (on estime qu'environ 5% des internautes bloquent leurs cookies).
7 - Le visiteur situé derrière un proxy
Comptabilisés, ils sont en revanche systématiquement considérés comme nouveaux, et sont mal géolocalisés : en effet, le proxy se substitue aux données analytiques de votre navigateur et empêche tout échange direct entre browser et outil webanalytic.
8 - Le visiteur de minuit moins cinq
Si une visite commence le jour J, avant minuit, et se termine le jour J + 1 alors il est probable que l'internaute soit comptabilisé deux fois, les outils webanalytics réinitialisant généralement leurs données à minuit sans se préoccuper des sessions en cours.
9 - Le visiteur vouant un culte à son anonymat
Ce type de visiteur ne souhaite fournir aucune information, ni plus ni moins. Il désactive délibérément le Javascript et les cookies de son navigateur. Il s'empart de la moindre parcelle d'anonymat : il utilise tous les paramètres opt-out mis à sa disposition, et la version SSL du moteur de Google. Concrètement, il fait en sorte que son ordinateur ne communique jamais avec Google Analytics ou se positionne carrément derrière un proxy. En somme : il cumule toutes les précédentes solutions empêchant la récupération de données.
10 - Le visiteur "novice" ou de cybercafé
À l'opposé, il y a l'internaute profane : il n'a aucune notion technique relative aux navigateurs et aux sites Internet. Il n'a donc aucune intention particulière à l'égard de la transmission de ses données personnelles. Mais il ne sait ni ce qu'est le Javascript, ni un cookie, ni une adresse IP, ni un paramètre de sécurité... Or, les ordinateurs publics sont généralement réputés sécurisés à outrance (au point d'en être parfois pratiquement inutilisables). Difficile dans ces conditions de tracker quoi que ce soit de fiable.
Bien sûr, il existe plusieurs solutions pour freiner ces vecteurs de perte d'information (il sera peut-être opportun d'y consacrer un article). Mais bien souvent, il s'agit bien plus d'une rustine que d'une vraie solution pérenne. C'est pourquoi il est important de rappeler qu'il est largement préférable de s'intéresser aux 95% des internautes fournissant un niveau significatif de connaissance et permettant de prendre des décisions éclairées, plutôt que de s'enliser et se soucier du non-suivi des 5% restant.
Commentaires
11. Le visiteur qui ne vient jamais ! Très difficile à tracker !
Bon boulot, merci
J'ai du mal à la lecture de cette article.
Alors, déjà sur le point 2 c'est juste totalement faux, ces internautes sont pas à 100% mais totalement intégré dans les outils analytiques classiques. La balise <noscript> est exécuté uniquement si un internaute n'a pas activé le javascript. Dans ce cas une image est chargé à la place et cette image va contenir les informations les plus importantes, IP, cookie et donc de quoi différencier page, visite et visiteur.
Au niveau des proxy on peut nier parfaitement le problème, la très grande majorité des proxy n'anonymise pas. On retrouve l'IP d'origine dans l'entête HTTP.
L'IP dynamique a toujours été prise en compte par tous les outils. Les cookies sont justement déposé pour cette raison. Dans le pire des cas, la personne aura bloqué les cookies et il ne restera plus que celui de la session. Là en effet on va un peu fausser les stats mais très légèrement.
Maintenant au niveau des chiffres. Il y a plutôt 2,5% des internautes qui refusent les cookies et 1% qui désactivent le Javascript en France.
Non, tous les outils ne proposent pas une balise <noscript>, et non, tous les webmasters ne prévoient pas nécessairement d'insérer cette partie du code (j'ai de très nombreux exemples sous la main si vous insistez).
Pour le proxy, dans quel monde vivez-vous ? L'utilisation des proxys anonymes se démocratisent à vitesse grand V...
Ai-je dis que l'IP dynamique n'était pas prise en compte par les outils ? Je persiste et signe : avec une IP dynamique, on apparaît bien comme un visiteur NOUVEAU dans les outils. Et au passage, je crains que vous n'ayez lu l'article en diagonale.
Au niveau des chiffres, contrairement à vous, je préfère donner des sources (c'est pourtant le b.a.-ba quand on avance des statistiques), comme je l'ai fait dans l'article avec les chiffres du W3C qui sont tout sauf des estimations au doigt mouillé.
J'accepte la critique quand elle est menée avec un peu plus d'argument et un peu moins de véhémence. ;)