10 données analytiques transmises implicitement par l'internaute

Qu'elles soient récupérées via les logs des serveurs ou grâce aux trackers des solutions webanalytiques, la plupart des internautes disséminent en permanence une série de données propres à leur système informatique. Ces informations sont intéressantes pour le webmaster puisqu'elles vont lui permettre de dresser un profil type des visiteurs de son site, c'est d'ailleurs bien souvent sur cette base que repose toute l'analyse statistique.

Or, comme je l'évoquais dans l'article « Google compromet l'analyse statistique de l'audience », le socle permettant de récupérer toutes ces données est de plus en plus fragile : une recrudescence d'internautes se montrent à l'affût de la moindre parcelle d'anonymat s'offrant à lui. Mais entrons dans le vif du sujet : quelles sont les informations implicitement transmises lorsque vous surfez sur la toile ?


1 - L'adresse IP

Même si elle n'est pas d'une fiabilité absolue, cette donnée est une des plus importantes : elle permet théoriquement de différencier chaque visiteur, d'en déduire son fournisseur d'accès Internet et son hostname. Sur le plan de la géolocalisation, bien souvent, l'adresse IP peut révéler le pays, la ville voire même parfois le quartier du visiteur.

2 - La page visitée

Cette information est une des plus fiables car elle n'est absolument pas nominative : de fait, la cacher au webmaster ne présente pas d'intérêt particulier. Avec cette donnée, on déduit le nombre de pages vues moyen, le taux de rebond. Elle permet également de dresser un classement des pages en fonction de leur nombre de visites.

3 - L'heure de l'évènement

Lié à la page visitée, cette information devient pratiquement indispensable pour interpréter correctement le taux de rebond. On peut également en déduire : le temps passé sur chaque page, le temps moyen passé sur le site, la page d'arrivée, la page de départ ou encore le cheminement complet de l'internaute.

4 - La provenance du visiteur

Cette information est menacée par le protocole SSL car celui-ci empêche la récupération du référant, c'est à dire le site sur lequel se trouvait le visiteur avant d'arriver sur un autre : les solutions Webanalytiques reconnaissent s'il s'agit d'un email, d'un flux RSS, d'un site ou d'un bookmark. Par la même occasion, le tracker récupère l'URL du référant.

5 - La requête formulée sur le moteur de recherche

Dans le cas particulier d'un moteur de recherche, il est possible de récupérer l'intitulé de la requête qui a amené le visiteur sur un site ou une de ses pages. Cette donnée est souvent l'objet d'un énorme travail d'analyse de la part des experts en SEO : elle permet en effet d'évaluer la pertinence et l'efficacité du référencement.

6 - Le click de lien

Qu'il s'agisse du téléchargement d'une pièce jointe, de l'adhésion à une newsletter, d'une visite vers un site distant, tout type d'évènement nécessitant l'intervention d'un click est relevé par le tracker. Il faut relativiser la fiabilité de cette information : le javascript étant indispensable, la donnée est amputée par les internautes l'ayant désactivé.

7 - La résolution de l'écran

Cette information fournit les dimensions de l'écran en pixel (largeur et hauteur), on peut donc en déduire sa surface affichable. Cette donnée peut avoir diverses applications non négligeables puisqu'elle est parfois prise en charge par les feuilles de style pour améliorer l'expérience utilisateur.

8 - Les paramètres du navigateur

Pour les développeurs et intégrateurs Web, il s'agit du nerf de la guerre : ils connaissent les navigateurs les plus utilisées, les versions, si ils sont configurés pour accepter les cookies, si ils sont compatibles avec les sites en flash, javascript, silverlight... Compte tenu des enjeux, il serait néfaste de ne plus y avoir accès.

9 - Le système d'exploitation

Assez trivial, cette information permet tout simplement de récupérer le fabricant et la version du système d'exploitation. Plus finement, on peut également en déduire quelles sont les diverses plate-formes sur lesquelles le site a été affiché : une console de jeux, un téléphone portable, un ordinateur sous Windows, Linux ou Mac OS.

10 - La langue du clavier

Enfin, l'internaute fournit implicitement un paramètre de son clavier : la langue. Avec cette donnée, on en déduit bien sûr la langue du système d'exploitation. Bien souvent, si la langue du clavier diffère de la langue du site visité, alors un navigateur comme Google Chrome est en mesure de proposer d'en traduire les pages.


Naturellement, n'hésitez pas à réagir dans les commentaires pour me donner votre avis ou si la moindre erreur s'était glissée dans mon enquête. Enfin, en terminant cette liste, je me suis rendu compte qu'elle amenait deux nouvelles questions qui feront l'objet d'articles à part entière :

  • de quelles façons la connaissance de ces données peuvent-elles considérablement améliorer votre expérience sur Internet ?
  • pour quelles raisons certaines données ne sont-elles pas récupérables ?