Quand les enjeux du tracking analytics rencontrent l'analyse probabiliste

Depuis l'avènement du webmarketing, les internautes les plus paranoïaques rivalisent d'inventivité pour passer au travers des mailles du filet : ils désactivent le javascript, les cookies, installent des ad-blocks (qui font correctement leur office, mais un peu de zèle aussi) et, solution bien plus radicale, utilisent la version cryptée des sites qui en proposent. À ce jeu du chat et de la souris, force est d'admettre que si l'internaute n'y gagne pas grand chose, les entreprises et agences adeptes de l'e-business risquent sur le long terme et à grande échelle d'y perdre énormément.

En Mai 2010, même Google compromettait l'analyse statistique de l'audience sur Internet.

Désactiver les cookies ne prémunit pas forcément d'être tracké

Cependant, une approche du problème n'avait pas encore été véritablement abordée. Traditionnellement, les internautes pensent qu'ils peuvent se prémunir d'être identifié par un site simplement en désactivant les cookies de leur navigateur. Mais ce n'est pas tout à fait vrai ! En effet, en plus des données individuelles (hostname, adresse IP, système d'exploitation) que vous transmettez habituellement lorsque vous surfez, votre navigateur envoie des informations "non-sensibles" (et anonymes) aux sites Web que vous visitez : les polices de caractère installées, le fuseau horaire, les plugins du navigateur etc... Combinés, tous ces éléments concourent à faire de vous un visiteur de plus en plus unique et reconnaissable : on parlera alors de l'empreinte digitale de votre navigateur Web, sorte de signature permettant de vous identifier en tant que visiteur.

Panopticlick calcule le score de singularité de votre navigateur

Panopticlick calcule le score de singularité de votre navigateur

À quel point la configuration de votre navigateur est-elle rare, voire unique ? C'est la question à laquelle le site Panopticlick se propose de répondre en calculant votre score de "singularité", permettant d'évaluer à quel point vous êtes identifiables lorsque vous naviguez sur la toile et si les sites peuvent potentiellement tracker vos visites, et ce, malgré la limitation ou la désactivation des cookies. Concrètement, l'expérience proposée par Panopticlick consiste en l'analyse de la configuration de votre navigateur, puis en sa confrontation aux autres configurations de la base de données. En d'autres termes, Panopticlick "mesure" l'empreinte laissée par votre navigateur et calcule la probabilité de recevoir la visite d'un autre navigateur ayant la même empreinte.

Que nous apprend cette expérience ?

Comme nous venons de le voir, lorsque vous visitez un site, vous autorisez ce site à avoir accès à de nombreuses informations au sujet de la configuration de votre ordinateur. Or, si ces informations se révèlaient suffisament riches pour constituer une empreinte propre à chaque visiteur, alors on pourrait en tirer une méthode de tracking inédite.

Résultats obtenus dans le cadre d'un test avec Internet Explorer

Résultats obtenus dans le cadre d'un test avec Internet Explorer : on voit qu'un navigateur sur 539538 possède le même User Agent. Par ailleurs, on observe qu'un navigateur sur 8 possède le même fuseau horaire. Par contre, si l'on en croit la base de données de tests, tous les navigateurs possèdent une configuration de plugins différente (1/1'618'614). Panopticlick propose une donnée supplémentaire : le nombre de bits correspondant à la quantité d'information pour identifier un navigateur. Cette information est appelée "entropie" et est expliquée dans un billet du blog de l'EFF.

Au moment de la publication de cet article, plus d'un million et demi d'empreintes ont été collectées, et selon l'Electronic Frontier Foundation, environ 85% d'entre elles sont uniques. Naturellement, ce chiffre baisse sensiblement avec l'aggrandissement de la base de données. Mais en y ajoutant vos propres informations, vous aidez EFF à évaluer la capacité de ce tracking d'un nouveau genre dont l'objectif est d'analyser l'activité en ligne. Pour en savoir plus sur l'expérience, Panopticlick propose un article à télécharger au format PDF.

Une efficacité cependant toute relative

Défendre la perfection de ce procédé reviendrait à omettre l'indispensabilité du Javascript. En effet, il suffirait de couper le Javascript pour mettre en place une puissante défense à l'encontre de ces empreintes digitales : en l'absence des méthodes permettant de récupérer les plugins, les polices de caractère ou les cookies, l'expérience de Panopticlick est considérablement compromise. Pour autant, n'oubliez pas que le javascript permet de faire fonctionner convenablement une majorité de site internet.

Par ailleurs, si cette méthode de tracking était déployée à grande échelle, on peut imaginer, qu'à terme, des patchs, plugins, mises à jour en tout genre sortiraient dans l'objectif "d'endommager" ce fameux score de singularité. Inversement, l'installation d'un plugin ou d'une police de caractère spécifique, installable et modifiable à la volée, pourrait permettre de s'assurer de la singularité absolue d'une empreinte digitale.