Microsoft devine le sexe de vos visiteurs

Microsoft adCenter Labs existe depuis janvier 2006 et a lancé Demographics Prediction il y a quelques mois. Il s'agit d'un outil capable, à partir d'un mot, d'une expression ou de l'adresse d'un site Internet, de fournir le profil type des internautes potentiellement intéressés par la requête formulée.

Sur la base du comportement des internautes tel qu'il a été observé sur le moteur de recherche MSN Search, l'outil est capable de fournir une répartition en fonction de l'âge et du sexe (du moins dans sa version publique, le site évoquant d'autres informations démographiques non dévoilées dans la démonstration).

Son intérêt est principalement commercial, puisqu'il permet aux annonceurs d'en apprendre davantage sur leurs clients, d'améliorer le ciblage démographique et de les aider à enchérir sur les mots-clés les plus appropriés à leur business auprès des régies publicitaires.

Mais plus précisément comment ça marche ?

Demographics Prediction repose en fait sur un historique d'un mois de recherches effectuées sur MSN Search. Seulement, à vrai dire, difficile d'en savoir plus. On peut supposer qu'à l'instar de la fonction "Historique Web" de Google, MSN Search dispose d'une fonction équivalente permettant de faire un lien entre les données personnelles (âge, sexe, localisation géographique) que vous fournissez lors de votre inscription à MSN ou Hotmail et vos requêtes sur le moteur de recherche.

Quoiqu'il en soit, s'il ne brille pas par sa précision, l'outil se révèle néanmoins assez performant et parfaitement cohérent. La distribution générale des internautes utilisée est probablement le reflet de la répartition des utilisateurs de MSN Search (et non de celle de tous les internautes) et constitue une base de référence indispensable pour la bonne observation des tendances.

Les quatre exemples suivants (Cf. l'image ci-dessus) sont représentatifs de quatre types de tendances fortement marquées. Voici l'analyse que nous pouvons en tirer :

SEPHORA : Sephora est une des plus célèbres enseignes de produits de beauté dans le monde. C'est une requête réalisée à 80% par des femmes et à 38% par des internautes de 25-34 ans. Il s'agit non seulement de la tranche d'âge la plus représentée mais également de la tranche d'âge présentant la plus grosse différence avec la distribution générale (+11%). Les résultats de la requête présente une population particulièrement peu représentée en internautes de moins de 18 ans (-6%).

ASSURANCE VIE : véritable outil de transmission du capital, l'assurance vie s'impose comme le placement préféré des Français. Cette requête ne crée pratiquement aucun clivage entre les sexes (51/49%). En revanche, il s'agit principalement d'une requête formulée par les plus de 50 ans avec près d'un tiers d'internautes dans cette classe d'âge et présentant un écart considérable par rapport à la distribution générale (+19%).

HTTP://WWW.POMMEDAPI.COM : le magazine Pomme d'Api est dédié aux enfants de 3 à 7 ans. Il s'agit cette fois non pas d'une requête avec une expression, mais de l'adresse d'un site internet. La population effectuant cette requête est évidemment surreprésentée en jeunes internautes (21% ont moins de 18 ans). C'est la tranche 35-49 ans qui arrive en second pouvant laisser croire que les parents se renseignent pour leur progéniture, idée renforcée par la légère surreprésentation des 50 ans et plus (+3%) et la forte sous-représentation des 18-34 ans (-14%).

CLARA MORGANE : évidemment, une requête sur l'ancienne actrice de porno présente des résultats tranchés. Il s'agit d'une requête réalisée à 90% par des hommes et à 37% par des individus de 18-24 ans (+11% par rapport à la distribution générale).

  1. Ne pas oublier que la base de ces résultats reposent à priori sur une base d'internautes utilisant MSN Search et ayant fourni à minima leur sexe et leur âge.
  2. La définition de "distribution générale" correspond à priori à la répartition par tranche d'âge de la base totale des internautes (toutes requêtes confondues, donc).
  3. La définition de "distribution prévue" (predicted distribution) correspond à priori à la répartition par tranche d'âge du sous-ensemble des internautes ayant déjà formulé cette requête en particulier.
  4. L'outil décrit des tendances basées sur des résultats qui sont par définition le reflet du comportement passé et actuel des internautes.

Comment améliorer cet outil ?

  • Il serait pertinent de connaître le nombre de requêtes sur lequel repose les résultats, car fatalement, plus une distribution repose sur un nombre élevé de requêtes, plus elle se révèle représentative, fiable et significative d'une tendance.
  • un croisement du sexe par l'âge serait une information utile qui permettrait d'observer une éventuelle disparité de sexe au sein d'une tranche d'âge ou une disparité de l'âge au sein du sexe.
  • une distribution générale est fournie pour l'âge, mais pas pour le sexe : est-ce que les utilisateurs de MSN Search se répartissent équitablement entre hommes et femmes ? Cela me semble peu probable !

J'ai soumis ces quelques points ainsi que mes questions à l'adCenter Labs par email, comme ils le suggèrent eux mêmes. Mais je n'ai reçu aucune réponse à ce jour.

Quelles types d'analyses peut-on imaginer avec Demographics Prediction ?

  • L'outil est intéressant dans le cadre d'une observation chronologique (si tant est que l'historique d'un mois soit véritablement "glissant" dans l'année, à vérifier donc) : une tendance observée en Décembre 2008 ne sera peut être plus du tout la même dans six mois. Exemple : il est probable que le profil des internautes ne soit pas le même sur la recherche du mot "Noël" en fonction de la période de l'année. D'ailleurs, cette réflexion prévaut pour toute tendance saisonnière.
  • On peut imaginer une série infinie de comparatifs (marques concurrentes, groupes de rock, produits hightech, personnalités politiques, magazines etc...) et évaluer ainsi en quelques secondes leurs taux de pénétration en terme de recherche sur le web. Exemple : "Nokia N95" a été recherché par 17% de femmes, contre 33% pour "Samsung Lolita Lempicka" (le second étant effectivement un téléphone portable résolument plus féminin).