Toutes vos données statistiques à l'épreuve de Google Correlate

Devant sa volonté de multiplier les outils permettant de tirer profit des informations liées à l'activité de son moteur de recherche, Google ne cesse de se rendre indispensable. Qu'il s'agisse de Ngram Viewer ou de Trends, les amateurs et les professionnels de l'analyse de données se voient de mieux en mieux équipés. La firme de Mountain View joue en effet à la perfection la carte du partage et complète désormais sa batterie d'outils de Google Correlate.

Google Correlate est un nouvel outil issu de la plateforme expérimentale de Google Labs. Comme son nom l'indique, ce service permet d'identifier les requêtes du moteur de recherche présentant - entre elles - les mêmes tendances sur une période courant de 2003 à aujourd'hui : on dira que plus le coefficient de corrélation est proche de la valeur absolue 1, plus les deux requêtes comparées sont corrélées. L'unité des graphiques correspond au rapport de l'écart-type à la moyenne.

Ainsi Google propose trois modalités d'utilisation de l'outil et d'analyse :

1/ La comparaison de deux requêtes entre elles, dans le temps et/ou dans l'espace.

Google Correlate confronte votre requête à celles de sa base de données et dresse une liste de requêtes classées dans un ordre décroissant selon leur coefficient de corrélation. Il est résulte soit un graphique sur lequel sont affichés en surimpression la courbe de la requête soumise au départ et la courbe de la requête que vous aurez choisi dans la liste en guise de comparaison, soit deux cartes des Etats-Unis sur lesquelles les requêtes sont géographiquement comparables.

Google Correlate

Dans l'exemple ci-dessus, on observe une forte corrélation (r=0.9515) entre les requêtes "headache" (le mal de tête) et "neck pain" (le mal de cou).

Google Correlate

Dans cet exemple, on a préféré la représentation graphique en "diagramme de dispersion" (plutôt que les courbes traditionnelles). On constate que les requêtes "facebook security" (sécurité sur Facebook) et "delete your facebook account" (supprimer son compte Facebook) sont fortement corrélées (r=0.9434).

2/ La comparaison d'une requête avec une série de données externe

Google Correlate propose également de confronter vos propres séries de données à sa base de données : il suffit pour cela de soumettre à Google un fichier au format CSV contenant une colonne "date" et une colonne "valeur" (la FAQ et le tutorial fournissent plus de détails à ce sujet). Dès lors, tout est possible : qu'il s'agisse des chiffres de vente d'un produit, de l'audience d'un site Web (pratique pour le SEO) ou de la cote de popularité d'un homme politique, l'outil fournira en quelques secondes l'intitulé des requêtes renvoyant les plus forts taux de corrélation. D'ailleurs, au passage, si vous avez expérimenté certains jeux de données particulièrement "parlant", n'hésitez pas à nous en faire part dans les commentaires.

3/ La comparaison d'une requête avec une série dessinées à l'écran

Soyons honnête : cette dernière utilisation du service tient plus du gadget que d'une véritable fonctionnalité indispensable. Google vous invite à "dessiner" une courbe, à la souris. La courbe est ensuite automatiquement convertie en une série de points (un point par date) et confrontée aux requêtes de la base de données.

Google Correlate

Pour cet exemple, j'ai dessiné (tant bien que mal) une courbe partant de zéro en début d'année et atteignant son maximum en fin d'année. Je l'ai répété pour chaque année, de 2003 à aujourd'hui. Parmi les requêtes les plus corrélées, Google détecte la requête "december vacation" (congés de décembre) avec un coefficient de 0.7871.

Mais la corrélation est une notion qui n'est pas toujours évidente à appréhender, notamment lorsqu'on évoque la relation de cause à effet : en effet, deux phénomènes apparemment corrélés ne sont pas nécessairement la cause de l'un et la conséquence de l'autre. Prenons par exemple la requête "sunburn" (coup de soleil), on constate qu'elle est fortement corrélée à la requête "chlorine pool" (chlore de piscine) avec un coefficient de 0.9490 (voir la représentation graphique ci-dessous). Pour autant, chacun admettra que l'une n'est pas la cause ou la conséquence de l'autre. Il convient donc d'être vigilant en analysant l'ensemble de la liste des requêtes (on trouvera par exemple "symptoms of sun poisoning").

Google Correlate

En réalité, et pour mémoire, c'est déjà ce principe qui avait permis à la fondation Google.org d'établir une corrélation entre les requêtes du moteur de recherche relatives à la grippe et l'incidence des épidémies de grippe observée dans le monde entier avec le programme Google Flu Trends. En France, le réseau Sentinelles avait su en tirer profit en validant la pertinence et l'efficacité du procédé.

En définitive, Google Correlate fonctionne comme Google Trends mais à l'envers. Avec Google Trends, vous indiquez une requête et l'outil vous renvoie une série de données (dans le temps ou pour chaque Etats américains). Avec Google Correlate, vous fournissez une série de données et l'outil vous renvoie une liste de requêtes dont les séries statistiques suivent des tendances similaires voire identiques. Signalons enfin que toutes les données de sortie sont, elles aussi, exportables au format CSV, et que l'ensemble du site n'est proposé qu'en langue anglaise.