Les trending topics de Twitter identifiables plusieurs heures à l'avance

Afin de mettre en évidence les sujets les plus chauds, le réseau social aux 140 caractères affiche à tout instant une liste de mots-clés, appelés également "trending topics" et reconnaissables la plupart du temps à leur hashtag (ou "mot dièse" en mauvais français officiel). Cette liste est consultable à différentes échelles géographiques : monde entier, pays ou ville. Les différentes recherches déjà effectuées sur l'algorithme interne de Twitter montrent que les sujets affichés en trending topics répondent à deux facteurs essentiels : le nombre de tweets contenant le mot-clé et la vitesse de croissance de ce nombre. Les démarrages fulgurants semblent donc particulièrement appréciés et il ne s'agirait pas seulement d'une question de volume.

En novembre 2012, Devavrat Shah, un professeur d'informatique, et son étudiant Stanislav Nikolov du Massachussetts Institute of Technology (MIT) ont justement réussi à anticiper l'identification de ces trending topics via leur propre algorithme. Celui-ci est en effet en mesure d'estimer les prochains sujets populaires avec 1h30 d'avance en moyenne et un taux de réussite satisfaisant.

Les raisons qui devraient pousser Twitter à s'intéresser à cet algorithme

Aujourd'hui, sur Twitter, la sélection des trending topics se fait automatiquement via leur algorithme propriétaire, contrairement à la publicité qui se doit pourtant d'être contextualisée pour une meilleure efficacité. Twitter appose en effet une publicité en tête de liste des tendances (un hashtag accompagné de la mention "sponsorisé" ou "promoted"). Dès lors, l'algorithme des deux chercheurs du MIT pourrait être d'un grand intérêt puisque cela permettrait à Twitter d'anticiper les tendances en optimisant ses publicités en fonction des sujets qui s'apprêtent à apparaître dans les trending topics.

Les critères permettant d'anticiper l'émergence d'un trending topic

L'important est d'identifier un modèle mathématique commun à chaque sujet accédant à une exposition dans les trending topics. Une technique consiste à observer les séries de données : ces dernières reflètent d'abord un volume anecdotique pendant quelque temps, puis brusquement, un saut s'amorce. L'identification est donc relativement simple et on comprend que la difficulté réside surtout dans le fait de savoir si le saut aura effectivement lieu, s'il est imminent et qu'elle en sera l'intensité. C'est pourquoi l'algorithme compare l'évolution en nombre de tweets des nouveaux sujet à l'évolution des anciens sujets dont le volume de tweet a explosé.

L'efficacité et la fiabilité du modèle prédictif

Comme pour tout algorithme faisant appel au machine learning (ou "apprentissage automatique"), il faut "donner à manger" au modèle pour l'aider à s'améliorer : plus le nombre de sujets testés sera important, plus le modèle gagnera en fiabilité. Les chercheurs sont d'abord partis d'une base de données contenant 200 sujets populaires et 200 sujets peu relayés, observés à un instant T. Après avoir comparé tous les sujets, l'algorithme s'est employé à attribuer un taux de probabilité de devenir populaire à chacun d'eux. Le résultat s'est révélé très satisfaisant : le professeur et l'étudiant sont parvenus à prévoir les nouvelles tendances avec un taux de précision de 95% et un taux de faux positifs (des sujets identifiés comme devenant populaire à tort) de seulement 4%.

L'utilité de l'algorithme et son application à d'autres problématiques

De ce modèle mathématique, il découle surtout une analyse statistique somme toute assez classique. Ce type de découverte est particulièrement intéressant car la méthode employée est applicable à n'importe quel type de données variant dans le temps (en vrac : l'efficacité des transports, le succès d'un film au box office, le marché boursier etc...), n'importe quelle séquence de mesures effectuées à intervalles réguliers. Pour autant, détecter une corrélation entre des données d'un événementpassé et des données d'un événement futur n'est pas toujours chose aussi aisée que dans le cadre d'une série de tweets. Cela impliquerait bien souvent de disposer de jeux de données beaucoup plus volumineux et de moyens techniques plus coûteux.

Crédit photo : Jennie / Flickr