Comment l'algorithme de Dictanova a permis de prédire les 5 finalistes de Miss France 2013

C'est en juin dernier, à l'occasion du salon Time 2 Marketing, que j'ai eu l'occasion de découvrir les recherches de la startup nantaise Dictanova. Ce n'est pas tant leur capacité à "mettre Twitter sur écoute" (d'ailleurs, cette formule n'est pas très heureuse) qui m'intéressait, que leur démonstration de l'intérêt du Big Data appliqué au marketing prédictif.

Durant la conférence, Fabien Poulard (fondateur associé de l'agence) s'est employé à expliquer comment l'analyse sémantique des tweets de téléspectateurs a permis, pour la deuxième année consécutive, de prédire de manière satisfaisante le résultat de l'élection Miss France 2013 avant l'annonce officielle. Il s'agit donc bien d'une performance technologique démontrant qu'il est possible d'interpréter la perception d'un programme ou d'un produit par des consommateurs téléspectateurs internautes.

Un contexte favorable pour une analyse quantitative et qualitative

Bien sûr, une telle prouesse est avant tout rendue possible par le fait que la cérémonie hérite d'une large audience et qu'en conséquence, grâce au live-tweet, les commentaires postés sur Twitter représentent un volume significatif. Jugez vous même : le corpus de tweets traitant de l'émission de télévision dans sa globalité était d'environ 360000 publications (contre seulement 60000 pour l'édition 2012) postés par un peu plus de 100000 utilisateurs. Sur cet ensemble, il fallait ensuite se concentrer sur les tweets faisant référence à au moins une Miss, c'est à dire entre 1/4 et 1/3 du corpus complet.

Cette expérience a permis également de tirer quelques enseignements connexes liés, par exemple, à la publicité ou à l'engagement des membres sur Twitter. Il a été constaté qu'environ 1% des tweets faisant référence au programme Miss France (via un hashtag notamment) traitaient également des écrans publicitaires (lire à ce sujet la dernière partie de la présentation de Dictanova sur Slideshare). Par ailleurs, il est apparu que la grande majorité des utilisateurs n'ont pas posté plus de 5 tweets pour commenter l'émission.

Il est enfin intéressant de noter que la méthode est innovante car elle permet une analyse sémantique, apparemment solide, en tout cas scientifiquement pensée (avec l'élaboration d'un score de polarité). Dictanova compte en son sein des spécialistes du Traitement Automatique du Langage Naturel. Leurs algorithmes permettent une interprétation des conversations plus rapide et plus juste qu'avec des méthodes quantitatives traditionnelles.

Quels sont les aspects de l'élection ayant un impact sur les résultats ?

L'écoute en temps réel des tweets consacrés à l'édition 2013 allait permettre de valider la méthodologie utilisée en 2012 : identifier (puis comprendre) les instants décisifs où l'opinion des téléspectateurs peut potentiellement basculer.

Il a d'abord fallu trier l'information en ne s'intéressant qu'aux données relatives aux miss et mettre de côté tous les tweets traitant de l'émission à proprement parlé (c'est à dire les tweets évoquant le jury, l'apparition de Jamel et Gad Elmaleh, les écrans publicitaires etc...).

Concrètement, l'algorithme retenu pour modéliser la tendance propre à chaque Miss faisait intervenir cinq paramètres :

  • la "notoriété" : on évalue simplement le volume global de tweets évoquant chaque Miss.
  • le "sex appeal" : il s'agit d'évaluer le pouvoir de séduction fondé exclusivement sur l'aspect physique de chaque Miss.
  • la "personnalité" : les Miss sont-elles perçues sympathiques, hautaines, aimables, vulgaires... ?
  • la "féminité" : comment les commentateurs évaluent-ils les comportements et attitudes de chaque Miss ?
  • les "encouragements" vs les "moqueries" : quels sont les Miss suscitant l'agacement, la bienveillance, l'indifférence, l'empathie, l'ironie...?

Durant l'émission, Dictanova annonçait chaque tendance et nouveau pronostic par l'entremise de son compte Twitter MissTweetTV

Dictanova a ainsi pu intégrer le modèle probabiliste de 2012, en consolidant le score global de chaque Miss à l'aide de son score de "notoriété" et de ses scores de catégorie ("sex appeal", "féminité" etc...), rendant possible l'élaboration d'un classement (remis à zéro après chaque tour de l'élection).

Dictanova prédit les cinq finalistes et la gagnante de la cérémonie 2013

En fait, les premières tendances fiables sont apparus peu avant 23h, mais Dictanova dressera un classement revu et corrigé des cinq finalistes qu'à compter de minuit. La durée du programme a d'ailleurs constitué un aspect déterminant dans l'analyse puisque le taux moyen de tweets s’essoufflait considérablement dès 23h45 (le programme durait tout de même plus de trois longues heures). Ce Top 5 se révèle en tout cas assez satisfaisant puisqu'il s'avère correct, à l'exception d'une inversion entre deux candidates.

Voici un résumé de la fin de soirée :

  • selon Dictanova, dès le départ et grâce à son score de "notoriété", Miss Tahiti est largement en tête, suivie de Miss Bourgogne.
  • 30 minutes avant les discours, le score de "féminité" continue de donner l'avantage à Miss Tahiti sur Miss Bourgogne (tandis que les autres catégories représentent un volume encore très faible)
  • mais 30 minutes après les discours, alors que le score de "personnalité" de Miss Bourgogne et le score de "moquerie" de Miss Tahiti ont conjointement augmenté, le score de "notoriété" de Miss Bourgogne rattrape celui de Miss Tahiti (4097 pour Miss Tahiti contre 3832 pour Miss Bourgogne).
  • enfin, le retournement de situation se confirme : le score d'"encouragement" de l'une et le score de "moquerie" de l'autre s'envolent et Miss Bourgogne passe en tête (6154 pour Miss Bourgogne contre 4477 pour Miss Tahiti).

En définitive, la performance n'est pas tant d'avoir su prédire la gagnante de l'élection (le score de "notoriété" permettait cela quelques minutes avant les résultats), mais d'avoir pu pressentir le bouleversement du podium grâce aux scores des catégories, et ce, plusieurs dizaines de minutes à l'avance.