Le modèle prédictif de Microsoft avait prévu les 5 meilleurs scores de l'Eurovision 2013

Le 18 mai 2013, se tenait la 58ème édition du concours Eurovision de la chanson, organisé par la Suède à Stockholm, réunissant pas moins de 125 millions de téléspectateurs. Cette cérémonie reposant sur des tendances mesurables de grande envergure, David de Rotschild (économiste chez Microsoft Research) publiait une étude mettant le modèle prédictif de Microsoft à l'épreuve quelques jours avant le concours.

Des résultats plutôt impressionnants

Dès le 13 mai, s'appuyant sur les premiers résultats de l'étude, David de Rotschild affirmait déjà sur le blog PredictWise que le Danemark remporterait cette l'édition de l'Eurovision. Il explique d'ailleurs que les résultats ont relativement peu évolué au cours de la semaine et de la soirée. Ainsi, si le Danemark était déjà favori et affichait 41% de chance de gagner, alors à l'issue des demi-finales, il totalisait désormais au moins 54% de chance de l'emporter (ceci en partie dû au nombre de pays concurrents passant de 39 à 26). Le 18 mai, l'étude indiquait que seul le résultat de l'Azerbaïdjan semblait incertain, parfois évincé du Top 5 par la Grèce (qui allait finir 6ème du classement). Puis à quelques dizaines de minutes des résultats définitifs, le modèle indiquait que le Danemark avait 89% de chance de l'emporter et l'Ukraine 7%.

Le modèle prédictif semble finalement particulièrement efficace puisque le Top 5 envisagé juste avant l'émission (dans cet ordre : Danemark, Ukraine, Norvège, Russie, Azerbaïdjan) s'est finalement classé 1er, 3ème, 4ème, 5ème et 2nd (seul l'Azerbaïdjan était donc mal classé). Les cinq derniers du classement ont également été correctement anticipés.

David de Rotschild s'est en tout cas déclaré particulièrement surpris de la stabilité du modèle durant la diffusion de l'émission : selon lui, le suivi en direct des prestations des candidats n'a pas eu de réel impact sur le modèle alors qu'il s'attendait à de profond bouleversement à l'issue de chaque passage.

predictwise_danemark-54-pourcent.jpg

Sur quelles données reposent le modèle prédictif de Microsoft ?

Rappelons pour commencer que le modèle utilisé par Microsoft Research repose sur des technologies Big Data et avait déjà été testé sur plusieurs élections présidentielles et cérémonies des oscars. Il repose en grande partie sur trois types de données :

  • Les commentaires sur les réseaux sociaux (en particulier Twitter)
  • Les tendances sur les moteurs de recherche
  • Les sondages d'opinion
  • Les paris d'internautes (YouWin, Bet365, Betfair, BetWay...)

Deux types de données sont en revanche identifiés comme moins pertinents :

  • Les bookmakers britanniques : ces sources sont de plus en plus souvent mises de côté tant elles sont accusées d'être subjectives (le but étant avant tout de maximiser un profit).
  • Les succès des vidéos sur Youtube : par exemple, le clip du Montenegro pourtant très euh... populaire (1.3 millions de vues au moment de l'étude) n'a pas passé les demi-finales. Pourtant les dix potentiels vainqueurs établis selon le modèle prédictif figuraient dans le Top 15 des clips les plus regardés.

Il subsistait encore l'hypothèse de la "prophétie auto-réalisatrice" : n'y avait-il pas un risque pour que ces prévisions influencent les membres du jury ? Selon David de Rotschild, cette hypothèse avait été envisagée dans l'élaboration du modèle mais ne modifier en rien les résultats.

Rappelons enfin que l'ambition de Microsoft est avant tout de construire un modèle le plus précis possible afin de pouvoir l'utiliser pour comprendre les marchés financiers et l'économie internationale. En effet, David de Rotschild déplore que les indicateurs économiques traditionnels sont un peu trop limités. Mais selon lui, les technologies Big Data devraient à terme faciliter la prise de décision, et d'ailleurs, il est particulièrement enthousiasmé par le fait qu'on puisse appliquer un même modèle et une même technologie à des domaines totalement différents (politique, Oscars, Eurovision, finance...).