ElectionScope : que penser du modèle prédictif qui voit Sarkozy l'emporter ?
Publié par Guillaume Main dans le dossier Analyse | 16 avril 2012
Incompris, comparés à de l'astrologie, traités avec dédain par une presse souvent hilare, force est d'admettre que les modèles prédictifs pâtissent généralement d'une mauvaise presse en France. Aussi, lorsque deux économistes annoncent la victoire de Nicolas Sarkozy au second tour de la présidentielle avec 50.3% de voix, il n'en faut pas plus pour que toute la gauchosphère intellectuelle s'en amuse lourdement ou s'en offusque ostensiblement.
L'objectif de cet article n'est pas tant de déterminer si le modèle prédictif est valide, que de débroussailler un peu le sujet et vérifier la crédibilité de la démarche réalisée par les deux économistes : identifier les méthodes, les mécanismes, l'intérêt du procédé...
Bienvenu dans l'Inquisition contemporaine !
Il y a au moins trois réactions possibles à la conclusion-choc de ce modèle :
- l'accueil par le dénigrement, le cynisme et/ou l'ironie car il est hors de question d'approfondir le sujet ni d'identifier ne serait-ce qu'un bout d'élément probant dans la démarche de ces deux universitaires.
- il y a éventuellement la curiosité "polie" : on s'en tiendra à ce que veut bien nous expliquer Le Parisien, L'Expansion, Le Figaro ou L'Express sans creuser plus loin, et clore cette lecture d'une légère moue sceptique.
- enfin il y a la curiosité saine, celle qui consiste à croiser les informations et à juger sur pièce en fonction de l'ensemble des éléments portés à notre connaissance et en tirer les conclusions qui s'imposent.
Autant vous dire que sur le site d'actualité des chercheurs en mathématiques du CNRS, c'est la première méthode qui prédomine. Je ne rentrerais pas dans la doxa de ces professeurs de mathématiques qui préfère balayer l'annonce d'un revers de main en citant (très maladroitement) un sketch de Coluche, et en invalidant le bien fondé du modèle sur l'unique fait que l'information est relayée par le Figaro et signée de la main de deux chercheurs dont le cursus universitaire est, à priori, imprécis. L'article et ses commentaires sont postés par des mathématiciens de tout poil n'hésitant pas à comparer les travaux des deux économistes ni plus ni moins à de "l'amusette", de l'astrologie, de la fantaisie, de l'ânerie, ou même n'ayons pas peur des mots, à de la "magie" ! (sic)
Les principes de base d'un modèle prédictif
Rappelons d'abord un des principes de base d'un modèle prédictif. Plus il dispose d'informations, moins il se trompe. Aussi, s'il venait à se tromper sur l'issue du deuxième tour de la présidentielle française, le modèle ne devrait pas nécessairement être évincé. Par contre, et c'est là que la démarche est intéressante, les nouvelles données (ayant amené à l'échec du modèle ancienne version) devrait simplement permettre de l'améliorer, car jusqu'à preuve du contraire, un modèle prédictif est juste. Toute la difficulté et l'objectif de la démarche est d'élaborer un modèle capable de ne jamais se tromper, ou en tout cas le plus tard possible.
Un autre aspect qui devrait pourtant jouer en sa faveur auprès du grand public est que, contrairement aux sondages, un modèle prédictif n'a pas vocation à mesurer une situation du présent. Il essaye d'anticiper la mesure d'un résultat final, à partir de données connues dont il s'alimente au moment de l'élaboration du modèle. C'est d'ailleurs ainsi qu'une nouvelle estimation à 50.2% était avancée sur la base des dernières données trimestrielles du chômage (disponibles depuis quelques jours). Le terme consacré est celui de "simulation". La démarche qui vise à élaborer un modèle prédictif est particulièrement pertinente puisqu'il s'agit d'identifier des variables explicatives d'un résultat final : elles constituent une sorte de dénominateur commun, déterminant pour la faisabilité du calcul.
Les rouages du modèle prédictif d'Electionscope
L'overfitting (qu'on pourrait traduire par les "effets non modélisés"), dénoncé par nos éminents mathématiciens, est un biais qui intervient lorsqu'un modèle statistique est exagérément complexe (trop de paramètres pour trop peu d'observations) ou lorsqu'il donne trop d'importance au "bruit" ou à l'erreur aléatoire. Le risque est d'exagérer l'influence de tendances mineures détectées dans les données. Dans l'exemple qui nous intéresse, je me risquerais à dire que ce n'est vraiment pas le cas...
Le modèle repose sur le principe de la théorie économique du vote : les électeurs évaluent la situation et votent en conséquence. Si celle-ci est globalement bonne, alors le vote sera favorable au sortant (vote "récompense"). Inversement, si la situation n'est globalement plutôt pas bonne, alors l'électeur votera en faveur de l'opposition du sortant (vote "sanction") : il s'agirait donc d'une sorte de "référendum sur la gestion du parti sortant". La situation est un premier levier de décision : le vote tient moins compte des promesses électorales que du bilan du président sortant.
Mais les facteurs politiques ne suffisent pas : de fait, le vote n'est pas un acte résolument pragmatique ou réaliste, ni forcément idéaliste. Notre intention de vote pour un candidat n'est pas automatiquement en adéquation parfaite avec les idées (donc les programmes) qu'on souhaite défendre. C'est d'ailleurs ce que nous révèle le Comparacteur 2012 en mesurant un taux d'affinité des électeurs envers les programmes des candidats. Apparemment, l'électorat serait plutôt favorable aux programmes de François Hollande, François Bayrou, Eva Joly et Nicolas Dupont-Aignan. Dans la pratique, on le sait, le quatuor de tête annoncé par les sondages d'intention de vote est tout autre.
Aussi, Electionscope indexe son modèle prédictif en grande partie sur l'évolution du taux de chômage, un indicateur particulièrement déterminant et "écrasant" dans l'évaluation de l'état de santé du pays. Il prend également en compte le taux de croissance, l'ampleur du déficit public, la cote de popularité et la perception de la situation des Etats-Unis.
Les précédentes prédictions "réussies" du modèle et les hypothèses
En l'état, le modèle intègre 38 années d'historique de résultats politiques et économiques. Bruno Jérôme et Véronique Speziari affirment que le modèle a fonctionné en France avec le résultat final des législatives de 1997 et 2002 ou avec 80% des villes de taille moyenne lors des municipales 2001. Il a également prédit avec succès le résultat des trois dernières élections présidentielles françaises et américaines (avec deux mois d'avance), ainsi que les législatives de 2005 en Allemagne. Certains aspects fragilisent néanmoins la stabilité du modèle par leur caractère exceptionnel, comme les cohabitations (1995 et 2002) ou le fait que le président sortant brigue un second mandat (2002 et 2012).
Les instituts de sondage tablaient encore récemment sur un taux d'indécis situé entre 30 et 36% (selon OpinionWay, IPSOS, IFOP, début avril 2012). Cela tend à ne pas invalider immédiatement la prédiction du modèle plaçant Nicolas Sarkozy au second tour avec 50.2% de suffrage. En tout cas, il convient de se demander ce qu'il adviendra de l'électorat d'indécis dans les prochains jours. Pour autant, on ne peut guère tirer d'autre conclusion de cette prédiction que celle qui consiste à envisager un entre deux tours particulièrement déterminant. Car, selon le modèle et contrairement à ce qu'affirment pour le moment les sondages d'intention de vote, les deux qualifiés seraient au coude à coude, et les marges d'erreur (évaluées à plus ou moins deux points) pourraient faire basculer la prédiction dans un sens comme dans l'autre.
Et si, paradoxalement, le rapport de défiance que les français sont de plus en plus nombreux à entretenir à l'égard des sondages engendrait une surestimation de l'électorat de gauche ? D'une part, la pression médiatique tend à effacer les "petits" candidats, dont le traitement est loin d'être équitable : les médias traditionnelles n'hésitent d'ailleurs pas à jouer le rôle d'une caisse de résonance favorable aux cinq favoris sur le plan de l'occupation du terrain médiatique. Mais est-on bien sûr que cette pression n'induit pas non plus une sous estimation de l'électorat de Nicolas Sarkozy ? Affublé du statut de candidat sortant au bilan largement critiqué, il n'est pas à exclure que Nicolas Sarkozy profite d'une espèce de "vote caché" le 6 mai prochain (le "Sarkozysme honteux" de certains électeurs).
D'ailleurs, à l'instar du lobby anti-sondage français perpétré par cette caste de sociologues et politologues gauchistes, je ne peux m'empêcher de croire que le principal défaut de ce modèle pour ses détracteurs est qu'il annonce la victoire d'un candidat qui n'est pas le leur. Mon côté provocateur pourrait presque me donner envie que le modèle voit juste...
Commentaires
j'allais lire l'article avec intérêt quand j'ai vu la définition donnée à "overfitting" : c'est n'importe quoi !!!
il suffit d'aller sur wikipedia pour le comprendre:
http://fr.wikipedia.org/wiki/Surapp...
http://en.wikipedia.org/wiki/Overfi...
Du coup l'auteur passe pour quelqu'un qui ne connaît pas son sujet (grrr...) - soit aussi naze que les dérives qu'il prétend combattre.
Pourquoi faire un commentaire si c'est pour balancer une bombe sans la MOINDRE explication ? Ce blog est l'endroit idéal pour comprendre et expliquer les choses. Je n'ai pas la prétention de tout savoir sur tout, mais j'essaye quand même de rendre intelligible ce que relaye la presse "fourre tout". Donc, plutôt que de donner deux liens sans la moindre explication, il aurait été intéressant et constructif de relever point par point ce qui ne va pas dans cette démonstration.
Ce que dit la page Wikipedia anglophone : "A model which has been overfit will generally have poor predictive performance, as it can exaggerate minor fluctuations in the data. (...) The potential for overfitting depends not only on the number of parameters and data but also the conformability of the model structure with the data shape, and the magnitude of model error compared to the expected level of noise or error in the data."
Ce que je dis : "L'overfitting (qu'on pourrait traduire par les "effets non modélisés") est un biais qui intervient lorsqu'un modèle statistique est exagérément complexe (trop de paramètres pour trop peu d'observations) ou lorsqu'il donne trop d'importance au "bruit" ou à l'erreur aléatoire. Le risque est d'exagérer l'influence de tendances mineures détectées dans les données."
Honnêtement, je ne vois pas ce qu'il y a de fondamentalement différent. Je serais même prêt à parier que vous avez copié collé les deux liens Wikipedia sans même les lire. ;)
Je ne suis pas mathématicien du tout, et je ne peux donc pas juger la méthodologie. En revanche je suis assez psychologue (ou plus modestement instinctif) et on est obligé de constater la discordance entre un Hollande donné gagnant dans TOUS les sondages, et un perceptible "malaise" voire une forte incertitude dans le camp favori. D'habitude, le camp qui va gagner (surtout quand le doute n'est officiellement pas permis) commence à faire la fête et se lâche plus. Ce n'est pas la fête au PS et s'est bizarre. Comme s'ils n'avaient pas confiance non plus dans des sondages aussi catégoriques. Certains sentent inconsciemment que la victoire n'est pas au rendez-vous. Au delà du contenu du discours, s'est le perdant qui est "frais", calme et parle clair dans les médias généralistes. Alors que le gagnant est plus figé, avec une diction saccadée et une voix couverte....Bizarre. On se doit au moins de douter.
"je serais même prêt à parier" : pas très scientifique tout cela ! Comme votre article d'ailleurs.
@sanboma : Merci pour ce commentaire hautement informatif... Récemment, on m'a dit : "je suis au chômage et je vote quand même pour Sarkozy, ça marche pas votre truc" (sic). Donc je veux bien croire qu'il y ait un long travail à mener avant que les gens comprennent la notion d'échantillon, de population et le principe de prédiction. Au lieu de ça, une lourde part de la population se révèle bassement nombriliste : "les instituts de sondage mentent, ils ne m'ont jamais sondé".
@rastafari : Votre analyse est intéressante mais je pense que cette discordance montrant un favori manquant d'assurance et "ne faisant pas la fête" peut s'expliquer autrement. Depuis le début de la Vème république, jamais un président candidat n'a perdu une présidentielle et cela semble peser lourd sur le moral des troupes dans l'opposition.
Bonjour,
Article intéressant, mais un peu technique pour moi. En fait si j'ai bien compris ce modèle prend en compte plusieurs statistiques dont le taux de chômage. Or j'ai entendu ce matin que le chômage avait augmenté de 0.6 ce qui n'est pas une bonne nouvelle. Cela modifie-t-il la donne en profondeur? Par rapport aux résultats maintenant connus du 1er tour, le modèle donne t-il un nouveau pronostic pour le second tour?
Je voulais juste préciser que vous faites une petite erreur, un seul président candidat de la Ve a perdu la présidentielle : Valery GISCARD D'ESTAING en 1981, il me semble.
Bonjour,
Dans le cadre de ce modèle prédictif, il est très probable qu'une nouvelle baisse du chômage soit défavorable au président sortant puisque le modèle part du principe que les électeurs effectuent un vote "récompense" ou un vote "sanction" notamment en fonction de leur situation propre. Or, si la situation se dégrade (chiffre du chômage), alors le vote "sanction" devrait progresser. Début Avril, le modèle donnait 50.2% à Sarkozy (contre 50.3% les mois précédents).
Et pour Valéry Giscard d'Estaing, vous avez 100% raison. Cela dit, c'est réellement la seule exception en 54 ans de Vème République.
Oui un seul sondage (ou prévision) en faveur du sortant peut être étonnant.mais les critères retenus par les électeurs seront peut être objectifs devant l'urne.Trop de personnes raisonnent sur des bases affectives,voire émotionnelles, les journalistes entre autres,et oublient tout le travail réalisé. Notre pays mérite un changement des mentalités pour redevenir compétitif. Quand on voit l'incompétence à tous les niveaux dans la vie civile comparée à l'éfficacité et au pragmatisme de nos voisins allemands, il y a de la poussière à enlever.Cordialement.
Hollande a un complexe de supériorité,il se croit gagnant dès le début.Ses leçons de morale par rapport à l'argent alors que lui meme et tout son entourage est riche me fait craindre le pire.QUELLE HYPOCRISIE!qUAND ON EST RICHE ON ASSUME!Mélenchon à plus de 30000 euros par mois et ça vient faire la leçon aux chomeurs!le petit facteur Besancenot marié à une femme très fortunée se cache derrière son métier.Fabius ,Lang etc.... de pauvres gens? vont ils prendre un immigré chez eux?Vive l'honneteté,vive Nicolas Sarkozy!