Nous dirigeons-nous vers une ringardisation des sondages ? C'est la question qu'on peut se poser tant le grand public les dénigre. Et pourtant, nous n'avons jamais autant entrepris de sonder les gens : même les réseaux sociaux, les moteurs de recherche ou les journaux en ligne s'y mettent, via des applications pour mobile, des widgets ou des pop-ups "intelligents". Bref, tout le monde souhaite questionner et compter ses membres, sa clientèle, les citoyens...

Cependant, à l'heure où les modèles prédictifs tentent d'anticiper le comportement humain, que deviennent les sondages et leur cortège de contraintes ?

Une manigance hypocrite à l'égard des sondages

En période d'échéance électorale, les campagnes de décrédibilisation des sondages battent leur plein. En cas de doute ou d'éventuelle anomalie, on ne cherche plus à savoir qui fait quoi : commanditaire, institut, journaliste, qu'importe ! Le sondage est souvent présenté comme étant dans l'erreur, donnant un résultat soit inutile, soit faux. On l'accuse, désormais presque par nature, de ne pas refléter les aspirations de l'opinion publique. Cette affirmation est reprise par de nombreux détracteurs : les militants, les sociologues (ceux qui sont convaincus, depuis Bourdieu, que l'opinion publique n'existe pas), les candidats à un scrutin se plaçant après la première place (comme Ségolène Royal) ou la seconde (comme François Bayrou ou Jean-Luc Mélenchon).

En réalité, les détracteurs ne souhaitent pas tellement un bouleversement quelconque dans la fabrique des sondages d'opinion : ils n'appellent d'ailleurs pas nécessairement à plus de transparence ou de justesse. Au contraire, ils semblent paradoxalement tous habités par l'envie de voir les sondage se tromper, mais autant que possible à leur avantage pour profiter d'un effet bandwagon. C'est ainsi que le camp des détracteurs se mue perpétuellement, au gré de l'enjeu lié à la thématique du sondage.

L'objectif est en réalité bien plus de jeter le discrédit sur des résultats embarrassants ou peu avantageux que de dénoncer un procédé résolument malhonnête, ce qui s'est d'ailleurs retrouvé très rarement avéré : entre 1995 et 2012, la Commission des Sondages avait dénombré 1052 sondages relevant de son champs de contrôle et ayant un lien avec l'élection présidentielle, pour un total de 28 réclamations n'aboutissant que très rarement à des "mises au point" (dont les organes de presse ne sont pas, eux non plus, exempts).

Contrairement à ce qu'affirme le sociologue Alain Garrigou, le recueil de sondage en ligne ne constitue pas en soi une nouveauté douteuse : il s'agit au contraire d'une technique largement éculée, utilisée depuis plus d'une décennie et qui entre dans les mœurs au même titre que les autres modes de recueil en leur temps (nous savons qu'un échantillon d'internautes n'est pas fondamentalement plus biaisée qu'un échantillon de piétons, de "téléphonautes" ou de "courriernautes").

Une discipline discréditée par les médias, et un public en overdose

Au delà de la volonté de les décrédibiliser, on observe une certaine lassitude et une bulle médiatique qui n'en finit jamais de grossir : plus les sondages sont médiatisés, plus ils sont accueillis avec prudence, et plus le public, lassé, approche de la saturation. Pour la presse, c'est du chiffre de sondage et du titre d'article habilement choisis que vient l'audience. En effet, difficile de pouvoir se forger un avis objectif sur un sondage à la seule lecture du papier d'un journaliste, tant les mises en garde ne sont que très rarement prises en compte (il faudrait toujours prendre le temps de lire les rapports et les fiches techniques). Les analyses de la presse ne sont pas rigoureuses, ne tiennent presque jamais compte des marges d'erreur, et le journaliste tente souvent de traiter son sujet avec un angle permettant un titre sensationnaliste.

En fait, les sondages pâtissent bien plus de leur récupération par les journalistes dont les analyses sont souvent approximatives, bâclées et survendues, que de la faiblesse des méthodes employées. Pour paraphraser ce que disait OWNI en 2011, "le plus gros problème avec les sondages n’est pas dans leur méthodologie mais dans la capacité de ceux qui les commentent à les interpréter."

Ces dernières années, je n'ai jamais autant lu de réactions mettant en cause la véracité d'un sondage sur la seule base de l'expérience purement personnelle du commentateur. Pour le coup, le biais n'est pas journalistique ou technique, mais psychologique. Il s'agit du biais de confirmation d'hypothèse : le commentateur privilégie les hypothèses confirmant ses propres idées préconçues et disqualifie les informations en contradiction. Combien de fois n'ai-je pas lu un commentateur considérant le sondage comme non représentatif parce qu'il n'avait pas été lui-même sondé (et parce... que les résultats ne lui convenaient pas) ? Ajoutons à cela une tendance lourde des internautes à ne plus lire que les titres des articles sur les réseaux sociaux ou les sites de curation, et nous comprenons définitivement à quelle forme de désinformation est associée le sondage.

L’avènement des vrais faux sondages

Rappelons que le sondage, au sens technique du terme, repose sur des principes précis et reconnus dans les milieux statistiques. Son élaboration est définie par un ensemble de pratiques de référence, constituant une méthodologie encadrant chaque étape, de la réalisation du questionnaire à l'analyse des résultats en passant par l'élaboration de l'échantillon. Si aucun travail de pédagogie n'est effectué, il se pourrait qu'un jour il soit compliqué d'expliquer que le petit sondage placé dans un coin sur un site d'actualité n'a pas la même valeur que le sondage d'institut soumis à un ou plusieurs milliers d'individus.

Avec l'avènement de l'astroturfing (à ce sujet, je vous conseille cet épisode de l'émission 14h42 sur le site d'Arrêt sur Images), cette pratique qui consiste notamment à truquer les résultats d'un sondage sur un site d'actualité en utilisant des techniques de hacker afin de faire croire à une opinion populaire, on verse une fois de plus dans la polémique inutile puisque ces mini-sondages n'ont strictement aucune crédibilité : ils sont non cadrés, sans méthodologie, sans garde-fou technique, sans mise en garde et les questions pâtissent d'un vocabulaire et d'un ton souvent hasardeux et non neutres (en voici un exemple fameux relayé par Rue89).

La perpétuelle confusion entre sondage et modèle prédictif

Il faut le répéter : les sondages n'ont pas vocation à prédire, ils ne peuvent donc pas se tromper, puisqu'ils sont le reflet de ce qu'ils ont servi à mesurer. Or, aujourd'hui, le sondage est assimilé à ce qu'il n'est surtout pas : un outil de prédiction. Même si l'objectif du sondage et celui de l'outil de prédiction se rejoignent, il y a un décalage temporel essentiel : la réponse à un sondage est soit une opinion de l'instant, soit une supposition liée à une mise en situation, soit une intention dans un futur très proche (avec les questions du type "si le vote avait lieu demain"). Mais, dans tous les cas, la mission du sondage est de refléter une vision objective des aspirations collectives, à l'instant présent.

En revanche, l'outil de prédiction s'appuie sur des projections établies à partir de données du passé et du présent, sur des estimations reposant sur le concept d'intelligence collective (ce que permettent par exemple les données agrégées par les réseaux sociaux), ou encore sur l'exploitation de données recueillies aléatoirement et en très grande quantité. Un outil de prédiction efficace s'efforce éventuellement d'identifier les données sociologiques discriminantes, c'est à dire l'ensemble des données corrélées capables d'expliquer un comportement, une action, un vote, un achat etc... pour ensuite les isoler dans un modèle et les analyser (via le machine learning notamment).

Cette confusion des genres discrédite dans la foulée les modèles prédictifs. Ces derniers offrent pourtant des résultats spectaculaires dans de nombreux domaines (santé publique, finance, société, sécurité, logistique) tout en faisant intervenir de la statistique "pure" (l'erreur structurelle est quasi nulle). Les moteurs de recherche et les réseaux sociaux ont prouvé durant les présidentielles de 2012 qu'ils avaient déjà un coup d'avance dans ce domaine et profitent d'un bien meilleur potentiel sur le long terme. Et d'ailleurs, à ce jour, les instituts de sondage n'ont jamais vraiment prétendu occuper ce terrain.

Très peu de pédagogie et d'innovation

Pour un institut de sondage, la pédagogie s'inscrirait plutôt dans la transparence, l'explication éclairée du pourquoi de l'acceptation ou du refus de certaines règles : les instituts sont par exemple favorables à l'enrichissement de la fiche technique, mais refusent la mise en place d'une législation dictant comment une industrie doit travailler (il avait été suggéré que les résultats bruts figurent dans le rapport de sondage au même titre que les résultats redressés). À ce sujet, je vous recommande cet épisode de Ligne Jaune sur le site d'Arrêt sur Image, datant de 2011 mais toujours d'actualité. Ainsi une meilleure communication (cette prestation en 2011 de Jérôme Sainte-Marie, à l'époque DGA de l'institut CSA, n'est vraiment pas un bon exemple) et une approche sans doute un peu plus technique pourraient, à court terme, restituer aux instituts une partie du crédit qu'ils méritent. Alors peut-être les commanditaires comprendraient l'intérêt d'opter pour des questionnaires mieux conçus ou des échantillons plus gros.

Par ailleurs, pour éviter la désuétude d'un secteur, il est généralement nécessaire d'avoir un train d'avance sur l'industrie et ce train s'acquière par l'innovation, traditionnellement jugée hors de prix par les instituts (il est bien plus rentable de s'inspirer d'une start-up et/ou de la racheter). Car certes, les modes de recueil et les supports d'interrogation (mobiles, tablettes) évoluent et se diversifient, mais les sondages restent ce qu'ils sont depuis des années. Le Printemps des études témoigne de cet immobilisme qui semble parfaitement assumé.

La disruption guette le secteur

Pourquoi un institut de sondage n'a-t-il jamais pris le parti de s'associer à un moteur de recherche (le français Qwant serait sans doute ouvert à des expérimentations) ou un réseau social ? Pourquoi les instituts de sondage ne s'entourent-ils que trop rarement de spécialistes dans les domaines de l'infographie, du webmarketing, du community management, de la datascience ? Les instituts doivent (enfin !) faire entrer la sphère du Web dans leur stratégie, et non plus qu'en tant que mode de recueil. Pour cela, il faudrait se lancer dans de nouveaux partenariats dynamiques (entreprises françaises émergentes dans le Web, collectivités locales, réseaux sociaux alternatifs, émissions de podcasts) et réfléchir à la pertinence des anciens partenariats (chaîne de radio, de télévision, presse) qui desservent l'image de marque des instituts.

Bien que les projets croisant open data, big data et résultats traditionnels de sondage soient de plus en plus nombreux et séduisants, les bonnes idées n'en restent pas moins extrêmement rares, et apparemment bien plus à la portée des agences Web que des instituts de sondage. Il faut malheureusement attendre une échéance aussi médiatique que l'élection présidentielle pour les voir subitement sortir de leur torpeur tous les cinq ans. Mais si le rapprochement entre Internet et l'industrie du sondage n'avait pas lieu, il n'est pas impensable que les grandes puissances du Web puissent un jour chercher "à s'offrir" les instituts. À force de chercher à développer un savoir-faire dans la mesure des comportements humains, les grandes puissances du Web voient les instituts de sondage comme de potentiels concurrents d'un autre temps dont les compétences sont achetables ou imitables avec quelques millions de dollars. D'un autre côté, une telle perspective laisse à penser que même à l'heure du Big Data, les sondages traditionnels ne sont pas encore morts.

Pour autant, compte tenu du climat actuel, il faudrait à tout prix veiller à ne pas sombrer dans l'extrême inverse qui serait de chercher à détenir des données "parfaites", en quantité et en qualité, permettant d'aboutir à des mesures exhaustives et comble du confort, sans avoir à solliciter les gens. C'est en tout cas la crainte qu'on pourrait formuler à l'égard de l'institut GfK qui investissait dès 2008, via Qosmos, dans des technologies de type Deep Packet Inspection le rendant potentiellement imbattable sur la mesure d'audience. Basé sur une analyse fine des réseaux IP, ce type de technologie doit être réglementé pour ne pas tomber un peu plus dans l'enfer de la société de surveillance.