L'analyse de sondage par ZDNet : biais, mensonge et trahison

Le 14 janvier 2011, ZDNet.fr publiait les résultats de son sondage, commandité auprès de LH2 et consacré à la HADOPI. L'enquête présente un certain nombre d'erreurs, ce qui est pour le moins inattendu compte tenu des expertises respectives de l'institut de sondage et du magazine. Le moins que l'on puisse dire, c'est que la rigueur et la tournure de l'analyse prêtent parfois à sourire, d'autant qu'on y retrouve les mêmes biais et défauts de méthodologie que ceux repérés dans l'étude du SNEP (ainsi que dans l'enquête de la SACEM présentée au MIDEM le 23 janvier). Mais comme si cela ne suffisait pas, Christophe Auffray, journaliste de son état, se lançait dans une analyse fracassante et pour le moins approximative des résultats de l'observatoire des usages des internautes. Méthodologie, question, échantillon, analyse : passons en revue ce florilège d'inexactitudes.

  • Rapport de l'enquête commanditée par ZDNet France [ format PDF ]
  • Rapport de l'enquête conduite par HADOPI [ format PDF ]

Les défauts de la méthodologie

En consultant le rapport LH2, il apparaît que ZDNet a opté pour un omnibus, c'est à dire un sondage constitué d'un agglomérat de questions provenant de commanditaires différents et donc portant sur des thématiques très diverses. Comme le souligne ZDNet, ils n'ont acheté qu'une seule question. Si cela représente un avantage évident pour eux (économies de coûts et de temps non négligeables), cela invoque un risque de biais assez important : en effet, l'interviewé n'a pas réellement le temps d'entrer dans le sujet, et se retrouve face à une sorte de stress-test, un véritable zapping de l'actualité où les questions s'enchaînent sans fil conducteur et surtout sans prendre le recul nécessaire à la réflexion (le sondé est interrogé par téléphone). Ce biais est notamment abordé par Dr Panel dans une émission d'Arrêt sur Image.

Le mode de recueil a d'ailleurs lui aussi son importance : la méthodologie employée n'est certainement pas la meilleure puisqu'on va interroger le sondé par téléphone pour évoquer son comportement sur Internet. Par ailleurs, il est toujours délicat de demander à des français s'ils utilisent Internet : encore bien souvent, Internet représente pour nos compatriotes une notion flou, pas toujours détachée de la notion d'informatique ou de l'utilisation basique d'un ordinateur. Recueillir des propos d'internautes sur Internet offrait au moins l'avantage d'élucider automatiquement la question.

Les défauts de la question

Lorsqu'une seule question se retrouve catapultée dans un omnibus, il est indispensable que celle-ci soit précise, explicite, concrète et surtout, concise : au téléphone, l'attention est réputée plus difficile à maintenir, d'autant plus si les thématiques se suivent mais ne se ressemblent pas. Concrètement, la page 3 du rapport fait état d'une longue phrase d'introduction évoquant le « téléchargement illégal de contenu ». Or dans les suggestions de réponse, il n'est fait aucun rappel aux notions de légal vs illégal, payant vs gratuit, introduisant une incertitude sur la perception réelle du sujet par les interviewés.

Dès lors, comment s'assurer qu'on ne passe pas à côté de l'enjeu majeur du sujet ? L'analyse se veut d'ailleurs perpétuellement bancale : le « téléchargement de contenu » est évoqué avec l'idée sous-jacente que celui-ci est forcément illégal. Mais comment les sondés ont-ils appréhendé la question ? Savent-ils distinguer le « gratuit légal » du « gratuit illégal », le « payant légal » du « payant illégal » ? Le sondage ZDNet ne s'en soucie pas.

Les défauts de l'échantillon

D'après la page 2 du rapport, l'échantillon interrogé contient 836 internautes dont 166 « téléchargeant des contenus » (illégaux ?). Plus loin dans le rapport, la page 4 indique que ces 166 répondants représentent « 19% de téléchargeurs ». Au passage, il y a sûrement un souci quelque part puisque la division devrait donner 19,9% (cela a forcément son importance sur un échantillon de si petite taille).

Sur la page 3 du rapport, pour éviter les erreurs d'analyse, il aurait été prudent de rappeler que nous sommes sur une base de 836 internautes (et non 1016 comme on pourrait le croire). Il n'en est pas fait mention sur cette page du rapport. Mais le plus grave est à venir...

Le rapport nous apprend que l'échantillon interrogé contient 80% d'internautes n'ayant jamais téléchargé. Dès lors, la question qui me brule les lèvres est la suivante : comment peut-on mesurer la proportion de gens renonçant au téléchargement illégal sur la base d'une population dans laquelle 4 individus sur 5 ne sont de toute façon pas concernés par... le téléchargement illégal ? Sans oublier le parti pris de l'analyse : une autre façon d'interpréter les résultats serait d'indiquer que 13% des individus ont répondu « avoir modifié leurs usages depuis la mise en application de la loi » (en additionnant les deux modalités « oui »).

Précisons que les résultats obtenus sur la base d'un échantillon de 166 répondants ne permettent définitivement pas une analyse poussée : tout au plus peut-on évoquer des tendances, en prenant de très grosses pincettes !

Les graves défauts de l'analyse

Contrairement à ce qu'affirme ZDNet, le vrai chiffre du renoncement au téléchargement illégal n'est pas de 4% (page 3 du rapport) mais de 22% (page 4 du rapport) : il convient en effet de filtrer sur la base des internautes pratiquant ou ayant pratiqué le téléchargement illégal (les fameux 166 répondants). En d'autres termes : les 4% sont calculés sur une base totale de répondants (incluant des internautes n'ayant jamais téléchargé donc non concernés par la question) et les 22% sont calculés sur une base d'internautes « téléchargeurs » (donc tous concernés par la question). Ce chiffre de 4% était d'ailleurs repris en fanfare par Numerama, alors même que certains commentaires pointaient du doigt le défaut d'analyse.

Dès lors, je vous avoue qu'il est difficile pour moi d'apporter du crédit à la suite. Mais continuons. La page 5 du rapport est un résumé des observations précédentes. Or, même si le rapport convient que l'effet de la loi Hadopi est forcément nul pour les 80% d'internautes déclarant « ne pas télécharger ou presque jamais », l'analyse s'emmêle les pinceaux. Je vous invite à relire la page 5, c'est magistral :

En début de page, il est dit : « seuls 4% des internautes déclarent avoir arrêté totalement de télécharger des contenus ». Et en fin de page, il est ajouté : « au final, "seuls" 22% ont réellement arrêté le téléchargement ».

Ce travail d'analyse n'est pas sérieux... Au risque de me répéter, seul le chiffre de 22% n'a de sens. Heureusement, le reste du rapport et de l'analyse est globalement OK, même si l'auteur ne semble pas vraiment savoir de quoi il parle. Ainsi, les blogs seraient une « source de contenu libre », le direct download n'est pas évoqué une seule fois (contrairement au streaming, ça aura son importance par la suite) et toujours selon l'analyse, les « lieux de travail » de l'internaute seraient la fac, l'école et le cybercafé. D'où une question : pour ZDNet, l'internaute moyen est-il forcément un jeune inactif ?

ZDNet, le donneur de leçon

Mais mon propos s'arrêterait là si ZDNet n'avait pas publié un article d'une arrogance pour le moins malvenue au sujet du premier observatoire de l'HADOPI. Je vais me contenter d'aborder les points concernant la méthodologie et le questionnaire, jugées « singuliers » par Christophe Auffray qui s'est par exemple ému du très fort taux de consommation illicite déclaré (49%), alors que l'étude ZDNet avance le chiffre de 15%. Si Auffray a bien compris que « la question et la comptabilisation des usages sont en cause », il n'a en revanche pas pensé à lire le tableau de la page 49 du rapport produit par la Haute Autorité. Ce tableau ventile les différents biens de consommation en ligne en fonction des usages licites et illicites. Il est donc possible d'extraire les chiffres de la musique ou de la vidéo, séparément des autres types de biens.

Démonstration : sur les 1624 internautes de l'échantillon 1, nous savons que 49% d'internautes déclarent des usages illicites, soit 796 internautes. Puis sur ces 796 internautes, nous savons que 57% déclarent une consommation en ligne de musique au cours des 12 derniers mois, soit 454 internautes. On a donc 454 internautes sur 1624 qui téléchargent illégalement et qui ont consommé de la musique au cours des 12 derniers mois, soit 28%.

Quand bien même, compte tenu des biais inclus dans les études ZDNet, les sondages sont à aucun égard comparables. Continuons.

« Autre facteur d'inflation, le fait de classer un répondant comme pirate dès lors qu'il avoue avoir téléchargé au moins une fois, sans d'ailleurs que cet usage soit associé à une valeur temps. Ce téléchargement s'est-il fait récemment ? Il y a des années ? Avant ou après l'entrée en vigueur de la riposte graduée ? L'absence de cette donnée est regrettable. »

La donnée n'est pas absente, elle se trouve en page 63. Par ailleurs, faut-il rappeler qu'aux yeux de la HADOPI, l'internaute est considéré comme téléchargeant illégalement dès lors qu'il le fait, que ce soit pour la première fois ou même juste une fois ? Au passage, on retrouve une fois de plus cette terminologie affreuse de « pirate » que chérissaient tant nos politiques durant les débats en 2009... Il serait temps de s'en débarrasser, au moins dans les analyses !

« La riposte graduée portant sur la surveillance du P2P, exclusivement, ce changement de comportement peut tout aussi bien traduire un report sur le streaming, et pas nécessairement pour consommer "légalement" des oeuvres. »

On retrouve l'idée du fameux report sur le streaming évoqué dans l'étude ZDNet, alors que le report s'opère en réalité vers le direct download. Comme nous pouvions le constater à l'issue de l'analyse du sondage ZDNet, le sujet ne semble pas bien maîtrisé. C'est d'autant plus flagrant que le lien intitulé « un report sur le streaming » pointe vers un article intitulé « La SPPF place le téléchargement direct sous surveillance et reste mobilisée sur le P2P ». Confusion ou Ignorance ?

« 36% des répondants se déclarent ainsi incités par l'Hadopi à consommer des oeuvres culturelles sur des sites respectueux du droit d'auteur (39% sont catégoriques, c'est non). L'étude omet à ce stade de s'interroger sur la part de ces répondants qui le font déjà. »

Si nous nous rendons en page 52 du rapport, on apprend que 47% de l'ensemble des internautes consomment sur des plateformes de type iTunes, Amazon, Virgin, FNAC.

« Autre statistique singulière (ou miraculeuse ?) : l'incapacité des répondants à identifier l'offre légale. 30% d'entre eux, lorsqu'ils paient, ne sauraient pas si ces contenus sont acquis légalement ou non. Cette proportion paraît élevée. »

Sur la base de quoi cette proportion paraît-elle élevée ? Quelle est la thèse soutenue qui permet d'affirmer que la statistique est singulière ? De toute évidence, pour ZDNet, l'important n'est pas de répondre à la question, mais plutôt de rappeler aux lecteurs qui l'auraient oublié que les résultats sont « miraculeux ».

Au final, on retrouve un procédé assez proche de ce qui se fait couramment en politique : lorsque les chiffres arrangent, on conviendra qu'ils sont fiables, qu'ils représentent « le véritable apport de l'étude » et on les érigera en vérités absolues (par exemple, Auffray donne du crédit à l'enquête HADOPI lorsqu'elle confirme le désintérêt des internautes vis à vis de la Haute Autorité), et lorsqu'ils dérangent, on conviendra qu'ils sont « singuliers », « miraculeux », « une aubaine », « une curiosité », voire « une maladresse » et on incitera le lecteur à les prendre au conditionnel.

ZDNet, ou comment comparer des choux avec des carottes

« Première source d'étonnement, le très fort taux de consommation illicite déclaré : 49% des répondants. C'est considérable. Une étude réalisée en mars 2010 par des chercheurs bretons évaluait cette population à 30% (dont 14% pirates au sens de la Hadopi, c'est-à-dire téléchargeant illégalement en P2P). »

Cette phrase résume à elle seule à quel point la plupart des journalistes ne sont pas à l'aise avec l'analyse de sondage. En réalité, Christophe Auffray souhaiterait pouvoir comparer l'incomparable : d'un côté, nous avons notamment une enquête téléphonique ZDNet.fr réalisée en janvier 2011 auprès de 1016 individus auxquels on posait une seule question, et de l'autre, une enquête en ligne réalisée en octobre 2010 auprès de 2687 internautes auxquels on posait une quarantaine de questions. 

Pourtant, le chiffre de la part d'internautes téléchargeant illégalement en P2P est bien présent dans le rapport HADOPI, en page 55 et 56. Sur l'ensemble des internautes, ils sont 25% à télécharger via le Peer-to-Peer : 42% parmi les internautes déclarant un usage illicite et 8% parmi les internautes déclarant un usage licite.

Le journaliste évoque par ailleurs un chiffre sorti de son contexte émanant d'une énième étude, menée visiblement par des chercheurs bretons, et réalisée en décembre 2009 auprès de 2000 individus de la région Bretagne (on passera outre les problèmes de représentativité nationale, bien sûr). On y apprend par exemple que « 47% des pirates Hadopi sont des acheteurs de biens numériques ». Or, comme nous l'avons vu (page 52), le rapport HADOPI indique que 52% des internautes pratiquant un usage illicite téléchargent légalement sur les plateformes payantes (à l'échelle nationale donc).


Comment comparer des sondages basés sur des modes de recueil différents ? Comment comparer des enquêtes menées à des périodes différentes ? Comment comparer des échantillons de taille et d'étude différente ? Comment comparer des sondages représentatifs de populations différentes ? Tout ceci n'est pas possible sans prendre d'encombrantes libertés dans l'analyse. Dès lors, nous voyons bien que si nous ne fournissons pas une analyse clé en main aux journalistes, alors ces derniers sont perdus et ne savent pas étudier un rapport de 82 pages. Probablement rétorqueront-ils qu'ils n'ont pas le temps. Mais alors pourquoi ne pas passer la main à des gens dont c'est le métier et qui seraient ravis d'apporter leur éclairage sur ce type d'exercice, long, complexe et nécessitant une véritable expertise ? L'appel est lancé !