L'analyse de sondage par ZDNet : biais, mensonge et trahison
Publié par Guillaume Main dans le dossier Analyse | 31 janvier 2011
Le 14 janvier 2011, ZDNet.fr publiait les résultats de son sondage, commandité auprès de LH2 et consacré à la HADOPI. L'enquête présente un certain nombre d'erreurs, ce qui est pour le moins inattendu compte tenu des expertises respectives de l'institut de sondage et du magazine. Le moins que l'on puisse dire, c'est que la rigueur et la tournure de l'analyse prêtent parfois à sourire, d'autant qu'on y retrouve les mêmes biais et défauts de méthodologie que ceux repérés dans l'étude du SNEP (ainsi que dans l'enquête de la SACEM présentée au MIDEM le 23 janvier). Mais comme si cela ne suffisait pas, Christophe Auffray, journaliste de son état, se lançait dans une analyse fracassante et pour le moins approximative des résultats de l'observatoire des usages des internautes. Méthodologie, question, échantillon, analyse : passons en revue ce florilège d'inexactitudes.
- Rapport de l'enquête commanditée par ZDNet France [ format PDF ]
- Rapport de l'enquête conduite par HADOPI [ format PDF ]
Les défauts de la méthodologie
En consultant le rapport LH2, il apparaît que ZDNet a opté pour un omnibus, c'est à dire un sondage constitué d'un agglomérat de questions provenant de commanditaires différents et donc portant sur des thématiques très diverses. Comme le souligne ZDNet, ils n'ont acheté qu'une seule question. Si cela représente un avantage évident pour eux (économies de coûts et de temps non négligeables), cela invoque un risque de biais assez important : en effet, l'interviewé n'a pas réellement le temps d'entrer dans le sujet, et se retrouve face à une sorte de stress-test, un véritable zapping de l'actualité où les questions s'enchaînent sans fil conducteur et surtout sans prendre le recul nécessaire à la réflexion (le sondé est interrogé par téléphone). Ce biais est notamment abordé par Dr Panel dans une émission d'Arrêt sur Image.
Le mode de recueil a d'ailleurs lui aussi son importance : la méthodologie employée n'est certainement pas la meilleure puisqu'on va interroger le sondé par téléphone pour évoquer son comportement sur Internet. Par ailleurs, il est toujours délicat de demander à des français s'ils utilisent Internet : encore bien souvent, Internet représente pour nos compatriotes une notion flou, pas toujours détachée de la notion d'informatique ou de l'utilisation basique d'un ordinateur. Recueillir des propos d'internautes sur Internet offrait au moins l'avantage d'élucider automatiquement la question.
Les défauts de la question
Lorsqu'une seule question se retrouve catapultée dans un omnibus, il est indispensable que celle-ci soit précise, explicite, concrète et surtout, concise : au téléphone, l'attention est réputée plus difficile à maintenir, d'autant plus si les thématiques se suivent mais ne se ressemblent pas. Concrètement, la page 3 du rapport fait état d'une longue phrase d'introduction évoquant le « téléchargement illégal de contenu ». Or dans les suggestions de réponse, il n'est fait aucun rappel aux notions de légal vs illégal, payant vs gratuit, introduisant une incertitude sur la perception réelle du sujet par les interviewés.
Dès lors, comment s'assurer qu'on ne passe pas à côté de l'enjeu majeur du sujet ? L'analyse se veut d'ailleurs perpétuellement bancale : le « téléchargement de contenu » est évoqué avec l'idée sous-jacente que celui-ci est forcément illégal. Mais comment les sondés ont-ils appréhendé la question ? Savent-ils distinguer le « gratuit légal » du « gratuit illégal », le « payant légal » du « payant illégal » ? Le sondage ZDNet ne s'en soucie pas.
Les défauts de l'échantillon
D'après la page 2 du rapport, l'échantillon interrogé contient 836 internautes dont 166 « téléchargeant des contenus » (illégaux ?). Plus loin dans le rapport, la page 4 indique que ces 166 répondants représentent « 19% de téléchargeurs ». Au passage, il y a sûrement un souci quelque part puisque la division devrait donner 19,9% (cela a forcément son importance sur un échantillon de si petite taille).
Sur la page 3 du rapport, pour éviter les erreurs d'analyse, il aurait été prudent de rappeler que nous sommes sur une base de 836 internautes (et non 1016 comme on pourrait le croire). Il n'en est pas fait mention sur cette page du rapport. Mais le plus grave est à venir...
Le rapport nous apprend que l'échantillon interrogé contient 80% d'internautes n'ayant jamais téléchargé. Dès lors, la question qui me brule les lèvres est la suivante : comment peut-on mesurer la proportion de gens renonçant au téléchargement illégal sur la base d'une population dans laquelle 4 individus sur 5 ne sont de toute façon pas concernés par... le téléchargement illégal ? Sans oublier le parti pris de l'analyse : une autre façon d'interpréter les résultats serait d'indiquer que 13% des individus ont répondu « avoir modifié leurs usages depuis la mise en application de la loi » (en additionnant les deux modalités « oui »).
Précisons que les résultats obtenus sur la base d'un échantillon de 166 répondants ne permettent définitivement pas une analyse poussée : tout au plus peut-on évoquer des tendances, en prenant de très grosses pincettes !
Les graves défauts de l'analyse
Contrairement à ce qu'affirme ZDNet, le vrai chiffre du renoncement au téléchargement illégal n'est pas de 4% (page 3 du rapport) mais de 22% (page 4 du rapport) : il convient en effet de filtrer sur la base des internautes pratiquant ou ayant pratiqué le téléchargement illégal (les fameux 166 répondants). En d'autres termes : les 4% sont calculés sur une base totale de répondants (incluant des internautes n'ayant jamais téléchargé donc non concernés par la question) et les 22% sont calculés sur une base d'internautes « téléchargeurs » (donc tous concernés par la question). Ce chiffre de 4% était d'ailleurs repris en fanfare par Numerama, alors même que certains commentaires pointaient du doigt le défaut d'analyse.
Dès lors, je vous avoue qu'il est difficile pour moi d'apporter du crédit à la suite. Mais continuons. La page 5 du rapport est un résumé des observations précédentes. Or, même si le rapport convient que l'effet de la loi Hadopi est forcément nul pour les 80% d'internautes déclarant « ne pas télécharger ou presque jamais », l'analyse s'emmêle les pinceaux. Je vous invite à relire la page 5, c'est magistral :
En début de page, il est dit : « seuls 4% des internautes déclarent avoir arrêté totalement de télécharger des contenus ». Et en fin de page, il est ajouté : « au final, "seuls" 22% ont réellement arrêté le téléchargement ».
Ce travail d'analyse n'est pas sérieux... Au risque de me répéter, seul le chiffre de 22% n'a de sens. Heureusement, le reste du rapport et de l'analyse est globalement OK, même si l'auteur ne semble pas vraiment savoir de quoi il parle. Ainsi, les blogs seraient une « source de contenu libre », le direct download n'est pas évoqué une seule fois (contrairement au streaming, ça aura son importance par la suite) et toujours selon l'analyse, les « lieux de travail » de l'internaute seraient la fac, l'école et le cybercafé. D'où une question : pour ZDNet, l'internaute moyen est-il forcément un jeune inactif ?
ZDNet, le donneur de leçon
Mais mon propos s'arrêterait là si ZDNet n'avait pas publié un article d'une arrogance pour le moins malvenue au sujet du premier observatoire de l'HADOPI. Je vais me contenter d'aborder les points concernant la méthodologie et le questionnaire, jugées « singuliers » par Christophe Auffray qui s'est par exemple ému du très fort taux de consommation illicite déclaré (49%), alors que l'étude ZDNet avance le chiffre de 15%. Si Auffray a bien compris que « la question et la comptabilisation des usages sont en cause », il n'a en revanche pas pensé à lire le tableau de la page 49 du rapport produit par la Haute Autorité. Ce tableau ventile les différents biens de consommation en ligne en fonction des usages licites et illicites. Il est donc possible d'extraire les chiffres de la musique ou de la vidéo, séparément des autres types de biens.
Démonstration : sur les 1624 internautes de l'échantillon 1, nous savons que 49% d'internautes déclarent des usages illicites, soit 796 internautes. Puis sur ces 796 internautes, nous savons que 57% déclarent une consommation en ligne de musique au cours des 12 derniers mois, soit 454 internautes. On a donc 454 internautes sur 1624 qui téléchargent illégalement et qui ont consommé de la musique au cours des 12 derniers mois, soit 28%.
Quand bien même, compte tenu des biais inclus dans les études ZDNet, les sondages sont à aucun égard comparables. Continuons.
« Autre facteur d'inflation, le fait de classer un répondant comme pirate dès lors qu'il avoue avoir téléchargé au moins une fois, sans d'ailleurs que cet usage soit associé à une valeur temps. Ce téléchargement s'est-il fait récemment ? Il y a des années ? Avant ou après l'entrée en vigueur de la riposte graduée ? L'absence de cette donnée est regrettable. »
La donnée n'est pas absente, elle se trouve en page 63. Par ailleurs, faut-il rappeler qu'aux yeux de la HADOPI, l'internaute est considéré comme téléchargeant illégalement dès lors qu'il le fait, que ce soit pour la première fois ou même juste une fois ? Au passage, on retrouve une fois de plus cette terminologie affreuse de « pirate » que chérissaient tant nos politiques durant les débats en 2009... Il serait temps de s'en débarrasser, au moins dans les analyses !
« La riposte graduée portant sur la surveillance du P2P, exclusivement, ce changement de comportement peut tout aussi bien traduire un report sur le streaming, et pas nécessairement pour consommer "légalement" des oeuvres. »
On retrouve l'idée du fameux report sur le streaming évoqué dans l'étude ZDNet, alors que le report s'opère en réalité vers le direct download. Comme nous pouvions le constater à l'issue de l'analyse du sondage ZDNet, le sujet ne semble pas bien maîtrisé. C'est d'autant plus flagrant que le lien intitulé « un report sur le streaming » pointe vers un article intitulé « La SPPF place le téléchargement direct sous surveillance et reste mobilisée sur le P2P ». Confusion ou Ignorance ?
« 36% des répondants se déclarent ainsi incités par l'Hadopi à consommer des oeuvres culturelles sur des sites respectueux du droit d'auteur (39% sont catégoriques, c'est non). L'étude omet à ce stade de s'interroger sur la part de ces répondants qui le font déjà. »
Si nous nous rendons en page 52 du rapport, on apprend que 47% de l'ensemble des internautes consomment sur des plateformes de type iTunes, Amazon, Virgin, FNAC.
« Autre statistique singulière (ou miraculeuse ?) : l'incapacité des répondants à identifier l'offre légale. 30% d'entre eux, lorsqu'ils paient, ne sauraient pas si ces contenus sont acquis légalement ou non. Cette proportion paraît élevée. »
Sur la base de quoi cette proportion paraît-elle élevée ? Quelle est la thèse soutenue qui permet d'affirmer que la statistique est singulière ? De toute évidence, pour ZDNet, l'important n'est pas de répondre à la question, mais plutôt de rappeler aux lecteurs qui l'auraient oublié que les résultats sont « miraculeux ».
Au final, on retrouve un procédé assez proche de ce qui se fait couramment en politique : lorsque les chiffres arrangent, on conviendra qu'ils sont fiables, qu'ils représentent « le véritable apport de l'étude » et on les érigera en vérités absolues (par exemple, Auffray donne du crédit à l'enquête HADOPI lorsqu'elle confirme le désintérêt des internautes vis à vis de la Haute Autorité), et lorsqu'ils dérangent, on conviendra qu'ils sont « singuliers », « miraculeux », « une aubaine », « une curiosité », voire « une maladresse » et on incitera le lecteur à les prendre au conditionnel.
ZDNet, ou comment comparer des choux avec des carottes
« Première source d'étonnement, le très fort taux de consommation illicite déclaré : 49% des répondants. C'est considérable. Une étude réalisée en mars 2010 par des chercheurs bretons évaluait cette population à 30% (dont 14% pirates au sens de la Hadopi, c'est-à-dire téléchargeant illégalement en P2P). »
Cette phrase résume à elle seule à quel point la plupart des journalistes ne sont pas à l'aise avec l'analyse de sondage. En réalité, Christophe Auffray souhaiterait pouvoir comparer l'incomparable : d'un côté, nous avons notamment une enquête téléphonique ZDNet.fr réalisée en janvier 2011 auprès de 1016 individus auxquels on posait une seule question, et de l'autre, une enquête en ligne réalisée en octobre 2010 auprès de 2687 internautes auxquels on posait une quarantaine de questions.
Pourtant, le chiffre de la part d'internautes téléchargeant illégalement en P2P est bien présent dans le rapport HADOPI, en page 55 et 56. Sur l'ensemble des internautes, ils sont 25% à télécharger via le Peer-to-Peer : 42% parmi les internautes déclarant un usage illicite et 8% parmi les internautes déclarant un usage licite.
Le journaliste évoque par ailleurs un chiffre sorti de son contexte émanant d'une énième étude, menée visiblement par des chercheurs bretons, et réalisée en décembre 2009 auprès de 2000 individus de la région Bretagne (on passera outre les problèmes de représentativité nationale, bien sûr). On y apprend par exemple que « 47% des pirates Hadopi sont des acheteurs de biens numériques ». Or, comme nous l'avons vu (page 52), le rapport HADOPI indique que 52% des internautes pratiquant un usage illicite téléchargent légalement sur les plateformes payantes (à l'échelle nationale donc).
Comment comparer des sondages basés sur des modes de recueil différents ? Comment comparer des enquêtes menées à des périodes différentes ? Comment comparer des échantillons de taille et d'étude différente ? Comment comparer des sondages représentatifs de populations différentes ? Tout ceci n'est pas possible sans prendre d'encombrantes libertés dans l'analyse. Dès lors, nous voyons bien que si nous ne fournissons pas une analyse clé en main aux journalistes, alors ces derniers sont perdus et ne savent pas étudier un rapport de 82 pages. Probablement rétorqueront-ils qu'ils n'ont pas le temps. Mais alors pourquoi ne pas passer la main à des gens dont c'est le métier et qui seraient ravis d'apporter leur éclairage sur ce type d'exercice, long, complexe et nécessitant une véritable expertise ? L'appel est lancé !
Commentaires
Excellent article comme d'habitude !
En effet, moi j'aurais mis en préambule :
"Comment est-il possible de ne trouver que 800 personnes pour faire un sondage à ce sujet" ! la loi touche tous les français ! non ?
Avec 800 personnes je trouve que rien que cela montre le peux de véracité des conclusions que l'on peux sortir de ce genre d'enquêtes !
Très bonne analyse, bien vu !
J'ai du mal à croire que de tels sondages soient publiables et publiés...
Comment construire une dictature de l'opinion basée sur des chiffres tirés sur 170 personnes et avec des questions... enfin une question (!) totalement floue (je n'aurai pas su y répondre).
La crédibilité des sondages en prend encore un coup ; heureusement que ce blog est là pour rappeler les bonnes pratiques !
@FKLEE
http://fr.wikipedia.org/wiki/%C3%89...)
#Cours
#ArretezDireDeLaMerdeQuandOnSaitPas
@lemondedesétudes
La même + retournez en cours pour apprendre à lire/comprendre un énoncé. Pour avoir déjà répondu à ce genre de sondages, et pour avoir une faculté de concentration proche de celle de la mouche, je peux vous dire que c'est pourtant faisable.
Toussa toussa ...
Sinon : Article trop long. Beaucoup d'imprécisions (pas crédible pour un article qui se veut le pourfendeur des mêmes imprécisions chez les autres ...)
Toussa toussa.
Mention: Revoir sa copie !
Quelles imprécisions ? Merci de préciser, justement. :)
Au fait, votre lien Wikipedia n'était pas bon, celui là l'est :
http://fr.wikipedia.org/wiki/%C3%89chantillon_(statistiques)
Bonjour Guillaume, je vous réponds, gentiment et moins doctement, dans un billet publié sur mon blog @ http://www.zdnet.fr/blogs/digital-j...
Cordialement,
PA
Bonjour Philippe,
Vous devez faire erreur. L'analyse dont je me faisais l'écho dans l'article est essentiellement celle de Christophe Auffray.
Bien à vous,
GM
Bonjour
Suite à la mise en cause du sondage réalisé par LH2 publié le 14 janvier sur ZDNet;fr, nous souhaitons apporter les précisions suivantes.
D'abord, avant de lancer vos attaques, il aurait été honnête de préciser que vous avez participé à l'élaboration du sondage made in hadopi. On appelle cela être juge et partie...
Concernant notre méthodologie, voici notre réponse.
Sur les défauts de la méthodologie :
Tout d’abord, pas de notion de coût car rappelons que nous nous trouvons dans une situation de partenariat.
Par ailleurs, l’omnibus est un moyen employé pour obtenir des réponses-flash, mais permet également des mesures barométriques et fiables. Pour info, sur cet omnibus, 5 sujets « seulement » étaient présents, ce qui fait peu pour parler de « stress-test » assimilable à un « zapping de l’actualité ». La durée moyenne de l’enquête était de 15 minutes, ce qui constitue un délai très raisonnable pour une enquête menée par téléphone.
à Le sondage téléphonique demeure encore à l’heure actuelle le plus fiable pour garantir la représentativité d’un échantillon national (par rapport aux méthodologies d’interrogation sur le web, notamment). Il prend en compte les détenteurs de mobile-only (estimés à 12% de la population), et est redressé sur des critères sociodémographiques afin d’assurer sa viabilité dans l’extrapolation à une population d’ensemble. En réalisant un tel sondage sur Internet comme vous le proposez, pas de représentativité garantie, or c’est bien ce que nous visons.
Enfin, le volume d’utilisateurs d’Internet mesuré dans ce sondage est cohérent avec les taux d’équipement constatés à l’heure actuelle : 7 Français sur 10 sont équipés à leur domicile (source ARCEP http://www.arcep.fr/fileadmin/repri... : 71% de la population a un accès Internet au domicile // 78% de nos sondés utilisent Internet à leur domicile, donc un peu plus que les données ARCEP car nous sommes sur une logique individuelle, alors que l’ARCEP se base sur l’équipement du foyer).
Sur les défauts de la question :
Rappel de la phrase d’introduction : « Dans le cadre de la loi Hadopi (ou « Loi Création et Internet »), des emails d'avertissement sont parvenus aux internautes soupçonnés d'avoir téléchargé illégalement des contenus, comme de la musique ou des films. »
Dans le cadre d’un tel sujet et d’un omnibus, il est justement important de respecter une phase de transition entre deux sujets. La phrase d’introduction est élaborée dans ce but.
Le téléchargement illégal n’est évoqué que pour rappeler le contexte de la mise en application de la loi Hadopi, car il existe encore en France des personnes n’ayant jamais entendu parler de cette loi. Le sujet est ensuite posé de manière claire, pour rappel : « Vous-même, avez-vous modifié vos usages depuis la mise en application de cette loi (nous vous rappelons que vos réponses resteront strictement anonymes) : »
Orienter la question sur les contenus légaux VS illégaux n’était pas le propos, il aurait été illusoire d’imaginer obtenir des réponses précises sur ce point, justement dans la mesure où les téléchargeurs ne font souvent pas la différence entre les contenus légaux et illégaux.
Le propos de ce sujet n’est pas d’opérer cette distinction entre les types ou modes de téléchargement mais, pour le repréciser, de mesurer l’ « Impact de la loi Hadopi sur les habitudes de téléchargement » (comme précisé dans le titre de l’étude), à un instant T, et ce quelle que soit la nature des contenus téléchargés. Nous cherchons à valider ou invalider l’hypothèse selon laquelle la loi aurait eu un impact sur les pratiques des Français, ce que l’on pourrait supposer et « l’enjeu majeur » du sujet ne va pas plus loin
Suite de notre réaction :
Sur les défauts de l'échantillon :
Non, une différence d’un point portant sur un pourcentage ne fait pas de différence. L’impact statistique est fonction de la base (c'est-à-dire du nombre de répondants) prise en compte, et pas du pourcentage que représente cette même base au sein d’un échantillon d’ensemble. 166 répondants est une base restreinte mais suffisante pour réaliser une analyse statistique.
Citation : [Le rapport nous apprend que l'échantillon interrogé contient 80% d'internautes n'ayant jamais téléchargé. Dès lors, la question qui me brule les lèvres est la suivante : comment peut-on mesurer la proportion de gens renonçant au téléchargement illégal sur la base d'une population dans laquelle 4 individus sur 5 ne sont de toute façon pas concernés par... le téléchargement illégal ? Sans oublier le parti pris de l'analyse : une autre façon d'interpréter les résultats serait d'indiquer que 13% des individus ont répondu « avoir modifié leurs usages depuis la mise en application de la loi » (en additionnant les deux modalités « oui »).]
Attention au contresens, il n’est pas question de téléchargement ILLEGAL, mais de téléchargement quel qu’il soit. Certes, comme dans tous les sondages portant sur le sujet, nous avons un phénomène de sous-déclaration des usages du téléchargement, néanmoins, l’analyse en page 3 est bien réalisée en focus sur les personnes ayant admis télécharger (illégalement OU NON).
Concernant le parti pris, je ne me prononcerai pas à ce sujet ; les chiffres sont bien entendu sujets à interprétation, et il est de mise de se focaliser sur les résultats qui semblent les plus marquants ; en ce sens l’attitude la plus répandue est plus visible que les pratiques plus marginales, c’est une conséquence de la loi des grands nombres et probablement une déformation professionnelle que l’on peut critiquer.
Citation : [Précisons que les résultats obtenus sur la base d'un échantillon de 166 répondants ne permettent définitivement pas une analyse poussée : tout au plus peut-on évoquer des tendances, en prenant de très grosses pincettes !]
Des volumes très contrastés permettent bien d’observer davantage que des tendances, puisque les lois statistiques sont sensibles aux extrêmes plus qu’aux modalités médianes. Ainsi, un différentiel ne sera pas forcément « significatif » d’une différence s’il est proche de 50%. En revanche, entre 22% et 75%, l’écart est statistiquement fiable, même sur une base restreinte.
Suite et fin...
-Sur les graves défauts de l'analyse
Les graves défauts de l'analyse
Citation : [Contrairement à ce qu'affirme ZDNet, le vrai chiffre du renoncement au téléchargement illégal n'est pas de 4% (page 3 du rapport) mais de 22% (page 4 du rapport) : il convient en effet de filtrer sur la base des internautes pratiquant ou ayant pratiqué le téléchargement illégal (les fameux 166 répondants). En d'autres termes : les 4% sont calculés sur une base totale de répondants (incluant des internautes n'ayant jamais téléchargé donc non concernés par la question) et les 22% sont calculés sur une base d'internautes « téléchargeurs » (donc tous concernés par la question). Ce chiffre de 4% était d'ailleurs repris en fanfare par Numerama, alors même que certains commentaires pointaient du doigt le défaut d'analyse.]
Dans le cadre d’une analyse en focus sur une population donnée, il est important de remettre les chiffres à l’échelle de la population d’ensemble, afin de pouvoir extrapoler les résultats.
La question a bel et bien été posée à tous les utilisateurs, et le chiffre de 22% résulte d’un effet de loupe sur les 19% de téléchargeurs déclarés. Le fameux 4% est tout simplement remis à l’échelle de la population des utilisateurs d’Internet. D’ailleurs, il est facile de vérifier que :
19% de téléchargeurs * 22% d’entre eux ayant arrêté de télécharger = 4.2% remis sur la base ensemble.
Citation : [Dès lors, je vous avoue qu'il est difficile pour moi d'apporter du crédit à la suite. Mais continuons. La page 5 du rapport est un résumé des observations précédentes. Or, même si le rapport convient que l'effet de la loi Hadopi est forcément nul pour les 80% d'internautes déclarant « ne pas télécharger ou presque jamais », l'analyse s'emmêle les pinceaux. Je vous invite à relire la page 5, c'est magistral :
En début de page, il est dit : « seuls 4% des internautes déclarent avoir arrêté totalement de télécharger des contenus ». Et en fin de page, il est ajouté : « au final, "seuls" 22% ont réellement arrêté le téléchargement ».
Ce travail d'analyse n'est pas sérieux... Au risque de me répéter, seul le chiffre de 22% n'a de sens.]
Cf. l’effet de loupe mentionné plus haut. Les chiffres sont justes et cités dans leur contexte, ce qui ne modifie en rien leur interprétation.
En fait, je réagissais aux propos de Christophe Auffray, et finalement, ce sont deux autres intervenants de ZDNet.fr qui me répondent (Olivier Chicheportiche et Philippe Astor), ça me surprend un peu.
Quoiqu'il en soit, voici ma réponse :
http://electronlibre.info/Hadopi-L-...