Peut-on quantifier la pertinence des sondages ?

par Tom Roud
mercredi 18 avril 2007

On a beaucoup parlé des « redressements » sur les sondages de premier tour. Pourtant, lorsqu’on se penche sur les sondages sur le deuxième tour, on voit également certaines bizarreries. Sur le site d’Ipsos, on peut lire que la marge d’erreur des sondages présidentiels actuels est d’environ 3 à 4 points. Qu’est-ce que cela signifie ? L’observation des évolutions des sondages sur le site IPSOS est-elle compatible avec cette marge d’erreur ?

Tout sondage, toute mesure sur un échantillon statistique comporte ce qu’on appelle une marge d’erreur. Celle-ci est une propriété intrinsèque à la mesure. Il est impossible de faire des statistiques vraiment fiables sur des petits nombres : si on fait deux fois la même mesure sur le même ensemble (la même photographie comme disent les sondeurs), il est relativement peu probable de trouver deux fois le même résultat à cause de cette marge d’erreur intrinsèque. Différentes enquêtes, faites sur le même échantillon au même moment, vont donner des résultats différents. Si on fait de nombreuses fois cette mesure, on va voir que les résultats s’échelonnent autour d’une valeur moyenne, sur un intervalle dont la grandeur est de l’ordre de cette marge d’erreur. Donc théoriquement, si on sonde une population votant à 53% pour un candidat, la plupart des résultats des sondages devraient s’échelonner entre 50% et 56% environ. Mais le fait important est que même si toutes les enquêtes sont faites parfaitement, il y aura toujours des sondages qui devraient donner des écarts significatifs (pour les médias, c’est-à-dire au moins de l’ordre de 2%) entre la réalité et le résultat des sondages.

Début mars, IPSOS a lancé un outil terrible : il s’agissait de fournir un sondage présidentiel par jour. Aujourd’hui, on a suffisamment de données pour pouvoir faire une petite étude statistique assez rudimentaire des données d’IPSOS (pour voir une étude similaire sur d’autres sondages et avec un protocole un peu différent, voir le billet original sur mon blog). Que se passe-t-il alors lorsque l’on compare ces différents sondages ? La marge d’erreur est de l’ordre de 1 sur la racine carrée de l’échantillon : on frise donc dans la plupart des sondages au second tour les 4% d’erreur ; dans les sondages IPSOS quotidiens on est un peu plus proche de 3%. D’un sondage à l’autre, on devrait donc voir une danse des courbes "explorant" ces 3-4% d’erreurs.


Figure 1 : Comparaison IPSOS vs Simulations: Cette figure décrit la comparaison de l’évolution des sondages quotidiens IPSOS avec des sondages simulés.

De fait, je me suis amusé à faire quelques petites simulations par ordinateur, en considérant 1 200 électeurs (pour me rapprocher de l’échantillon IPSOS), votant au hasard soit entre Ségo, soit entre Sarko (et arrondissant au demi-entier le plus proche pour Sarko, déduisant par différence le score de Ségo). J’ai considéré que l’opinion "réelle" était à 53.5% pour Sarko (en faisant la moyenne des opinions sur ces 38 sondages). La courbe verte représente la simulation de 38 sondages consécutifs indépendants sur la population. La courbe bleue représente la simulation de 38 sondages effectués avec ce que j’appelle "le protocole IPSOS", c’est-à-dire qu’on sonde tous les jours un tiers du panel, et qu’on moyenne avec les résultats des deux jours précédents. Enfin, la courbe rouge représente l’évolution des 38 sondages consécutifs IPSOS.

Rappelons-nous qu’ici l’opinion supposée est à 53.5 % (ligne bleu clair pointillée). Le but de ces courbes est d’illustrer ce qu’on devrait voir théoriquement pour un sondage avec une marge d’erreur d’environ 3%. On voit très clairement que les intentions de votes sondées devraient fluctuer énormément avec le temps et atteindre même 50-50 quelques fois. Par ailleurs, le protocole IPSOS est potentiellement un nid à fluctuations : la marge d’erreur sur une population de 300 personnes est beaucoup plus grande (quasiment 6%), et si on a une grosse fluctuation statistique dans un sens ou dans l’autre, le résultat peut se maintenir trois jours (courbe bleue foncée, autour des sondages 3, sondages 22, sondages 26). Or, on voit à l’oeil nu que les courbes "réelles" varient extrêmement peu d’un sondage à l’autre en comparaison, elles sont beaucoup trop lissées : la semaine dernière, il y a même eu une série de 7 sondages donnant 54%. Il est extrêmement peu plausible qu’un sondage donne 7 fois consécutivement le même résultat. Imaginez que vous lanciez 7 fois de suite un dé, et que vous tombiez sept fois de suite sur 6. Croiriez-vous au bon équilibrage du dé ? Les sondeurs me diraient qu’ils ont une façon de corriger, pour lisser les courbes. C’est tout bonnement impossible : encore une fois, l’erreur est intrinsèque au processus même de la mesure (sinon, j’engage les sondeurs à immédiatement soumettre leur technique à Nature, cela peut intéresser pas mal de monde) !

Essayons maintenant de quantifier un peu plus tout cela.

Dans un premier temps, j’ai fait travailler ma cellule de sondage virtuelle d’arrache-pied pour lui faire faire 100 000 sondages sur une population d’environ 700 individus à 52% sarkozystes, pour illustrer le gros problème qui se pose en particulier pour prédire l’ordre d’arrivée lorsque à la fois les échantillons et les écarts entre les candidats sont petits. La courbe ci-contre donne le pourcentage de sondages donnant un résultat donné (cette fois j’ai arrondi au point ; on retrouve évidemment une gaussienne). Notez tout d’abord que tous les résultats à l’intérieur de la mage d’erreur (la largeur de la gaussienne) ne sont pas équiprobables : le pic est autour du bon résultat.


Figure 2 : Gaussienne théorique des sondages

On voit ensuite très clairement qu’alors à peine 20% des sondages donnent le "bon" résultat, qu’au contraire 40% des sondages se trompent de plus de deux points, et 20% donnent Sarko à 50% ou moins. On voit exactement le même effet sur les courbes plus haut, et c’est ce qui explique théoriquement les fluctuations dans les sondages simulés. Cela relativise considérablement les disours du genre "Ségo s’écroule" quand elle perd 1 point par rapport au sondage précédent. De plus, on voit que dans une période où l’opinion est à 52-48, 1 sondage sur 5 donne carrément le mauvais résultat, tandis qu’un autre sondage sur 5 donne une victoire à plates coutures du bon candidat. Le tout au même moment, sur le même échantillon, je vous le rappelle ! Evidemment, cela ferait désordre si les instituts de sondage donnaient des résultats si contradictoires...

Dans un second temps, j’ai essayé de quantifier le degré de "lissage" des courbes. Reprenons l’image du dé : il paraît très peu probable en lançant un dé 7 fois de suite d’avoir 7 fois 6. Pourtant, cette séquence est en fait tout aussi probable que n’importe quelle séquence ordonnée de 7 chiffres entre 1 et 6, mais si on considère les séquences desordonnées, elle devient en effet assez improbable. Peut-on faire la même chose pour les sondages ? Autrement dit, peut-on quantifier ce qu’est une série de sondages "typique" ?

Il s’agit de déterminer, de quantifier, la "plausibilité" d’une série de sondages. Si les sondages sont un peu truqués, un peu cuisinés, un peu arrangés, ils devraient normalement avoir des propriétés statistiques un peu biaisées. Comme l’a fait très bien remarquer FrédéricLN sur son blog, si tous les sondages se plantent de la même façon et dans la même direction, ce n’est pas qu’il y a erreur, mais un vrai biais. Ce qui a été anormal en 2002 n’est pas que quelques sondages se soient trompés, mais bien qu’aucun sondage n’ait jamais classé Le Pen devant Jospin (ce qui aurait dû arriver statistiquement ... dans au moins un sondage sur deux, compte-tenu de la faible différence entre leurs scores).

L’une des caractéristiques des sondages est, on l’a dit, que la marge d’erreur effective semble beaucoup plus faible que la marge d’erreur statistique normale (les fameux 3 pour cent). Qualitativement, on l’a vu, cela se traduit par le fait que les courbes des sondages n’explorent pas assez le domaine autour de leurs valeurs moyennes. Théoriquement, on devrait pouvoir regarder la distribution de résultat autour des valeurs moyennes, et montrer qu’on a une déviation de la distribution gaussienne. Le seul problème est que pour faire cela, il faudrait avoir beaucoup, beaucoup de données pour faire de tels sondages... sur les sondages ). J’ai fait le test dans des simulations : même avec une quarantaine de sondages, on est encore assez loin de pouvoir récupérer tout le profil de distribution gaussien, représenté plus haut. En revanche, peut-être est-ce déjà suffisant pour avoir des informations sur certains paramètres de la distribution...

A défaut de pouvoir tracer une jolie gaussienne, j’ai essayé de trouver un moyen de comparer l’évolution sur ces 38 sondages à une évolution qui serait "typique" d’un sondage. J’ai donc simulé 100 000 séries de 38 sondages sur 1200 personnes suivant le "protocole IPSOS", et j’ai essayé de caractériser certaines propriétés statistiques sur ces sondages, afin de voir si la courbe réelle partageait les caractéristiques "typiques" de sondages simulées. Pour caractériser le lissage des courbes, je me suis plus particulièrement intéressé à la distribution des scores minimaux et maximaux sur la série de sondages.


Figure 3 : Distribution des minimas et maximas

Mon hypothèse est que le score "réel" de Sarkozy est à 53.5 % (le pic des données est à 54%, la moyenne étant à 53.4 - ce qui est à peu près cohérent). La courbe bleue montre la distribution de scores minima sur une série de 38 sondages, la courbe verte montre la distribution de scores maxima sur la même série, la courbe rouge est la distribution de résultats du sondage IPSOS. Ce que nous dit la courbe bleue, c’est que, statistiquement, sur une série de 38 sondages centrés autour de 53.5%, 25% ont un score minimum de 51, 25% ont un score minimum de 50.5%. C’est bien normal sachant que la marge d’erreur est d’environ 3%. De la même façon, la courbe verte nous dit que dans 20% des séries de 38 sondages, le score du candidat monte à 56 ou 56.5 %.

Examinons maintenant la courbe rouge. En réalité, le score minimum de Sarkozy sur la série de 38 sondages est 52%, le score maximum, 54.5 %. On voit très bien sur cette courbe que ces deux scores sont dans les queues de gaussiennes respectives des distributions des scores maxima et minima. Plus précisément, dans mes simulations, seulement 5% des sondages ont un score minimum supérieur ou égal à 52 %, et à peine 1 % des sondages ont un score maximum inférieur ou égal à 54.5%. Cela voudrait dire que le sondage réel est dans une zone statistiquement insignifiante : si on fait le produit seulement 0.05% des sondages réels ont des distributions similaires ! Si vous préférez, si on refaisait cette série de 38 sondages plusieurs fois, théoriquement, plus de 99.95 % des sondages devraient monter plus haut ou descendre plus bas que ce qui est effectivement observé. Admettons maintenant que je baisse ma tolérance d’un demi-point : dans mes simulations, environ 20% des sondages ont un score minimum supérieur ou égal à 51.5%, 7% des sondages ont un score maximum inférieur ou égal à 55%, cela donne moins de 2 % des sondages avec des écarts maximum-minimum similaires. Autrement dit, plus de 98% des sondages montent plus haut ou descendent plus bas d’un demi-point. Cela reste assez faible et fait douter de la pertinence des méthodes des sondeurs.

Vous l’aurez noté dans ce petit exercice, ce qui rend la distribution improbable n’est pas tant la distribution individuelle du minimum et du maximum (qui sont ici en fait assez indépendants), mais le fait que les deux scores minima et maxima soient simultanément respectivement grand et petit. Je me suis donc amusé à représenter dans le graphique ci-contre le nombre de séries de sondages aléatoires donnant à la fois un pourcentage maximum et un pourcentage minimum donné. Sans surprise, on obtient une bosse à peu près gaussienne. La cote d’un point est proportionnelle à la probabilité d’observer un sondage avec un couple maximum, minimum donné.


Figure 4 : Représentation 3D de la plausibilité des sondages

La flèche rouge indique la série actuelle IPSOS. Ce qui est intéressant est qu’on a immédiatement un point de comparaison visuel avec toutes les autres séries de sondages : une région à cote zéro est très improbable, tandis que les sondages en haut de la bosse, s’ils sont individuellement improbables (exactement comme ma série de lancers de dé) sont relativement beacoup plus probables. On voit très bien que les sondages réels sont ... tout en bas de la bosse, dans une zone complètement improbable.

En fait, on retrouve tout simplement l’effet décrit précédemment : l’exploration autour de la valeur moyenne est ridicule - avec un score "réel" d’environ 53.5%, le sondage descend au minimum à 52% et monte au maximum à 54.5%. Dans une série 38 sondages, 30% des sondages devraient même descendre à 50% ou en dessous et monter à plus de 57%. On a donc en réalité dans les sondages IPSOS une marge d’erreur "effective" de 1 à 2% ici (à comparer avec les 3-4% annoncés sur le site) ; cela correspondrait à une population effective sondée d’au moins 2500 personnes. On parle beaucoup d’ajustements des scores au premier tour, mais à mon avis on voit très bien sur cet exemple que ces scores de deuxième tour semblent eux aussi très arrangés, malgré l’absence de vote Le Pen. Peut-être les sondeurs ont-ils des superméthodes statistiques qu’ils nous cachent (pourquoi alors annoncer une marge d’erreur de 3% ?) : cette série de sondages est complètement conforme à un score de 53.5% de Sarkozy ; ce qui est juste très étrange c’est cette marge d’erreur complètement rabotée. Peut-être les échantillons ne sont-ils pas assez variés (après tout, peut-être les sondeurs ne sondent-ils réellement que 2500 personnes, toujours les mêmes - cela pourrait expliquer bien des choses...). Peut-être les sondeurs ont-ils aussi un flair extraordinaire qui leur permet de jauger en permanence l’opinion publique réelle. Peu importe ; dans tous les cas, il est clair qu’il manque quelque chose pour expliquer le résultat.

J’entends déjà les contre-arguments : et justement, la méthode des quotas ?

Deux raisons font que prendre en compte la méthode des quotas ne va pas changer significativement l’absurdité de ces résultat :

La première raison est scientifique : supposons qu’une population se partageant à 50-50 entre deux votes se divise en deux populations votant à 60-40 et 40-60. Dans un sondage sans méthode des quotas, la marge d’erreur sera proportionnelle à racine_carrée(0.5*(1-0.5)) = 0.5 (voir ici pour une explication de la formule ), dans l’autre cas, elle sera proportionnelle à racine carrée(0.5*0.6*(1-0.6) + 0.5*0.4*(1-0.4)) = 0.489. Cela signifierait passer d’une marge d’erreur de 3% à ... 2.9 % ! Si on va jusqu’à deux populations à 75-25 et 25-75, on arrive péniblement à 2.6% de marge d’erreur. Le gain de marge d’erreur est bien trop faible pour expliquer la différence entre les sondages et le simulations.

La seconde raison est méthodologique. Il est en fait bien connu depuis plusieurs années que la méthode des quotas... marche dans la pratique très mal. Claire Durand, chercheuse en sociologie au Québec, a mené une étude des sondages français en 2002 dans une publication intitulée

’The polls in the 2002 French election : an autopsy", (lien vers l’article en question en accès libre). Elle nous rappelle, dans son article, les "plantages" historiques de la méthode des quotas. Ainsi, lors des élections de 1992 au Royaume-Uni :

Though the British ElectionPanel Study arrived at a good reconstitution of the 1992 voteusing a random sample, the reconstitutions by pollsters using quota samples differed substantially from the actual vote.

Bien que le "British ElectionPanel Study" ait permis une bonne reconstitution des résultats de 1992 en utilisant un échantillonage aléatoire, les reconstitutions des instituts par la méthode des quotas différaient substantiellement des résultats observés.

Notez que la méthode des quotas est dépassée sur cet exemple précis par une simple interrogation aléatoire. La raison est que les quotas sont trop restrictifs et fractionnent trop la population, ce qui fait que les sous-échantillons ont toutes les chances de ne pas être très représentatifs, et aussi entraînent des problèmes de "fraude" potentielle de la part des sondeurs : lorsque les sous-quotas sont petits, le sondeur peut-être tenté "d’inventer" des électeurs lorsqu’il n’arrive pas à avoir assez de données. Dans la suite, on apprend même qu’on sait depuis 1995 qu’ajuster les résultats en fonction des élections précédentes (ce que CSA dit faire aujourd’hui pour redresser - Roland Cayrol ayant même déploré que ces têtes de linottes d’électeur oublient ce qu’ils ont voté à l’élection précédente - in "Arrêt sur Images" sur les sondages) peut même dégrader l’estimation. La difficulté est d’autant plus grande qu’on ne sait pas forcément en France quelle élection utiliser pour cette reconstitution.

Tout cela n’explique néanmoins toujours pas pourquoi les courbes des sondages sont très lissées. Heureusement, Claire Durand dans son article nous éclaire :

One pollster,who requested anonymity, explained in this way the process bywhich he decides on published estimates : "The statistician provides me with estimates according to different adjustments (...). I look at the different columnsand at the published estimates for the last week in order tofigure out the most likely figure. Say a candidate had 2 percent the previous week and has 4 percent in most adjustments thatweek, I will put him at 3 percent. If he still has 4 percentin the next poll, then I will put him at 4 percent."

Un sondeur, qui a demandé de conserver l’anonymat, explique ainsi la méthode employée pour traiter les données : "Le statisticien me livre des estimations après divers ajustements. Je regarde alors les différentes colonnes et les estimations publiées la semaine précédente afin de déterminer le chiffre le plus probable. Supposons qu’un candidat soit à 2 pour cent la semaine précédente, et 4 pour cents après estimations de cette semaine, je le mets alors à 3 pour cent. S’il a encore 4 pour cent au sondage suivant, je le mets alors à 4 pour cent.

Voilà en quelques phrases l’explication de nos fameuses courbes lissées et confirme mon hypothèse exprimée dans un billet précédent de mon blog. Ces petites corrections n’ont l’air de rien à première vue, mais d’un point de vue scientifique, c’est clairement injustifié. C’est en effet considérer toute variation a priori comme une fluctuation statistique. Or, on ne peut se débarrasser des fluctuations statistiques : comment alors les distinguer des évolutions ? Il faut donc potentiellement dans ce cas de figure au minimum deux sondages pour avoir le bon résultat. Imaginons qu’une fluctuation statistique aille dans le mauvais sens après une évolution effective : pour des sondages "classiques", il faudrait alors 3-4 sondages pour voir l’évolution réelle. Soit de 2 à 4 semaines de campagne. C’est aussi cet effet qui explique plus haut que dans mes simulations de protocole IPSOS, les grosses fluctuations se maintiennent asez longtemps. C’est donc à mon sens extrêmement grave de modifier ainsi les données brutes alors que les évolutions des sondages sont pile poil dans la marge d’erreur, car cela fausse complètement l’analyse des évolutions. Par ailleurs, ce genre de méthode est-il neutre politiquement, traite-t-on tous les candidats de la même façon ? N’y a-t-il pas par construction un effet "prime au gagnant" ... des semaines précédentes ?

Jules de diner’s room critiquait Schneidermann qui préconisait d’interdire purement et simplement les sondages, arguant notamment du fait qu’on a droit à l’information. Or, il apparaît que :

les données brutes, qui sont la véritable information, sont manifestement pas inaccessibles alors qu’elles devraient l’être (voir sur mon blog le billet original sur l’article de Claire Durand, où elle explique les bâtons dans les roues illégaux qu’on lui a mis pour accéder aux méthodes des sondeurs) ;
par ailleurs, les sondeurs s’arrogent le droit (sous le contrôle de la commission des sondages) de décider ce qui constitue une information d’une fluctuation statistique, alors qu’ils n’ont aucun moyen de le faire.

Avec cela, rien d’étonnant à ce qu’une centaine de sondages consécutifs aient donné Sarkozy gagnant. Mais est-ce une information ?

Laissons la conclusion à Durand et al., ou plutôt à Jowell et al. :

One would be tempted to issue the same recommendationas Jowell et al. : "Our recommendation to pollstersand their clients, the mass media, is that they should investin a program of methodological work as soon as possible. Sampling methods need to be improved, and the rather primitive methodsof forecasting employed by the polls need to be supplementedby more sophisticated techniques that draw on the massive bodyof data about voting behavior and political attitudes that is freely available."

Nous serions tentés de suggérer comme Jowell et al. : " Notre recommandation pour les instituts et leurs clients, les mass-media, serait de rapidement se lancer dans un programme de travail méthodologique. Les méthodes d’échantillonage doivent être améliorées, et les méthodes de prédiction plutôt primitives utilisées par les sondeurs doivent être accompagnées de techniques plus sophistiquées se basant sur les masses de données à propos des habitudes de votes et des attitudes politiques librement disponibles".

Cet article est un regroupement de billets parus sur les sondages qu’on peut trouver à l’adresse suivante : http://tomroud.blogspot.com/search/label/sondages

Peut-on quantifier la pertinence des sondages ?

par Tom Roud mercredi 18 avril 2007

Lire l'article complet, et les commentaires

par Tom Roud
mercredi 18 avril 2007