Quatre jours avant le vote des français pour les présidentielles 2012, le journal Libération titrait ‘Sondage Harris : « Sarkozy toujours en tête devant Hollande au 1er tour »’. Pour conforter cette annonce, il présentait Nicolas Sarkozy avec 28 % des intentions de vote contre 27% pour François Hollande. Or, l’erreur moyenne de ces sondages est évaluée à 3%. Il est donc primordial de porter un regard critique sur ce type d’annonces. En cette veille d’élection, nous vous proposons un tour d’horizon des méthodes, des biais et des sources d’erreurs dans les coulisses des instituts de sondage.
L'échantillonnage
Il est souvent impossible d’étudier l’opinion d’une population entière, ce serait trop long et coûteux. Les enquêtes par sondages utilisent des méthodes statistiques pour évaluer un paramètre à partir d’un échantillon de la population (par exemple les intentions de vote). Les instituts de sondage privés prennent généralement des échantillons de 1000 personnes ce qui est assez petit. L’erreur théorique sur de tels échantillons est d’environ 3%. Mais en pratique ce taux est plus élevé. Notons que, sur un échantillon de 1000 personnes, si 40% se déclarent indécis alors seuls 600 répondants ont donné une réponse fiable. La marge d’incertitude augmente lorsque la taille de l’échantillon diminue. En pratique, le taux d’erreur est donc probablement supérieur à 4%.
La difficulté majeure des études de sondages est la qualité de l’échantillon. On distingue couramment deux méthodes. La ‘méthode probabiliste’, aussi appelée ‘sélection aléatoire’, donne les résultats les plus fiables. Elle consiste en un tirage ‘au hasard’ d’individus parmi l’ensemble de la population. Cette méthode attribue à chaque individu la même chance d’être sélectionné. Mais les instituts privés n’ont pas accès aux listes gérées par l’INSEE. Ils sont donc contraints, pour construire des échantillons représentatifs de la population, d’utiliser une autre méthode dite ‘des quotas’. Celle-ci consiste à construire un échantillon respectant la répartition de la population étudiée selon plusieurs critères (sexe, âge, répartition géographique, catégorie socio-professionnelle…). Moins coûteuse et plus rapide, cette méthode nécessite que des précautions soient prises afin d’assurer une bonne représentativité de la population ciblée.
Les méthodes de collecte
Une fois les quotas de l’échantillon définis, il faut sélectionner les enquêtés et réaliser les interviews. Il existe principalement trois procédures d’enquêtes : appel téléphonique, envoi d’emails, face à face. Chaque méthode risque d’introduire un biais différent. Le biais est une erreur systématique qui décale le résultat. Les appels en journée et en semaine favorisent par exemple une surreprésentation des chômeurs, des retraités et des femmes au foyer. Ceci peut influencer les résultats par exemple si la question porte sur le temps d’heures de travail des individus.
Les méthodes de collecte ont évolué depuis 10 ans. Le face à face se fait de plus en plus rare car il est plus onéreux et complexe. Les enquêtes téléphoniques se sont généralisées et les enquêtes via internet sont de plus en plus pratiquées. L’élection présidentielle 2012 est unique. Il s’agit de la première campagne électorale accompagnée de sondages sur internet*. Hormis le fait qu’internet ne permette de sonder que les internautes, cette dernière méthode, si elle repose sur une méthodologie solide, comporte de nombreux avantages (sincérité meilleure des réponses aux questions sensibles, utilisation d’images et de supports écrits). La manière de formuler les questions et le contact humain entre enquêteurs et enquêtés sont aussi des facteurs supposés influencer les réponses.
Ainsi, au premier tour des présidentielles de 2002, les sondages téléphoniques se heurtaient à une forte sous-déclaration des intentions de votes pour Jean-Marie Le Pen. La défaite de Lionel Jospin face au candidat du Front National n’avait donc pas pu être anticipée. Cet exemple montre les limites des enquêtes de sondages. On peut penser qu’en 2012 les enquêtes par internet recueillent plus fidèlement les intentions de vote en faveur de la candidate du Front national. Toutefois, certains biais de sondages ne sont pas quantifiables. Par ailleurs, les instituts s’efforcent de gérer le biais de sélection dû aux personnes qui ne répondent pas ou refusent de répondre. En cas de non-réponse, il faut tenter de remplacer l’enquêté par son « sosie sociologique ou politique. »
Les instituts ne s’arrêtent pas aux résultats bruts, mais effectuent des redressements de l’échantillon pour améliorer la précision de l’estimation et surtout pour corriger les biais. Cette opération consiste à comparer les sondages des votes antérieurs aux résultats de ces élections passées. Les personnes appartenant à un groupe sous-représenté dans l’échantillon se voient alors affectées d’un coefficient supérieur à la moyenne. Plusieurs méthodes de redressement sont appliquées aux résultats suivant des critères politiques ou sociologiques. Après 2002, on a attribué un coefficient supérieur aux électeurs de Jean-Marie Le Pen pour corriger la sous-déclaration de certains électeurs. Or, depuis 2002, le FN a été un peu ‘dédiabolisé’. Les coefficients antérieurs conduiraient alors à surestimer les votes pour ce parti. Les traitements opaques des données par les politologues nuisent à la valeur scientifique de tout ou partie de ces enquêtes. « C’est pour cette raison que le Sénat a souhaité que la loi régissant ces enquêtes soit révisée, » évoque Benoît Riandey, statisticien à l’Institut National (INED) et président du groupe Enquêtes de la SFdS. « Le sénat a voté à l’unanimité une proposition de loi visant à améliorer la transparence des méthodes des sondages d’intention de vote. La FSdS avait été consultée par le Sénat. Depuis, nous avons mis en ligne des textes pédagogiques sur les enquêtes par sondages. La proposition de loi du Sénat citée n’a pourtant jamais été mise à l’ordre du jour de l’Assemblée nationale et n’a donc pu être adoptée… »
Il est probable que la publication des sondages exerce elle-même une influence sur les intentions de votes favorisant par exemple le vote utile ou plus généralement un vote stratégique. Les sondages évalueraient donc un environnement qu’ils modifient dès la publication des résultats. Ceci pourrait amplifier l’avance de certains candidats, étouffer la présence des ‘petits partis’. Ceci constitue surtout un frein à la liberté individuelle de réponse.
Eléments de statistiques sur la précision
Une fois l’échantillon construit et les résultats obtenus, ces derniers doivent être analysés. Des méthodes d’estimation permettent alors de dégager des tendances dans les réponses obtenues. La faible taille des échantillons et les biais cités ci-dessus doivent inciter à la prudence. L’estimation est la valeur que le calcul donne pour le paramètre étudié, par exemple la fraction d’électeurs votant pour le candidat X. On ne connaît jamais la valeur réelle, seulement une estimation de celle-ci. Le calcul de l’estimation comporte une "erreur". Celle-ci se compose du biais et de la variance. La variance traduit l’instabilité des résultats obtenus d’un échantillon à l’autre. Si l'on obtient 28% ± 2% pour le candidat X et 27% ±2% pour le candidat Y, l'écart entre les deux candidats est très peu significatif. Ne rapporter que 28% et 27% et en conclure que "ce candidat est en avance sur l'autre" est équivalent à dire "fumer 44 cigarettes par jour est plus grave que fumer 43 cigarettes par jour". Estimer l’erreur est primordial pour connaître l'incertitude du résultat final.
« Certains instituts de sondage commencent à associer à leurs résultats des intervalles de confiance ‘à 95%’ », explique Avner Bar-Hen, ancien président de la Société Française de Statistiques et enseignant-chercheur en probabilités et statistiques à l’université Paris Descartes. Il y a alors 95% de chance que la paramètre réel soit dans l‘intervalle défini. Au contraire de la sélection aléatoire, la méthode des quotas ne permet pas facilement de calculer l’erreur et l’incertitude sur le résultat. Plus l’échantillon est complexe, plus le calcul de la variance et des estimateurs sera ardu.
Comment lire les sondages ?
Les échantillons des instituts privés sont petits et les sources d’erreurs et de biais nombreuses. Dans les médias, les sondages sont souvent associés aux mentions ‘l’échantillon représentatif’ ou ’selon la méthode des quotas’. Ceci ne reflète pourtant pas la qualité du sondage. Le taux d’indécis et le taux de réponses seraient au contraire des informations intéressantes à communiquer. Si les sondages électoraux ne constituent qu’une faible part des revenus des instituts privés, ces derniers ne donnent pourtant jamais l’accès aux données brutes. Mais concrètement comment faire pour bien comprendre les résultats ? Il serait très intéressant d’observer les évolutions des résultats au cours du temps mais à condition de conserver les mêmes méthodes. On neutraliserait alors le biais constant entre les enquêtes. En principe, à la demande de la Commission des sondages, les instituts utilisent la même méthode de redressement au cours d’une campagne électorale.
Par essence du sondage, les instituts ont droit à l’erreur. Mais il est par contre peu probable qu’ils se trompent tous en même temps. La synthèse des résultats de tous les instituts de sondages est l’analyse la plus pertinente que l’on puisse faire. Le site du Nouvel Observateur propose par exemple un comparatif des résultats de sondages par instituts et par candidats. Ce genre d’analyses permet de lisser les biais, les erreurs. On voit par exemple que les résultats des premiers sondages sont très dispersés car un an avant la date du vote le nombre d’électeurs indécis est très grand. Le blog ‘Sondages 2012 pour l’élection présidentielle’ propose chaque lundi un indicateur agrégé des sondages. « Il consiste en une moyenne pondérée de tous les sondages publiés par les 9 instituts français. » Ce blog offre une analyse pertinente de l’évolution des sondages car il convient vraiment de ne pas se cantonner à quelques chiffres pour juger d’une chose aussi subtile que l’opinion d’un peuple.
Mais, au final, le mieux serait de recourir à de nouvelles méthodes plus significatives, par exemple des enquêtes sur les préférences plutôt que les intentions de vote. « Ainsi le 23 août dernier, explique Benoît Riandey, le journal Le Monde a publié les résultats d’une enquête au cours de laquelle il a été demandé à un échantillon de personnes de noter de 0 à 10 un grand nombre de personnalités politiques potentiellement candidates. La note 0 signifiait que la personne était certaine de ne pas voter pour ce candidat alors que 10 annonçait une certitude de 100% de voter pour lui. Ces résultats, très illustratifs du potentiel de ces personnalités tant en termes d’intentions de vote et de reports de voix étaient beaucoup plus pertinents que de pseudo-intentions de vote à cette époque très préélectorales. »
* Le premier sondage électoral français par internet a été testé en 2007 par l’institut Opinion Way.
La commission des sondages, instituée par la loi de 1977 relatives aux sondages électoraux est chargée de les contrôler en sorte que la sincérité du vote ne soit pas affectée par des sondages trompeurs ou de qualité insuffisante.
En savoir plus :
Le site de la Société Française de Statistique (SFdS) met en ligne des textes pédagogiques sur les sondages qui sont faciles à lire et édifiants https://www.sfds.asso.fr/228-Sondages_electoraux
Loi du 19 juillet 1977 relative à la publication et la diffusion de certains sondages d’opinion https://www.commission-des-sondages.fr/lois/lois.htm
Méthodes de sondage par les sites de Institut National d’Etudes Démographiques (INED) https://www.ined.fr/