L’apport de l’Open Data à l’analyse de l’opinion publique

Dans Marché des études
Par Antoine Moreau

Comme dans les autres domaines, les études sur l’opinion publique ne peuvent plus se restreindre à utiliser uniquement les données déclaratives collectées lors d’enquêtes qualitatives ou quantitatives. Les données de l’Open Data ouvrent un champ d’analyse nouveau, que ce soit en termes de prévision ou de compréhension des mécanismes de l’opinion. Elles donnent aussi une nouvelle jeunesse à des concepts statistiques comme l’endogénéité, qui permettent de mieux analyser ces mécanismes.

Prévision du résultat des élections et Open Data

Un premier domaine prometteur d’utilisation des données de l’Open data concerne la prévision du résultat des élections. L’apport de l’Open data dans ce domaine est double : il permet de rendre plus robuste le redressement des données brutes de sondage ; il permet aussi de projeter des résultats à un niveau local fin, ce qui serait très coûteux à faire en termes de collecte.

La principale difficulté à laquelle font face les sondeurs est bien connue des statisticiens : c’est la non réponse. Tout le monde n’accepte pas de répondre aux enquêtes. Et quand cette non réponse est corrélée avec la variable que l’on cherche à mesurer, l’échantillon que l’on obtient est biaisé (les statisticiens parlent d’échantillonnage endogène).

C’est exactement ce qu’il se passe dans les sondages politiques. Les électeurs du centre répondent plus aux enquêtes que ceux qui votent pour les partis extrêmes. Dans les données brutes, Marine Le Pen est sous-estimée et Emmanuel Macron est trop haut. Il faut donc faire un redressement. Il n’y a rien de honteux dans ce genre de redressement. Pas de cuisine, ni de tambouille. Le développement de méthodes pour traiter du biais d’endogénéité a valu à leurs auteurs le prix Nobel d’économie. Les instituts ne mettent pas en œuvre les méthodes les plus sophistiquées préconisées dans ce cadre, mais leurs pratiques sont simples à comprendre et n’ont rien de répréhensible sur le plan statistique.

Même si, sur le fond, cette procédure d’estimation ne semble pas dénuée de fondement théorique, son côté empirique est une vraie difficulté. Qui donne prise aux complotistes de tout bord, dont Nate Silver s’est malheureusement fait l’écho (alors qu’une explication rationnelle peut très bien être donnée au phénomène de « herding » qu’il relève).

Une nouvelle méthode de redressement

C’est pour cette raison que, en association avec Opinionway, et particulièrement Bruno Jeanbart, nous avons développé une méthode alternative d’exploitation des données des sondages. Cette méthode alternative repose sur deux ingrédients :

- Tout d’abord, une modélisation économétrique des intentions de vote, en fonction des caractéristiques des interviewés (sexe, âge, csp, diplôme, type d’habitat, locataire/propriétaire, région d’habitation, le fait d’habiter une grande agglomération) et de leur vote passé. Au premier tour des récentes présidentielle, nous avons utilisé les votes aux présidentielles 2012 et aux régionales de 2015. Pour les législatives sont bien sûr venus s’ajouter les votes à la présidentielle 2017.
- Une projection de ce modèle sur toutes les communes de France, en utilisant les données de l’Insee ou du ministère de l’intérieur, disponibles sur l’Open Data ou le site de l’Insee.

Le principe de cette méthode est très semblable à l’idée du redressement des données brutes, telle que décrite plus haut. Elle apporte deux éléments supplémentaires : (i) la prise en compte de plus de critères de redressement, grâce à la modélisation économétrique (ii) une estimation à un niveau géographique fin, basée sur des données de cadrage incontestables.

A l’occasion des primaires LR, nous avons testé le modèle pour estimer les résultats finaux, à partir des résultats dépouillés des premiers bureaux de vote. Nous avons supposé que les 2000 plus petits bureaux de vote étaient les premiers dépouillés. Sur ces bureaux de vote, François Fillon était largement devant (42,3%), Alain Juppé obtenait 25,4% des voix et Nicolas Sarkozy 25,1%. Cela correspond aux résultats qui ont été diffusés à 20h30. Notre modèle d’estimation des résultats nationaux donnait 41% – 27% – 20%. A 20h30, notre modèle confirmait donc que François Fillon était au-dessus des 40%, et que Nicolas Sarkozy était distancé.

Nous l’avons testé à nouveau à l’occasion du premier tour de la présidentielle. Sur la base du sondage Jour du Vote d’Opinionway, à 19h, notre modèle donnait la bonne hiérarchie des 4 principaux candidats (y compris l’ordre Fillon/Mélenchon, mais 30 années de pratique de la statistique nous font penser que c’est un coup de chance), avec un écart moyen de 0,6% par rapport au résultat final. Et enfin, au second tour, à 19h, notre modèle attribuait 65,5% des voix au vainqueur.

Prévision par circonscription grâce au Big data

Cette procédure d’estimation relève du Big data à la fois parce qu’on utilise des données volumineuses qui n’ont pas été collectées par enquête, mais aussi par l’intensité des calculs nécessaires à la production des résultats. Si on fait l’estimation du modèle sur les 36 000 communes de France, il faut environ 5 jours entre le début de la procédure de modélisation et sa fin. Afin de réduire le temps de calcul, nous avons réalisé une typologie des communes, emboîtée dans les circonscriptions, qui a permis de réduire à environ 6000 le nombre de regroupements sur lesquels nous faisons la projection du modèle d’intention de vote. Même comme cela, il faut environ une journée pour produire la projection. Cela dit, si on se contente de refaire tourner le modèle sur de nouvelles données de sondage sans modifier les variables explicatives du modèle, il ne faut que 5′.

La convergence entre le réel et les résultats du modèle nous encourage à penser que les projections locales de la modélisation sont, elles aussi, correctes. Mais, pour finaliser la projection des résultats dans les circonscriptions législatives, il a fallu tenir compte d’un autre élément, qui ne peut pas être intégré dans le modèle économétrique sur les données déclaratives : l’effet « sortant ». Un député sortant a un avantage par rapport à un nouveau candidat, et il faut en tenir compte.

Là encore, les données de l’Open Data jouent un rôle crucial. Le bonus dont bénéficie un député sortant peut être estimé quantitativement à partir des élections passées, à partir des résultats des élections au niveau communal. Nous l’avons fait pour 4 élections : 1993, 2002, 2007 et 2012. Plusieurs types de modélisation ont été testées (effet additif ou multiplicatif, effet différencié selon le niveau géographique,..). De manière intéressante, l’effet n’est pas le même selon l’année et la famille politique. Il a donc fallu choisir quelle année de référence choisir pour cet effet sortant. Nous avons retenu 2012 pour toutes les familles politiques, sauf le parti socialiste, à qui nous avons appliqué le coefficient – bien plus important – de 1993. Cela illustre un point toujours bon à rappeler, à un moment où les possibilités ouvertes par le Big data et l’intelligence artificielle font débat : ce n’est pas la machine seule qui sort la prévision. C’est la combinaison de l’approche quantitative et de l’expertise du secteur qui fait le bon modèle.

Lien entre abstention et vote FN : l’Open Data irremplaçable

Dans l’exemple précédent, les données de l’Open Data permettent de produire une prévision de résultat du vote de manière moins coûteuse et probablement plus robuste que les techniques basées uniquement sur le déclaratif des interviewés. D’autres types d’analyse ne seraient tout simplement pas possibles sans ces données. C’est le cas de l’analyse du lien entre vote Front National et abstention dont nous rendons compte maintenant. L’article que nous avons publié à ce sujet a obtenu le « Best Paper Award » au congrès Big data World organisé par Esomar à Berlin en décembre 2016.

Au lendemain des élections municipales de mars 2014, marquées à la fois par un taux record d’abstention (plus de 36%) et une forte poussée du Front National (11 mairies remportées), le lien entre ces deux données a fait l’objet de nombreuses réflexions et articles : le score du Front National a-t-il été renforcé par le fait que les électeurs de partis de gouvernement se sont moins déplacés ? Ou au contraire, comme le soutiennent les dirigeants de ce parti, l’abstention concernant d’abord les citoyens « hors système », le Front National est-il spontanément défavorisé quand l’abstention est élevée ?

Prendre en compte l’endogénéité

Il semble assez simple de répondre à cette question : regardons les scores d’abstention et du Front National dans une série de communes, et une corrélation entre les deux nous donnera la réponse. En fait, la réponse n’est pas si simple. La corrélation que l’on calcule dans ce cas est biaisée.

Comment une simple corrélation pourrait-elle être biaisée ? A cause d’un phénomène fondamental en statistique, l’endogénéité. Les deux questions qui terminent l’avant dernier paragraphe ci-dessus sont en fait mal posées. Elles cherchent un lien de causalité abstention vers vote Front National, là où, vraisemblablement, la décision d’un électeur est une décision simultanée : soit je m’abstiens, soit je vote Front National.

L’endogénéité est une notion complexe -le lecteur intéressé pourra se reporter à notre article-, mais pas nouvelle. On a pu montrer, par exemple, que l’impact des dépenses publicitaires sur le nombre d’entrées pour la première semaine d’un film en salles est beaucoup moins important que ce que dirait une simple corrélation. Ou encore, que l’impact des 35 heures sur l’augmentation de la productivité est surestimé si on ne tient pas compte de l’endogénéité.

Dans notre article, nous estimons un modèle reliant abstention et score du Front National, sur l’ensemble des communes française aux législatives de 2012. L’estimation du modèle par des techniques du type corrélation – donc biaisées – donne un lien positif, mais de faible ampleur entre les deux : 1% d’abstention supplémentaire est associé avec 0,1% et 0,2% de plus pour le FN.

Si on tient compte de l’endogénéité, c’est 3 fois plus : environ 0,5% de plus pour le FN s’il y a 1% d’abstention supplémentaire. Dans notre article, nous estimons un modèle reliant abstention et score du Front National, sur l’ensemble des communes française aux législatives de 2012. L’estimation du modèle par des techniques du type corrélation – donc biaisées – donne un lien positif, mais de faible ampleur entre les deux : 1% d’abstention supplémentaire est associé avec 0,1% et 0,2% de plus pour le FN. chiffres permettent de mesurer l’ampleur de l’erreur de diagnostic si les mauvais outils d’analyse sont utilisés.

L’estimation d’un modèle économétrique en présence d’endogénéité nécessite l’utilisation de ce qu’on appelle des variables « instrumentales », corrélées avec les variables explicatives du modèle, mais exogène par rapport à la variable expliquée. Trouver de bonnes variables instrumentales a toujours été un casse-tête pour l’économètre d’avant le Big data. Nous montrons dans notre article comment le volume des données disponibles permet de calculer des variables instrumentales dans des conditions de robustesse inatteignables avec des données classiques.

Déterminants du vote Front National

L’autre apport de notre modélisation, et de la richesse de l’Open Data, est de mesurer l’impact sur le vote Front National de toute une série de caractéristiques qu’il ne serait pas simple de prendre en compte dans une enquête par sondage classique : taux de chômage, niveau de revenu, inégalité de revenu, religion, …. Nous passons ci-dessous en revue quelques enseignements.

Premier déterminant du vote FN, le chômage. 1% de chômage en plus se traduit par 1% de votes FN supplémentaires. C’est, avec l’abstention, la variable la plus significative du modèle.

Autre effet très significatif, le niveau de revenu, rapporté au nombre de personnes du foyer. Un revenu annuel médian augmenté de 5000 euros diminue le score du FN de 1%, sauf dans les petites communes où l’effet est un peu plus faible. Cet effet se cumule avec l’effet du chômage. Les inégalités de revenu, en revanche, n’ont pas d’impact sur le score du FN. Le coefficient associé à l’indice de Gini, que nous avons introduit dans notre modélisation, est non significatif.

Un effet sans ambiguïté celui-là, celui du nombre d’immigrés. Toutes choses égales par ailleurs, 1% d’immigrés en plus fait diminuer le score du FN de 0,15%. Cela pourra sembler étrange : toutes les communes gagnées en 2014 par le FN se situent dans le dernier décile de leur département en termes de proportion d’immigrés. Mais c’est justement là l’intérêt d’une analyse de modélisation, qui tient compte simultanément de toute une série de variables. L’implantation du Front National dans des communes à forte densité d’immigrés est due à un taux de chômage important et à la faiblesse du revenu moyen, pas à la présence de ces populations.

La proximité entre lieu de travail et lieu de résidence a aussi un effet sans ambiguïté. Dans les communes où les actifs travaillent plus près de chez eux, le FN est moins présent, particulièrement si ces actifs utilisent les transports collectifs.

Autre effet significatif, celui de la composition du foyer. Quand les foyers où les deux parents sont actifs sont surreprésentés, le FN est moins fort.

Un dernier exemple intéressant, car il aurait été très difficile à mesurer dans une enquête quantitative : l’effet de la religion catholique. Il s’agit de savoir si l’intensité de la pratique religieuse catholique a un effet – que l’on attend négatif – sur le vote FN. Nous avons pu le faire d’une manière un peu détournée, mais qui apporte une réponse probante à la question. Le recensement de l’INSEE collecte des données au niveau commune sur la CSP des habitants. Les résultats sont disponibles au niveau 29 postes. Un de ces postes s’intitule « Clergé, religieux » : les chiffres donnent séparément les effectifs homme/femme.

Intégrer directement le pourcentage de religieux parmi les actifs de la commune dans le modèle ne mesure pas ce que nous souhaitons mesurer : l’intensité de la pratique religieuse. Pour plusieurs raisons. Premièrement, il y a deux fois moins de prêtres que de communes : un prêtre intervient donc sur plusieurs communes. Ensuite, on peut penser que les attitudes vis-à-vis de la religion dépassent les frontières de la commune et doivent être mesurées sur des territoires de taille plus significative. Nous avons ainsi calculé le pourcentage de religieux à différents niveaux d’agrégation : le canton, puis la sous-préfecture.

Le bon niveau est celui de la sous-préfecture : plus le nombre de religieux de la sous-préfecture est important, moins il y a de votes FN dans les communes de cette sous-préfecture. L’effet est significatif : -1% de votes FN dans les communes appartenant aux 25% de sous-préfectures à la plus forte densité de religieux. Il semble bien par ailleurs qu’il s’agisse d’un phénomène spécifiquement catholique. Nous avons séparé les pourcentages d’hommes et de femmes religieux : c’est le pourcentage d’hommes qui a un coefficient négatif (très) significatif. Celui pour les femmes n’est pas significatif.

Simulations de changement de système électoral et Open Data

Autre exemple où la non prise en compte de l’endogénéité – par l’intermédiaire des données de l’Open Data – conduit à des conclusions erronées : la simulation des résultats d’une élection dans un autre système électoral que celui dans le cadre duquel elle s’est déroulée.

The Economist, dans son édition du 5 mai, imagine ce qu’auraient donné les résultats de l’élection présidentielle française si la France avait le même système électoral que les Etats-Unis. La conclusion est que Marine Le Pen aurait pu gagner. L’hebdomadaire en déduit que « the difference between a populist tide and a centrist resurgence may come down to the electoral system ». Conclusion politique cruciale, et pourtant totalement inexacte, comme nous le montrons dans un autre article.

La manière dont les électeurs votent dépend du système électoral. Il n’est pas possible de savoir comment auraient voté les français si le système électoral avait été différent. Vu le rejet que suscite le Front National, qui, au fil des élections, ne reste qu’une (importante) minorité, on peut penser que les résultats du premier tour auraient été différents s’il avait été décisif. L’impossibilité de faire des simulations du type de celle de The Economist vient du fait que le système électoral ne peut pas être considéré comme exogène par rapport au vote.

A partir de données des élections municipales de 2014 au niveau communal, et en appliquant une procédure similaire à celle utilisée dans la modélisation des déterminants du vote Front National décrite précédemment, nous montrons [5] l’endogénéité du système électoral par rapport aux votes exprimés. La simulation de The Economist repose sur l’erreur classique du prévisionniste en herbe : considérer que la variable qui définit le scénario de la prévision est exogène. Là encore, sans les données de l’Open Data, cette dépendance entre système électoral et résultat du vote resterait probablement au niveau d’une simple conjecture.

Cette analyse nous permet aussi de mettre en évidence un autre résultat important : toutes choses égales par ailleurs, une liste municipale conduite par une femme obtient 6% de votes de moins qu’une liste conduite par un homme. L’Open Data ouvre de nouvelles voies d’analyse, mais les résultats obtenus ne sont pas toujours réjouissants.

Nos travaux sur l’utilisation de l’open data à des fins de compréhension de l’opinion publique nous confortent sur le fort potentiel d’un approche favorisant l’hybridation des données et méthodes à des fins d’explication, de prédiction et de simulation. Le champ des possibles est infini puisque les données publiques sont de plus en plus largement disponibles, nous encourageons vivement les spécialistes d’études et leurs clients à s’y intéresser. Le tout demande rigueur scientifique, curiosité, patience et sens critique seuls garants d’une valeur décisionnelle optimale. Nous invitons les lecteurs intéressés à nous contacter pour nous faire part de leurs projets et découvrir ensemble le plein potentiel de leurs données.