Salon Big Data Paris 2020

Le redressement d'échantillons

personnes-ville

Le redressement d'échantillons est une pratique courante dans l'univers des études et des sondages. Certains résultats ne s'envisagent d'ailleurs tout simplement pas sans le recours préalable à cette technique. C'est le cas notamment des sondages politiques, dont les valeurs sont toujours fournies après l'application de multiples calages, pour prendre en compte les répartitions socio-démographiques, les résultats des élections précédentes et d'autres ajustements plus contestables comme l'expérience du sondeur par exemple (avec les succès que l'on sait). Ce dossier vise à expliciter les objectifs et les méthodes du redressement d’échantillons, dans le domaine des études marketing.

Redresser un échantillon, pour quoi faire ?

Dans le domaine des études marketing, le redressement d'échantillons a pour objectif d'améliorer la représentativité de l'échantillon interrogé, sur un certain nombre de critères de qualification. Le principe sous-jacent est que seul un échantillon ayant la même structure que la population-mère sur les critères que l'on connaît de cette population, permet de généraliser les réponses obtenues sur les autres critères, à l'ensemble de cette population. Le redressement cherche donc à appliquer des pondérations aux individus pour augmenter le poids de ceux appartenant à des groupes sous-représentés dans l'échantillon interrogé par rapport à la population-mère, et à réduire parallèlement le poids de ceux qui sont sur-représentés.

Mais pourquoi alors ne pas interroger directement un échantillon représentatif sur les critères souhaités ?
C'est ce que les chargés d'études cherchent à faire, lorsqu'ils établissent des quotas que les enquêteurs doivent respecter. Mais dans les faits, il est souvent difficile voire impossible de respecter parfaitement ces quotas en trouvant exactement le bon nombre de personnes dans chacune des catégories retenues. La pression économique et les délais généralement courts n'arrangent pas les choses. Les queues de quotas, cauchemar des chargés de terrain et superviseurs CATI finissent par faire l'objet de compromis.
Par ailleurs, dans beaucoup d'enquêtes, il n'est pas possible de contrôler a priori l'échantillon qui va répondre. C'est notamment le cas dans les enquêtes auto-administrées (questionnaires postaux, en libre service, placés sur un site internet, etc.) qui fournissent systématiquement des échantillons non représentatifs (ceux qui ont bien voulu répondre). C'est également le cas des enquêtes de plus en plus fréquentes réalisées en utilisant le média Internet, même lorsqu'elles sont menées sur des internautes recherchés et sollicités nominativement par l'institut d'études. Dans ce cas, la structure actuelle de pénétration du média internet dans les ménages (sur-évaluation des jeunes et des CSP+) entraîne une difficulté à dénicher certains profils et, par conséquent, la nécessité d'appliquer a posteriori des pondérations sur l'échantillon obtenu.
Le redressement vient donc pallier ces difficultés. Mais il faut bien prendre garde à un élément fondamental : des pondérations trop importantes font courir un risque certain à la qualité des résultats. Ainsi, il semble aberrant de donner un poids 10 fois plus important, comme cela se pratique parfois, aux réponses de la seule personne que l'on a réussi à interroger dans une catégorie donnée. On comprend facilement que si les réponses d'un groupe de cadres supérieurs a des chances de refléter en moyenne l'opinion de l'ensemble de cette population, les opinions d'un seul d'entre eux a une probabilité beaucoup plus faible de permettre la même extrapolation. Il est donc important de chercher, autant que possible, à obtenir en amont des échantillons cohérents, en ne se disant pas que de toute manière, il suffira ensuite de redresser.
En substance, on pourrait dire que moins on a besoin de recourir aux redressements, meilleurs sont les résultats.

Sur quelles variables redresser ?

Le choix des variables de redressement est simple en théorie mais plus complexe dans la pratique. En effet, l'idéal serait d'utiliser toutes les variables sur lesquelles la répartition de la population-mère est connue de manière fiable. Ces éléments sont généralement recherchés dans les données des recensements disponibles auprès de l'Insee, ou, lorsqu'il s'agit d'enquêtes sur des univers spécifiques (ex : clients, distributeurs), dans les fichiers internes disponibles.
Les difficultés sont multiples :

- La population-mère doit être définie de manière précise pour éviter de prendre en compte des statistiques disponibles sur une population proche mais pas identique. Ainsi la population active peut correspondre à plusieurs définitions et délimitations. La population des jeunes peut correspondre à des tranches d'âge différentes…
- Il faut s'assurer que les répartitions disponibles sont conformes aux catégories utilisées dans l'enquête. Il convient pour cela d'utiliser dans les questionnaires les rubriques standards de l'INSEE en ce qui concerne par exemple les catégories socio-professionnelles, les secteurs d'activité, …
- La formulation de la question renseignée pour la population-mère doit être identique à celle posée à l'échantillon. Ainsi, la population des personnes ayant déjà fréquenté un parc de loisir est différente de celle qui a visité un parc de loisir depuis moins de deux ans. La population des personnes connaissant Internet est différente de celle des utilisateurs d'Internet…

Pour les variables numériques, les tranches doivent être identiques, et les valeurs exprimées dans la même unité statistique…

- Il faut s'assurer de la fiabilité des valeurs utilisées. L'utilisation de statistiques anciennes peut fausser les résultats au lieu d'améliorer leur représentativité.
- De même, le recours à des fichiers incomplets ou mal tenus peut provoquer des biais importants. A ce titre, les professionnels qui ont eu à gérer et à assurer la mise à jour de fichiers savent combien cette tâche est difficile et restent sur leurs gardes, alors que les autres sur-estiment généralement la qualité des fichiers qui leur sont fournis.

Si l'on ne prend garde dès la phase de préparation de l'enquête à ces difficultés potentielles, on risque d'être confronté ensuite à un problème insoluble.

Comment ça marche ?

Les calculs de redressement sont complexes lorsqu’il s’agit de redresser l’échantillon sur plusieurs variables en même temps, comme c’est généralement le cas. Moins fréquent, le redressement sur une seule variable correspond à une simple règle de 3 : si l'on veut obtenir 55% de femmes et 45% d'hommes, alors que la répartition dans le fichier est de 40/60, il suffit d'appliquer à chaque femme le coefficient 55/40ème c'est-à-dire 1,375 et à chaque homme le coefficient 45/60ème c'est-à-dire 0,75.
En présence de plusieurs variables (ex : tranche d'âge, sexe, csp), la règle de 3 peut également être appliquée si l'on connaît la distribution croisée de toutes les variables entre elles. Autrement dit, cette stratification a posteriori n'est possible que si l'on dispose d'un tableau théorique indiquant le nombre d’individus pour chaque combinaison de réponses de toutes les variables à redresser. Le rapport entre l’effectif théorique divisé par l’effectif réel constitue alors le coefficient multiplicateur à appliquer aux individus correspondants à la combinaison.
Cette méthode n'est toutefois pas vraiment utilisée pour plusieurs raisons :

- lorsque le nombre de variables est important, l'effectif des cases peut être nul dans l'échantillon. Une règle de 3 utilisant la valeur 0 donne un effectif redressé nul.
- le plus souvent, on ne dispose pas de cette répartition croisée mais seulement des distributions marginales (répartition des individus sur les modalités de chaque variable).
- La méthode de redressement la plus utilisée part donc des répartitions marginales des individus sur chaque modalité de réponse et tente, par itérations successives, de « caler » l'échantillon sur ces marges. C'est pour cela qu'on parle généralement de « calage sur les marges ».

Cette méthode fait appel à des calculs répétitifs qui ne sont pas complexes en soi mais nécessitent de nombreuses opérations. C'est pour cela que les redressements multi-critères ne s'envisagent généralement qu'avec l'aide de l'informatique. Les principaux packages statistiques du marché offrent ces fonctionnalités. Mais si certains nécessitent la mise en oeuvre de macros complexes réservées aux utilisateurs avancés, les derniers nés des outils d'analyse de données (STAT'Mania par exemple) guident l'utilisateur dans la définition des paramètres du redressement. Les étapes du redressement sont généralement les suivantes :

- l'utilisateur sélectionne dans la liste des variables de l'enquête, celle qui doivent faire l'objet d'un redressement,
- le logiciel calcule les marges sur l'échantillon en cours et les affiche,
- l'utilisateur indique, à côté de l'effectif calculé pour chaque modalité, l'effectif cible à obtenir.

Certains outils permettent de demander une valeur totale de la population cible différente du nombre d'individus de l'échantillon, pour permettre, par exemple, d'obtenir un échantillon redressé ayant, d'une vague à l'autre, exactement le même effectif.
Une fois les paramètres de redressement définis, le calcul peut être lancé. Le logiciel procède alors par itération. Il commence par chercher, pour chaque catégorie, le coefficient à appliquer pour atteindre la distribution cible. Il affecte ensuite à chaque individu, selon ses réponses à chacune des variables de redressement, une combinaison des coefficients trouvés pour les modalités qui le concernent. Cette opération est réïtérée sur la distribution obtenue, jusqu'à ce que l'effectif cible de toutes les modalités soit atteint.

Mais attention : il se peut que les calculs ne permettent pas de faire converger l'échantillon interrogé vers la distribution recherchée.

Ainsi, en prenant le cas extrême d'un échantillon de 100 personnes avec 50 hommes ouvriers et 50 femmes employées, il est impossible d'obtenir un échantillon cible présentant la répartition 40/60 pour les hommes/femmes et 60/40 pour les ouvriers/employés. On comprend bien dans ce cas qu'il est vain de rechercher des coefficients qui augmentent la proportion de femmes en diminuant la proportion d'employés (puisque toutes les femmes sont employées et tous les employés sont des femmes).
Les redressements ne sont donc possibles (et souhaitables) qu’en tant qu’ajustements réalisés sur des échantillons ayant une certaine adéquation avec la population cible.

Bien préparer vos données avant tout redressement

La technique du redressement d’échantillons est utilisée pour rapprocher le fichier de données de la réalité. Les coefficients trouvés pondèrent les données dont on dispose. Mais si ces données sont fausses dès le départ, qu’elles ont été mal collectées, mal saisies, ou qu’elles comportent trop de données manquantes, il ne servira à rien de chercher à redresser.

Comme dans toute bonne recette de cuisine, on ne répétera jamais assez, concernant l'analyse des données, que la préparation compte autant et même peut-être davantage que la réalisation elle-même : les bons ingrédients, au bon moment, avec des accessoires adaptés, représentent là aussi la première garantie de réussite.
Rappelons tout d'abord le principal objectif attendu d'une analyse des données : transformer une base d'informations, qualitatives ou quantitatives, en décisions et plans d'actions opérationnels pour un service, une entreprise, une organisation...
Pour y parvenir, et quelles que soient les méthodes utilisées, des plus simples aux plus complexes, la performance de la démarche repose sur la qualité des informations qui serviront de base aux analyses. Cette qualité dépend de plusieurs facteurs :

- le recueil des données, en particulier selon leur origine et leur mode de collecte. Ce recueil peut reposer sur de multiples moyens, supports et processus, ce qui exigera des consolidations ou des liens entre plusieurs fichiers ayant parfois des structures différentes.
- la teneur des informations, en termes de types de variables (quanti/quali, brutes ou classifiées,….) mais également concernant les valeurs aberrantes, manquantes ou nulles.

La phase indispensable de préparation des informations à analyser, que l'on appellera aussi « nettoyage des données », dépend de plus en plus des logiciels que l’on souhaite utiliser pour effectuer les traitements. Les formats, le mode de gestion des données nulles ou absentes, les modes de calculs, répondent à certaines contraintes, qui peuvent être différentes d'un outil à l'autre. Ces éléments doivent être bien connus et anticipés si l’on veut éviter, lors du traitement, les surprises éventuelles et les erreurs de raisonnement et de calcul qui pourraient en découler.

Les contrôles initiaux lors de l’acquisition des données

La meilleure manière de s’assurer que l’on dispose de données de qualité consiste à contrôler à la source, lorsque cela est possible, le processus d’acquisition et éventuellement de consolidation des données.
Mais avant d’évoquer ces processus, il convient de rappeler que la qualité des données est d’abord conditionnée par la qualité du terrain. Des questions mal posées, des cibles mal choisies ou des enquêteurs mal briefés peuvent fournir des données erronées qu’il ne sert à rien de chercher à optimiser.

Concernant l’acquisition elle-même, certains instituts réalisent, sur les données des enquêtes saisies en interne, une deuxième saisie (double-saisie), permettant, par comparaison des deux fichiers obtenus, de mettre en évidences d’éventuelles erreurs de recopiage de la réponse inscrite sur le questionnaire.
Cette méthode est très efficace, dans la mesure où la probabilité que deux personnes différentes se trompent de la même manière, au même endroit, est très faible. Elle se justifie également lorsque la saisie est encore faite “au kilomètre”, dans des outils de saisie ne permettant pas de réaliser des contrôles avancés.
Toutefois, son caractère fastidieux et long fait qu’elle est de plus en plus rarement employée, notamment par les utilisateurs finaux dans les services études des entreprises.
Heureusement, les principales erreurs de frappe peuvent être considérablement diminuées par la constitution d'un masque de saisie enrichi de commandes d'auto-contrôle, liées à la nature des questions et aux modalités de réponses : des listes à choix multiples plutôt que des questions ouvertes, des échelles de minimum/maximum, un nombre fixe de positions, la saisie obligatoire, l'enrichissement contrôlé des modalités de réponses, ….. en bref une saisie contrôlée et intelligente !

Les fonctions des logiciels d'enquête

Les logiciels d’enquêtes modernes offrent toutes ces fonctions

Au delà des procédures de contrôle liées aux sources des informations d'autres actions sont essentielles et poursuivent cette étape, en s'intéressant directement au "contenu" des informations.
Même si la base est alimentée de façon automatique, il est de toute manière nécessaire de réaliser des contrôles de présence et de cohérence des données. Plus la base est importante plus un développement informatique et une automatisation de cette tâche seront utiles, en contrôlant par exemple la qualité des données par des tests de distribution et des mesures de contribution de certaines valeurs.
On peut distinguer et détailler ici trois exemples de procédures possibles :

- l'identification de valeurs aberrantes
- la prise en compte de valeurs manquantes
- la gestion de valeurs nulles

L'identification de valeurs aberrantes

Cette identification peut être réalisée principalement suivant 3 méthodes :

- Isoler des "pics" de valeurs suivant une distribution statistique (pouvant masquer des saisies forcées de chiffres identiques)
- Définir un intervalle compris entre la moyenne et un certain nombre d'écarts types, puis limiter ou supprimer toutes les valeurs se trouvant à l'extérieur de cet intervalle : attention, on doit prêter attention à une procédure de ce type entraînant un nombre trop élevé de suppression, qui peut révéler un problème plus grave quant à la fiabilité de la base de données.
- Construire un score permettant, grâce à différents indicateurs statistiques, d'examiner toutes les valeurs qui contribuent à la construction de ce score. Si le niveau de contribution est anormal, on peut présupposer la présence d'une valeur aberrante à examiner plus précisément.

La prise en compte de valeurs manquantes

On peut là encore suivre 3 méthodes :

- La suppression des enregistrements incomplets : c'est une décision très radicale et restrictive, qui peut faire perdre un nombre élevé d'informations, par ailleurs tout à fait valables sur certains champs, alors que l'on pourrait envisager de remplacer ou de "réparer" ces valeurs.
- Le remplacement des valeurs : certains logiciels permettent de substituer une valeur absente par une valeur calculée, mais encore faut il s'accorder sur la méthode de ce choix : (moyenne, médiane, un calcul de score, ou une autre approche…. )
- La gestion des valeurs : certains logiciels acceptent de réaliser des calculs en l'absence de certaines valeurs, sans altérer la pertinence des traitements et des résultats, ou en les considérant comme des facteurs complémentaires d'indécision, en multipliant les cas de résolution possibles. Cela reste cependant un frein au déroulement correct de l'étude

La gestion des valeurs nulles

Elle dépend directement du principe de calcul des logiciels ensuite utilisés, et du degré de fiabilité des traitements et des résultats que cela peut induire. Il faut cependant souligner qu'une présence trop importante de valeurs nulles ou de valeurs absentes peut en fait révéler des problèmes plus généraux, liés soit au recueil des données, au système de stockage, aux règles de contrôle, à la complexité des données elles mêmes,.. et qu'il faut veiller à remonter à la source du problème.