Les Big Data prémunissent-ils des biais dans les études ?

Dans DATA ANALYSIS
Par Magali Trelohan

Si certains ont pu croire ou vanter que les big data nous écarteraient du risque de biais dans les études, l'expérience tend à montrer une réalité plus contrastée. Pour les défenseurs des big data, deux arguments majeurs viennent montrer que les big data sont sources de moins de biais : (1) Les big data ne sont pas basés sur du déclaratif mais sur du comportement effectif, on écarte donc tous biais liés à la construction d'un questionnaire et à la collecte de données. (2) Le machine learning analyse les données de manière objective puisque l'intervention humaine est de plus en plus réduite et que la « machine apprend par elle-même ». Trois grandes familles de biais se distinguent donc ici : d'une part les biais liés au design de l'étude, d'autre part ceux liés à la collecte des données et enfin les biais liés à l'analyse des données. Nous passerons en revue chacune de ces familles et verrons que dans les études reposant sur des big data, trois biais restent fortement présents : le biais d'endogénéité, le biais de sélection et le biais de self-reference.

Tout d’abord, dans la mesure ou l'étude des big data ne s'appuie pas sur des questionnaires, naturellement, les biais liés au design du questionnaire sont écartés. Ainsi les biais d'instrumentation liés à des questionnaires mal construits comme l'effet d'ordre des questions n'auront plus lieu d'être.

Concernant la deuxième famille de biais, ceux liés à la collecte de données, certains biais vont effectivement être évités du fait de l'observation de comportements effectifs et non déclaratifs. En particulier, on évitera les biais de tests qui font que les répondants vont chercher à rationaliser leurs réponses les unes par rapport aux autres, à apporter des réponses cohérentes avec leurs valeurs et l'image qu'ils ont d'eux-mêmes ou encore le biais de désirabilité sociale qui va les pousser à répondre de la manière qui leur semble la plus satisfaisante pour l'intervieweur. En revanche, d'autres biais peuvent se maintenir puisque l'analyse de big data nécessite bien de sélectionner des données. Nous verrons à cet égard les risques liés au biais de sélection.

Enfin, pour la troisième famille, les biais liés à l'analyse de données, ce sont certainement les biais les plus importants dans les études portant sur le big data. Si les analyses menées dans le cadre des études traditionnelles sont déjà parfois (souvent) mal comprises des dirigeants, les études de big data font appel à des outils statistiques plus complexes et donc plus difficilement maîtrisables. Les data scientists ont un grand travail de pédagogie à mener pour faire comprendre leurs actions et surtout les limites de celles-ci. Les décisions prises à partir des big data requièrent donc une bonne compréhension des résultats obtenus et des biais possibles. C'est seulement à cette condition que les big data deviendront des « smart data ». Nous nous focaliserons ici sur le biais d'endogénéité dans les études qui cherchent à montrer des effets de causalité car il sous-tend trois sources de problèmes : les erreurs sur les variables mesurées, les causalités simultanées, l'omission de variables.

D'une manière générale, les biais des études sont liés à l'intervention humaine. Si l'on peut espérer que le responsable d'études soit le plus neutre et le plus objectif possible, cela reste une douce utopie. A cet égard, les recherches en psychologie sociale, économie comportementale et marketing sont particulièrement éclairantes (pour une synthèse plutôt amusante à lire, voir par exemple l'ouvrage de Chabris et Simons « Le Gorille invisible – Quand nos intuitions nous jouent des tours » qui reprend les recherches des auteurs et d'autres chercheurs). La rationalité humaine étant toute limitée, il convient d'identifier le maximum de biais auquel elle peut être soumise pour mieux les prévenir. Nous évoquerons ici un biais encore peu pris en compte mais qui peut orienter les stratégies de ciblage : le biais de self-reference.

Le biais d'endogénéité : 3 sources d'erreurs à éviter

Le biais d'endogénéité guette toute étude (fondée sur des big data ou études dites traditionnelles) qui cherche à mettre en avant des liens de causalité entre variables à l'aide de modèles de régression. Par exemple, si nous souhaitons prouver que la consommation de tabac augmente le risque de cancer du poumon, nous allons chercher à montrer un lien de causalité entre la consommation de tabac (cause) et le risque de cancer du poumon (effet). Assez simplement, il y aura biais d'endogénéité si la variable « consommation de tabac » est corrélée avec l'erreur structurelle du modèle (l'erreur calculée par le modèle qui correspond aux paramètres non pris en compte dans le modèle). On trouve trois raisons au biais d'endogénéité : des erreurs sur les variables mesurées, une causalité simultanée, l'omission de variables explicatives.

A. Les erreurs sur les variables mesurées correspondent à toutes les erreurs possibles lors de la construction d'échelle. Lorsque plusieurs items viennent mesurer un concept, les procédures d'analyse factorielle devront être rigoureuses pour venir limiter ce risque et être sûrs que les variables mesurent bien le concept souhaité (satisfaction client, engagement du visiteur, etc.). Il ne peut donc, par exemple, être décidé de manière arbitraire que le temps passé sur le site, le nombre de clics et le nombre de visites mensuelles mesurent l'engagement à la marque.

B. La causalité simultanée apparaît lorsque les deux variables testées s'influencent mutuellement. Par exemple, la motivation d'un commercial influence sa performance mais, en retour, sa performance influencera sa motivation. Il n'est donc pas possible de mesurer la causalité de l'une sur l'autre.

C. Enfin, la dernière source d'endogénéité est certainement la plus courante dans les études : l'omission de variables. Le site Arrêt Sur Image relayait en novembre 2018 le traitement médiatique d'une recherche portant sur les liens entre consommation d'aliments bio et risque de cancer. Le Monde (mais bien d'autres grands media avaient opté pour des titres du même acabit) avait titré « L'alimentation bio réduit significativement les risques de cancer » au grand dam des autrices de l'étude elles-mêmes qui ne se sont jamais montrées aussi affirmatives. Elles nuancent le propos en expliquant qu'il existe bien un lien entre les deux variables mais que la causalité ne saurait être démontrée à ce stade. En effet, d'autres variables pourraient expliquer le moindre risque de cancer car on sait que les consommateurs de bio font en général partie des CSP+, pratiquent d'avantage d'activité physique, sont moins sujets à l'obésité et moins fumeurs. Autant de variables qui n'étaient pas intégrés dans le modèle et pourraient être les vraies causes du moindre risque de cancer.

A cet égard, on se méfiera également de l'effet d'histoire qui correspond à la survenue d'un événement au cours de la collecte de données et qui va influencer les résultats plus que les variables du modèle. Le responsable d'études a tout intérêt à ne pas rester le « nez dans ses données » et a aussi regardé ce qui se passe dans la vie de ses sujets au même moment.

D. Maintenant comment éviter le biais d'endogénéité ? Une alternative, sûrement des plus robustes, pour démontrer une causalité sans risque d'endogénéité reste les protocoles expérimentaux testant deux scenarii. Par exemple, si l'on souhaite savoir si le nouveau design d'un site web incite plus les consommateurs à acheter, un test A/B permettra de tester les deux versions et de comparer leurs effets sur les ventes. Cette solution, si elle semble être la plus efficace, n'est cependant pas toujours réalisable en fonction de la problématique à tester. Un article récemment publié dans la revue Industrial Marketing Management par Ghasem Zaefarian et ses collègues proposent alors différentes solutions statistiques comme le recours à des variables instrumentales ou les procédures d'estimation en 2 ou 3 étapes des moindres carrés pour pallier les problèmes d'endogénéité dans les modèles de régression.

Le biais de sélection

Le biais de sélection est un autre risque qui menace autant l'analyse des données issue des big data que des données collectées par enquêtes ou panels. On parle de biais de sélection lorsque l'échantillon choisit ne représente pas la population à laquelle on extrapole les résultats. Le site YouGov mène par exemple en ce moment une enquête sur les énergies renouvelables. Cette enquête a été envoyé aux personnes inscrites sur des sites de financement participatif de projets liées aux énergies renouvelables. La première question était « quelle opinion avez-vous des énergies renouvelables ? ». Il y a fort à parier que les personnes inscrites sur ce type de site ont une bonne voire excellente opinion des énergies renouvelables. Il y aurait un biais de sélection si ces résultats étaient ensuite extrapolés à l'ensemble de la population française. Les personnes inscrites sur ce type de site ne sont évidemment pas représentatives de la population française dans son ensemble. Le site Etudes & Biais pointait également récemment un biais de sélection dans les résultats d'une étude mise en avant par Cédric Villani dans un rapport sur l'IA. Cette étude portant sur 38 millions de patients montrait que la consommation d'alcool était liée à la survenue de démence. Toutefois, l'étude portait sur des patients hospitalisés en France. Peut-on donc extrapoler ces résultats à tous les patients ? Les caractéristiques des patients hospitalisés sont évidemment spécifiques et ne peuvent être étendues à tous les patients (la démence en soi peut être une raison de l'hospitalisation et les patients non-hospitalisés n'en souffrent peut-être pas).

Prévenir le biais de sélection demande d'être rigoureux dans la définition de la population que l'on souhaite étudier et dans l'échantillonnage qui sera fait, autant dans les études classiques que sur des données massives. Cela requiert aussi de bien connaître les caractéristiques de l'échantillon étudiée pour n'extrapoler qu'à une population ayant les mêmes caractéristiques. On évitera ainsi aux managers de prendre des décisions ou de mettre en place des programmes inadaptés, coûteux et voués à l'échec.

Le biais de « self-reference »

L'humain a ceci de merveilleux qu'il est extrêmement égocentré et voit le monde à travers le prisme restreint de sa petite personne. Vous en doutez ? Vous pensez que dans le monde des études, on est capable de se décentrer de soi pour voir les nombreuses opportunités que le marché nous offre ? Une étude de 2017 menée par Luke Greenacre et ses collègues, parue dans The International Journal of Management Education, met en évidence que les étudiants en management ont tendance à cibler, pour des actions marketing, des groupes qui leur ressemblent en termes d'âge et de sexe. Les auteurs supposaient que ce biais disparaitrait pour les managers marketing expérimentés et bien pas du tout ! Le même biais se retrouve sur les deux critères (âge et sexe). Nous aurions donc tendance à penser que la bonne cible nous ressemble. Une certaine vigilance devra donc être portée dans l'analyse des données pour ne pas survaloriser les segments nous ressemblant.

Les autres biais

De nombreux autres biais sur les big data peuvent conduire à des erreurs stratégiques :

- Le biais d'échantillonnage qui pourra être compensé par des « ensemble models » comme les forêts d'arbres aléatoires pour les grands jeux de données.
- Le biais d'attrition qui correspond à la perte de sujet au cours de l'étude. Des méthodes statistiques peuvent les limiter comme le « quantile regression estimator » proposé par Matthew Harding et Carlos Lamarche dans leur article paru en 2018 dans le Journal of Econometrics
- L'effet de maturation qui peut intervenir pour les études longitudinales et donc en particulier dans les panels. Les sujets acquièrent au fil du temps des connaissances et des compétences qui leur permettent d'avoir un regard plus aguerri sur un sujet et donc de modifier leurs opinions ou leurs comportements. Ces nouvelles connaissances pourraient donc expliquer plus qu'une action marketing, l'augmentation des ventes d'une marque. On regardera alors les résultats avec le plus d'objectivité possible pour identifier si l'action marketing est bien le facteur explicatif de l'augmentation des ventes. Pour limiter ce biais, on peut aussi évaluer les connaissances des sujets (et là, les big data pourront être avantageusement complétés par un questionnaire pour comprendre les résultats et ne pas les attribuer de manière erronée à une campagne marketing et à prendre des décisions inappropriées ensuite).
- Enfin, l'effet de halo conduit le sujet à répondre sous l'influence d'un élément tiers. Par exemple, une étude d'opinion menée sur la transition écologique juste après l'annonce d'un crédit d'impôt sur ce sujet risque de mesurer l'opinion sur le crédit d'impôt autant que l'opinion sur la transition énergétique. Les études comportementales basées sur les big data devront également prendre en compte cet effet au risque de faire des prévisions erronées sur les comportements futurs.

En conclusion, si les big data permettent de fonder les prévisions de l’entreprise sur des comportements effectifs plutôt que déclaratifs ou intentionnels, elles sont loin de prémunir les organisations contre tous les biais liés aux études et peuvent même en susciter de nouveaux. Le responsable d'études a toutefois un certain nombre d'outils à sa disposition pour s'en prémunir :

- Les outils statistiques (ensemble models, quantile regression estimator, variables instrumentales ou procédures d'estimation en 2 ou 3 étapes des moindres carrés pour les modèles de causalité),
- La préférence à l'utilisation de protocoles expérimentaux pour démontrer les liens de causalité,
- Une bonne définition de la population cible et le contrôle de la cohérence de l'échantillon avec celle-ci,
- Sa capacité à observer l'environ-nement de ses sujets pour identifier les facteurs hors étude qui peuvent les influencer,
- Sa prise de hauteur sur son propre travail : est-ce que j'analyse à travers mon prisme ou de manière objective ?
- L'avis d'un regard extérieur (collègue par exemple) sur ses collectes et analyses pour s'assurer d'une plus grande objectivité,
- La combinaison d'études classiques et d'études issues des big data pour tirer profit de chaque type d'étude.

L'objectif, in fine, est de mettre entre les mains des dirigeants des données qui permettront des prises de décision pertinentes, adaptées et bénéfiques sur le long terme et d'arriver donc aux fameuses « smart data ».