Hors-Série IA 2020

Croyez-moi… Ou ne me croyez pas ! - Analyse de la qualité des données d'enquête

Qualité données d'enquête

« J'ai l'habitude de répondre en moyenne à chaque question », admet un participant à un groupe de discussion que nous avons invité au sujet des enquêtes consommateurs. « Oui », acquiesce un autre intervenant, « je perds ma concentration après... quatre questions, et puis... je ne me soucie pas vraiment de la réponse ». Voici une nouvelle qui n’est pas des meilleures pour les spécialistes du marketing qui comptent sur les enquêtes pour déceler les pensées et motivations des consommateurs.

Que votre département marketing ait recours à des enquêtes consommateurs pour évaluer les perceptions de la marque, l'utilisation de la marque ou les caractéristiques de votre clientèle cible, il est essentiel que les résultats obtenus reflètent l'opinion réelle de vos répondants. Les consommateurs peuvent être motivés à participer à une enquête pour un certain nombre de raisons – tel que l'intérêt pour le sujet, le plaisir, la curiosité, l’envie d’aider, le sens de l'obligation ou le besoin de reconnaissance. Malgré cela, les chercheurs en marketing sont régulièrement confrontés à un phénomène appelé la « réaction imprudente ». Il s'agit d'un style de réponse qui est aléatoire par rapport au contenu de la question : en d'autres termes, le score est « aléatoire ». Les réponses imprudentes semblent être particulièrement fréquentes lorsqu'il s'agit d'enquêtes en ligne et mobiles. Cela pourrait s'expliquer par le fait que les consommateurs jouissent d'un degré plus élevé d'anonymat et d'une responsabilité moindre dans de tels environnements numériques. De plus, le processus de remplissage d'un questionnaire sur un appareil mobile est si simple qu'il peut encourager à répondre rapidement aux questions. Selon certaines estimations, les réponses inattentives peuvent représenter de 10 % à 42 % des données des sondages en ligne.

Généralement, les justifications fournies par les personnes pour justifier des réponses inexactes à un sondage appartiennent à l'une des deux catégories suivantes : (1) raisons liées au contenu de la question (p. ex. questions jugées trop personnelles) et (2) raisons sans rapport avec le contenu de la question (p. ex. impatience, désengagement, inattention ou malice). Qu'ils soient attribuables à des lacunes dans la conception du questionnaire (p. ex. de longs questionnaires qui font perdre aux participants leur intérêt et les fatiguent) ou à des ruptures de contrats sociaux entre les chercheurs et les participants au sondage, les réponses inexactes menacent la fiabilité de la recherche marketing. La mauvaise qualité des données résultant de ces auto-déclarations peut induire en erreur les gestionnaires et encourager des actions commerciales qui nuisent irrémédiablement aux entreprises. Il est donc primordial qu'une fois une campagne de collecte de données terminée, les analystes puissent identifier et ensuite purger les données problématiques. Diverses techniques de contrôle de la qualité des données peuvent être employées à cette fin. Ces techniques diffèrent dans leur difficulté de mise en œuvre. L’idéal est de choisir une approche appropriée en fonction de la taille de votre département marketing et des compétences de vos analystes.

Difficulté de mise en œuvre : Facile

1. Evaluer le temps de réponse

Pour cette méthode, votre équipe devra déterminer le temps minimum requis pour répondre à l’étude. Vous pouvez tester votre questionnaire sur un groupe réduit de personnes qui se rapprochent des personnes que vous souhaitez interroger. Dans certains cas, un test interne sur plusieurs employés peut suffire. Cela vous permettra de créer une « coupure » et d'éliminer les cas avec des temps incroyablement rapides qui indiquent une réponse négligente. Par exemple, si un pré-test d'enquête sur 10 consommateurs a montré qu'en moyenne, il faut 10 minutes pour répondre de manière réfléchie à toutes les questions, un analyste peut vouloir exclure de l'analyse les répondants qui ont pris moins de 3 minutes pour répondre aux questions.

- Avantages : Seules des compétences analytiques de base sont requises. La méthode est facile à expliquer à la direction et aux autres parties prenantes.
- Inconvénients : Les "seuils" de temps sont souvent arbitraires. La méthode ne permet pas d'identifier les répondants qui ont fourni des réponses imprudentes, mais qui ont été inscrits au sondage pendant une plus longue période.

2. Demander au répondant de se prononcer sur la fiabilité de ses réponses

Cette méthode exige que vous incluiez un seul élément du questionnaire dans lequel le répondant vous dit s'il pense avoir été suffisamment attentif. Généralement, il est présenté à la fin de l'enquête et pourrait être formulé comme suit : « À votre avis, devrions-nous utiliser vos données dans nos analyses pour cette étude ? ». Si la participation à l'enquête est récompensée par des incitations monétaires ou d'autres incitations tangibles (par exemple, des coupons promotionnels ou un tirage au sort), il est important d'informer le consommateur qu'il recevra quand même sa rémunération, peu importe la réponse qu'il donnera à cette question. La réponse peut être enregistrée sous la forme d'une question binaire « Oui » ou « Non », auquel cas seules les réponses des personnes qui ont choisi « Oui » doivent être utilisées pour d'autres analyses ; ou sous la forme d'un continuum (p. ex. 1 à 7, 1 étant « Définitivement non » et 7 étant « Définitivement oui »), auquel cas les chargés d’études doivent s'entendre sur une valeur seuil (p. ex. 4).

- Avantages : La mesure peut être très précise, car le participant est celui qui sait le mieux s'il a été négligent dans sa réponse.
- Inconvénients : Cette technique dépend de l'honnêteté des participants et de leur attention au moment où la question a été posée. Les « seuils » sélectionnés peuvent être arbitraires.

3. Effort autodéclaré

Comme pour la méthode précédente, cette technique propose de demander directement aux consommateurs de d’évaluer les efforts qu'ils consacrent à remplir le sondage. Ceci peut être fait avec une ou plusieurs questions, comme par exemple : « J'ai fait de mon mieux pour répondre à ce questionnaire », « J'ai fait de mon mieux pour répondre à cette enquête », « Je serais intéressé à lire les résultats de cette étude ». De plus, on pourrait demander aux consommateurs d'indiquer dans quelle mesure l'énoncé « Je suis pressé en ce moment » s'applique à eux - de toute évidence, des résultats plus élevés sur ce point indiqueraient un effort moindre. Si l'on utilise plusieurs questions, on peut faire la moyenne de la note d'effort autodéclarée pour l'ensemble de ces questions. Encore une fois, cette méthode suppose que les personnes en charge de l’analyse des données fixent une valeur limite pour éliminer les « mauvaises » réponses.

Avantages et inconvénients : Les mêmes que ci-dessus.

4. Sondes d'attention

Cette technique nécessite l'intégration de « questions pièges » dans l’enquête. Ces « questions cachées » sont destinées à détecter si un répondant lit réellement le texte de la question, au lieu de cliquer sans réfléchir dans le sondage. Il existe deux types de questions de ce type. Tout d'abord, vous pouvez utiliser un élément de réponse simple qui se lira comme suit : « Veuillez choisir fortement d'accord si vous lisez cette question ». Deuxièmement, vous pouvez utiliser ce qu'on appelle des « questions bidons », où une seule réponse est possible. Par exemple, en répondant à une question qui dit « Je dors moins d'une heure par nuit » ou « Je vois des étrangers tous les jours », un répondant attentif est obligé de choisir « Tout à fait en désaccord ». Une fois les données recueillies, un nombre total de sondes d'attention auxquelles il n'a pas été répondu correctement est calculé pour chaque répondant, ce dernier étant considéré comme un indicateur de la qualité des données (p. ex. une sonde manquante est pire qu'une sonde nulle, deux sondes manquantes sont pires qu'une sonde manquante, et ainsi de suite). Les analystes décident de la valeur seuil qui est jugée comme étant un nombre excessif de sondes d'attention manquantes.

- Avantages : Compétences analytiques de base requises. La méthode est facile à expliquer à la direction et aux autres parties prenantes.
- Inconvénients : Certains chercheurs suggèrent que les questions d'attention peuvent influencer l'humeur des répondants. En d'autres termes, les participants peuvent se sentir méfiants et ennuyés par les tentatives de tester leur attention.

Difficulté de mise en œuvre : Modéré

1. Analyse à long terme

Cette technique consiste à mesurer le nombre de fois qu'un répondant a répondu par une séquence ininterrompue de scores. Par exemple, imaginez que votre enquête contienne 10 questions demandant chacune au répondant d'indiquer dans quelle mesure il est d'accord avec un certain énoncé. Si l'échelle va de 1 (fortement en désaccord) à 7 (fortement d'accord), et qu'un répondant a répondu "2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4", alors la plus longue chaîne est 7 notes identiques (toutes « 3 »). Elle peut être calculée pour chaque répondant comme étant la plus longue chaîne de caractères de toute l'enquête, ou sur chaque page de l'enquête, ou la moyenne des chaînes de caractères les plus longues sur plusieurs pages de l'enquête. Une fois que vous l'avez calculé pour chaque participant, vous devez rechercher les valeurs aberrantes - en d'autres termes, les participants qui ont fourni des chaînes inhabituellement longues des mêmes réponses. L'hypothèse est qu'un consommateur qui utilise de façon excessive des séquences ininterrompues ne lit pas attentivement les questions de l'enquête, mais fournit plutôt le même score à chaque question. Une façon de rechercher les valeurs aberrantes consiste à créer un histogramme de la chaîne de caractères la plus longue pour chaque répondant, et de voir si l'un d'entre eux se distingue vraiment. Si vous voyez des valeurs aberrantes évidentes, vous pouvez conclure que ces répondants ont fait preuve d'insouciance et retirer ces cas de l'analyse plus poussée.

- Avantages : La technique est fiable, car elle permet de comparer les répondants entre eux.
- Inconvénients : Des compétences analytiques et logicielles plus avancées sont nécessaires pour la mise en œuvre. La structure de l'enquête et le type de questions peuvent inciter même les répondants attentifs à fournir une séquence ininterrompue de scores.

Difficulté de mise en œuvre : Difficile

1. Introduire des coefficients de corrélation (set de 30 questions min.)

On peut supposer sans risque de se tromper que les consommateurs attentifs répondent aux sondages d'une manière cohérente. Par exemple, s'ils ont une attitude globalement positive à l'égard de la marque, ils sont susceptibles de fournir des scores assez élevés lorsqu'ils indiquent leur approbation avec des affirmations telles que « J'aime cette marque », « J'ai une opinion favorable de cette marque » et « Je recommande cette marque à mes amis ». Ces questions similaires sont appelées « synonymes psychométriques » et ont tendance à avoir une forte « corrélation interpersonnelle ». En d'autres termes, si un participant est attentif lorsqu'il répond au sondage, ses résultats aux questions qui se ressemblent seront corrélés. Une corrélation de +1 indique une corrélation positive parfaite. Si les questions sont aussi semblables que celles énumérées ci-dessus, l'analyste doit s'attendre à ce que les notes de corrélation soient d'au moins +0,6 ou plus. En règle générale, les enquêteurs choisissent autant de questions fortement liées qu'ils peuvent en trouver et calculent la corrélation pour chaque paire de questions. Si les chiffres pour certains répondants sont constamment faibles (peut-être plus près de 0, ne montrant aucune corrélation entre des éléments similaires), il s'agit d'un signal d'alarme, et les données fournies par ce répondant devront probablement être mieux rejetées.

- Avantages : Cette technique est très précise et permet de mieux comprendre le comportement de chaque répondant.
- Inconvénients : Vos analystes doivent démontrer leurs prouesses statistiques lors du calcul des coefficients de corrélation. De plus, cette méthode ne convient pas aux questionnaires plus courts, car elle nécessite beaucoup de « paires de questions » pour que les calculs fonctionnent. Il est recommandé d'analyser un minimum de 30 paires de questions.

2. Etudier le phénomène inverse de dé corrélation

De même, certains analystes se penchent sur les « antonymes psychométriques » - les questions qui indiquent l'opinion contraire. Par exemple, un consommateur ne peut être d'accord avec les deux énoncés suivants : « Je n'ai jamais acheté cette marque » et « J'achète régulièrement cette marque ». Si cette forte corrélation négative est absente, il est probable que le répondant n'a pas beaucoup réfléchi à la question.

- Avantages et inconvénients : Les mêmes que ci-dessus.

3. Avoir recours à la technique dite de consistance uniforme

Cette méthode vous demandera de calculer à nouveau les coefficients de corrélation. Pour que cela fonctionne, chaque échelle de l'enquête doit être divisée en deux parties : les questions paires et les questions impaires. Par exemple, imaginez que la perception de la luxuriance d'une marque a été étudiée à l'aide de 6 questions : « Cette marque est haut de gamme », « Cette marque est associée au luxe », « Cette marque est sélective », etc. Si le répondant a rempli le questionnaire avec sérieux et attention, alors les résultats des questions impaires (la première, la troisième et la cinquième question) devraient correspondre étroitement avec les questions paires (la deuxième, la quatrième et la sixième question). Lorsque cette corrélation est faible, le comportement de réponse est incohérent. Il est recommandé de ne pas tenir compte des données des répondants qui ont obtenu une note inférieure à 0,30 sur cet indice de corrélation. Certains répondants négligents savent que le fait de fournir une séquence ininterrompue de résultats (p. ex., "3, 3, 3, 3, 3") peut sembler suspect, alors ils tentent plutôt d'alterner leurs réponses (p. ex., "2, 4, 2, 4"). Ces types de motifs sont détectés efficacement par la technique de la consistance uniforme.

- Avantages : Cette technique est très précise et permet de mieux comprendre le comportement de chaque répondant.
- Inconvénients : Vos analystes doivent démontrer leurs prouesses statistiques lors du calcul des coefficients de corrélation. De plus, cette méthode ne fonctionne que si vous utilisez plusieurs éléments pour évaluer le même concept (p. ex. attitudes de la marque, perceptions spécifiques de la marque, etc.)

Conclusion

Cette liste de techniques d'évaluation de la qualité des données n'est pas exhaustive. Selon la formation de vos analystes et les logiciels statistiques dont ils disposent, ils pourraient vouloir employer des méthodes encore plus sophistiquées. Par exemple, une technique multivariée d'évaluation des distances de Mahalanobis identifie des points de données inhabituels par rapport aux autres répondants qui ont répondu au même sondage.

Il pourrait également être judicieux de créer un indice de qualité des données que votre organisation utilisera à l'interne pour purger les données d'enquête de qualité inférieure. Un tel indice peut inclure de multiples mesures, par exemple le temps de réponse, les sondes d'attention manquées et l'effort autodéclaré. La combinaison de plusieurs métriques en un seul indice permet de capitaliser sur les avantages de chaque technique, tout en atténuant leurs inconvénients.

Quelle que soit l'approche que vous jugerez appropriée pour votre projet, assurez-vous de toujours évaluer la qualité des données avant d'effectuer d'autres analyses. Après tout, de mauvaises données ne peuvent que produire de mauvaises stratégies de gestion.