Déterminer la corrélation entre deux variables

Comment déterminer facilement la corrélation entre deux variables, en utilisant le test du Khi2 ?

Objectif

Vous pouvez vouloir analyser la relation existant entre deux questions afin de déterminer si elles sont corrélées entre elles ou, autrement dit, si les réponses de l’une conditionnent celles de l’autre. Ainsi, l’application du test du Khi2 permet de déterminer si deux variables sont considérées comme dépendantes ou indépendantes l’une de l’autre au sens statistique.

Le principe du test du Khi2 est de calculer l’écart entre la distribution obtenue et une distribution théorique que l’on obtiendrait si les deux variables étaient totalement indépendantes. Cet écart nous permet d’accepter ou de rejeter l’hypothèse d’indépendance H0.
Ethnos offre différents outils pour appliquer le test du Khi2 dans vos études.

Démarche à suivre

Le Khi2 en quelques clics

Imaginons que vous ayez réalisé une enquête pour évaluer le taux de satisfaction des collaborateurs d’une entreprise sur différents critères. Chaque répondant positionne ses réponses sur une échelle en 3 points : « Satisfait(e) », « Neutre » et « Insatisfait(e) ». Vous souhaitez ensuite identifier si un lien existe entre le « Genre » du répondant et son taux de satisfaction par rapport à son « Environnement de travail ».
Pour ce faire, l’analyse « Khi² (indépendance) » disponible dans l’onglet « Tris » puis « Tests sur 2 variables » permet de calculer automatiquement la statistique du Khi2 des deux variables sélectionnées.

Le test fournit également une interprétation des résultats en indiquant si les variables sont significativement dépendantes l’une de l’autre ou non. Dans notre exemple, Ethnos affiche les résultats ci-contre et indique que nos deux variables sont corrélées. Ainsi, nous pouvons conclure que le fait que le répondant soit un homme ou une femme influe sur sa satisfaction concernant son environnement de travail.

Screenshot
Screenshot

Vous remarquerez certainement qu’il est indiqué que la relation entre nos deux variables est significative pour un seuil de 5,00%. Cela correspond à une marge d’erreur fixée à 5%. Vous pouvez régler ce seuil pour le réduire ou l’augmenter en utilisant l’outil « Spécifique » de votre tri. Dans le cadre de notre exemple, si nous modifions la marge d’erreur à 1%, nous remarquons que la conclusion du test est identique et que la relation est également significative pour un seuil de 1%.

Si vous souhaitez comprendre ce qui se cache derrière ces résultats et en savoir plus sur la méthode de calcul, nous vous proposons de consulter l'article dédié au Khi2 dans le Survey Mag.

En complément du test du Khi2

Après avoir interprété les résultats du test d’indépendance du Khi2, vous vous demandez peut-être quels sont les éléments qui ont fortement contribué au fait que les deux variables soient corrélées. En croisant la variable de satisfaction par le genre, nous obtenons les résultats ci-contre. Au premier coup d’œil, les % colonnes nous permettent de nous rendre compte que la répartition de la satisfaction n’est pas homogène entre les hommes et les femmes. En effet, la majorité des femmes est satisfaite de son environnement de travail tandis que la majeur partie des hommes est plutôt indifférente.

Screenshot
Screenshot

Vous pouvez ensuite étendre le test du Khi2 en l’appliquant sur le tri croisé. Pour ce faire, cochez la case « Khi² » dans l’outil « Spécifique » de votre tri. Vous pouvez observer l’apparition de symboles à l’intérieur de votre tableau. Lorsque l’effectif observé dans l’enquête est plus grand que l’effectif théorique, alors les symboles sont des « + » et, au contraire, lorsqu’il est plus petit, les symboles sont des « - ».

Pour information, l’effectif théorique est calculé en multipliant le total de la ligne par le total de la colonne de l’effectif concerné et en divisant ce produit par la somme totale des lignes et colonnes du tableau.

Le nombre de symboles affiché indique le degré de significativité de la relation.
« Probabilité < 1% » = « Très significatif » = 3 symboles
« 1% < probabilité < 5% » = « Assez significatif » = 2 symboles
« 5% < probabilité < 10% » = « Significatif » = 1 symbole
« Probabilité > 10% » = « Pas significatif » = pas de symbole

Dans notre exemple, la différence entre les hommes et les femmes est très significative pour les modalités « Satisfait » et « Neutre » mais l'est peu pour le taux d’insatisfaction. Ainsi, vous pouvez analyser non pas seulement la significativité de la relation entre les questions sélectionnées mais également entre les différentes modalités de ces variables.

Autres questions ? Contactez le service support

Posez votre question