E-marketing Paris 2020

Le test d’indépendance du Khi2

img

Le test d’indépendance du Khi2 permet de déterminer si deux questions qualitatives son indépendantes ou non, ou autrement dit, si les réponses de l’une conditionnent les réponses de l’autre. Il ne permet toutefois pas de connaître le sens de la dépendance.

Ce test s’applique sur un tableau de contingence, expression qui désigne le tableau de croisement des deux variables catégorielles.

Le principe est de calculer l’écart entre la distribution obtenue et une distribution théorique que l’on obtiendrait si les deux variables étaient totalement indépendantes. Cet écart nous permet d’accepter ou de rejeter l’hypothèse d’indépendance H0.

Voici un exemple qui va nous permettre de bien comprendre toutes les phases de ce test : on a interrogé des habitants de Paris, de Lyon et de Marseille sur l’appréciation de 4 stations de radio. Le croisement de ces deux variables donne le tableau de contingence suivant :

Tableau de contingence

Etape 1 : Calcul du tableau théorique

Considérons les marges qui correspondent aux distributions des variables VILLE (77, 65, 58) et RADIO (47, 45, 75, 33).

Si ces deux variables étaient indépendantes, la distribution des valeurs du tableau serait répartie de manière « équilibrée » en ligne et en colonne.

La valeur théorique de chaque case s’obtient en multipliant le total ligne par le total colonne puis en le divisant par le total général.

Ainsi, la 1ère case devrait contenir la valeur (47×77)/200, soit 18,1. Le tableau théorique est donc le suivant :

Tableau théorique

Etape 2 : Calcul de la valeur du Khi2

Pour évaluer l’écart entre ce tableau et le tableau précédent, on calcule, pour chaque case :

[(val theorique- val réelle)^2]/val theorique

En additionnant ces valeurs, on obtient 7,6 :
(0,0+0,5+0,5+1,6+0,0+1,9+0,3+0,8+0,1+0,4+0,2+1,3) = 7,6

Etape 3 : Interprétation

Pour interpréter cette valeur, on se réfère à la table du Khi2 qui présente les valeurs (cases de la table) ayant une probabilité donnée d’être dépassées (en colonne), selon différents degrés de liberté (en ligne) :

- La probabilité est notre seuil ou marge d’erreur que nous nous fixons (en général 5%).

- Le nombre de degré de liberté (noté ddl) correspond à :
ddl = (Nombre de lignes – 1) x (Nombre de colonnes – 1)

Dans notre exemple, on a ddl = (4-1) x (3-1), soit 6.

En regardant la case qui correspond à la colonne 0,05 et à la ligne 6, on trouve la valeur 12,59. Autrement dit, il y aurait, pour notre tableau 5% de chances que le Khi2 dépasse cette valeur (et 95% de chances qu’il soit inférieur). Etant donné que le Khi2 calculé est inférieur à cette valeur, nous ne pouvons pas rejeter l’hypothèse nulle. On considère donc que les 2 variables sont indépendantes.