Principes de fonctionnement des tests statistiques

Dans STATISTIQUES
Par Gérard Danaguezian

Les tests statistiques permettent de contrôler la validité d’une hypothèse émise sur une population-mère, à partir des observations effectuées sur un échantillon. L’hypothèse ainsi énoncée est appelée hypothèse nulle ou H0. Elle correspond généralement à un postulat de prudence que l’on n’est prêt à rejeter qu’avec un degré élevé de certitude.

Exemples : une nouvelle molécule n’est pas plus efficace qu’un placebo ; une baisse de prix ou un changement de formule n’aura aucun effet sur les ventes ; la satisfaction sur nos produits n’a pas évolué par rapport à la vague d’enquête précédente ; le pourcentage des satisfaits est le même dans toutes les régions…

H0 correspond donc, en quelque sorte, au contraire de ce que l’on cherche habituellement à prouver, soit, très souvent, au postulat qu’il n’y a rien de particulier à signaler.
L’hypothèse alternative à H0 est appelée H1. Le test s’attachera à valider ou à rejeter H0 (et par conséquent à tirer la conclusion inverse pour H1).
Si le résultat du test amène à accepter l’hypothèse nulle H0, le chargé d’études en déduit qu’il ne peut rien conclure à partir des observations concernées, la probabilité que la répartition soit dûe au hasard étant élevée. En revanche, le rejet de H0 peut signifier que la répartition des réponses pourrait receler des informations particulières qui ne semblent pas être dûes au hasard et qu’il convient d’approfondir.

Mode d’utilisation

En principe, la mise en oeuvre d’un test statistique doit passer par les 5 étapes suivantes :

- Formulation de l’hypothèse nulle H0 et de son hypothèse alternative H1: Ces hypothèses sont toujours formulées par rapport à la population globale, alors que le test portera sur les observations effectuées dans le cadre de l’échantillon.
Exemple : Par rapport à la note de satisfaction clients de 8,7 sur 10 obtenue l’année dernière, la note de 8,5 donnée cette année par un échantillon de 100 clients ne marque pas une détérioration significative de la satisfaction de notre clientèle.
- Détermination du seuil de signification du test (appelé alpha et décrit plus loin).
Exemple : nous acceptons un risque d’erreur de 5%.
- Dans le cadre des tests paramétriques (définition plus loin), détermination de la loi de probabilité qui correspond à la population-mère.
Exemple : si on venait à interroger tous nos clients potentiels, les notes données se répartiraient selon une distribution normale ayant un écart-type de 1.
- Calcul du seuil de rejet de H0 pour déterminer la région de rejet et la région d’acceptation de H0 (et inversement de H1).
Exemple : Pour un risque de 5%, la loi normale donne une valeur critique de -0,1645. Si la valeur de notre test est supérieure à ce seuil, notre hypothèse H0 est vérifiée : la note de cette année n’est pas significativement inférieure.
- Décision de rejet ou d’acceptation de l’hypothèse H0.
Exemple : La comparaison de la différence entre 8,5 et 8,7, qui est de -0,2 étant inférieure à la valeur critique, nous devons rejeter l’hypothèse H0. Nous devons donc estimer que la note donnée cette année est significativement inférieure à celle de l’année dernière.

Erreurs-types

La conclusion retenue (rejet ou non de l’hypothèse H0) est établie avec une certaine probabilité d’erreur. Lorsque le test conduit à rejeter l’hypothèse nulle, l’erreur éventuelle dans le cas où cette hypothèse serait en réalité vraie, est appelée « Erreur de type 1 » ou « Erreur alpha ». Dans l’exemple décrit plus haut, l’erreur alpha était donc fixée à 5%.
Lorsqu’au contraire, le test nous indique qu’il ne faut pas rejeter l’hypothèse nulle, l’erreur éventuelle, au cas où cette hypothèse serait en réalité fausse, est appelée « Erreur de type 2 » ou « Erreur Bêta ».
Ces indicateurs sont interdépendants : quand l’erreur alpha est réduite, l’erreur bêta augmente. Cela signifie que le choix du seuil alpha pour le test à effectuer doit se faire en fonction du coût économique de l’une ou l’autre mauvaise décision.

Exemple : Avant de lancer un nouveau packaging, une entreprise effectue un test pour vérifier qu’il plaît plus à ses clients que l’ancien.
Si l’hypothèse est vérifiée alors qu’elle est fausse, l’entreprise va remplacer l’ancien packaging qui plaît plus par un nouveau moins attirant. Elle va y perdre de l’argent et des clients.

En revanche, si le test lui indique que le nouveau packaging est moins attirant alors qu’il l’est plus, elle va perdre une opportunité en ne le lançant pas. La comparaison des coûts de ces deux erreurs permet de fixer les seuils de manière optimale. Notons que les indicateurs alpha et bêta permettent de formaliser un niveau de sécurité pour le résultat obtenu (1 – alpha) et un paramètre indiquant la puissance du test (1 – bêta).

Test unilatéral, ou bilatéral

Lorsque l’hypothèse nulle consiste à tester l’égalité de la valeur du test avec une valeur donnée, le test est bilatéral. En effet, le rejet de l’hypothèse est décidé si la valeur du test est significativement différente, qu’elle soit inférieure (zone de rejet de gauche) ou supérieure (zone de rejet de droite).
Le test est dit unilatéral lorsque l’hypothèse nulle évalue si une valeur est supérieure ou égale à la valeur de test (unilatéral gauche) ou inférieure ou égale à cette valeur (unilatéral droit).

Tests paramétriques et non paramétriques

On distingue deux grandes catégories de tests : les tests paramétriques et les tests non paramétriques.
Les premiers exigent que l’on spécifie la forme de la distribution de la population-mère étudiée. Il peut s’agir, par exemple, d’une distribution suivant la loi normale, ce qui est le cas général lorsque l’on a affaire à de grands échantillons. En général, ces tests ne peuvent s’appliquer qu’aux variables numériques.
Les tests non paramétriques s’appliquent quant à eux, à la fois aux variables numériques et qualitatives. Ces tests ne font pas référence à une répartition particulière de la population-mère. Ils peuvent donc s’appliquer à des petits échantillons. S’ils sont théoriquement moins puissants que les tests paramétriques, on peut quand même considérer que les tests non paramétriques sont plus adaptés aux problématiques d’enquêtes. Des études ont d’ailleurs prouvé que leur exactitude sur des grands échantillons n’est que légèrement inférieure à celle des tests paramétriques, alors qu’ils sont infiniment plus exacts sur des petits échantillons.