Que reproche-t-on au juste aux tests de significativité ?

Dans STATISTIQUES
Par Gérard Danaguezian

Beaucoup d’utilisateurs vont être certainement très surpris d’apprendre que les tests statistiques qu’ils utilisent sans se poser de questions et qui font partie aujourd’hui des normes de bases de la recherche et de la publication scientifique sont, en réalité, de plus en plus contestés par de nombreux statisticiens.

La polémique entre les Bayesiens qui rejettent ces tests et les Fréquentistes qui les pratiquent n’est certes pas nouvelle puisqu’elle remonte à la mise au point des tests statistiques au début du siècle dernier. Mais elle connaît actuellement une recrudescence importante, avec notamment des initiatives officielles comme celle de l’American Psychological Association qui préconise désormais l’utilisation systématique dans les publications des estimations par intervalles défendus par les Bayesiens, en lieu et place des tests statistiques. L’augmentation de la puissance de calcul informatique pousse également à s’intéresser de plus en plus à la démarche bayesienne, là où la démarche de statistique inférentielle classique avait été adoptée pour des raisons de simplicité et de commodité.

Notre objectif ici n’est pas d’entrer dans les débats théoriques très complexes des tenants des deux écoles, mais d’expliciter les causes de la polémique, de présenter les limites des tests et d’indiquer à cette occasion les éventuelles optimisations possibles et précautions de rigueur lorsqu’on a recours à ces tests. Nous indiquerons également les éléments de base de la démarche alternative préconisée par les Bayesiens en fournissant des liens vers des ressources pouvant aider à leur compréhension et mises en oeuvre.

Les sources du problème

La source du désaccord entre Fréquentistes et Bayesiens réside dans la définition même de la notion de probabilité. Pour les premiers, une probabilité est la fréquence à long terme d’un événement après un grand nombre de tirages aléatoires. Ainsi, après une centaine de lancers, on peut s’attendre à ce qu’une pièce tombe 50% du côté pile et 50% du côté face. La probabilité est donc P(A) = n/N où n est le nombre d’occurences de l’événement A dans N répétitions.
Pour les seconds, la vision de la probabilité est lié à un niveau de croyance de l’expert. Elle mesure le caractère plausible d’un événement dans un environnement incertain. Comme l’indique le mathématicien Nicolas Vayatis en reprenant l’exemple de la pièce « Dans l’approche baysienne, on imagine qu’il existe plusieurs pièces, chacune avec sa propre valeur de p. On impose une seconde loi de probabilités, la loi a priori sur les pièces elles-mêmes : elle rend compte de notre croyance quant aux valeurs de p. Ici, on n’estime donc pas p mais sa loi de probabilité après avoir observé les réalisations ».

Limites et abus dans l’utilisation des tests

La conséquence de cette vision se traduit par une remise en cause des mécanismes des tests mais aussi de leurs pratiques. Ainsi, on leur reproche principalement les imperfections et mauvaises pratiques suivantes :

- Les hypothèses H0 sont le plus souvent du type « aucun effet ». Or cela est presque tout le temps faux car tout a un effet sur tout ou presque. Le fait qu’un test soit statistiquement significatif n’apporte donc rien de nouveau. L’important est de savoir quelle est l’importance (la magnitude) de l’effet constaté. Il est vrai que l’on sait, pour la plupart des hypothèses H0 que l’on rejette que celles-ci sont fausses. Le test permet d’indiquer si l’effet existant est négligeable ou digne d’intérêt. Le fait qu’un test soit significatif ne doit donc pas être vu comme une démonstration absolue mais comme un simple argument en faveur de l’existence de l’effet soupçonné, qu’il conviendra ensuite de vérifier en répliquant l’expérience. Dans le domaine des études, cette réplication est rarement possible. La significativité est interprétée généralement comme une preuve et non comme un indice, ce qui conduit à des interprétations erronées.
- Il suffit de prendre un échantillon suffisamment grand pour mettre en évidence une significativité statistique. A l’inverse, avec un très petit échantillon, on peut obtenir un résultat non significatif sur n’importe quoi et en rester là. Ces deux écueils ne peuvent, bien entendu, piéger que des amateurs. Mais comme le dit bien Denis Poinsot, « Le problème est que nous sommes tous des amateurs. Même les scientifiques qui sont très compétents dans leur domaine d’expertise ont bénéficié au cours de leurs études d’une formation en statistiques finalement assez modeste ». Cette remarque s’applique au moins autant aux professionnels du marketing et des études.
- Le non rejet de l’hypothèse nulle H0 est souvent interprété, de manière abusive, comme une confirmation de l’absence d’effets. A l’inverse, lorsque H0 est rejetée on confond souvent la probabilité P du test (probabilité d’observer des données si H0 est vraie) avec la probabilité que H0 soit vraie. Dans le premier cas, on n’a tout simplement pas le droit d’affirmer qu’il n’y a pas d’effet ou de liaison entre les variables. Le non rejet de H0 ne correspond pas à la démonstration que H0 est vraie. Dans le deuxième cas, si par exemple la probabilité P=0,003, tout ce qu’on peut déduire est que si H0 était vraie, on aurait 3 chances sur 1000 d’observer les résultats en question. En revanche, nous ne pouvons pas en déduire la probabilité que H0 soit vraie mais seulement dire que plus P est faible, moins H0 est vraisemblable.

Des solutions de rechange ?

Au vu de ce qui se précède, on peut se demander pourquoi on continue à utiliser les tests statistiques. Plusieurs raisons peuvent être avancées :

- Les tests donnent aux conclusions d’études un caractère scientifique et une impression d’objectivité qui semblent incontestables. Ils facilitent la communication des résultats à des clients à la recherche d’éléments sûrs.
- Les tests dispensent de réfléchir en fournissant des procédures et des conclusions automatisées.
- Les tests sont aujourd’hui très faciles à utiliser même pour des populations non formées, grâce aux nombreux logiciels statistiques, dont certains vont jusqu’à afficher des phrases de conclusion simplificatrices (et parfois fausses).
- Les Bayesiens préconisent d’autres solutions à base d’estimations par intervalles de confiance. La démarche est compréhensible mais les professionnels des études manquent de formation à ce sujet et ne savent pas mettre en oeuvre les méthodes alternatives, avec les outils qu’ils utilisent habituellement.

Les tests statistiques ne sont peut-être pas à jeter à condition qu’ils soient utilisés avec précaution, en évitant les biais indiqués plus haut. Ils ne sont là que pour donner des pistes et pas pour remplacer la réflexion et le bon sens du chercheur.