Data Marketing 2019



Que signifie Régression multiple ?

La régression multiple permet d’expliquer une variable numérique par plusieurs autres variables numériques indépendantes. Elle modélise la relation entre la variable à expliquer et les variables explicatives sous la forme d’une équation de type Y = a + b1X1 + b2X2 + … où Y est la variable à expliquer, Xn les variables indépendantes, a une constante et bn les coefficients de régression partiels. On peut ainsi, si le modèle de régression est satisfaisant, prédire les valeurs de la variable dépendante en fonction des valeurs des variables explicatives. Par exemple, cette application est très intéressante pour évaluer le niveau de satisfaction globale en fonction des appréciations données à différents items intermédiaires (ex : appréciation de l’accueil, du confort du magasin, des prix…). L’utilisation de la régression multiple doit toutefois s’accompagner de plusieurs précautions. Ainsi, les variables explicatives doivent être indépendantes. Leurs corrélations deux à deux doivent être nulles ou proches de 0. À défaut (si le calcul aboutit quand même, ce qui n’est pas toujours le cas), le modèle obtenu sera imprécis et manquera de stabilité (valeurs très différentes d’un échantillon à l’autre). Par ailleurs, l’appréciation de la qualité de la régression se fait grâce à plusieurs indicateurs :

Le premier d’entre eux est le coefficient de détermination multiple R2 ajusté qui calcule le pourcentage de variation de la variable à expliquer dû aux variables explicatives. Ainsi un R2 de 0,35 signifie que les variables indépendantes ne contribuent qu’à 35% de la variation de la variable à expliquer, ce qui indique que la qualité du modèle obtenu est relativement faible.

Le coefficient de corrélation multiple R mesure la liaison entre la variable à expliquer et les différentes variables explicatives : si sa valeur est inférieure à 0,85 la liaison est médiocre et le modèle de régression peu satisfaisant.

Le test F de Fisher permet d’estimer la qualité de l’ajustement dans la population. La probabilité de l’hypothèse nulle (que les variables indépendantes n’aient aucun effet sur la variable dépendante dans la population) est donnée par la table de Fisher. Si la valeur du F calculée est supérieure à la valeur du F de la table à un seuil défini (ex : 5%), le coefficient R obtenu est considéré comme significatif à ce seuil, ce qui veut dire que le modèle de régression est valable dans la population. Certains logiciels comme STAT’Mania calculent directement la probabilité de l’hypothèse nulle (i.e. le seuil de confiance à partir duquel l’hypothèse nulle est à rejeter, qui doit donc être très faible pour conclure que l’ajustement est valable).

Pour résumer ces indicateurs de qualité de la régression multiple, un modèle valable et généralisable à la population présente un R2 élevé (proche de 1), un R élevé (proche de 1) et une probabilité de Fisher très faible (proche de 0).