Salon Big Data Paris 2020



Qu'est-ce que l'AFC (Analyse factorielle des correspondances) ?

L’Analyse Factorielle des Correspondances (AFC) est une méthode factorielle de Statistique Descriptive Multidimensionnelle (MDS).

Elle est utlisée lorsque l’on souhaite étudier la liaison entre deux variables qualitatives (nominales). Dans le cas, d’un jeu de données à plus de 2 variables, on aura recours à l’ ACM.

Pour appliquer une AFC, nous avons besoin des informations suivantes :

– Tableau d’effectifs observés : les observations sont synthétisées dans un tableau de contingence (tableau croisé) indiquant le nombre d’individus ayant telle modalité pour la première variable (ligne) et telle modalité pour la seconde variable (colonne). Il est à noter que si les variables sont numériques, il faut préalablement les découper en classes.

– Tableau de fréquences (étape intermédiaire) : on transforme le tableau d’effectifs observés en tableau de fréquence

– Tableau d’effectifs théoriques : il représente la répartition des individus qui serait obtenue s’il n’y avait aucun lien entre les 2 variables c’est à dire si l’attribution de chaque modalité était indépendante. Ce tableau est construit à partir des fréquences marginales (les fréquences marginales se calculent en faisant la somme pour chaque ligne et chaque colonne du tableau de fréquence)

On compare ensuite le tableau d’effectifs observés au tableau d’effectifs théoriques (soustraction tableau « réel » – « théorique »). Celui-ci va faire l’objet de calcul matriciel et c’est cette matrice que l’on va étudier en la décomposant en une somme de m matrices (si le nombre de lignes est supérieure au nombre de colonnes, m = nombre de colonnes – 1 sinon si le nombre de colonnes est supérieure au nombre de lignes, m = nombre de lignes – 1). A travers toutes ces décompositions, la notion d’inertie est de moins en moins expliquée.

Chaque matrice possède un vecteur propre lui même associé à des valeurs propres. Le vecteur va permettre de donner un sens aux axes factoriels et les valeurs à partir de ce tableau.

e tableau des effectifs observés est ensuite comparé au tableau des effectifs théoriques qui est construit à partir des fréquences marginales (on divise les effectifs).

On positionne pour finir, sur un mapping les modalités de réponses des deux questions. L’Analyse des Correspondances Multiples (ACM) généralise l’AFC à un nombre quelconque de variables et permet donc de représenter sur le même mapping les modalités de réponses de plus de deux variables. Comme pour l’ ACP, le but de ces analyses est de dégager des dimensions cachées contenues dans les réponses aux variables sélectionnées, pour faciliter l’interprétation de tableaux pas toujours lisibles au départ. Les mappings d’analyse des correspondances affichent donc des points-modalités. Ainsi, on peut par exemple positionner une série de marques et afficher sur le même plan des caractéristiques de clients (tranches d’âges, CSP…), ce qui permet de repérer les affinités entre chaque marque et les différentes cibles. Le tableau de départ de l’AFC simple est un tableau croisé (tableau de contingence) présentant la ventilation d’une population sur les modalités de réponses de deux questions qualitatives (ex : diplôme et profession). L’ ACM quant à elle, part d’un tableau disjonctif complet (tableau de burt) qui présente en ligne les individus et en colonne toutes les modalités des variables qualitatives retenues. Les cases d’intersection comportent la valeur 1 si l’individu répond au critère en colonne et 0 dans le cas contraire. Comme en ACP, les deux premiers axes fournissent une partie généralement importante de l’information contenue dans le tableau initial (l’axe horizontal étant, par convention, le plus significatif). La proximité des points renseigne, a priori, sur leurs associations. La disposition des modalités de chaque variable les unes par rapport aux autres aide à donner un sens à chaque axe (ce qui n’est pas toujours évident, à la seule observation du graphique).