Analyse des données 3D

Dans Data Analysis
Par Christophe Réthoré

Analyses de corpus à partir de l’analyse factorielle des correspondances en 3D avec projections géodésiques

Dans un article récent paru dans le numéro précédent de Survey Magazine (avril 2016), nous avons effectué un survol de l’apport de la statistique textuelle aux études de marché et plus généralement à l’analyse de contenu, à l’analyse des corpus et à l’exploration des données (data mining). Plus précisément, nous avons expliqué et illustré en quoi consistait la méthode des spécificités lexicales (positives et négatives), mise au point par André Salem et le groupe de Saint-Cloud à partir des années 1960 et fondée sur le modèle hypergéométrique. Grâce aux spécificités lexicales, nous pouvons déterminer quels sont les mots qui permettent de profiler les différentes parties d’un corpus, par exemple les discours de différentes marques ou bien les caractéristiques de différents groupes qui expriment des réponses libres à des questions ouvertes. Quels sont les mots suremployés ou sous-employés qui permettent d’établir des groupes de répondants et ainsi une typologie de clients potentiels ?

Pour aller plus loin, nous explorons dans cet article l’analyse factorielle des correspondances (AFC), dont l’un des résultats est –une fois les différentes parties du corpus profilées individuellement – de synthétiser les rapprochements (et les différences) entre ces parties du corpus. L’AFC n’est pas une méthode nouvelle en soi (elle a été présentée par Jean-Paul Benzécri dans les années 1960), et de nombreux logiciels peuvent être utilisés pour générer les résultats bruts à analyser. Ces logiciels peuvent être soit payants (Coheris Analytics Spad, XL Stat, SPSS…), soit gratuits (Trideux, Iramuteq, Factominer, etc.). Par contre, l’AFC en 3D, avec la technique de projection géodésique mise au point par Jean-Marie Viprey dans l’environnement ASTADIAG, représente une évolution marquante dans le domaine de l’analyse des données, car elle apporte un nouvel éclairage complémentaire aux outils de l’AFC classique en 2D. C’est à cette technique originale que nous allons nous intéresser.

Rappels méthodologiques sur l'AFC classique

Nous nous intéressons à l’analyse factorielle des correspondances en tant qu’outil de structuration des données qualitatives qui "permet de projeter dans un même plan les points-lignes (individus ou objets) et les points-colonnes (variables) dont la métrique a été unifiée, pour visualiser les résultats du traitement, c’est-à-dire les proximités et les distances qui existent entre tous ces points, en proposant des cartes perceptuelles ou "mappings" rendant les résultats directement accessibles au profane" (Caumont 2007). L’analyse factorielle des correspondances sur les tableaux lignes (formes lexicales) x colonnes (parties) d’un corpus est en fait une autre façon d’interpréter le tableau lexical entier ou le tableau de contingence généré à partir de la partition du corpus visant à étudier les spécificités lexicales. Il y a donc bien un lien entre les deux méthodes, et comme les spécificités lexicales, l’AFC permet une analyse non biaisée, en partant d’une page blanche, dans le cadre d’une démarche exploratoire et inductive.

Décrivons d’abord la méthodologie. Premièrement, à partir du tableau des formes graphiques (TFG), également appelé tableau lexical entier (TLE) ou tableau de contingence, généré pour le corpus (par exemple, lignes-mots x colonnes-parties du corpus, afin de représenter les effectifs des mots les plus importants ventilés entre les différentes parties du corpus), nous établissons une liste des formes lexicales les plus fréquentes dans le corpus, en ne gardant que les noms propres, les substantifs, les verbes, les adjectifs et les adverbes lexicaux. Nous obtenons ainsi une matrice brute qui va nous servir de base à l’analyse factorielle. Le tableau ci-dessous est un extrait de cette matrice brute.

À partir de ce tableau de contingence, nous lançons l’AFC avec deux logiciels, SPAD et ASTADIAG. Grâce aux sorties-machines de SPAD, nous interprétons une analyse factorielle classique, sur des plans à deux facteurs. Ensuite, dans un second temps, nous interprétons les résultats de l’AFC obtenus avec le logiciel ASTADIAG, qui génère des projections géodésiques et apporte un éclairage complémentaire aux analyses factorielles classiques.

Il est indispensable de suivre une méthodologie très rigoureuse lorsque l’on interprète les résultats de l’AFC, même s’il est tentant de se précipiter sur les cartes perceptuelles (mappings), qui sont visuellement plus attractives. Daniel Caumont (2007) invite à la plus grande prudence dans l’analyse des résultats d’une AFC et de ses sorties graphiques visuelles très attractives que sont les cartes perceptuelles ou mappings, en mettant en garde contre "les risques possibles d’une interprétation abusive des résultats dans le cadre d’une utilisation managériale" et "les risques d’erreur dans l’interprétation des axes et [ses] conséquences managériales". Caumont propose une méthodologie très claire (2007), en trois étapes, que nous résumons ci-dessous. Rappelons que l’objectif de l’AFC est de présenter une vision synthétique et efficience (et non exhaustive) de la structuration des données :
1) Construction du modèle statistique de représentation/structuration des données ;
2) Interprétation des axes/facteurs retenus en isolant les modalités des deux variables qui sont significatives de l’existence d’un axe et en analysant le signe de leurs coordonnées sur ces axes ;
3) Construction des cartes perceptuelles.

Interprétation sommaire de quelques résultats

Il faut analyser séparément les résultats sur chaque facteur (F1 = 47% de l’Information et F2 = 21%), avant de regarder le plan factoriel. Dans le tableau précédent, on voit que sur F1, PK est une classe à part, s’opposant à toutes les autres classes, notamment EF et CD, et accessoirement SP (CTR 1,9% ; coord -0,166 ; faible cos2=0,064). AB, MPV et SUV ont une contribution quasiment nulle, non pertinente à F1 (avec des coordonnées proches de l’origine). De même, sur F2, SUV et MPV (et secondairement AB) s’opposent à SP (et secondairement EF). CD et PK ont une contribution quasiment nulle, non pertinente à F2 (faible inertie 3-4%, coordonnées proches de l’origine, faible cos2).

Le plan factoriel F1F2 confirme visuellement ces résultats. PK est bien isolé à droite (catégorie à part), MPV et AB sont très proches, et dans le même quadrant que SUV. MPV semble donc d’une part assez proche de AB, et d’autre part, avoir des points communs lexicaux avec SUV. CD et EF sont proches. SP est dans le même quadrant que EF et CD, mais beaucoup plus bas. Nous avons donc réussi à faire une première ébauche de regroupements de catégories : PK, SUV+MPV+AB et CD+EF+SP.

L’étape suivante (que nous résumons très rapidement, pour ne pas alourdir le texte) consiste à reprendre la démarche (étapes 2a, 2b, 2c et 3) pour 453 mots que nous avons retenus dans notre tableau contingence ou matrice brute pour comprendre l’essentiel du discours des segments automobiles. C’est cette étape qui nous permet de comprendre les proximités et les distances entre les sept catégories. Ainsi, les résultats montrent que les formes lexicales communes à SUV et MPV ont trait aux sièges/rangées de siège et à l’espace de rangement, pour les objets et pour les personnes (nous verrons l’étude des formes lexicales significatives plus bas), avec des caractéristiques de commodité, facilité, etc. Par contre, et ce n’est pas si surprenant, on remarque dans la catégorie SUV un certain nombre de formes lexicales relatives à la conduite hors route, hors des sentiers battus, en mode quatre roues motrices, ce qui distingue les SUV des MPV. En gros, pour résumer, on peut faire l’hypothèse qu’un SUV est un peu un MPV "cool", plus jeune et plus "fun" à conduire, mais avec quand même un côté très pratique sur le plan du transport d’objets et de passagers. Le SUV garde toutefois sa communication particulière sur le plan de la conduite tout-terrain, l’aventure, la liberté, etc.

Quant aux catégories CD et EF, elles partagent le positionnement berline (berline moyenne et grande berline), mais EF compte des formes lexicales en rapport avec le confort, le luxe et la (haute) performance (ce qui lui permet de se rapprocher aussi des voitures de sport SP), tandis que CD compte des éléments lexicaux relatifs à la consommation d’essence et globalement un vocabulaire plus "neutre", plus standard que la catégorie EF.

La dernière étape consiste à clarifier le sens de la carte dynamique que constituent les axes factoriels 1 et 2, en essayant de leur donner un nom (rappelons que nous sommes dans une démarche exploratoire, où nous partons d’une page blanche, sans biais ni a priori). L’étude des formes lexicales significatives sur les axes factoriels montre que nous pouvons décrire le premier axe factoriel ainsi :
- du côté positif de l’axe F1 (associé au point-colonne PK), nous avons un vocabulaire lié aux caractéristiques techniques du pickup, ainsi qu’à sa force, sa robustesse et son potentiel utilitaire, ainsi que des mots qui montrent sa qualité ;
- du côté négatif de l’axe F2 (associé aux points-colonnes CD + EF, et secondairement SP), nous avons un vocabulaire décrivant la berline, le coupé ou la voiture sport, insistant sur l’expérience (et le plaisir) de conduire/pour le conducteur, ou le luxe, avec des caractéristiques techniques différentes et moins nombreuses que celles des pickups (amg, steering, display).

Quant au deuxième axe factoriel, qui oppose AB, MPV et SUV (coordonnées positives) à SP et EF (et accessoirement CD, coordonnées négatives), on trouve :
- du côté positif de l’axe F2 (AB, MPV, SUV), un vocabulaire relevant de l’espace de rangement pour les objets et les personnes, avec des formes comme rangée (2e et 3e), sièges, passagers, bagages, volume, etc., mais aussi un vocabulaire lié à la sécurité (airbags/coussins gonflables, protection en cas de collision) et au divertissement (système dvd, 2e et 3e rangée, système audio, etc.). On pourrait se demander ce que fait AB à côté de SUV et MPV. En fait, les publicités pour les petites voitures économiques AB comptent un certain nombre de formes lexicales et d’expressions qui essaient clairement de contredire l’argument négatif potentiel selon les véhicules AB sont de petites voitures, où il n’y a pas d’espace, et qui ne sont pas agréables à conduire. Nous avons été surpris par ce résultat inattendu. Nous ne nous attendions pas à trouver ces formes relatives à l’espace de chargement ni à la conduite sport dans le discours de la catégorie AB. L’objectif est ici d’associer les valeurs d’autres segments plus haut de gamme à la catégorie économique AB ;
- du côté négatif de l’axe F2 (SP, EF, et accessoirement CD), un vocabulaire davantage lié à la performance, à la vitesse, à l’ingénierie, au plaisir de conduire, avec de véritables caractéristiques haut de gamme, uniques, distinctives et inimitables.

Cette représentation synthétique des données, même si elle n’est fondée "que" sur 70 % de l’information (que nous avons laissé de côté) est déjà intéressante, et c’était l’objectif de notre démarche AFC.

Les projections géosédiques de l'AFC EN 3D

Nous pourrions arrêter ici et nous satisfaire des résultats de l’AFC basée sur les plans factoriels, en deux dimensions. Mais Jean-Marie Viprey (2006) souligne les limites de l’analyse factorielle de correspondances classique en 2D, avec deux facteurs à plat, et propose de "renouveler la sortie graphie de l’AFC" : les projections habituelles sur le plan de 2 facteurs sont peu lisibles, mal maniables et trompeuses (…). Nous proposons la projection géodésique, qui permet de construire un planisphère et des zonages "vus du centre", où les angulations et les distances aux origines des axes sont respectées et clairement indiquées. En vue de comparaisons, cette projection est un moyen complémentaire aux calculs de distance matricielle, plus détaillé qu’eux et orienté vers le retour au texte (Viprey 2006 : 981).

En effet, selon Viprey, "les sorties graphiques classiques, programmées dans les environnements comportant un module AFC, sont des projections strictes des nuages de points (colonnes et/ou lignes) sur le plan des deux premiers facteurs ou de deux des trois premiers facteurs", et il arrive fréquemment que l’on se retrouve avec des plans factoriels difficilement lisibles, qui ressemblent à la figure 2. Afin d’illustrer la technique de la projection géodésique, nous quittons la segmentation du marché automobile et nous empruntons à Viprey quelques graphes générés par une analyse du corpus Le Monde 1980-2000 (les champs lexicaux dans les exemples suivants n’ont plus rien à voir avec le vocabulaire automobile).

Le nuage de la figure 2 est très compact, et quelques cooccurrences "écrasent" (le terme est de Viprey) l’analyse, en l’occurrence premier ministre et droits de l’homme. Pour résoudre ce problème, on peut procéder à un écrêtage des données, ce qui "amortit ainsi les saillances perturbatrices" (voir la figure 3, qui présente sur le plan des 2 premiers facteurs le résultat de l’analyse de la même matrice que dans la figure 2, mais avec des données écrêtées).

Le graphe de la figure 3 est plus lisible que celui de la figure 2, car de nouveaux termes sont visibles, et en plus, le pourcentage d’inertie cumulé des axes a été doublé, de 12.5 % à 25.9 %. Cela dit, plusieurs problèmes de lecture et d’interprétation subsistent (voir discussion détaillée dans Viprey 2006 : 984-985), d’où la suggestion de Viprey de recourir à des sorties-machines en 3D, avec projections géodésiques, grâce au logiciel ASTADIAG. Les coordonnées géodésiques des points du nuage tiennent compte des trois premiers facteurs, au lieu de simples plans factoriels à 2D. La figure 4 montre un exemple de projection géodésique : les coordonnées des points sont deux angles, l’un sur l’équateur (de 0 à 360°), l’autre sur le méridien (de -90 à +90°).

Comme l’explique Viprey, les niveaux de gris représentent la distance à l’origine dans les 3 dimensions, de manière à estomper progressivement les points à mesure qu’ils se rapprochent du centre dans une position de moins en moins significative. En jouant avec les options de visualisation du logiciel ASTADIAG (zooms et rotations), on peut déjà repérer des groupements lexicaux distributionnels, ou isotropies (Viprey, 1997), selon la perspective géodésique, "c’est-à-dire "comme si" l’on regardait vraiment depuis le centre. Il suffit de cliquer un item quelconque pour obtenir une vue centrée sur cet item et présentant l’ensemble de sa périphérie. Par exemple, la "région" centrée sur élections" (figure ci-dessous). Selon Viprey (1997), les isotropies sont "des classes non-dichotomiques (dans le continuum permis par la seule AFC) de parentés de profils micro-distributionnels, configurations les plus fines de la structure globale du vocabulaire, où s’expriment les spécificités thématiques, lexicales, stylistiques, pragmatiques que le texte permet d’assigner".

Ces représentations graphiques en 3D en forme de zonages sont plus fines que les plans factoriels en deux dimensions. On peut alors comparer des corpus ou des sous-corpus beaucoup plus facilement, plus nettement et plus finement. On peut également examiner plus en détails la constitution lexicale des différentes parties d’un corpus (par exemple, différents groupes de répondants dans un questionnaire comportant des questions ouvertes et des réponses libres), ou encore comparer visuellement des évolutions chronologiques dans un même corpus, en distinguant les invariants dans le temps ("noyaux isotropiques"), les thèmes qui s’estompent ou qui apparaissent. Par rapport aux sorties-machines traditionnelles de l’AFC en deux dimensions, la projection géodésique en 3D permet de multiplier les possibilités d’analyse des données, en améliorant de façon significative l’"ergonomisation graphique" (Viprey 2006).