Apports de la lexicométrie et de l’analyse textuelle aux études quantitatives & qualitatives

Dans Marché des études
Par Christophe Réthoré

« Die Bedeutung eines Wortes ist sein Gebrauch in der Sprache » : ce célèbre aphorisme de Wittgenstein, que l’on peut traduire par « Les mots n’ont pas de sens ; ils n’ont que des emplois », illustre l’analyse quantitative du discours, c’est-à-dire, au sens linguistique, de l’actualisation de la langue en contexte. Dans cet article, nous effectuons un survol de l’apport de la linguistique statistique, également appelée statistique linguistique, statistique textuelle, linguistique textuelle, lexicométrie, textométrie, ou logométrie, aux études de marché, notamment à l’analyse des réponses aux questions ouvertes ou des verbatim des groupes de discussion et autres entretiens en profondeur (IDI : in-depth interviews).

Il y a presque 50 ans, en 1967, naissait « Lexicologie et textes politiques », équipe de recherche hébergée à l’École Normale Supérieure (ENS) de Saint-Cloud. Cette date marque une étape importante dans le développement de la statistique textuelle ou lexicométrie, qui est un « ensemble de méthodes permettant d’opérer des réorganisations formelles de la séquence textuelle et des analyses statistiques portant sur le vocabulaire d’un corpus de textes » (Lebart et Salem 1994 : 314).

Avant Saint-Cloud, il y a eu plusieurs pionniers : par exemple, Estoup (1916), Zipf (1935), Yule (1944), Herdan (1964), Cohen (1948), Guiraud (1954 et 1960), Muller (1963, 1964, 1967, 1968, 1973, 1977), mais aussi, le psychologue anglais Spearman (1904 et 1927) et Fisher (1940), qui sont à l’origine de l’analyse factorielle et de l’analyse des correspondances. On voit ainsi le lien entre les deux courants qui se sont développés en France à partir des années 1950/60 : la statistique lexicale (qui s’est plutôt orientée vers l’étude des œuvres/discours littéraires, notamment celles de Corneille, Racine…), dont le fondateur est Charles Muller, et l’analyse statistique des données linguistiques ou textuelles, inventée et animée par Jean-Paul Benzécri, en lien avec le développement de l’AFC (analyse factorielle des correspondances) et de l’analyse de tableaux de contingence, qui peuvent comprendre plusieurs centaines ou plusieurs milliers de lignes. La lexicométrie est également à rapprocher de l’analyse de contenu, qui est l’une des premières tentatives de quantification linguistique, au début du vingtième siècle. Selon Berelson et Lazarsfeld (1948), l’analyse de contenu se présente comme : « une technique de recherche pour la description objective systématique et quantitative du contenu manifeste de la communication ».

Le groupe de Saint-Cloud connait son essor en France dans les années 1970/80, en grande partie avec l’avènement de la micro-informatique qui facilite la saisie de textes de plus en plus importants. La revue MOTS – Mots, Ordinateurs, Textes, Sociétés – est fondée en 1980. On y trouve de nombreuses applications de la lexicométrie à l’analyse de différents discours : politique, écologie, etc. Dans les années 1980/90, les applications de la lexicométrie se diversifient hors de l’étude des discours politiques. On voit alors le parallèle qu’il est possible d’établir entre l’étude du discours politique et d’autres discours, comme par exemple le discours des marques, ou le discours de certaines catégories de répondants dans une enquête par sondage, s’appuyant sur un certain nombre de questions ouvertes, que l’on peut analyser à la fois avec l’AFC et avec la méthode des spécificités lexicales mise au point par les spécialistes de la lexicométrie, comme André Salem. Ces applications peuvent intéresser particulièrement la communauté des écoles de management : au-delà des chiffres et des pourcentages, quels sont les mots qui caractérisent le discours de telle marque ou de tel segment du marché, en opposition à d’autres ? Quels sont les mots qui permettent d’établir des groupes de répondants et ainsi une typologie de clients potentiels ?

NAISSANCE ET CHRONOLOGIE DE LA LEXICOMETRIE

Pour bien comprendre l’approche lexicométrique, il faut définir certaines unités minimales de travail : corpus, forme graphique, occurrence, segment répété et spécificité lexicale. Le corpus est l’ensemble des textes et des mots sur lesquels porte l’analyse. Par exemple, si l’on regroupe l’ensemble des réponses libres aux questions ouvertes d’une enquête, cela constitue un corpus. Ensuite, en lexicométrie, l’unité minimale de travail et de comptage dans le corpus est la plus brute et la plus simple possible : c’est la forme graphique, définie comme un « archétype correspondant aux occurrences identiques dans un corpus de textes, c’est-à-dire aux occurrences composées strictement des mêmes caractères non-délimiteurs d’occurrence » (Lebart et Salem 1994 : 313). L’occurrence est une « suite de caractères non délimiteurs bornée à ses extrémités par deux caractères délimiteurs de forme » (Lebart et Salem 1994 : 313). Concrètement, « les caractères délimiteurs d’occurrence (encore appelés “délimiteurs de forme”) sont en général : le blanc, les signes de ponctuation usuels, les signes de pré analyse éventuellement contenus dans le texte » (Lebart et Salem 1994 : 312). La liste des caractères délimiteurs peut être modifiée par le chercheur. Une troisième unité intéressante en lexicométrie est le segment répété, suite d’occurrences (minimum deux) répétée plusieurs fois dans le corpus.

A priori, l’avantage de travailler avec des formes graphiques brutes est le gain de temps pendant la préparation du corpus. Il suffit de demander au logiciel utilisé (Lexico, Alceste, Hyperbase, Astartex, Tropes, NVivo, etc.) de découper le corpus automatiquement en formes graphiques selon les règles mentionnées dans le paragraphe précédent. C’est ce qu’on appelle la segmentation du corpus. Par contre, travailler avec les mots nécessite tout de même certains choix méthodologiques, et deux questions épineuses se posent en lexicométrie (ainsi qu’en analyse factorielle) : lemmatisation et désambiguïsation. Ces questions peuvent allonger la préparation du corpus et la préparation de l’analyse. La lemmatisation consiste à regrouper les mots sous forme de lemmes, c’est-à-dire les formes conjuguées d’un verbe sous l’infinitif, ou bien les formes masculin-féminin singulier-pluriel d’un nom ou d’un adjectif sous la forme générique que l’on trouve dans le dictionnaire (nouveau, nouvelle, nouveaux, nouvelles => NOUVEAU). Ainsi on aura, non plus séparément les effectifs des formes graphiques brutes, mais un seul effectif pour le lemme. La lemmatisation peut permettre de rendre l’analyse plus ne, mais elle demande du temps de préparation. Les algorithmes de lemmatisation automatique ont toutefois fait de grands progrès. Parallèlement à la lemmatisation, une phase de désambiguïsation peut être nécessaire. Pour reprendre l’exemple précédent, le mot nouvelles peut représenter soit l’adjectif féminin pluriel, soit le nom féminin pluriel nouvelles (au sens d’informations). De même, « avions » est soit la forme avoir première personne du singulier, soit le pluriel de l’objet qui vole. Dans ce cas, regrouper dans notre tableau de contingence et dans nos listes de mots spécifiques les effectifs de deux formes qui ne veulent pas du tout dire la même chose fausserait les résultats.

EXEMPLE D’ANALYSE DES SPECIFICITES LEXICALES DES DIFFERENTES PARTIES D’UN CORPUS

Une fois le texte segmenté en occurrences et en formes graphiques brutes, nous pouvons passer à l’analyse lexicométrique proprement dite. L’un des objectifs de la lexicométrie est de caractériser le discours représenté par les différentes parties d’un corpus. Par exemple, si l’on divise le marché automobile en sept segments, ou sept catégories de véhicules (ab, cd, ef, mpv, suv, sport, pickups), on peut ensuite chercher à repérer les spécificités lexicales (et donc thématiques) de chaque catégorie pour voir si certaines catégories de voitures se ressemblent, ou au contraire, si elles sont très différentes, au plan du discours et de l’univers lexical. L’exemple ci-contre montre comment on peut résumer l’information essentielle d’un corpus d’environ un million de mots (180 brochures publicitaires) dans un tableau de contingence, pour ensuite l’analyser et en tirer des conclusions sur le discours des différents segments automobile

Souvent, le corpus que le chercheur étudie est divisé en parties de taille inégale, car celui-ci ne maîtrise pas forcément, a priori, le volume de données collectées. Si dans une enquête, on pose une question ouverte à 500 répondants classés en plusieurs catégories (par exemple, selon la tranche d’âge ou la CSP), certains répondront laconiquement et d’autres seront beaucoup plus prolixes. C’est une donnée que le chercheur ne peut anticiper, sauf s’il décide d’une longueur maximale/minimale aux réponses collectées, ce qui n’a aucun intérêt. Pour pallier ce problème méthodologique potentiel et tenir compte de l’inégalité de la taille des parties du corpus, la lexicométrie s’appuie sur la méthode des spécificités lexicales, fondée sur le modèle hypergéométrique. Les spécificités lexicales permettent d’identifier les formes et les segments répétés qui, dans certaines parties du corpus, sont soit suremployées, soit sousemployées, soit d’un usage banal (commun). Le logiciel Lexico mis au point par André Salem génère des listes de spécificités lexicales, positives et négatives, ce qui permet de contraster et de profiler les différentes parties d’un corpus. En effet, « l’appréciation de la fréquence d’une forme n’a de signification que relative, soit à celle d’autres formes du même texte, (…) soit à celle de la même forme dans d’autres textes qui, réunis ensemble, constituent un corpus » (Lafon 1984 : 5), et pour apprécier ces fréquences relatives, « il faut alors nécessairement faire appel à (…) la distribution hypergéométrique » (1984 : 4546). Les spécificités lexicales peuvent ensuite être utilisées dans l’analyse factorielle des correspondances (AFC). Grâce à l’AFC, on peut aussi visualiser sur une carte perceptuelle les différentes parties du corpus, ainsi que les éléments lexicaux caractéristiques de ces parties.

Pour finir, voici un exemple de tableau des données. Les résultats bruts sont présentés sous deux angles : liste des spécificités lexicales positives par terme (tableau de contingence de 10805 lignes x 7 colonnes ; tableau 1) et liste des spécificités lexicales directement triées par partie, pour chacune des sept classes de véhicules (tableau 2). Rappelons que ces résultats proviennent du traitement informatique d’un corpus d’un million de mots environ. Dans cet exemple, il s’agit de voir comment les sept segments du marché automobile (ab, cd, ef, mpv, suv, sport, pickups) peuvent être caractérisés par des formes lexicales spécifiques distinctes.

A titre illustratif, une analyse « express » montre immédiatement que la catégorie ab (petites voitures économiques) insiste sur des caractéristiques techniques de base : climatiseur, freinage, enjoliveur, gonflables (coussins gonflables, traduction de airbags, car il s’agit d’un corpus de publicités canadiennes), prise audio, bluetooth, et que les hybrides/voitures électriques y sont surreprésentées. Les berlines intermédiaires de catégorie cd insistent sur la boîte manuelle, à 5 ou à 6 vitesses, et sur des caractéristiques un peu plus haut de gamme que les voitures ab, comme le toit transparent, (un bon) système audio, commande vocale, sièges sport, etc. Dans la catégorie grosses voitures/véhicules de luxe ef, nous trouvons des mots comme luxe, coupé, cabriolet, conduite (sans doute une référence au plaisir de la conduite), design (avec aussi boiseries/en bois, pour l’intérieur), performance, perfection, (sièges) chauffants et ventilés, ambiophonique, soit de vraies caractéristiques haut de gamme.

Dans la catégorie mpv (multipurpose vehicle, type véhicule familial ou monospace), on change nettement de registre : le discours porte sur l’espace de rangement/pour les occupants, famille, 2e et 3e rangées de siège, commodités, divertissement. Cette catégorie mpv a des points communs avec la catégorie suv (sports utility vehicle, ou vus : véhicule utilitaire sportif), notamment la référence à l’espace, avec 2e rangée, 3e rangée, rangées, banquette, aire de chargement, volume utilitaire, ou sur un autre plan, système de divertissement, mais aussi des particularités suv, notamment toit panoramique, attelage de remorquage, capteur de capotage, assistance au démarrage en pente, quand le véhicule est utilisé en mode 4×4, remorquage, tout-terrain, ce qui est la fonction première du suv. Ainsi, les similarités statistiques lexicales mpv/suv nous conduisent à nous interroger si un suv n’est pas, pour certains utilisateurs, un mpv « cool » /sport, avec un positionnement moins père de famille que le monospace… Il y a sept places et trois rangées, mais on peut faire du suv une utilisation un peu plus aventurière que le mpv, avec beaucoup de place et d’espace de rangement dans les deux cas.

Pour finir, on trouve dans la catégorie sp (voitures de sport) des caractéristiques haut de gamme et techniques comme la technologie amg, la fibre de carbone, l’importance des pneus/roues de 20 pouces et des jantes spéciales à l’avant ou à l’arrière, ainsi que des références aux pistons ou plus généralement à la performance, la haute performance, au biturbo, à la course (+ circuit) et à la passion, légendaire, avec une boîte manuelle à 7 rapports, le nombre de chevaux du moteur, et des caractéristiques typiquement sport comme des bandes décoratives ou un becquet arrière. Enfin, la catégorie pk (pickups) est une catégorie complètement à part qui insiste sur le remorquage, la force de traction (4×4), la charge utile (mesurée en lb-pi ou en kg), la cabine (multiplace, allongée, pour plusieurs personnes) et globalement la robustesse (acier) des véhicules, avec un moteur v8 vortec diesel puissant et des atouts techniques uniques : plateau, essieu, moyeux, etc.

On pourrait approfondir l’analyse, mais ce n’est pas le but de cet article. Ici, l’objectif était simplement de présenter la lexicométrie, la méthode des spécificités lexicales et la pertinence de cette méthode pour analyser un corpus de mots, quel que soit le contenu de ce corpus : agrégation de réponses à des questions ouvertes, textes publicitaires représentant plusieurs marques ou segments, verbatim recueillis à la suite de groupes de discussion (focus groups). On voit que les applications potentielles de ces outils sont multiples.

Les spécificités lexicales et segmentales, ainsi que l’analyse factorielle des correspondances, constituent des outils puissants grâce auxquels on peut comparer les discours d’émetteurs différents (syndicats, hommes politiques ou annonceurs publicitaires, par exemple). On peut également appliquer la méthode des spécificités lexicales à des études diachroniques : (1) data mining sur des sites Web de marques concurrentes à des intervalles de temps réguliers ; (2) étude des thèmes développés dans les rapports annuels d’entreprises du même secteur (pharmaceutique, automobile, etc.), d’une année à l’autre ; (4) étude de corpus publicitaires sur une période de 10, 20, 30 ans, etc. Enfin, les spécificités peuvent être aussi utilisées pour comparer les différentes parties d’un document provenant d’un émetteur unique et en identifier les coupures thématiques et la stratégie discursive.