Les dessous de l'analyse textuelle

Dans TENDANCES
Par Sébastien Blervacque

La donnée est au cœur de l'entreprise depuis de nombreuses années. Pour gagner en productivité et être plus proches de leur marché, de leur écosystème, les organisations se sont lancées dans une collecte massive. En exploitant les données, la connaissance augmente et dans le même temps la collecte de nouvelles sources s'accélère. Le stockage, l'accès et le partage ont précédé l'exploitation et la valorisation des données.

Périmètre et limites de la B.I.

L'exploitation massive de la donnée commence par la Business Intelligence. Dès lors que les données sont collectées, les solutions d'informatique décisionnelle entrent en jeu. La BI s'attache à mesurer très efficacement des quantités, des volumes, des durées, etc. Il s'agit d'une analyse quantitative répondant généralement à la question du « combien ? ». Le « comment ? » et le « pourquoi ? » étant exclus.

L'analyse quantitative a donné naissance aux fameux « dashboards décisionnels » dont la majeure partie des décideurs ne pourraient plus se passer pour piloter leur activité. La prise en compte de l'information de nature textuelle étant en dehors de leur périmètre fonctionnel, ces « analytics » exploitent prioritairement les données dites structurées. Ce sont les chiffres qui sont exploités massivement jusqu'à présent. Les métadonnées elles aussi sont analysées sous l'angle quantitatif. Combien de clients ont choisi tel produit, dans telle région, à telle heure de la journée et venant de tel lieu d'habitation. L'évolution des outils d'analyse, depuis l'ancêtre des tableurs aux derniers outils de BI les plus sophistiqués comme la Data Visualisation offre une valeur sans conteste aux organisations.

La donnée structurée ou semi-structurée est donc parfaitement bien gérée aujourd'hui. Il s'agit maintenant de réaliser que la donnée non-structurée, et plus précisément la donnée de nature textuelle, est tout aussi massive. Sa présence est même beaucoup plus conséquente. Avoisinant 80% du patrimoine informationnel des organisations, son volume s'accroît à une vitesse vertigineuse. A l'instar de la donnée structurée, la donnée textuelle constitue un gisement de valeur, et reste encore le plus souvent inexplorée. Le Harvard Business Revue nous indiquait il y a déjà presqu'un an que « moins de 1% des données textuelles sont prises en compte dans les circuits de décision ». Nous pouvons considérer comme la limite de la BI l'absence de réponses orientées vers le pourquoi et le comment contenu dans le Big Data Textuel. La BI sait parfaitement répondre à la question du « combien » comme nous avons pu précédemment. Une fois ce constat effectué, il est intéressant de savoir pourquoi et comment se constatent ces durées, ces volumes ou ces quantités. Comment la BI pourrait extraire, désassembler, combiner, représenter, les informations de nature textuelle ayant atteint des sommets inédits dans l'histoire de l'humanité ?

Genèse de l'analyse textuelle

Après l'ère glacière de l'intelligence artificielle, les récents articles sur le traitement automatique du langage font majoritairement référence aux travaux de Turing et au MEMEX de Bush. Littéralement le gonfleur de mémoire pour « memory extender ». Quelle mémoire s'agit-il d'augmenter ? Celle de l'ordinateur ? Celle de l'être humain ? Les deux ? A chacun sa réponse.

La production abyssale de documents par l'être humain est une constante historique depuis les tous premiers écrits. Les capacités de mémorisation étant dépassées très vite par la complexité des organisations humaines, l'écriture a d'abord été utilisée en Mésopotamie pour l'enregistrement et la conservation des transactions. Viendra plus tard la diffusion des connaissances. La prolifération des écrits a rapidement corrélé connaissance et pouvoir, en témoignent les premières bibliothèques, Ninive voulue par Assurbanipal, roi d'Assyrie, Alexandrie fondée par Ptolémée. Rassembler tous les écrits pour mieux exercer son pouvoir. Vont alors être entrepris de longs travaux de classification, qui donneront naissance bien plus tard aux dictionnaires. Non sans lutte de positions dans un contexte de promotion des connaissances, les philosophes vont s'opposer au classement alphabétique des savoirs, représentant à leurs yeux un risque d'altération des connaissances. Leur combat fera adopter les renvois vers d'autres articles ou définitions ; les ancêtres des liens hypertexte ?

Revenons quelque temps un peu avant Turing et Bush, et bien avant la sortie de l'IBM701. Le bibliographe Paul Otlet a imaginé une table permettant d'établir des liens entre les documents. Jean-Michel SALAÜN, l'auteur de Vu, Lu, Su aux éditions La Découverte, nous explique que « l'esprit humain fonctionne par association ». Selon JM SALAÜN, ce qui manque c'est une indexation à facettes, proche du fonctionnement de l'esprit humain capable, ,[« à partir d'un élément récolté, de passer au suivant par association d'idées, en conformité avec un réseau de chemins intriqués les uns dans les autres reliant les cellules du cerveau »].

L'usage universel le plus répandu pour exploiter des contenus en texte libre est le « key word search ». A partir d'une requête constituée d'un ou plusieurs mots, sont restitués un ensemble de documents comportant les éléments de la requête. Nous nous sommes habitués à cet usage sans forcément prendre conscience des limites de la recherche par mots clés. La première provient de la polysémie des mots. En clair les résultats d'une requête restituent des documents dont certains n'ont aucune pertinence avec la recherche lancée. Les mots ont plusieurs sens, leurs définitions varient en fonction de leur contexte. Le sens du mot « traitement » est différent selon son contexte d'appartenance, le traitement des données ou le traitement médical. La deuxième limite provient de la synonymie. Une même idée peut s'exprimer avec des mots différents. « Naître » et « venir au monde », « manger » et « se nourrir », « vacances » et « congés ». Les documents ayant un sens proche des résultats attendus et employant des synonymes sont absents des résultats restitués. La troisième limite provient de l'énantiosémie. Un même mot peut avoir des sens contraires, opposés : amateur, louer, hôte, personne, contre, apprendre. Ces caractéristiques du langage mettent en évidence la difficulté d'indexer les données textuelles, c'est à dire de donner une valeur constante et fixe à chaque mot.

Pour repousser ces limites et augmenter les possibilités d'analyse de corpus, les technologies sémantiques-linguistiques passent du mot à la phrase. Comment ? En construisant avant la phase d'analyse, des ontologies, en quelque sorte des référentiels complexes facilitant le travail d'analyse et permettant à un ordinateur de reconnaître des valeurs données à des mots, des termes, des expressions, de noms propres, etc. Les technologies sémantiques-linguistiques apportent une grande précision. Nécessitant de lire une grande partie d'un corpus pour ensuite construire l'ontologie, puis passer à la phase d'analyse, les technologies sémantiques-linguistiques vont s'avérer adaptées à des corpus au contenu stable, connus à l'avance. Avec un travail préparatoire notamment de lemmatisation par des experts en linguistique, un ordinateur est capable de restituer la longueur du Nil bien plus rapidement qu'un être humain qui devrait aller chercher l'information si sa mémoire lui fait défaut. Faites le test dans votre moteur de recherche préféré, et comparez le résultat avec d'autres moteurs de recherche. Vous aurez une idée de la puissance d'indexation des différents moteurs.

Ces technologies basées sur l'analyse syntaxique, la lemmatisation et le contrôle de la position des mots au sein d'une phrase sont, relativement coûteux en terme de consommation de ressources. Aussi lorsque l'on en vient à parler de « Big Data » les performances en terme de temps et de capacité de traitement deviennent rapidement une limite.

Une limite peut-être à prendre en compte dans la sémantique-linguistique, en passant du mot à la phrase, il subsiste une ambiguïté possible dans l'analyse de corpus ainsi préparés. Une phrase sortie de son contexte peut vouloir dire le contraire du même contexte. C'est un jeu auquel se prêtent les journalistes et les hommes politiques par exemple. « Ca n'est pas le sens de mon discours… », « Oui pourtant vous l'avez dit… ».

Lancez maintenant la requête suivante et observez attentivement les résultats dès la première page : « des habitants de Bruges vont pour la première fois en Belgique ». Un indice au cas où, deux villes en Europe portent le nom de Bruges, l'une se situe en Belgique, l'autre à la notoriété plus locale se situe près de Bordeaux. A cet instant précis votre cerveau comprend le sens de la requête. Nous comprenons ici que notre moteur de recherche ne dispose pas de l'entrainement suffisant pour créer le lien que nous, humains, avons créé instantanément. L'exemple de cette requête nous aide à comprendre la difficulté de contextualiser plusieurs informations pour restituer une réponse cohérente. Ajoutez « près de Bordeaux » après Bruges dans la requête et observez.

La démarche mathématique pour exploiter les corpus de texte

Pour exploiter des données textuelles massives que l'on ne connaît pas à l'avance, une approche mettant les mathématiques au service de la psychologie cognitive annoncent de nouveaux usages. En observant scientifiquement le fonctionnement de la mémoire épisodique, des doctorants en psychologie cognitive ont modélisé des séquences cognitives actionnées par l'être humain brassant de l'information pour prendre des décisions et mener des actions. Dans le prolongement d'observations précédentes sur la corrélation et l'association d'idées, ils vont collaborer avec d'autres doctorants en mathématiques-informatique, pour transposer ces modèles en algorithmes. S'appuyant sur l'algèbre linéaire, la technologie mise au point consiste à transformer en vecteurs les composants d'un corpus. Le procédé d'indexation multidimensionnel basé sur la vectorisation rend possible la mesure de proximité entre tous les contenus d'un ensemble de documents entre eux. Les mathématiques rendent réelle l'association de contenus ayant un sens proche tout en employant des mots différents.

Partons de l'idée « Stade de France ». Certains vont corréler cette idée de départ avec « coupe du Monde 98 », d'autres avec « concert » ou « architecture », d'autres encore avec leur propre vécu personnel. Toutes les idées que l'être humain produit sont reliées entre elles par une notion de distance. Ne vous êtes vous jamais demandé comment vous en étiez arrivé à penser telle ou telle idée ? Alors vous tentez de reproduire le schéma de pensée qui vous a conduit à cette idée.

C'est ce processus de l'esprit humain que ces scientifiques pluridisciplinaires ont transposé en technologie pour exploiter d'immenses données de nature textuelle. Ce procédé présente l'avantage d'appliquer cette indexation à tous types de corpus, c'est à dire quelle que soit la thématique, et quelle que soit la langue du corpus à exploiter.

L'un des domaines où les contenus nous sont inconnus à l'avance, le feedback sur l'utilisation de produits ou services. Une enquête visant à recueillir des feedbacks dans la perspective de prendre de décisions d'ajustement s'appuiera notamment sur des questions ouvertes. Analyser et hiérarchiser des centaines de milliers, voire des millions de réponses explorées sans a priori ouvre des perspectives d'avantages concurrentiels évidents.

Les réclamations clients sont également imprévisibles, et la réalité de ces contenus, comme d'autres d'ailleurs, nous montrent qu'ils contiennent des fautes de frappe, d'orthographe, des abréviations, des particularités locales, bref des formes de mots impossibles à prévoir dans une indexation « manuelle ». La vectorisation prend en compte le contexte global, s'affranchit des erreurs de frappe ou autres, et assemble des idées proches exprimées de manière différente, telles que dans des réclamations clients.

Dans un contexte de production effrénée de contenus, un nouveau schéma de lecture est à envisager pour accéder à la connaissance. La technologie est un facteur d'accélération et de transformation des activités humaines dont parmi elles la possibilité pour chaque être humain d'être l'architecte de ses connaissances. La démarche mathématique inverse le processus d'accès à la connaissance. A l'opposé du Key Word Search, l'utilisateur part du global pour aller au détail, et sans avoir à orienter sa recherche dans un premier temps. La démarche mathématique dépasse la phrase pour prendre en compte le sens global, comme l'esprit humain. A l'inverse de la sémantique-linguistique, plus aucune phrase ne peut être sortie de son contexte.

L'être humain fonctionne par la compréhension globale du contexte. Cette approche cognitive dépasse l'interprétation stricte du sens d'une phrase. L'état de l'art des technologies cognitives consiste à associer le sens de chaque phrase dans un contexte global. Aujourd'hui ce sont les capacités humaines de lecture qui sont dépassées par la quantité de données de nature textuelle. Nous n'aurons plus jamais la possibilité de lire toute les données textuelles, mêmes les plus importantes.

La question que l'on peut se poser, quel changement nous apportera une capacité illimitée de lecture ?