Vers une culture Data-Driven

Etat de l'art de l'analyse sémantique de données textuelles

Etat de l'art de l'analyse sémantique de données textuelles

Survey-Magazine : Peut-on vraiment analyser efficacement les données textuelles de manière automatique ?

François-Régis Chaumartin : L'information, pétrole du 21ème siècle, est le nerf de la guerre des entreprises. Elle est majoritairement disponible sous forme de textes, car si les machines échangent des données, les humains échangent des mots. Et pourtant… Le texte est par essence une donnée non structurée ; les entreprises font face aujourd'hui à une explosion du volume de données textuelles à classifier, analyser et visualiser, ce qui devient impossible à réaliser sans automatisation – et donc sans intelligence. Ce constat concerne toutes les directions d'une entreprise : commerce, RH, finance, marketing, innovation, juridique, etc. Réussir à analyser et comprendre tous ces flux quotidiens permet d'améliorer la compréhension de son marché, sa performance et sa transformation digitale.

Le Traitement Automatique des Langues (TAL) permet depuis une trentaine d'année d'automatiser la reconnaissance des concepts (entités nommées), la classification automatique d'un document, l'analyse du sentiment et des émotions. Une fois ces opérations effectuées, le texte est transformé en données, et le data mining permet d'y trouver des corrélations, des causalités ou de voir l'évolution d'un phénomène dans le temps. Toutefois, les approches classiques de TAL ont montré leurs limites ; elles nécessitaient en effet que des experts (de profil infolinguiste) passent énormément de temps pour énumérer (manuellement) des règles. De plus, les systèmes obtenus nécessitaient de privilégier soit le nombre d'annotations produites (pour lutter contre le silence), soit leur qualité (pour éviter d'avoir des résultats bruités) ; en d'autres termes, il fallait choisir entre un système produisant beaucoup de données (mais éventuellement fausses) et un autre donnant des résultats de qualité (mais en trop petite quantité). Pour lever ces limites, les techniques d'apprentissage automatique ont été introduites au début des années 2010, avec un double avantage : obtenir (i) plus rapidement de (ii) meilleurs résultats (avec des analyseurs simultanément précis et couvrants).

En revanche, cette approche automatisée, aussi avancée soit-elle, ne remplace pas l'expertise métier des infolinguistes ou chargés d'études : elle la complète et l'enrichit. La machine peut faire des erreurs et n'est (heureusement) pas encore prête à comprendre l'ironie ou le second degré… Un système doit permettre à l'humain de se dédouaner des tâches automatisables pour lui permettre de se concentrer sur son expertise métier à forte valeur ajoutée. On commence d'ailleurs à parler de « cobot » (pour robotique collaborative). L'utilisateur doit donc apprendre à coopérer avec la machine afin de valider ou invalider ce qui lui est proposé, modifier les règles générées et les réinjecter dans le système pour optimiser son travail.

Comment l'analyse de données textuelles s'intègre-t-elle dans la transformation digitale des entreprises ?

A une heure d'accélération de la transformation digitale des entreprises, nous distinguons deux problématiques incontournables : (i) la collecte centralisée des Big Data en temps réel et (ii) la création de valeur et l’optimisation des processus métier grâce à leur analyse et à leur visualisation. Cette nouvelle vision « data-centric » imposée par les problématiques Big Data replace les données textuelles au centre des prises de décisions pour tous les métiers stratégiques de l'entreprise. L'analyse sémantique peut être utilisée sur toute la chaîne de création de valeur de l'entreprise :

- Expérience client (analyse des feedbacks clients sur l'ensemble des canaux digitaux : emails, questionnaires de satisfaction, forums de marque, avis web, réseaux sociaux, chatbots...) et l’optimisation des processus (priorisation et catégorisation d’emails entrants, génération d’alertes pour un verbatim à risque, détection de leads...),

- Analyse du climat social, recrutement, gestion des talents (matching CV/offres ou profil/formation, analyse des entretiens annuels et baromètres sociaux, cartographie des compétences…),

- Veille stratégique sur le web (cartographie des concurrents, recherche d'innovation en multilingue, détection de signaux faibles…)

- Maîtrise des risques industriels…

Les cas d'usages sont infinis tant il existe de sources différentes de données textuelles !

Pouvez-vous nous expliquer les concepts du Machine Learning et du Deep Learning ?

L'apprentissage automatique consiste à « faire apprendre » à la machine à réaliser une tâche nécessitant classiquement de l'intelligence humaine. La difficulté vient ici du fait qu'expliciter le raisonnement humain, en le décomposant en opérations élémentaires, est souvent long et compliqué. Plutôt que d'énumérer un grand nombre de règles (d'ailleurs éventuellement contradictoires), on soumet à la machine un grand nombre d'exemples en espérant qu'elle arrive à déduire automatiquement ces règles à partir des données fournies en entrées, en minimisant les erreurs.

L'apprentissage classique (début des années 2000) nécessitait néanmoins de passer du temps humain pour préparer les données d'apprentissage et aussi coder des règles. L'apprentissage profond vise à reproduire les mécanismes du cerveau humain (plus précisément des réseaux de neurones) ; par rapport à l'apprentissage classique, on « apprend à apprendre » à la machine. Cette approche donne aujourd'hui des résultats impressionnants, que ce soit en traitement du langage, en traduction automatique ou pour la reconnaissance de formes dans des images. La prochaine frontière est maintenant de combiner plusieurs systèmes d'apprentissage profond pour réaliser simultanément un grand nombre de tâches élémentaires pour, par exemple, permettre d'avoir des véhicules automobiles autonomes. Mais, comme nous l'avons souligné plus haut, on ne remplace pas (encore) les humains sur les tâches de haut niveau.