Vers une culture Data-Driven

Lexistems

MOTEURS DE COMPRÉHENSION PAR LE SENS


Marie Granier est CEO de l’éditeur Lexistems spécialisé dans le traitement des données par le sens.

lexistems.com

  • Pouvez-vous nous présenter Lexistems et le rôle de votre IA ?

    Nous développons des solutions de moteurs de compréhension par le sens qui permettent de connecter, d’agréger et de rechercher des données par le sens (notion anglaise de data meaning) et non par mot clé. En d’autres termes, les outils que nous développons peuvent être en mesure de comprendre un texte, un mot, une phrase, un paragraphe, un ensemble de paragraphes, un document dans son intégralité ou encore un document classé dans son contexte - c’est-à-dire dans l’intégralité du corpus de document. La technologie développée est complexe et nous avons donc fait le choix de nous positionner sur des cas d’usages où les systèmes de mots clés atteignent leurs limites. L’IA joue un rôle clef dans la façon que nos outils parviennent à comprendre les textes. En effet, en tant qu’être humain nous savons dans quel contexte nous sommes, donc nous savons comment interpréter une phrase ou un document que nous lisons. Nous reproduisons ce comportement à notre solution d’IA.

    Qu’il s’agisse d’une entreprise ou d’une organisation publique, nous avons souvent des données qui sont stockées et nous ne savons pas où aller les chercher. Quelques fois, elles ne sont pas utilisées et pas utilisables. En fonction de ce que nous demande les clients, nous allons interroger un certain nombre de bases de données et l'utilisateur va utiliser la même interface pour consulter les données qui sont stockées à des endroits différents et dans des langues différentes.

    Comme nous travaillons par le sens et pas par mot clé, nous pouvons vraiment extraire le sens des documents et des données à interroger, en étant agnostique de la langue. Je peux poser une question en français, si dans la base de données nous trouvons des réponses en anglais, nous allons ressortir tous les extraits qui répondent à la question de l’utilisateur.

    Afin d’illustrer mes propos, nous avons commencé à travailler avec des chaînes TV dans la constitution d’un moteur de recherche dans le but de permettre aux consommateurs de trouver un programme. Par exemple, un consommateur peut rechercher une série semblable à « Friends » qui se passe à New York avec des chats. Si le programme existe, alors l’outil lui propose : le système comprend aussi bien la description que le type, le genre du programme, le contexte, etc. et ce pour l’intégralité des programmes TV interrogés.

    De grands groupes font aussi appel à nos services pour mettre à disposition de leurs collaborateurs un assistant de recherche capable d’interroger des corpus de connaissances répartis sur plusieurs serveurs et dont les données sont exprimées dans des formats qui diffèrent. C’est le cas de l’un de notre client du secteur de l’énergie pour qui l’outil parcoure les bases de données afin de faire ressortir tous les documents qui traitent de l’hygiène sécurité environnement (et ils sont nombreux !). Les collaborateurs posent les questions par écrit dans un langage naturel telles que « je dois faire un travail à 3m50 de haut existe-t-il une règlementation particulière ? », ou « est-ce qu’on utilise des chartes pour former les nouveaux arrivants  » etc. A partir du moment où nous avons accès aux données, c’est extrêmement large. Nous sommes en mesure de comprendre l’intégralité des contenus présents dans la base avec une prise en compte du contexte des données pour répondre au collaborateur de façon la plus juste possible.

  • Il a enfin été utile de proposer notre solution sous la forme d’API (abréviation de l’anglais Application Programming Interface, traduit par interface de programmation d’application en français) puisque les clients peuvent l’héberger directement chez eux.

    LA TECHNOLOGIE DÉVELOPPÉE EST COMPLEXE ET NOUS AVONS DONC FAIT LE CHOIX DE NOUS POSITIONNER SUR DES CAS D’USAGES OU LES SYSTÈMES DE MOTS CLÉS ATTEIGNENT LEURS LIMITES.

    En quoi votre solution se différencie d’une recherche classique par tag/mot clef ? Concrètement, comment fonctionne-t-elle ?

    Une recherche par mot clef est limitée : il y a un nombre maximum de mots clefs en général, même sur des systèmes performants. Le fait de travailler par le sens permet de comprendre la finesse et le sens contextuel. Par exemple, si je dis à un système informatique « il pleut des cordes », un système informatique qui fonctionne par mot clé va prendre le mot « pleut » et le mot « cordes » de façon dé corrélé sans comprendre de quoi il s’agit. Nous, nous allons interpréter « il pleut des cordes » de la même façon que « it’s raining cats and dogs » en anglais. Nous sommes sur deux expressions très imagées qui en termes de mots clés ne veulent rien dire. Etant donné que nous comprenons le sens, nous savons que c’est la même chose et que dans les deux cas, il va beaucoup pleuvoir !

    Concrètement, lorsque nous lisons une première fois un corpus documentaire ou lorsque nous analysons la phrase d’un utilisateur, nous passons par 4 volets :
    1. L’ensemble des bases de données lexicales d’une langue : c’est-à-dire que nous avons l’intégralité du dictionnaire, des verbes, des formes conjuguées, des formes fléchis, infléchis en fonction des langues qui est généré automatiquement à partir d’algorithmes d’IA (via une collecte de millions de documents afin d’avoir tous les mots et lexique d’une langue) ;
    2. Les algorithmes de compréhension du langage naturel : il s’agit d’analyseurs grammaticaux, syntaxiques, lexicaux qui s’appuient sur nos bases de données lexicales qui comprennent elles-mêmes des bases de données statistiques.

    Ces deux premières briques sont les bases de compréhension de la langue.

    3. La troisième partie permet de s’extraire de la langue de départ : les bases de données statistiques et lexicales sont rattachées à une langue et également sur de la grammaire et de la syntaxe rattachées à une langue ;
    4. La quatrième partie permet d’extraire le sens d’un mot, d’une phrase ou encore d’un paragraphe, qui est ensuite transformé en modèle chiffré afin de créer des « tenseurs » via nos algorithmes : à partir de là, les expressions « il pleut des cordes » et « it’s raining cats and dogs » vont avoir la même forme numérique puisqu’elles ont le même sens.

    Une fois que nous avons d’un côté la traduction numérique de la demande de l’utilisateur, et de l’autre côté la traduction numérique de l’ensemble des bases que nous interrogeons, nous allons faire un matching des deux. C’est-à-dire que nous allons chercher numériquement ce qui est le plus proche de la question de l’utilisateur.

  • Aujourd’hui, l’IA est un terme à la mode et beaucoup de sociétés prétendent faire de l’IA. Selon vous, qu’est ce qui relève de l’IA et qu’est ce qui n’est pas de l’IA ?

    L’IA demeure des statistiques avant tout. Avec les systèmes neuronaux, les statistiques ont été réutilisées pour faire d’autres choses et nous disposons aujourd’hui de nouveaux moyens de calcul qui étaient inexistants il y a 10 ans. En revanche, les statistiques classiques ce n’est pas de l’IA.

    Il y a plusieurs choses en fait. La première chose c’est toute la partie volumétrie. Nous avons certains modèles d’Intelligence Artificielle pour faire le premier modèle. Par exemple nous avons fait des tests sur des articles de presse : nous avons remonté l’historique d’articles de presse depuis 96 ans. Pour entraîner le modèle sur une 50ène de titres français et américain, nous avions 1 600 000 articles de presse. Ensuite il y a ce que nous cherchons à faire : si nous cherchons à relever l'occurrence du mot « chat » tout seul, nous ne sommes pas sûrs de l’IA. Pour faire du comptage, même sur des milliers de choses, nous avons besoin d’infrastructures de calcul robustes et puissantes, mais ce n’est pas de l’IA. L’IA c’est que nous faisons des modèles qui vont pouvoir inférer quelque chose. Dans nos modèles, nous inférons du sens, mais dans des modèles médicaux ce serait inférer une pathologie. Ce sont vraiment des modèles d’inférences, voire d’inférences prédictives.

    Après il y a effectivement les techniques utilisées. Les techniques dont nous sommes sûrs ce sont les techniques d’IA telles que le deep learning. Nous, nous utilisons du transfert learning, si c’est fait sur des algorithmes d’IA ça en est, sinon ça en est pas. Le transfert learning revient à avoir recours à un modèle de base : dans notre cas, il s’agit de la langue. Par exemple, nous allons entraîner un modèle en français, et à chaque fois que nous allons entraîner notre modèle sur une base de données client, nous transférons notre modèle français, où le contexte de base qui est la langue pour pouvoir travailler, et ensuite on va apprendre sur le corpus documentaire de notre client, qui est ici le contexte du cas d’usage. Une fois que le modèle fonctionne sur une langue, nous le transférons sur tous les cas d’usages pour le ré entraîner. Il faut parfois compter 3 à 4 mois pour entraîner un modèle de langue ! Nous les améliorons sans les refaire à chaque fois.

    Il y a ensuite ce que l’on appelle en IA l’« active learning » pour lequel nous ne sommes pas sûrs qu’il s’agisse d’IA. Le principe est qu’au fur et à mesure que l’utilisateur utilise le système, le système devient meilleur. Toute la question réside dans le fait de savoir comment il devient meilleur. Les systèmes doivent être capables de s’améliorer par eux même à partir d’une base qui a été faite, ou alors nous faisons apprendre un système en face de l’autre. C’est-à-dire que nous mettons deux IA qui se répondent, et si tout se passe bien, c’est-à-dire dans 10% des cas, nous obtenons deux IA qui en s'interrogeant et en se répondant ont réussi sans aucune intervention humaine à s’améliorer. La difficulté avec l’IA, c’est que nous ne savons jamais si le modèle va être cohérent, c’est pour ça qu’il faut souvent les refaire, sans comprendre vraiment pourquoi…

Annuaire 2021

Faites vous aussi partie de l'annuaire 2021 de l'IA et référencez-vous ! Complétez votre fiche entreprise et dites-nous en plus sur votre histoire, vos produits et votre savoir-faire.

COMPLÉTER MA FICHE

Références IA

Retrouvez toutes nos références liées à l'intelligence artificielle : dossiers et articles inédits, interviews, organismes d'accompagnement et de subventions, instituts de recherche, lectures conseillées...

EN SAVOIR PLUS