Traitement des contenus textuels, en route vers l'automatisation qui fait sens

Dans TENDANCES
Par Isabelle Goisbault et Jean-Pierre Michel

De toutes les récentes évolutions, la digitalisation est certainement celle qui a donné le plus de pouvoir au consommateur. En révolutionnant notre façon de communiquer, Facebook et les réseaux sociaux nous ont permis d'encenser ou de détruire une marque en quelques clics. Aujourd'hui, le pouvoir croissant des « influenceurs » et des bloggeurs est une réalité et la parole du consommateur n'a jamais eu autant de poids.

En parallèle, de plus en plus de marques ont la volonté de donner et de capter la parole de leurs clients : retour d'expériences, satisfaction à chaud, réclamation, partage de suggestions, réaction spontanée, etc. Et ceci en temps réel, jour après jour, avec au final, une masse d'information énorme et diverse créant parfois une réelle frustration pour le responsable chargé d'en tirer la « substantifique moelle ». Face à ces nouveaux enjeux, les techniques avancées du Big Data et de l'Intelligence Artificielle ont permis d'automatiser certaines tâches dans le traitement de ces contenus textuels très larges et variés et ainsi traiter de la data de masse. Nous traitons chez Stratégir des données à la fois qualitatives et quantitatives, donc du chiffre et du texte mais très ad hoc et varié, avec des problématiques nécessitant des recommandations opérationnelles. Le besoin de coller au brief et aux enjeux de nos clients est donc crucial. Aussi, notre système d'analyse sémantique automatisée qui est l'aboutissement du partenariat avec des linguistes de la start up Human Knowledge, a-t-il la capacité d'intégrer la contextualisation des données, y compris les objectifs du client, pour, au final, extraire du sens au discours consommateur. Cette approche s'oppose donc à une approche analytique classique se basant sur la reconnaissance des mots et leur récurrence statistique, parfois enrichie d'une analyse syntaxique.

La construction automatique du contexte

Ce qui caractérise fondamentalement notre approche est la construction automatique du contexte à partir d'informations disponibles sur le net. Le système va enrichir sa connaissance du sujet, en regard des enjeux poursuivis. Il va ainsi contextualiser le corpus via des données qui pourront être consommateurs, culturelles, concurrentielles, juridiques ou médicales pour donner quelques exemples. La règle du système est de sélectionner le corpus en fonction de la stratégie poursuivie, et ainsi mener sa recherche sur les sites internet les plus pertinents. Cette synthèse conceptuelle s'écarte d'une vision purement quantitative et va d'abord se fonder sur le traitement du sens. Le système sera par exemple capable d'identifier pour un nouveau mix des réactions consommateur avant et après usage du produit, ou sera capable dans le cadre d'un nouveau service d'assurance de départager la maladie de l'accident, puis distinguer l'accident professionnel de l'accident domestique et d'en faire des critères d'analyse. Ou encore, le système pourra identifier toutes les marques présentes dans un corpus, les mettre en opposition et ainsi identifier des critères de comparaison.

Déterminer le sens

Etant automatique, il intègre d'emblée la totalité du corpus, quelle qu'en soit sa taille, et cherche d'abord à déterminer le sens contenu dans les données avant de les pondérer et hiérarchiser. Le bénéfice pour toute société ou marque sera d'analyser un corpus jusque-là inexploitable, et de le faire rapidement et de façon exhaustive, tout en se focalisant sur le sens grâce à l'approche linguistique.

Décrypter les différentes interprétations

Partant du langage naturel des consommateurs, le système décrypte les différentes interprétations, par nature infinies de par les croyances et les vécus de chaque individu. Par exemple, il reconnait tous les modes d'expression, y compris l'argot ou le langage sms, en s'appuyant sur son dictionnaire intégré qu'il confronte en permanence aux informations disponibles sur internet : des expressions et des sens naissent et meurent chaque jour. Le bénéfice est de pouvoir identifier l'émetteur via le discours qui s'exprime (une jeune personne, un adolescent, un membre d'une communauté, etc.). Il est en effet loin d'être neutre pour une marque d'anti-rides d'identifier que certains retours consommateurs émanent d'adolescentes, retours sans doute judicieux de distinguer de ceux de leur cœur de cible. Qu'il s'agisse d'établir des profils, de déterminer si certains canaux génèrent des contenus de type différent ou d'identifier des modes d'expression, l'analyse automatisée permet de comprendre en quoi le message est spécifique à une cible, à un média ou à une problématique.

Mettre en regard des données chiffrées et textuelles

Le système peut aussi mettre en regard des données chiffrées et textuelles pour en analyser la cohérence ou pondérer l'un par rapport à l'autre. En demandant aux consommateurs de motiver leur intention mesurée sur une échelle quantitative (note, ranking, etc.), le système peut nuancer cette intention en examinant certains éléments linguistiques (conjonctions, articles conditionnels, etc.) qui organisent le raisonnement. Le bénéfice est d'être au plus près de l'intention réelle des consommateurs. Cela peut être par exemple de prédire au mieux l'adhésion à un nouveau service. L'analyse des « particules » conditionnelles comme le « si » ou le « parce que », peut relativiser de façon significative le niveau d'adhésion si le système met en évidence que les raisons ou les conditions énoncées par les participants sont basées sur des conditions inexactes comme la gratuité du service concerné alors que le service est payant. Dans ce cas, le système reverra le niveau d'adhésion à la baisse en fonction des verbatims concernés.

Prendre en compte l'émotionnel

Le système prend en compte l'émotionnel. Il peut par exemple distinguer le discours positif du négatif mais aussi des états d'esprit plus nuancés comme le fait d'être enthousiaste ou au contraire dubitatif, critique voire ironique. L'intérêt est d'identifier les éléments sur lesquels le consommateur achoppe et donc les arguments à renforcer ou à clarifier en communication par exemple.

Enfin, le système peut départager dans un corpus les questions posées ou les instructions données par l'animateur des réponses consommateurs, ce qui peut être particulièrement pratique lors d'un forum en ligne pour suivre le flux des échanges : question initiale, relance, présentation d'un concept, etc. L'intérêt est qu'en identifiant « qui dit quoi », le système est également capable de confronter le déclaratif des consommateurs à ce qui a été injecté dans la discussion (concept, packaging, communication, etc.). Le système va ainsi identifier le discours consommateur spontané, et comment le consommateur traduit avec ses mots le stimulus étudié.

Cette nouvelle approche remet aussi en cause nos paradigmes études en faisant tomber les barrières entre le quanti et le quali. Ses applications sont en effet multiples et couvrent également le champ des questions ouvertes en test quantitatif avec l'avantage de synthétiser et donner l’accès direct au discours consommateur. Distinguer l'essentiel de l'accessoire est notre objectif, quelle que soit la data, même si c'est un « signal faible » d'un point de vue quantitatif, un intérêt universel qui doit bénéficier à tous !