Le text-mining expliqué text-mining par IBM Analytics

Interview

Eric Martin, Global Social Media Analytics Learder IBM Analytics
Global Social Media Analytics Leader IBM Analytics

Survey-Magazine : Qu’est-ce que l’analyse textuelle ?

Eric Martin : Le traitement automatique du langage est encore connu sous les vocables de Text Mining ou Text Analytics. Cela consiste à faire traiter de gros volumes de données textuelles de manière à pouvoir en exploiter le contenu sans devoir le lire. Différents types d’applications ont vu le jour telles que l’amélioration des résultats des moteurs de recherche, la catégorisation de contenus, la gestion de système de questions / réponses et plus récemment l’analyse des opinions des consommateurs. Dans tous les cas il s’agit de transformer de l’information non structurée en information structurée de manière à la rendre utilisable par l’ordinateur. 80% de l’information étant non structurée, le Text Analytics est devenu un des piliers du Big Data.

Big Data, web social, études qualitatives : les données s’accumulent et sont majoritairement sous forme de texte. Quelles sont les méthodes analytiques qui permettent d’en exploiter la richesse ?

Il reste sur le marché deux grands courants de technologies : celles basées principalement sur l’analyse statistique du texte et l’apprentissage à partir de collections de documents de référence et celle basée sur l’analyse linguistique avancée à partir de patrons syntaxiques et grammaticaux. Chaque méthode a ses avantages et ses inconvénients et c’est le type d’application métier, le niveau d’exigence sur la précision, la volumétrie des données et le niveau de maturité des équipes fonctionnelles qui va orienter sur le choix de telle ou telle technique voire un panachage des deux.

De nos jours, on ne trouve plus sur le marché que très peu de solutions dédiées de text analytics, la plupart du temps ces technologies ont été intégrées à des solutions métiers disponibles en offre cloud, ce qui évite aux utilisateurs de devoir « mettre les mains dans le cambouis ».

Les technologies sont-elles maîtrisées ?

Même s’il subsiste une marge d’amélioration, les technologies sont parfaitement maîtrisées et déployées par les sociétés présentant une véritable expertise et de gros investissements R&D dans les moteurs d’analyse. Il est difficile cependant de fournir un niveau de précision car cela va dépendre énormément du type de données, de l’application métier et du niveau d’exigence en sortie. En règle générale en ce qui concerne le sentiment analysis, on peut raisonnablement se situer autour de 85%-90%. Par contre avec des solutions d’entrée de gamme il ne faut pas espérer plus de 50%, ce qui peut rendre délicate l’exploitation des résultats en tant que supports à la décision. Un cas classique est la granularité de l’analyse : si par exemple j’analyse un tweet qui dit que « le produit X est génial mais que le SAV est déplorable ». Il faut que la solution comprenne que l’opinion positive est rattachée au produit X alors que l’opinion négative est liée au SAV. Et qu’au final je comptabilise les opinions vis-à-vis du produit différemment des opinions vis-à-vis des services. Autrement aucune bonne décision métier ne peut en découler (dans le cas décrit c’est le SAV qu’il faut améliorer). Scorer des posts comme positifs ou négatifs n’a aucun sens en soi.

Avez-vous des exemples d’applications concrètes dans le domaine du Marketing ?

Le marketing bénéficie tout particulièrement de l’analyse des verbatim ou des posts. A côté des données descriptives, transactionnelles et d’interactions, le texte constitue les données attitudinales qui permettent de mieux comprendre les choix, les raisons des comportements d’achat des clients.

Dans les télécommunications, les transcriptions de call center et les contenus sociaux sont utilisés pour améliorer la pertinence des modèles d’attrition : chaque pourcentage de client susceptible de passer à la concurrence représente une grosse perte financière. Les modèles prédictifs sont à présent basés sur une vision 360° du client.

Au niveau des études, l’analyse des réseaux sociaux représente un complément nécessaire car ils permettent de quantifier des comportements et des opinions sans sollicitation des internautes. En quelques heures il est possible de prendre le pouls de tout un pays voire de tout un continent. C’est très utile lors du lancement de nouveaux produits par exemple où l’on va mesurer l’impact des campagnes marketing au cœur même des réseaux sociaux. Cela contribue à calculer le ROI de la campagne.

A terme toutes les bonnes plateformes d’analyse marketing vont intégrer des composants de social analytics de la même manière que le Text Analytics a été englobé dans l’analyse prédictive il y a quelques années. La valeur du Big Data est de faire éclater les silos pour avoir des analyses transversales.

Où en sommes-nous en France ?

La France est un paradoxe dans le domaine puisque ses universités et instituts de recherche sont parmi les meilleurs au monde alors que le taux de pénétration du Text Analytics dans les applications marketing est resté très faible. A l’étranger les marketeurs ont plutôt suivi une approche pragmatique en commençant des projets peu ambitieux mais qu’ils ont fait évoluer en fonction des avancées technologiques et de leur expérience acquise au l de l’eau. Au final les sociétés françaises ont pris du retard et quand la vague des réseaux sociaux a déferlé elles ont eu une approche défensive en se concentrant sur l’analyse de l’e-réputation et la gestion du risque alors que bon nombre de sociétés anglo-saxonnes étaient déjà à un niveau plus offensif. Je pense notamment à l’utilisation des contenus des réseaux sociaux pour mieux segmenter leurs clients, faire évoluer rapidement les produits et les services, construire des campagnes digitales et virales plus percutantes, développer l’approche multicanal…

Pourquoi dire “Machines do analytics, humans do analysis” (Anjali Lai, analyste à Forrester Research) ?

Les machines appliquent seulement des algorithmes pour lesquelles elles ont été programmées tandis que les humains prennent beaucoup mieux en compte le contexte dans lequel se trouvent les informations. Par contre il ne faut pas croire que l’humain est infaillible. La machine, en plus d’être rapide est extrêmement reproductible. Lorsqu’on a fait analyser manuellement des verbatim de consommateurs à des panels d’experts, bien souvent les interprétations divergent et même d’un jour à l’autre pour un même expert. Par contre Anjali Lai préconise l’implication directe des marketeurs dans l’amélioration de systèmes de sentiment analysis ce qui est pour moi une énorme erreur. Ce n’est pas leur compétence et cela fait chuter considérablement le retour sur investissement des projets. La personnalisation des moteurs est souvent nécessaire et il vaut mieux que cela soit fait par des experts en relation avec les métiers. Ils se focaliseront en priorité sur les 20% de cas qui génèrent 80% des erreurs.

Quelles évolutions pour l’analyse textuelle dans 10 ans ?

Le sentiment analysis va continuer à s’affiner mais je pense que ce sont les avancées de la psycholinguistique qui vont être déterminantes : elles permettent de mieux comprendre la personnalité du client en fonction de la manière dont il s’exprime et de ses centres d’intérêts tels qu’exprimés dans les réseaux sociaux. On va pouvoir ainsi affiner les messages et les offres marketing one-to-one.

D’autre part on voit l’émergence des systèmes basés sur l’analyse cognitive. IBM a ouvert la voie en 2011 avec Watson en gagnant contre les champions de Jeopardy (l’équivalent américain de notre « question pour un champion »). Très récemment on a vu les algorithmes de deep learning de Google battre les meilleurs champions de jeu de Go. Les machines acquièrent la capacité d’apprendre et de s’améliorer en permanence. Watson commence déjà à être utilisé dans le milieu médical pour une aide au diagnostic et au traitement des patients. Les applications marketing sont pour bientôt.