L’exploitation marketing des données textuelles

Dans DOSSIERS
Par Gérard Danaguezian

Comment tirer vraiment parti des gisements de données clients en provenance des sources Big Data : Facebook, Twitter, Blogs, Forums…

C’est entendu, le Big Data est en train de transformer en profondeur les approches et les méthodes de la recherche marketing. Les professionnels du secteur qui devaient cultiver patiemment des méthodologies exigeantes pour récolter chichement quelques opinions se retrouvent à présent face à une prolifération spontanée de données de toute nature, qu’il suffit de se pencher pour cueillir.
Mais là où l’on obtenait auparavant des données structurées, faciles à consommer et à convertir en actions marketing, les nouvelles ressources du Big Data s’offrent à nous le plus souvent dans des formats textuels et non structurés, qu’il est nécessaire de transformer et de retraiter pour en tirer la substantifique moelle. Si l’abondance de biens ne nuit pas, il faut tout de même savoir séparer le bon grain de l’ivraie. Et c’est là que réside la complexité lorsqu’on s’applique à analyser la logorrhée numérique ininterrompue du consommacteur.

La recherche marketing aime les chiffres, les pourcentages, les écarts significatifs. Ils semblent clairs, factuels incontestables, opérationnels…

Ils transmettent l’idée apaisante d’un monde rationnel et déchiffrable où les opinions et les comportements peuvent être appréhendés, analysés et modélisés. Les décideurs sollicitent d’ailleurs de telles certitudes rassurantes, pour guider des décisions stratégiques lourdes de conséquences. Pourtant, si l’on se fie aux concepts du consommateur irrationnel, infidèle et insaisissable que les théories de l’analyse comportementale ont mis en évidence et que nous avons largement évoqués dans de précédents dossiers de Survey-Magazine, on peut affirmer que ce monde rêvé d’un consommateur intelligible et prévisible n’existe plus (si tant est qu’il ait existé un jour). Les mesures associées et les certitudes forgées à force d’enquêtes ponctuelles et de statistiques représentatives semblent donc désormais caduques.

La dimension changeante et multifactorielle des opinions et des comportements s’appréhende davantage dans le flot de données délivrées désormais par le consommateur lui-même. Le rôle du praticien s’en trouve transformé. D’éleveur de données il doit se transformer en chasseur qui suit des traces et évalue des signaux parfois faibles, dans le torrent de contenus qui se déversent autour de lui.

Dans l’univers luxuriant du Big Data, l’écrasante majorité des données est de nature textuelle.

Certains avancent le chiffre de 80%. D’autres vont jusqu’à 90% voire plus sans que l’on sache vraiment si ces estimations sont fondées sur une véritable évaluation (dont on a du mal à imaginer le protocole scientifique irréfutable) ou sur la pratique éculée du doigt mouillé. Mais le fait est là, les datas de génération spontanée qui caractérisent l’univers du web sont, par nature, des données textuelles et non structurées. Pour être exploitées, elles nécessitent des techniques de reconnaissance du langage naturel que l’on désigne en français par les acronymes TAL ou TALN et en anglais par NLP (Natural Language Processing).

Nous recourons tous quotidiennement, sans forcément le savoir, à ces techniques. Il suffit de taper une requête sur Google pour déclencher des mécanismes sophistiqués de NLP que le géant du web met au point et perfectionne depuis ses débuts. Les récents algorithmes de Google lui permettent de comprendre des requêtes complexes exprimées en langage naturel, avec remplacement dynamique par des synonymes de certains termes ou combinaisons de termes (même éloignés dans la phrase). C’est également ces techniques de NLP qui sont mises en œuvre pour proposer des traductions automatiques ou effectuer des corrections orthographiques et grammaticales en ligne ou sur nos outils bureautiques.

Les premières recherches en la matière datent de l’après deuxième guerre mondiale. En 1950, l’un des pionniers de l’informatique, le célèbre Alan Turing, anticipe déjà les avancées futures de la NLP en imaginant un test censé marquer l’avènement de la « machine intelligente ». Le « Test de Turing » consiste à faire converser à distance des humains avec des interlocuteurs non identifiés qui peuvent être d’autres humains ou bien des machines. Pour Turing, on pourra parler de machine intelligente le jour où les machines pourront se faire passer pour des humains au moins une fois sur trois.

Les machines, de plus en plus intelligentes, arrivent à réaliser aujourd’hui des exploits remarquables. Le dernier en date est le succès d’AlphaGo, le programme de jeu de Go de Google, qui vient d’infliger quatre défaites humiliantes au champion du monde du jeu de Go, le Sud-Coréen Lee Sedol, considéré comme l’un des meilleurs joueurs de l’histoire et qui domine la discipline depuis près de 10 ans. Ce succès de l’intelligence artificielle rappelle celui en 1997 de l’ordinateur Deep Blue d’IBM qui terrassa le champion du monde d’échecs Garry Kasparov. Quant au test de Turing, le succès annoncé en juin 2014 d’un programme se faisant passer pour un jeune Ukrainien de 13 ans reste contesté. Il est certain que de nouvelles expériences établiront les progrès des machines et leur succès éclatant au test de Turing. Mais le fait que l’on n’y soit pas encore alors que l’ordinateur s’impose dans des jeux de stratégies complexes montre, s’il en était besoin, l’extrême complexité du langage humain.

Si la velléité de maîtriser le langage ne date pas d’hier, sa nécessité se fait de plus en plus impérieuse à l’heure du Big Data.

Le flux constant de données rend nécessaire, pour qui veut en tirer de la connaissance, de mettre en œuvre des processus automatisés d’analyse. Les approches manuelles naguère en vogue dans les études pour l’analyse des entretiens qualitatifs ne sont plus possibles devant une masse de données qui arrive de toutes parts. Si l’on songe aux budgets jadis consommés en études et expérimentations marketing de toutes sortes, on ne peut qu’être ébahis devant l’extraordinaire avantage compétitif qu’il serait possible de retirer de l’analyse en temps réel de toutes les sources de données disponibles.