Traitement et analyse de verbatim sur des gros fichiers : le jeu en vaut-il la chandelle ?

Dans Data-Analysis
Par Yannick Busson

L’avènement du big data a mis en avant deux types de données qui n’étaient jusqu’a présent pas ou peu analysées sur de gros volumes : les données textuelles et les images. Ce manque d’appétence de la part des entreprises pour défricher des insights forcément cachés dans cette somme de données s’explique par la complexité et le caractère extrêmement chronophage de ces analyses. Qui dit complexité dit développement d’une méthodologie de traitements pour y faire face. Cette méthodologie ne peut qu’être ad’hoc dans un cadre big data puisqu’il s’agit de s’emparer des données propres à l’entreprise, éparses ayant des thématiques très variées.

Cette dimension ad’hoc confère à l’analyste de ces données un caractère artisanal et donc un statut d’artisan de la donnée. Comme tout artisan, sa sensibilité aux différents outils dont il dispose va lui permettre de mettre en place une stratégie d’analyse de la donnée. Par conséquent le ROI en insights ne peut que dépendre du profil de l’analyste.

Aujourd’hui comme hier deux types d’approches sont disponibles pour analyser ces masses de données textuelles : les analyses lexicales et les analyses sémantiques. Notons que c’est le choix de l’analyse qui doit conduire au choix de l’outil et non l’inverse ce qui est malheureusement souvent observé.

Les analyses textuelles permettent d’avoir une granularité extrême puisqu’il s’agit ici de décomposer tout un corpus de données en une liste de mots avec leurs occurrences. La stratégie repose donc sur l’agrégation des différentes écritures du mot dans un premier temps. Une fois cette agrégation réalisée la seconde étape consiste à agréger une nouvelle fois ces groupes de mots en groupe de sens, c’est ce que certains appellent la catégorisation.

C’est l’étape la plus décisive dans la stratégie d’analyse textuelle en big data. En effet, l’erreur la plus commune consiste à tenter de tout analyser, tout comprendre. Sans stratégie, l’analyse sera longue et les résultats peu opérationnels. L’approche en réalité consiste à chercher la réponse à une thématique particulière. C’est cette thématique qui va aider à définir les mots clefs pour la catégorisation des mots.

Certains outils proposent également de rechercher les segments de mots les plus significatifs dans un texte. Ce choix ne doit être guidé que dans le cadre de la thématique recherchée.
Une fois la catégorisation achevée, il est possible de réutiliser les nouvelles variables créées (les catégories) avec d’autres types de données quantitatives ou qualitatives pour mener par exemple des analyses multidimensionnelles ou une segmentation.

Les reproches les plus importants concernant ces analyses portent sur leurs caractères extrêmement chronophage et technique à tel point que nombres d’entreprises préfèrent le plus souvent externaliser ce travail. Une autre faiblesse généralement constatée dans ces analyses porte sur l’homonymie et la non prise en compte des doubles négations, du deuxième degré ou plus simplement de l’ironie. En somme, l’analyse textuelle ne peut porter que sur le premier degré d’un discours. Enfin techniquement, il est nécessaire d’avoir un matériel très puissant, ce type d’analyses étant très gourmand en ressource.

Les analyses sémantiques consistent à analyser le sens d’un texte et non plus décomposer le texte en mots comme en analyse lexicale. Les outils d’analyse sémantique sont livrés avec des dictionnaires de base qui permettent dės l’acquisition de commencer à travailler. Pourtant, comme en analyse textuelle l’analyste va devoir créer son propre dictionnaire avec son expertise métier. C’est à cette seule condition que l’outil pourra pleinement délivrer son potentiel. Certains outils comme Ethnos permettent de réutiliser les univers de mots pour les réinjecter avec des données quantitatives a des fins d’analyse multidimensionnelle.

Souvent, les sociétés sont déçues par les résultats de ces outils après la première analyse. En effet ayant déjà tout analysé après avoir créé le dictionnaire métier, on ne voit pas trop quoi faire de l’outil par la suite. Comme pour l’analyse textuelle, cette remarque s’explique le plus souvent par l’absence d’une stratégie d’analyse. Il faut thématiser la recherche pour obtenir des résultats réellement opérationnels. Un autre écueil qui tend à disparaître avec l’amélioration des outils concerne la prise en compte de la double négation.

Le principal défaut de ces analyses tient à l’existence d’un pré-requis fort pour les mener : les données textuelles doivent être de bonne qualité = pas d’écriture SMS, peu de fautes autorisées, un texte écrit dans une même langue. Si ces outils fonctionnent assez bien pour une analyse de textes rédigés par des professionnels (extrait de journaux, sites professionnels…) ils fonctionnent beaucoup moins bien concernant par exemple l’analyse de contenus de forums de discussion d’adolescents et plus du tout quand il s’agit d’analyser des forums multilingues.

Concernant le big data, les problèmes de traitements de données textuelles sont donc démultipliés : les thèmes des différents inputs sont variés, la qualité des données n’est pas homogène et pour les données provenant d’Internet, l’orthographe et le multilinguisme complexifient d’autant le traitement.

Mais le plus grand défi concernant l’analyse textuelle en big data réside dans la prise en compte de l’importance du commentaire. En analyse des réseaux sociaux, il est vital de catégoriser les intervenants selon l’influence qu’ils peuvent avoir sur la communauté… Pourtant, bien complexe est cette tâche. Un expert, en effet, peu n’avoir que très peu de réponses à ses commentaires car ils font autorité. De même un individu qui publie un message sans grand intérêt n’aura que peu de réponses. Un propos polémique pourra susciter un grand nombre de réactions sans que son auteur puisse être qualifié d’expert. On le comprend dès lors : si chercher à analyser ce qui a été dit est important, pondérer son contenu par l’influence de son auteur l’est tout autant. Ce principe est capital quand on cherche par exemple à analyser les articles des principaux journaux concernant une marque ou un produit par exemple en regard des réactions des lecteurs et que l’on cherche à analyser par la suite la réaction par journal selon le contenu par article.

Mener des analyses de textes à partir de flux de données est extrêmement instructif et délivre souvent des enseignements qui ne peuvent pas être trouvés via les moyens de collectes d’informations usuels (études quanti, quali….). Tout comme une segmentation affinée peut permettre de trouver de nouveaux créneau de niche, une analyse de texte de grand volume peut permettre de trouver de nouveaux insights. Pourtant cette tâche est coûteuse en terme de temps de mise à disposition des données, de traitements et d’analyses. Les écueils sont très nombreux et l’opérationnalité des résultats peu garantie selon les méthodologies utilisées. Pour autant, une approche bien réfléchie donne le plus souvent des enseignements inespérés.