Analyses textuelles : Un champ de traitement infini

Dans DOSSIERS
Par Linda Agugliaro-Attari

La révolution numérique soutenue par les objets connectés, le web social et le Big Data ouvre une ère nouvelle. Les Big Data ou « masse de données » permettent d’analyser la situation et le contexte de milliers de consommateurs en temps réel, favorisant ainsi une meilleure compréhension des réactions du marché, la proposition d’offres et de messages personnalisés.

Les données issues du Big Data ont profondément changé le monde du marketing et constituent aujourd’hui une mine d’informations exploitables pour le marketing décisionnel et prédictif centré sur l’analyse précise du besoin des clients.

Les professionnels constatent néanmoins un manque de formation en analyste marketing et un manque d’expertise technique sur l’exploitation de données textuelles. Cette expertise se centre notamment sur 5 axes majeurs :

- Comprendre les comportements du consommateur grâce à l’optimisation de l’expérience client induite par l’exploitation des données dites non structurées (photos, blogs, articles, commentaires),
- Améliorer la prise de décision par l’analyse des données en ligne – le prédictif,
- Traiter, améliorer la qualité des données et savoir les valoriser,
- Conduire et piloter des projets Big Data,
- Préparer à de nouveaux usages « simples » permis par la géolocalisation, les terminaux mobiles.

QU’EST-CE QU’UNE DONNÉE TEXTUELLE ?

On parle volontiers dans ce domaine de données structurées VS données non structurées. A l’heure actuelle, plus de 90% des données sont non structurées, issues du Web et de la prolifération des objets connectés qui connaissent une croissance exponentielle. Ces données sont en effet à l’origine, des chiffres, du texte, des mails, des appels vocaux, des notes, des blogs, des dates. Ces données regroupent également toutes les traces sémantiques que nous laissons sur le web social via nos téléphones mobiles, tablettes, vidéos publiées en ligne, image numérique, capteurs.

Prenons deux exemples simples. La Poste achemine tout d’abord chaque année des milliards de plis, dont elle pourrait analyser des informations pertinentes – adresse du destinataire, lieu d’envoi, date d’affranchissement, format de journal, de factures, de publicités – et ainsi enrichir une base de données textuelles géo-démographiques.

Prenons ensuite le cas d’EDF. Grâce aux capteurs posés sur leurs compteurs, EDF reçoit des informations sur la consommation ce qui lui permet de réguler l’offre et la demande d’électricité, et ainsi de facturer de façon plus rapide et efficace.

Les données structurées ou homogènes

Elles sont issues du CRM de l’entreprise dont l’ensemble des valeurs possibles est déterminé et connu à l’avance. Par exemple, dans une base de données client rassemblant les résultats d’une enquête d’opinion, l’âge ou la catégorie socio-professionnelle des individus interrogés sont des données structurées. Les tranches d’âges ou la liste des catégories socio-professionnelles possibles sont déterminées et classées. Ces données sont des informations organisées et triées avec une ligne d’en-têtes significatives pour chaque colonne. Les bases de données clients ou produits sont des données structurées.

Les données non structurées ou hétérogènes

Il s’agit par exemple des réponses libres, des commentaires sur un site web, des questions ouvertes sur un blog. Ces réponses en effet sont potentiellement toutes différentes et impossibles à « clusteriser », ce qui reviendrait à classer en groupe ou catégoriser avec une classification supervisée. Dans une base de données clients de mails, nous avons des données structurées et non structurées : l’auteur ou la date sont des données structurées mais le corps du message est une donnée non structurée. De façon générale, les données non structurées sont des données textuelles.

BIG DATA ET EXPLOITATION TEXTUELLE

Depuis 2012, plusieurs projetsont vu le jour, notamment sur l’analyse et l’exploitation des données issues du web et des réseaux sociaux, ou dans des secteurs précurseurs comme la distribution et les opérateurs de services. L’analyse textuelle permet de traiter de grandes quantités de commentaires laissés par les utilisateurs ou de messages échangés sur les réseaux sociaux. Des techniques d’analyse textuelle – que nous exposerons plus loin – ont ainsi émergé. Comprendre le fonctionnement de ces outils permet au Data Marketeur d’appréhender des données texte avec un haut degré d’automatisation. Cette technique de valorisation des données est notamment un des modules intégrés pour nos étudiants dans le programme Master/MBA de l’INSEEC Lyon.

Le Big Data et les objets connectés représentent un important relais de croissance économique selon de nombreuses études. « 90 % des données dans le monde ont été créées ces deux dernières années ! ». Ils offrent la possibilité de connecter les personnes ou les objets de manière plus pertinente, de fournir la bonne information au bon destinataire, au bon moment, ou encore de fournir des informations utiles à la prise de décision.

C’est ce qu’on appelle la fouille des données textuelle. Elle s’applique sur les textes des traitements linguistiques, notamment morphologiques, syntaxiques, sémantiques. Diverses techniques d’analyse de données sont utilisées pour synthétiser, classer et structurer ces données. La méthodologie consiste à scruter des textes par mots-clés, sujets, concepts, phrases morphèmes afin d’obtenir un résultat pertinent, trié avec des variables testées au préalable et inspiré de l’expérience métier et des meilleures pratiques d’un secteur d’activité. On monte alors un corpus sémantique pour tester les éléments de langage. C’est ce que l’on appelle la taxonomie.

« Les ensembles de données qui apparaissent avec le Big Data constituent une nouvelle source de valeur économique et d’innovation : la valeur des données évolue depuis leur utilisation initiale vers de futures utilisations potentielles à plus forte valeur ajoutée. Toutes les données sont ainsi considérées comme précieuses par définition ». L’Internet des objets (IoT = Internet of Thing) est marqué par le développement des réseaux, des partenariats et des interrelations complexes, permettant ainsi le développement de certains procédés industriels, l’amélioration de la qualité de service et des performances accessibles aux individus et aux consommateurs. Ces données prennent des formes variées, comme des mails, des photos, des vidéos, des fichiers, des commentaires sur les réseaux sociaux, des signaux GPS, des transactions bancaires, du son, des messages vocaux …

Aussi l’écosystème du Big Data se nourrit des variétés des données du web et web social et en augmente en retour le volume et la vitesse des échanges ou traces web. De ce constat actuel, les méthodes de travail évoluent et incitent à modifier notre zone de confort d’analyse pure. On va fouiller les données en émettant des hypothèses vérifiées par la statistique dite inférentielle, c’est-à-dire s’appuyer sur l’hypothèse la plus juste ou la plus probante pour notre modèle de décision. Avec ce modèle par exemple on travaille non seulement la donnée manquante mais également, grâce aux tests d’hypothèse, la donnée la plus probable ou dite vraie – réaliste.

De façon concrète on va donc estimer à partir de la moyenne ou de la fréquence d’une population d’internautes issue du web social si l’échantillon étudié appartient à une population caractéristique connue. Aussi on va donc rechercher si 2 échantillons étudiés sont issus de la même population avec les mêmes paramètres qui les caractérisent. Pour déterminer quoi ? La taille pertinente que doit avoir l’échantillon si l’on souhaite qu’il fournisse une précision définie.

Les données du web social et du Big Data sont de nature diverse : numérique, texte, son, image, logs web. Par exemple pour le log web, un serveur qui héberge un site web indique l’heure de connexion, l’adresse IP, le pays, la ville de connexion. Si l’on fait un test sur le site « internet -map.net », nous sommes en mesure de récupérer une mine d’informations simples et intéressantes à analyser. Sur la cartographie ci-dessus par exemple, la couleur représente le pays, la taille représente le nombre d’accès à ces sites. Et surtout le nombre d’internautes qui naviguent d’un site à l’autre.

Le site offre la possibilité de zoomer sur la carte pour voir où vont les internautes. Un constat : certaines entreprises sont plus proches des concurrents. On peut faire des analyses par site et par cluster de proximité (ou agrégats de proximité).

Cette variété rend donc difficile l’utilisation de bases de données usuelles et requiert une variété de méthodes : text mining, web mining. On manipule des données textuelles. Pour cela, de nouveaux outils de statistique lexicale voient le jour. Leur objectif est de permettre de répondre à des questions telles que celles-ci :

- Combien de fois certains symptômes et épandages de pesticides apparaissent-ils simultanément dans des blogs ou dossiers médicaux ?
- Un texte exprime-t-il un sentiment positif ou négatif ? Et sur quels concepts ce sentiment est-il axé ?
- Combien de textes traitent chaque mois du thème de l’écologie ?

Dans ce cas, l’analyse de texte revient à extraire des données structurées d’un texte non structuré. Un texte peut par exemple être analysé dans le but de savoir si la tonalité est positive ou négative. Le résultat de l’étude donnera une valeur de données structurée. La valeur sera donc « oui » ou « non ».

Différentes technologies existent aujourd’hui. Elles consistent à fractionner les textes en phrases, puis en concepts et relations. En décomposant une phrase, le système examine d’abord les relations qu’elle contient. Il est ainsi possible d’établir une relation entre les concepts d’une phrase et des verbes. Afin de déterminer et cibler le concept et la relation, par exemple dans la phrase « Le client était mécontent », le système considère le temps passé du verbe « être » comme une relation qui sépare les concepts de « client » et « mécontent ». Et ce pour classifier de façon structurée et mettre en relation les deux termes. On peut également analyser des segments de phrase : « … la facture dans le CRM … ». La préposition « dans » induit donc une relation entre facture et CRM.

EXEMPLES D’UTILISATION DES DONNÉES TEXTUELLES

Voici pour terminer deux exemples simples d’utilisation de données textuelles :

- Facebook donne accès aux données que nous avons acceptées de partager et d’échanger. Elles peuvent être utilisées par des entreprises tierces travaillant avec Facebook pour afficher des publicités particulièrement ciblées ou afficher des mentions « J’aime » de nos amis.
- De même, Google vous propose à droite de la page web une publicité adéquate grâce à l’analyse de vos courriels. Le contenu des courriers dans Gmail est en effet analysé pour déterminer un certain profil type des internautes qui peut être vendu à des annonceurs pour cibler des annonces et publicités en temps réel. Google peut se connecter à notre compte Google+ et étendre l’analyse à nos contacts et publications. Les données privées sont gérées par https://www.google.com/settings/dashboard où l’on obtient l’historique de nos positions, courriels, agenda, documents vidéo sur YouTube. On peut y retrouver, par exemple, la date de notre visite dans tel magasin et le moyen de transport utilisé pour s’y rendre.