Big Data ou Smart Data ?

Dans DATA ANALYSIS
Par Philippe Nanopoulos

Personne dans la sphère du marketing n'a pu échapper à la déferlante du Big Data et ses promesses alléchantes. La collecte massive de données s'articule autour de la règle des 5V : volume, variété, vélocité, véracité et valeur. Les premières approches Big Data reposaient sur le principe suivant : « Je collecte un maximum de données (tout ce qu'il est possible de collecter) et je verrai seulement ensuite ce que je peux en faire ». Cette philosophie, initiée par les GAFA, se concentre en fait sur les 3 premiers V. Elle a apporté bien souvent son lot de déceptions, essentiellement en raison d'une sous-estimation des tâches à accomplir pour tirer réellement profit de ces montagnes de données ainsi accumulées. Le Smart Data prend en quelque sorte le contre-pied de l'approche précédente : « Plutôt que de collecter tout et n'importe quoi, il est plus efficace de privilégier la pertinence à la quantité ». Le Smart Data se propose de se concentrer sur la collecte de données réellement utiles à l'action marketing. Elle s'appuie sur une réflexion préalable qui permet d'identifier les données réellement pertinentes pour répondre aux problématiques métiers et s'assurer de leur qualité. Ainsi, le Smart Data privilégie les 2 derniers V (véracité et valeur).

Si plus personne n'ignore aujourd'hui le rôle stratégique de l'exploitation des données clients pour le pilotage des actions marketing et l'amélioration de leur performance opérationnelle, beaucoup sont hésitants sur le chemin à emprunter pour y parvenir. Il est alors légitime pour une entreprise de s'interroger sur ses priorités en termes de projets data : « Smart ? Big ? Qui est le cheval gagnant ? ». Quelques éléments, issus de l'expérience du terrain, peuvent alimenter le débat.

Avant de courir, il faut apprendre à marcher

La littérature professionnelle met souvent en avant les projets Big Data menés par de grandes entreprises qui disposent de moyens considérables et qui ont pris conscience depuis longtemps des enjeux liés à la valorisation des données sur leurs clients et prospects. Or, l'immense majorité des entreprises ne disposent pas ou peu d'une culture de la donnée client. Certes, la plupart ont conscience de l'importance stratégique des données pour améliorer leur performance et leur réactivité. Mais elles sont encore trop souvent à un stade embryonnaire dans la maîtrise de la chaîne de valeur de la donnée client.

Lorsque vous échangez avec les services marketing et commerciaux des entreprises, quel que soit leur secteur d'activité, le discours est toujours le même : « La performance de nos actions est bridée parce que nous n'accédons pas assez rapidement aux informations dont nous avons besoin sur nos clients soit parce qu'elles sont souvent difficilement accessibles car éparpillées dans les différents services, soit tout simplement parce que nous ne les possédons pas ». Ce constat nous renvoie 10 ou 15 ans en arrière. Pour la plupart des entreprises, la priorité n'est pas la collecte massive de Big Data mais de disposer d'un référentiel client unique qui centraliserait l'ensemble des données dont elles disposent déjà ! Avant d'investir dans un datalake pour y déverser des téraoctets de données non-structurées, il est hautement préférable de construire un bon vieux datawarehouse qui permettrait d'exploiter efficacement les données élémentaires qui circulent de longue date dans les applications historiques de l'organisation (ERP, CRM, site web, carte de fidélité, centre d'appel, ...). Bien souvent, ces données sont encore compartimentées dans des silos étanches et ne permettent pas une vision unifiée du client. Pour ces entreprises, s'engager dans des projets Big Data reviendrait à brûler un grand nombre d'étapes sur le chemin vertueux du pilotage marketing par les données. Les données internes font partie des smart data. Alors, avant de partir à la conquête du Big Data, essayons déjà de les maîtriser.

Par ailleurs, accumuler des téraoctets de commentaires sur les réseaux sociaux ou de données navigation sur un site internet, c'est facile ! Les analyser pour en dégager des informations utiles à l'action marketing, c'est une autre paire de manches. La plupart des organisations ne sont pas structurées pour exploiter rapidement de grandes masses de données aux formats multiples ; ce sont autant les outils que les compétences internes qui font défaut. Aussi, ces montagnes de données vont bien souvent vieillir dans des entrepôts et perdre ainsi toute la valeur qu'elles avaient au moment de leur collecte. Les données, ce n'est pas comme un Saint-Émilion, mais plutôt comme le Beaujolais Nouveau, il faut le boire vite !

La question financière ne peut être éludée non plus. S'aventurer sur le terrain de jeu du Big Data impose de se doter d'outils informatiques qui, s'ils sont aujourd'hui plus facilement accessibles via le cloud notamment, génèrent des coûts non négligeables. Par ailleurs, l'analyse de ces données massives ne se fait pas au moyen de solutions « presse-bouton » comme certains ont pu le promettre et d'autres les croire. Le data scientist est une denrée rare qui se paie cher. Le coût de ces investissements techniques et humains doit être comparé aux bénéfices procurés. Le ROI de la maîtrise des données internes est souvent rapide et substantiel, celui de l'exploitation des Big Data plus incertain ! SMART : 1 – BIG : 0

L'hygiène, ce parent pauvre de l'univers de la data

Le V de véracité renvoie à un enjeu majeur qui est celui de la qualité des données collectées.

La qualité des données est principalement déterminée par leur fiabilité et leur fraîcheur.

Le manque de fiabilité des données peut prendre différents visages : valeurs inexactes, valeurs manquantes, valeurs incohérentes dans un champ ou saisies dans le mauvais champ, doublons ou triplons dans la base, fautes de frappes, hétérogénéité dans le format de saisie des adresses postales, pour ne citer que les plus courantes. Les causes sont également connues : dans la plupart des entreprises, un grand nombre de données sont saisies manuellement (par le client lui-même ou par un collaborateur). Cette intervention humaine est la principale (mais pas la seule) source d'erreurs ; pourtant des outils existent pour pallier à ces problèmes (système d'aide à la saisie en temps réel dans les formulaires web ou procédures de normalisation des données postales par exemple), encore faut-il les utiliser.

Le manque de fraîcheur est l'autre dimension de la qualité des données : que faire d'une adresse postale collectée il y a 5 ans sachant que plus de 10% des ménages déménagent chaque année ? Que faire d'un statut marital déclaré par un client il y a 10 ans ? Des informations obsolètes occupent des gigaoctets dans les bases clients des entreprises.

Les conséquences de la mauvaise qualité des données sont quant à elles souvent sous-estimées. Or, des données de mauvaise qualité plombe littéralement l'efficacité des actions marketing, tant au niveau économique qu'en termes d'image. Chaque année, des dizaines de millions d'euros sont investis en pure perte dans des messages qui n'atteignent jamais leur cible en raison d'adresses erronées (postale ou email). Chaque année, des millions de clients sont sollicités pour des produits qu'ils viennent juste d'acheter ou des offres parfaitement inadaptées à leur profil ; ces campagnes marketing ont alors pour unique effet de dégrader l'image des entreprises qui en sont à l'origine et la confiance que ces clients peuvent avoir en elles.

Toutes les entreprises, même si elles n'ont aucune « culture data », sont impactées par ces problèmes. Mais celles qui sont à un niveau de maturité « data » plus élevé et qui ont investi (en moyens techniques et humains) dans l'analyse de leurs données clients à des fins prédictives s'exposent encore à d'autres soucis. En effet, ceux qu'on appelait encore les statisticiens au siècle dernier le savaient bien et ne cessaient de répéter le mantra : « Garbage in, Garbage out ». Les algorithmes de machine-learning et d'intelligence artificielle reposent essentiellement sur l'apprentissage à partir des données qui leur sont soumises. Si ces données en entrée sont de mauvaise qualité, il ne risque pas d'y avoir beaucoup d'intelligence à la sortie. Essayez d'apprendre une orthographe correcte à votre cadette à partir des conversations SMS de son frère aîné ! Aussi, vous pouvez engager les meilleurs data scientists de la place, ils ne vous serviront pas à grand-chose si vous les faites travailler sur des données de mauvaise qualité.

S'assurer de la qualité des données internes est déjà une tâche difficile. Que dire alors des Big Data pour lesquelles les difficultés sont démultipliées en raison de leur volumétrie, de leurs formats hétérogènes et non structurés et de la multiplicité de leurs sources.

S'engager dans une stratégie de gestion de la qualité des données internes (Data Quality Management) est sans aucun doute un investissement bien plus rentable pour la majorité des entreprises plutôt que de se laisser séduire par les sirènes du Big Data. Une fois que les fondations de la maison seront construites, il sera largement temps de s'intéresser à l'aménagement du toit-terrasse ! SMART : 2 – BIG : 0

La syllogomanie ou la maladie de la data

Le V de Valeur renvoie à la pertinence des données collectées. Une donnée intelligente est une donnée utile. La question du Big Data a été jusqu'à présent souvent été envisagée sous un angle technique par les entreprises pionnières. L'accent (et l'argent !) a été mis sur la capacité à collecter et stocker de très grands volumes de données provenant de sources variées et sous des formats disparates. Mais la question de la finalité de cette collecte massive semble être souvent passée au second plan : « Ramassons tout ce que nous pouvons, on ne sait jamais, ce sera peut-être utile plus tard ».

Une donnée collectée doit l'être dans un but précis. Elle doit s'inscrire dans une problématique métier et permettre de mener des actions plus efficaces. C'est à ces deux conditions qu'elle devient utile. Si elles ne sont pas remplies, elle n'est qu'une source de coût mais jamais de revenu. Or, souvent, les équipes métiers ne réclament pas la pépite qui serait dissimulée au fond des Big Data, mais espèrent seulement quelques données métiers essentielles. En BtoB, par exemple, le CA d'une entreprise est une information essentielle aux équipes marketing à bien des égards, elle est cependant rarement disponible. L'âge des clients est souvent un critère déterminant sur les marchés BtoC, tant en prospection qu'en fidélisation. Il est encore fréquemment estimé par un score prénom qui n'est pas toujours très fiable. Collecter tout et n'importe quoi en espérant trouver quelque chose d'utile n'est sans doute pas le meilleur moyen de satisfaire les opérationnels du marketing.

L'expérience terrain montre par ailleurs que bien souvent la performance d'un modèle prédictif repose sur une poignée de variables déterminantes dans l'explication du comportement étudié (ex : score d'appétence, score d'attrition). Ces sont presque toujours des données métiers clés connues des spécialistes. Lorsque les données disponibles pour l'une ou l'autre de ces variables font défaut pour un grand nombre de clients, la performance des modèles prédictifs susceptibles d'être construits est immédiatement dégradée ou leur mise en production sur la base clients rendue tout simplement impossible.

L'apport des Big Data dans l'amélioration de la performance des modèles prédictifs est souvent marginal. Le rapport entre les bénéfices procurés et le coût de leur traitement est en tous cas souvent défavorable.

La dimension éthique dans la collecte des données personnelles mais plus encore les contraintes liées au RGPD (« les entreprises doivent uniquement traiter les données personnelles dont elles ont besoin afin d'atteindre l'objectif initial ») renforcent l'exigence de parcimonie dans la collecte des données sur les clients. Dans un avenir proche, pression éthique et cadre réglementaire vont sans doute rendre les apôtres du Big Data plus prudents en matière de collecte de données.

La prévalence de la syllogomanie devrait prochainement reculer ! La syllogomanie ou accumulation compulsive est le fait d'accumuler de manière excessive des objets (sans les utiliser), indépendamment de leur utilité ou de leur valeur, parfois sans tenir compte de leur dangerosité ou de leur insalubrité (source : Wikipédia).

SMART : 3 – BIG : 0

Le résultat du match peut paraître sévère et l'arbitrage partial. Mais le syndrome de Diogène est un mal trop répandu pour être ignoré par les porteurs de projets Big Data. Le syndrome de Diogène est un syndrome décrit par Clark en 1975 pour caractériser un trouble du comportement conduisant à des conditions de vie négligées, voire insalubres. Ce syndrome comprend - mais ne se limite pas à - une forme extrême d'accumulation compulsive, ou syllogomanie (source : Wikipédia).