Fake Data : L’ennemi grand-public de l’analytics ?

Dans Data-Analysis
Par Yannick Chatelain

Dark Data, Fake Data, les bêtes noires de l’optimisation de l’Expérience client

Pour optimiser l’expérience client, encore faut-il le connaître (c’est mieux) et naturellement disposer de données fiables le concernant (c’est encore mieux). Dans le cas qui nous préoccupe, avant de nous interroger sur la réalité du nouvel ennemi grand public de l’analytics, commençons par distinguer les Dark Data (Données Sombres), qui dans une certaine mesure peuvent pour partie altérer la possibilité d’optimisation de la relation client efficiente, d’avec les Fake Data (Données Fausses)…

Dark Data

Selon la définition qu’en donne Gartner, « Les Dark Data » sont les ressources en information que les entreprises collectent, traitent et stockent durant leurs activités usuelles quotidiennes, mais qu’elles ne parviennent pas en général à utiliser à d’autres fins (par exemple, des analyses, des relations d’affaires et la monétisation directe). Semblables à de la matière noire en physique, les « Dark Data » concernent souvent l’univers des ressources en information de la plupart des organisations. Ainsi, les organisations conservent souvent des « Dark Data » uniquement à des fins de conformité. Le stockage et la sécurisation des données génèrent généralement plus de dépenses (et parfois engendrent un plus grand risque) que de valeur. Par delà même les Dark Data qui peuvent, pour partie d’entre elles, interférer directement sur la relation client, sans vouloir affoler personne, c’est-à-dire en voulant affoler tout le monde, à l’air du Big Data, et, sans vouloir non plus faire mon petit rabat-joie de la Data aussi big soit elle, comme le rapporte Kieran Le Peron, « en 2015 une étude de CSO Insights menée aux États-Unis révélait que seulement 52% des entreprises disposaient de données clients dont le taux de fiabilité pouvait être estimé à plus de 75%… »

Oui, comme s’exclameraient joyeusement mes étudiant(e)s après une blague potache, « ça c’est fait ! » sauf que… à l’heure de l’optimisation client, ce n’est pas une blague, mais bien un fait. Bon, au cas où vous seriez concernés directement et saisis d’une forme de doute contrairement au conseil de l’éminent Pythagore qui s’applique certes dans certaines situations : « Dans le doute, abstiens-toi ». Concernant vos bases de données, si vous êtes, en me lisant, saisis du moindre doute, ne vous abstenez surtout pas et songez que pour nettoyer des données clients erronées des solutions logicielles existent à l’instar de «/Data.Mill» developpée par Ricoh et Methis Software.

Fake Data

Selon moi, puisque Gartner ne les définit pas encore, les « Fake Data » sont des données utilisateurs altérées ou totalement dissimulées volontairement. Ce sont ces Datas utilisateurs que les sites recueillent usuellement dans le but de pouvoir apporter leur pierre à l’édifice d’une meilleure relation client lors d’une visite.

Tout le monde conviendra que si ces données sont pour partie altérées ou non visibles, elles sont inexploitables. Pire encore s’il y a déni de cette altération ou dissimulation, si ce phénomène n’est pas pris en considération et non corrigé, elles peuvent amener à prendre de mauvaises décisions, pour ne pas dire des décisions absurdes et totalement inefficientes, voire contre-productives. Malheureusement pour l’analytics, pratiquer la politique de l’autruche ne nous aidera guère. Aujourd’hui, il n’est plus contestable que l’altération des données des utilisateurs ne cesse de croître. À qui la faute ? Les digitaux marketeurs ont leur part de responsabilités avec un traçage outrancier parfois mal vécu par les utilisateurs(trices). Un pistage d’autant plus mal vécu, dans un contexte de surveillance de masse engagée par l’ensemble des Etats de ce monde et les législations des uns des autres.

En France, de la Hadopi à la loi sur le renseignement, je peux affirmer avec une marge d’erreur assez réduite pour ternir ma réputation de trouveur que cela n’a pas favorisé une grande transparence des utilisateurs et des utilisatrices… J’en veux pour preuve, le recours croissant à des outils de dissimulation, et ce, dans tous les pays estampillés démocratiques dont les gouvernements ont opté pour une maîtrise et une surveillance de leur territorialité virtuelle équipotente à leur territorialité physique. La France n’étant pas, à ce jour, avant quelques rectificatifs qui s’imposent, en matière de surveillance de masse, la meilleure élève du respect de la vie privée numérique des usagers. Les conséquences sur l’analytics étaient aussi prévisibles qu’inévitables, cela impose une évolution et une adaptation dans les pratiques des métiers du digital concernés.

Fake data : prendre la réelle mesure de l’altération de la Data utilisateur

La multiplication de l’usage d’outils de dissimulation dans le monde, leur démocratisation et une offre croissante, que cela soit en matière de moteurs de recherches (ixquick, duckduckgo, swisscows, qwant ou de solutions plus complètes (Tor, Tails…) que cela soit le recours au VPN pour d’autres motifs… afin d’éviter le traçage sur internet, ne relève pas d’une simple vue de l’esprit. Les lois liberticides récurrentes et la surveillance de masse qui a envahi les pays européens participent à la complexification du travail de l’Analytics, sans en être la seule cause : l’insupportation croissante du sentiment d’être tracé, matérialisé par la publicité contextuelle (une approche perçue comme intrusive) concourent à des modifications d’usage des utilisateurs qui se dotent, comme je l’ai évoqué, d’outils appropriés pour se soustraire à toute forme de surveillance, c’est ce que je nomme « l’effet Snowden ».

In fine, si l’on se place du côté de l’analytics, il m’apparait inutile dans cet article de hiérarchiser la gravité de la cause entrainant l’altération, là n’est pas l’objet, les faits sont là et sont préoccupants.

Il y a dans l’Analytics et dans les pratiques du digital marketing, un avant et un après « Effet Snowden ».

Si vous savez comment prendre des décisions pertinentes pour un site récupérant des données fausses qui ne cessent d’augmenter, personnellement et mon égo s’en relèvera très facilement, je ne sais pas faire et, par ailleurs, je ne perdrais pas une seconde de mon temps à m’y essayer. Dans un tel cadre, optimiser la relation d’avec vos visiteurs, si vous n’êtes plus en mesure de séparer le bon grain de l’ivraie [l’ivraie étant légèrement toxique] vous admettrez à mes côtés que, s’il est question d’Analytics, c’est un peu empoisonnant.

Pour vous donner une idée de la situation, en ce qui concerne par exemple les utilisateurs du réseau Tor au quotidien, le 30 juillet, le top 5 était le suivant : les États-Unis représentaient 20,09% des utilisateurs avec un quantitatif de 361.432 devant la Russie [11,4%] avec 205.582 d’usagers, l’Allemagne [9,7%] 175.728 utilisateurs, la France 107.300 [5,96%] et enfin l’Angleterre avec 81.983 d’usagers [4,56 %]. Il convient naturellement de regarder ces chiffres au tamis de la population de chacun des pays concernés. Par ailleurs, et selon une étude menée par le global Web Index, dans trente-quatre pays, auprès de 200 000 utilisateurs, 25% utiliseraient des VPN tronquant de fait leur localisation. Oui, comme le dit si bien une publicité vantant une marque que je ne peux ici citer « on est mal Patron… on est mal. »

Agir sur les Fake data ! How to… Limiter la casse

Par delà une connaissance approfondie de ses usagers, je ne saurai que trop recommander de recréer par tout moyen la confiance d’avec ces derniers, leur redonner la main et la maîtrise en quelque sorte de leur identité numérique, la maîtrise des données qu’ils souhaitent ou non communiquer, et en cas d’accord sur l’utilisation qui peut éventuellement en être fait, ce dans la plus grande transparence. Il est impérieux (pour servir de bonnes décisions et engager des actions pertinentes) que la donnée confiée par le visiteur soit une donnée exploitable. Pour se faire, il est des approches à l’instar du « do not track » qui peuvent aider à atteindre cet objectif. Une approche respectueuse et responsable fondée sur la décision éclairée de l’utilisateur est par ailleurs un moyen de soigner son image, et de prendre un peu d’avance sur ce qui sera, s’il ne l’est déjà, un facteur clé de succès sur le web surfacique, voire un futur avantage concurrentiel, parce qu’à ce stade, à vrai dire, hors limiter la casse, il est peu de moyens d’agir contre le phénomène qui a été enclenché.

Ghost Referrer Spam, Crawl referrer Spam.

Il est par ailleurs possible et c’est bien là (un minima) de supprimer (au moins) les fausses visites, et de combattre ce que l’on nomme le « referrer spam » connu également sous l’intitulé de « referral spam », « log spam » ou « referrer bombing ». Ce dernier correspond à du faux trafic généré par des robots spammeurs. Il s’agit d’une méthode de référencement jugée abusive. En matière de “referrer spam” il existe d’une part des crawlers, ce sont des robots qui râtissent le web tout comme le fait Google, mais pas vraiment, je vous le certifie, dans un souci d’une meilleure indexation du site cible, mais dans celui de générer des visites sur le propre site du « spammeur ».

Par leur action, les « crawlers referrer spam » peuvent ainsi générer des visites factices par centaines, fausser ainsi à l’envie bon nombre d’indicateurs clé de performance : taux de rebond, durée de visite, nombre de visiteurs, localisation, etc. Sur un site avec un trafic correct, mais qui ne fait pas dans le million de visiteurs jour, l’altération induite, des données devenues fantasques pouvant naturellement générer de mauvaises décisions, ces altérations ne pouvant, dans ce cas de figure, être considérées quantitativement comme à la marge. Il convient donc d’identifier les sites référents (qui pointent vers votre site) et qui vous apparaissent suspects. Certains d’entre eux sont connus comme le loup blanc, d’autres apparaissent quotidiennement.

Pour ce qui concerne les Ghost Referrer Spam, qui sont vraisemblablement apparus en 2014, ils sont dans la même logique, que les crawlers, la difference étant qu’ils ne passent pas sur le site cible, c’est la raison pour laquelle on les appelle ainsi.

No panique ! Il est plusieurs façons avec Google Analytics pour les personnes en charge, de lutter contre ces deux types de « referrals spam ». Ghost spam tout comme pour le crawlers spam, des techniques existent pour les exclure.

Ce n’est certes pas la panacée, cela ne résoudra pas tous les nouveaux enjeux auquels est désormais confronté l’analytics, qui est invité à s’adapter et à se repenser en permanence.

Dans le contexte actuel, des solutions miracles, il n’en est pas ! Au demeurant, maîtriser ce qui est maîtrisable dans les Fake Data est un minima, cela réduira un peu l’incertitude face à la décision.

En tout état de cause, chacun aura compris, du moins je l’espère à la lecture de mes propos, l’urgence qu’il y a à recréer de la confiance avec l’utilisateur-visiteur !

Cette urgence n’a, de mon point de vue, en ces périodes de « défiance » utilisateur mondialisée, jamais été aussi prégnante !

Cette défiance ne peut être ignorée, elle n’est plus marginale, elle bouleverse déjà et bouleversera plus encore demain, en le complexifiant, le travail de l’analytics.