Big Data : Genèse d’un déluge annoncé

Commençons donc par le commencement.

Au siècle dernier, du début de l’informatique à la fin des années 80, les données d’une entreprise étaient saisies essentiellement par ses employés. Ceux-ci entraient des commandes, généraient des factures, complétaient des fichiers d’articles ou de clients, saisissaient des textes et stockaient différentes informations destinées au fonctionnement de base de la chaîne de valeur de l’organisation. Généralement, ces données étaient stockées dans une ou plusieurs bases de données centrales et très structurées, gérées par le service informatique de l’entreprise.

Avec l’avènement de la micro-informatique au début des années 80 puis de l’Internet dans les années 90, le centre de gravité de la production et de l’enregistrement de données s’est déplacé de l’intérieur vers l’extérieur de l’entreprise. En effet, des informations intéressant l’organisation ont commencé à être saisies par des tiers, clients, fournisseurs, réseau de distribution… Le système d’information de l’entreprise a commencé à intégrer ces données et à prendre en compte des remontées d’informations complémentaires, saisies à travers le web : emails, formulaires, réponses à des enquêtes électroniques, etc. L’avènement des réseaux sociaux a ajouté une nouvelle dimension. Les internautes se sont mis à émettre des contenus nouveaux et spontanés, faits d’opinions, de réactions, d’échange de conseils, accroissant encore de manière considérable le volume d’informations générées et échangées. Cela a fait dire à Eric Schmidt, à l’époque CEO de Google, que l’on créait tous les 2 jours autant de données que ce que l’humanité avait produit jusqu’en 2003. Cette tendance n’a cessé de s’accélérer depuis.

Aujourd’hui, nous sommes entrés dans une troisième phase, qui amplifie encore de manière considérable le Volume, la Vélocité (ou Vitesse) et la Variété de données. En effet, aux données saisies par nous autres humains, s’ajoutent à présent les masses d’informations générées automatiquement par nos systèmes, machines et capteurs de toutes sortes. Le suivi automatique et permanent de la navigation sur le web, la localisation en temps réel, les remontées en provenance d’objets connectés de plus en plus nombreux, les systèmes de surveillance ou de tracking et bien d’autres processus déversent un flot ininterrompu de données. Beaucoup de ces données sont stockées de manière diffuse, sur de multiples serveurs distants (cloud computing) et accédées avec des protocoles et systèmes adaptés comme Hadoop, qui a été mis au point par les géants du web pour leur propre usage et qui s’étend aujourd’hui à toutes les entreprises. Cette architecture nouvelle est adaptée au stockage de masse réparti et dupliqué. Mais elle peut encore dérouter les informaticiens qui n’y ont pas été formés, notamment en raison de ses différences avec les habituelles bases de données relationnelles, interrogées avec le traditionnel langage SQL.
Les changements d’échelles succesifs (scalability) marquent donc le passage au concept de Big Data, qui englobe l’ensemble de l’information que chaque organisation a à sa disposition en interne et en externe.

Que le Big Data soit !

C’est en 2008 que l’expression Big Data est apparue au grand public, sous la plume de Chris Anderson, rédacteur en chef de Wired. Cette expression avait déjà été utilisée auparavant dans certains travaux de recherche des années 90 mais c’est Anderson qui lui a donné son acception actuelle. L’article, intitulé « The End of Theory: The Data Deluge Makes the Scientific Method Obsolete » pointait notamment la capacité des données massives et des algorithmes adaptés à nous fournir des enseignements plus précis et plus utiles que ceux que pouvaient produire des spécialistes et des experts ayant recours à des méthodes de recherche traditionnelles. Le titre de l’article signifiait notamment que, devant des données aussi riches que celles dont nous pouvons disposer désormais, il n’était plus utile de théoriser et de faire des hypothèses, mais plutôt de s’attacher à observer les corrélations et à en tirer des enseignements. La méthode scientifique était donc remise en question, au profit des masses de données, considérées comme les oracles de notre ère.
Sans prendre position sur cette approche (pas mal contestée notamment dans la communauté scientifique), on peut affirmer que l’article en question a fondé le concept de Big Data et a délimité un phénomène que tout le monde percevait mais sans vraiment savoir le nommer.

La théorie de l’évolution

Aujourd’hui, le Big Data est au centre de toutes les préoccupations. Pourtant, peu d’entreprises savent vraiment lui donner un contenu précis et applicable concrètement dans leur environnement professionnel. Le spécialiste de l’économie comportementale Dan Ariely l’a illustré à travers une comparaison amusante : « Le big data, c’est comme le sexe chez les adolescents : tout le monde en parle, personne ne sait vraiment comment le faire, tout le monde pense que tout le monde le fait, donc tout le monde prétend le faire ».
Certains en concluent que le phénomène relève plus du Buzz et de l’évolution normale de la technique et des capacités de stockage. L’accélération et la croissance du volume des données ne remettraient pas en question nos modes de fonctionnement habituels. L’idée serait donc qu’on fait déjà du Big Data sans le savoir et qu’il n’y a rien de vraiment neuf sous le soleil.

Pour d’autres, le Big Data est clairement une révolution industrielle et sociétale. C’est l’avis notamment de François Bourdoncle,  chargé du plan Big Data, initiative gouvernementale qui vise à faire de la France une référence dans le domaine. Pour lui, il est urgent que les entreprises françaises inventent de nouveaux usages grâce au Big Data, « sinon, d’autres le feront… ». Dans un rapport sur la transformation numérique de l’économie française réalisé à la demande du gouvernement, et remis en novembre dernier, l’entrepreneur Philippe Lemoine (ancien PDG de LaSer et co-président du Groupe Galeries Lafayette) relève que « l’immense majorité des entreprises en France n’a pas encore saisi l’importance de l’exploitation des données directes ou indirectes générées par leurs activités. »

Dans le monde des études, les initiatives en matière de Big Data restent également peu nombreuses. Les professionnels du secteur semblent conscient de l’importance du phénomène et même parfois agacés de son évocation permanente. Mais le fait est que les véritables initiatives de mise en œuvre d’approches  Big Data dans la recherche marketing ne sont pas encore légion.