Entre maîtrise de l’incertitude et gestion de la complexité

Dans DATA-ANALYSIS
Par Julien Hurdequint et Audrey Morgand

« Aujourd'hui plus qu'hier et bien moins que demain ». Cette expression bien connue des amoureux, extrait des vers du poème de Rosemonde à son mari Edmond Rostand sied parfaitement à l'état actuel de la gestion des Big Data.

Au cours des trentes dernières années, le développement de la technologie a profondément transformé notre rapport au monde : la manière dont nous développons des business models, comment nous interagissons avec les autres et analysons les informations. Quelques chiffres montrent rapidement cet essor : plus de 50% de la planète a désormais accès à Internet, Twitter enregistre plus de 326 millions d'utilisateurs et le cap des 2,3 milliards de comptes Facebook est franchi. Quelles transformations entraînent ces milliards d'individus, organisations, objets connectés entre eux ? La réponse peut paraître dénuée de sens tant elle est simple : un contenu informationnel diffèrent de celui généré à la seconde précédente. Formidable aubaine pour notre société, touchée auparavant d'un manque cruel d'information ! Le cœur des Sciences Humaines et Sociales et plus notamment les Sciences Économiques et de Gestion ont toujours cherché à combler un manque d'information. Ce manque s'éloigne avec le développement des technologies de données massives communément appelées Big Data. Ces tonnes d'informations sont inhérentes à la quatrième révolution industrielle : 1- l'accès aux données ; 2- le développement de la puissance de calcul ; 3- le développement des algorithmes ; 4- les outils mathématiques d'analyse de données.

Les Big Data pour réduire l'incertitude

Les données sont désormais recueillies et mises à jour en temps réel afin de réduire l'incertitude. Nous ne sommes donc plus en manque d'information au regard des volumes de données stockées et alimentées automatiquement. Mais ce volume de données ne réduit toujours pas le problème de l'homme en situation d'action. En effet, face au besoin de piloter, de prendre une décision, de créer un plan d'action, l'homme se trouve dans la situation inconfortable de l'incertitude. Pour pallier cette dernière, il s'entoure de milliards d'informations recueillies au sein du Big Data. La difficulté aujourd'hui est de pouvoir gérer pertinemment les données : leur variété, leur valeur et leur complémentarité. La véritable richesse d'un projet Big Data est de pouvoir croiser des données hétérogènes, en temps réel, en ayant recours à de multiples scenarii possibles. C'est par cette capacité qu'un passage révolutionnaire s'effectue : passer de la gestion de l'information pour réduire l'incertitude vers une augmentation de la capacité d'action par la connaissance produite.

Face à une situation nouvelle, dans le cadre de la gestion d'un projet par exemple, le niveau de connaissance est faible et le futur incertain. Pour pallier cette incertitude, le réflexe est d'augmenter le niveau des connaissances et c'est là qu'entre en scène le Big Data. Mais dans le même temps, plus nous augmentons le niveau des connaissances plus le degré de complexité augmente. C'est ce que montre Midler en 1993 (soit bien avant l'avènement de la question Big ou Smart Data) dans la gestion de projet innovant.

Le Big Data entre création de valeur et production de complexité

Pour définir le Big Data, on évoque très souvent trois grandes dimensions : Volume, Vélocité et Variété. Le volume de données augmente, aujourd'hui on parle en téraoctets voire pétaoctets. La vélocité désigne le vecteur vitesse. Quelques minutes, c'est parfois trop long. Quand les processus sont chronosensibles, le Big Data doit être utilisable en temps réel à mesure que la collecte des données s'effectue pour devenir un outil de saisie des opportunités et maximiser la création de valeur. Le Big Data présente une multitude de données structurées et non structurées. Les données structurées sont des informations encadrées par des balises spécifiques stockées dans des bases ou entrepôts de données (noms, numéros de clients, adresses postales et électroniques, âge, sexe, fréquence et type d'achats, quantités, prix, etc.). Les données non structurées sont des informations stockées sans format défini au préalable (texte brut, corps de texte d'un email, images, sons, vidéos, etc.). L'analyse croisée de ces données apporte de nouvelles connaissances permettant d'être toujours dans une amélioration continue des processus. Volume, Vélocité et Variété sont les trois dimensions maîtresses du Big Data. Mais une quatrième dimension est également à prendre en considération dans le projet Big Data : la valeur de la donnée. Cette valeur provient en grande partie de la source. Nous, concepteurs de la technologie, nous ne produisons pas la donnée, nous l'utilisons. Pour performer dans l'usage, nous avons besoin de données sous 4 dimensions : Volume, Vélocité, Variété et Valeur. Dans la pratique, force est de constater que les acteurs ouvrent peu leurs jeux de données, bien souvent parce que les entreprises éprouvent la difficulté à produire ces données. C'est le cas par exemple, de l'entrée en vigueur le 7 octobre 2018 de l'obligation d'ouverture des données publiques des collectivités. L'Observatoire Open Data des territoires publie ces premiers résultats : 8% des collectivités ont publié au moins un jeu de données.

Ce cas nous l'avons vécu avec un projet. Nous demandions aux collectivités de bien vouloir ouvrir leurs données des menus de cantines scolaires afin de pouvoir les utiliser et calculer la valeur nutritionnelle des plats. Le projet devait permettre aux parents d'enfants intolérants de pouvoir anticiper les menus de la semaine et de les remplacer au besoin. Bilan : seules 3 collectivités sur 65 approchées ont pris le temps d'exposer leurs Data Set, ce qui en soit ne représente pas grand chose…

Des solutions alternatives existent bien sûr pour pallier ce problème, nous avons mis en place plusieurs systèmes pour récupérer les menus de cantines :
- la saisie des menus à partir d'une plateforme développée par nos soins et dédiée aux collectivités. Notre force tient en cet argument : elles n'auront plus besoin de gérer l'ouverture de leurs données. En effet, les données étant enregistrées dans notre base de données, nous nous occupions de les publier régulièrement sur le site data.gouv.fr (l'intégration d'un jeu de données étant ouverte à n'importe quel type de structure) évitant ainsi aux collectivités un travail supplémentaire et hors compétences. Solution la plus adaptée pour les deux parties ; :
- une liaison avec leur logiciel interne. Une tâche journalière (cron) gère l'exportation et l'importation de leurs menus dans un format standard ;
- le scraping, technique permettant l'extraction de contenus de site web dont la structure ne change pas dans le temps. Néanmoins ce système est assez lourd à mettre en place puisqu'il faut s'adapter à chaque structure de site web, doit être surveillé et maintenu à jour si besoin, niveau scalabilité on repassera...

La dimension Valeur du Big Data s'inscrit alors dans la qualité de la donnée voire sa rareté. L'enjeu est important car récolter des données sans maîtriser la valeur c'est prendre le risque d'un Big Data biaisé, comportant une multitude de données mais sans pouvoir prendre les décisions pertinentes. Nous pouvons nommer ce phénomène par le terme d'infobésité. Il s'agit d'une surcharge informationnelle ne permettant pas de voir et prévoir précisément. La surinformation rend le calcul et le recul analytique impossible. Cette masse de données peut faire peur, elle intimide et devant ses innombrables possibilités le risque est grand de rester dans l'inertie plutôt que de chercher à passer à l'action. Pourtant, c'est le but de la conception d'un Big Data, réunir de la connaissance pour faciliter la prévision et la prise de décision. L'incertitude baisse mais la complexité augmente.

Sortir de l'incertitude pour prévoir, voire prédire

Le rapport est complexe car dans le même temps, plus le niveau des connaissances augmente plus le degré de complexité augmente. En début de processus, l'incertitude est maximale alors que la connaissance du système est minimale. Corrélativement, comme l'explique Midler, la capacité d'action est inversement proportionnelle à cette dernière. C'est là où entrent en action les Smart Data, capables au travers d'algorithmes sophistiqués d'apporter une analyse fine et qualitative des données. Les techniques de Machine Learning permettent l'analyse et l'apprentissage d'un système à partir de données et ce, de manière totalement autonome.

Dans l'activité Recherche et Développement, les concepteurs tentent de développer des algorithmes de prédiction d'un futur possible. Nous n'en sommes plus à récolter, stocker et mettre à jour des informations ; nous développons, notamment avec le Machine Learning un système capable non plus de prévoir mais de prédire l'avenir, bien entendu avec plus ou moins de pertinence mais ce résultat existe. Résultat qui s'améliore dans le temps grâce à l'amas de données toujours plus conséquent et ainsi, fiabilisant les prédictions. Ces données, une fois récupérées, sont nettoyées pour garder uniquement celles qui ont un intérêt pour notre système. On appelle ces données “jeu de données d'entraînement” et elles sont ensuite consommées par notre modèle de prédiction. Vient ensuite la phase d'analyse des erreurs, où l'humain intervient pour intercepter les faux positifs et mettre en place des mesures correctives.

Pour le projet de collecte de menus, nous demandions aux parents de gérer ces faux positifs et d'annoter l'erreur afin que notre équipe puisse réajuster le modèle. À ce jour, le système n'enregistre plus d'erreurs flagrantes, seuls quelques écarts dans les valeurs prédites sont constatées. Cela tient au fait que le système se base sur un apprentissage dit non-supervisé. On entraîne puis, demande au modèle de prédire des résultats à partir de données et d'algorithmes. Nous avons eu l'occasion de tester plusieurs algorithmes tels que celui de régression ou bien celui de clustering pour identifier des similitudes dans un nuage de données. L'entraînement de nos modèles de prédiction est un élément fort pour la pertinence de nos résultats. Il y va de la performance de nos outils.

Le plus compliqué dans un projet de conception de la technologie est de trouver des fournisseurs mettant à disposition leurs données gratuitement, avec un spectre historique conséquent. Nous souhaitions avoir le maximum d'informations pour entraîner nos modèles. Cependant, la masse de données ne suffit pas, il faut que l'information soit fiable, non touchée d'obsolescence, gratuite et disponible. Une utopie dans notre société actuelle basée sur la connaissance. Le fondement de notre société tient en ces données devenues ressources au même titre que les matières premières ou encore les énergies. Son importance économique dépassera celle du pétrole. L'or noir se raréfie car sa consommation entraîne sa destruction. Les données sont devenues le nouvel or sans que leur consommation ne les détruisent pour autant : leur consommation est illimitée.

Pertinence du modèle et performance de l'outil sont des enjeux forts : accumuler les données, filtrer, analyser, tester et entraîner les modèles. Les mêmes enjeux peuvent être cités face à l'analyse sophistiquée de données (Smart Data). Les usagers doivent savoir quoi faire des outils sinon cela ne sert à rien de se doter d'instruments extraordinairement performants. L'idée trop répandue serait de considérer l'analyse de données comme une décision purement technologique or il s'agit avant tout d'une décision de gestion. Le gestionnaire peut tomber dans le piège de vouloir à tout prix analyser l'intégralité des données sans avoir au préalable défini des objectifs. “Voici les données, trouvez une solution” doit impérativement laisser la place à cette réflexion fondamentale : “A quelle question dois-je répondre?”. Cette réflexion doit devenir le commandement numéro un de tout projet de Data tant il est difficile d'avoir accès aux sources de données, à leur partage et accès libre. En amont du projet, il faut donc être parfaitement au clair sur les attentes de l'outil, définir les possibles et les problèmes à résoudre. Puis utiliser les Big ou Smart Data pour alimenter les connaissances, réduire l'incertitude et ne pas être confronter à une trop grande complexité car nous savons ainsi diriger l'analyse des données vers des objectifs.

En définitif, cette association d'intelligence et de données massives ouvre de nouvelles perspectives sur la réflexion et la compréhension de sujets complexes. La puissance de calcul “infinie” des serveurs offrent à l'humain la perception de lier des données sans similitudes, sans cohérences aux premiers abords puis de mettre en évidence un réel intérêt grâce à la confrontation de ces données.