Big Data ou Smart Data ?

Dans Tendances
Par Benjamin KAKAVAND et Aria TEIMOURZADEH

Dans le monde d’aujourd’hui, tous les dispositifs technologiques génèrent des signaux qui sont essentiellement liés à des individus ou des évènements. En effet, nous produisons des informations à un rythme qui dépasse la capacité de traitement par l'homme.

Un immense potentiel stratégique inexploité enfoui dans le corpus d'informations et de connaissances numériques constitue la dernière dimension qui influencera l’architecture des entreprises. Depuis l'invention des technologies de stockage de données numériques dans les années 1960, la quantité de données que les humains ont traitées a évolué au fil du temps. En raison de ce processus d’évolution, les entreprises sont entrées sur le marché en poussant leurs idées sur ce que signifie le Big Data (mégadonnées) et comment la collecte, le stockage, la gestion ainsi que l’analyse des données volumineuses leur permettront de mieux comprendre les besoins des clients. Aujourd’hui, il est difficile d’introduire une définition standard du Big Data, mais ces caractéristiques nous permettront de décrire le concept.

Les caractéristiques du Big Data (5Vs)

1. Volume : concerne l'augmentation de la taille des données provenant de sources infinies. Aujourd'hui, le volume de données collectées auprès des consommateurs et par les agences augmente sans cesse.
2. Vélocité : est liée à l'augmentation de la vitesse des données et capacité de stocker rapidement de nouvelles données. Les données sont collectées en temps réel à un rythme rapide.
3. Variété : concerne le format et également la structure des données.
4 . Véracité : est liée à la validité et la fiabilité des données.
5. Valeur : est considérée comme l’utilité des données pour une entreprise.

Fondamentalement, le volume, la variété et la vélocité font référence au processus de génération de données et à la manière de capturer et de stocker les données. La véracité et la valeur concernent la qualité et de l'utilité des données. Une augmentation de la quantité des données collectées par les entreprises ainsi que les nouvelles technologies de traitement de données leur permettront d’extraire les connaissances cachées dans le Big Data. A l’aide des nouveaux outils de traitement des données, les entreprises peuvent suivre le comportement des clients afin d’améliorer la prise de décision stratégique. Cependant, les méthodes de traitement ainsi que les techniques appliquées sur les données brutes sont plus importantes que le volume des données.

Challenge pour les organisations

Le Big Data est une discipline attrayante qui promet de renforcer la compétitivité à l’échelle internationale. Principalement, les données structurées sont les enregistrements transactionnels stockés dans les bases de données et les entrepôts de données traditionnels. Une fois que le Big Data a été analysé, traité, interprété et nettoyé, il est possible d'y accéder de manière structurée. Aujourd’hui, la majorité des données existants sont des données non-structurées tels que les fichiers textuelles, images, vidéos, etc. En effet, les données non structurées constituent 95% du Big Data.

Généralement, la prise de décision stratégique dans les organisations n’est pas liée à l’aspect technologique du Big Data. La véracité et la valeur des données deviennent essentielles dans tout processus de traitement du Big Data, où l'extraction de connaissances utiles et précieuses est fortement influencée par la qualité des données utilisées. Quelle que soit la technologie utilisée pour le traitement du Big Data, si la qualité des données collectées est faible, la qualité des résultats d'analyse diminuera considérablement. Par conséquent, la qualité du Big Data a un impact direct sur la précision et l'exactitude de la prise de décision.

Les problèmes de qualité des données ajoutent une couche supplémentaire de complexité à l'utilisation en temps réel et exploitable du Big Data. Il existe plusieurs problèmes communs liés à la qualité des données.

Dans tout processus de découverte de connaissances, la valeur des connaissances extraites est directement liée à la qualité des données utilisées. Un problème courant affectant la qualité est la présence de bruit (noise) et les informations incomplètes dans les données. Par exemple, il existe de nombreux jargons, des mots mal orthographiés et des grammaires incorrectes dans le contenu textuel généré par l'utilisateur sur les médias sociaux. Cela pose des problèmes techniques pour l'analyse informatique. Aussi, il existe de nombreuses données partiellement ou même non étiquetées, ce qui rend difficile l'identification des modèles dans les données volumineuses.

Comme le volume de données augmentant de manière exponentielle, il est devenu de plus en plus difficile pour les entreprises de mesurer la fiabilité de leur source de données. La véracité qui est un problème de validité des données, constitue un défi beaucoup plus important par rapport aux autres caractéristiques du Big Data. On estime qu'une partie des avis de consommateurs en ligne contient de faux avis. Toutefois, la croissance massive de la taille des données constitue un défi pour les propositions traditionnelles conçues pour lutter contre le bruit, car elles ont du mal à gérer une telle quantité de données. De nouveaux algorithmes doivent être proposés pour traiter le bruit existant dans le Big Data afin de fournir des données propres et de haute qualité, également appelées Smart Data.

Récemment, le Smart Data (axées sur la véracité et la valeur) a été introduite dans le but de filtrer le bruit. C’est également pour mettre en évidence les données précieuses qui peuvent être efficacement utilisées par les organisations pour la planification, l'exploitation, la surveillance, le contrôle et la prise de décision intelligente. Par conséquent, trois attributs clés sont nécessaires pour transformer le Big Data (données volumineuse) en Smart Data (données intelligentes) : les données doivent être « précises », « exploitables » et « agiles ».

1. Les données doivent correspondre aux évènements survenus avec suffisamment de précision pour générer de la valeur. La qualité des données est considérable.
2. Les données doivent conduire à une action immédiatement évolutive de manière à maximiser un objectif commercial, tel que la portée des supports sur plusieurs plateformes. L'action évolutive est importante.
3. Les données doivent être disponibles en temps réel et prêtes pour être adaptées au changement de l'environnement professionnel. La flexibilité est importante.

L’analytique du Big Data (Big Data Analytics)

L’analytique du Big Data englobe la collecte, le nettoyage, la gestion des flux, le stockage, l’analyse et la gouvernance des données. Le terme a pour objectif de développer les méthodes d’analyse, les techniques scientifiques ainsi que les outils automatisés. Les entreprises doivent avoir une méthodologie claire pour transformer le Big Data en Smart Data. Cependant, les niveaux de capacité d'analyse des entreprises dépendent de la manière dont les tâches sont organisées à chaque étape du cycle de vie des données.

Les ressources humaines

Pour certaines entreprises, le plus gros défi du déploiement de l’analytique du Big Data n’est pas forcement la technologie elle-même, mais la puissance du capital humain et de la culture organisationnelle permettant de mieux extraire les connaissances cachées dans cette énorme quantité de données. Aujourd'hui, il est difficile pour les entreprises d'attirer des candidats hautement qualifiés qui sont capables de gérer le cycle de vie du Big Data. Le capital humain joue un rôle important dans une meilleure prise de décision stratégique à l'aide de données. Nous pourrons facilement extraire l’intelligence dans les données volumineuses, si les ressources humaines sont capables de suivre chaque étape d’analytique du Big Data correctement.

La Transformation du Big Data en Smart Data

Les étapes importantes dans le cycle de vie de données pour transformer le Big Data en Smart Data sont les suivantes :

1. L’identification des sources de données

Pour toute prise de décision dans une entreprise, il est essentiel de connaître la provenance du Big data. L’identification des données est dédiée à l’identification des jeux de données (Data set) requis pour le projet d’analyse dans une entreprise. L’identification d’une plus grande variété de sources de données peut augmenter la probabilité de trouver des modèles ainsi que les corrélations dans les données brutes.

2. L’acquisition et filtrage de données

Dans cette étape, les données sont collectées à partir de toutes les sources identifiées lors de l’étape précédente. Les données acquises sont ensuite soumises à un filtrage automatisé pour la suppression de données inutiles ou de données qui n’ont aucune valeur pour les objectifs d'analyse.

3. L’extraction de données

Certaines des données identifiées en tant qu’entrées (input) peuvent arriver dans un format incompatible avec les logiciels qui traitent le Big Data. Cependant, l’extraction de données est dédiée à l’extraction et la transformation de données disparates dans un format compatible avec les logiciels de traitement du Big Data.

4. La validation et nettoyage des données

La validité des données un est facteur essentiel pour assurer une bonne prise de décision managériale. Les données non valides peuvent falsifier les résultats d’analyse. Contrairement aux données d’entreprises traditionnelles où la structure de données est prédéfinie et les données sont validées auparavant, les données saisies dans les analyses du Big Data peuvent être non-structurées sans aucune indication de validité. Sa complexité peut en outre rendre difficile l’obtention d’un ensemble de contraintes de validation appropriées. L’étape de validation et de nettoyage des données est dédiée à l’établissement de règles de validation complexes afin de supprimer toutes les données invalides.

5. L’agrégation et la représentation des données

Cette étape est dédiée à l’intégration et la fusion de l’ensembles de données afin d’obtenir une vue unifiée. L’agrégation des données volumineuses traitées par les logiciels de Big Data est une opération qui nécessite beaucoup de temps et d’efforts. La réconciliation de ces différences peut nécessiter une logique complexe exécutée sans intervention humaine. Au cours de cette étape, les futures exigences d’analyse des données doivent être prises en compte afin de favoriser la réutilisabilité des données.

6. L’analyse des données volumineuses

L’étape d’analyse des données est dédiée à l’exécution de la tâche d’analyse réelle, qui implique généralement un ou plusieurs types d’analyse. Cette étape peut être de nature itérative. Dans le cas d’une analyse exploratoire, les étapes de l’analyse sont répétées jusqu’à ce que le modèle ou la corrélation appropriée soit découverte.

En suivant ces étapes, les données volumineuses deviennent les données intelligentes. Ensuite, les entreprises utilisent des outils de visualisation de données pour communiquer les résultats de l’analyse aux décideurs.

Dans les organisations, les données externes sont essentielles pour toute prise de décision, mais la qualité, la fiabilité et la gouvernance des données jouent un rôle très important dans la transformation de cette masse de données en intelligence. Aujourd'hui, la quantité de données collectées est considérable, mais, il est essentiel de se concentrer sur les techniques, les algorithmes et les outils pertinents pour le traitement du Big Data afin d’améliorer la prise de décision stratégique.