Hors-Série IA 2020



Qu'est-ce que le Data mining ?

Le data mining ou exploration de données est le processus de découverte de modèles dans de grands ensembles de données au travers du machine learning, des statistiques et des systèmes de bases de données. Le data mining a pour objectif d’extraire les informations d’un ensemble de données par des méthodes automatiques ou semi-automatiques en vue de leur donner une structure compréhensible.

Le data mining permet d’enrichir les concepts existants comme l’informatique décisionnelle. Cette dernière permet de collecter et de restituer des données en vue d’apporter une aide à la décision. De son côté, le data mining permet non seulement de consolider des données mais également de les trier et de les transformer en élément explicatif ou de recommandation. Le data mining peut également avoir un rôle prédictif.

La méthode du data mining est utilisée dans de nombreux domaines tels que le commerce et la gestion de la relation client au travers de l’analyse du comportement des consommateurs. Le data mining est également très utilisé dans le secteur de la sécurité pour l’identification de comportements criminels et de la cybersécurité pour la détection automatique de fraudes ou de sites malveillants. Dès lors que l’on souhaite étudier un grand nombre de données pour comprendre un phénomène ou un comportement avec pour objectif l’amélioration de la qualité d’un procédé, le data mining apporte une solution complète et efficace.

Pour l’amélioration de la qualité des projets de data mining, ou, plus largement, de data science, une méthode se démarque : la méthode CRISP (Cross Industry Standard Process). Cette dernière se décompose en six étapes allant de la compréhension du problème métier au déploiement d’une solution agile pour comprendre, prédire et donner une prescription concernant un événement ou un comportement particulier.