Hors-Série IA 2020

Et vous, exploitez-vous les données issues du web ?

img

On ne cesse de le dire : le web regorge de données à collecter, analyser et traiter dans le cadre d'études et recherches. En la matière, plusieurs initiatives sont menées telle que celle de la société Experian qui vient de dévoiler une nouvelle solution d'étude, la Web Data Insight (WDI), pour mesurer le risque d'octroi de crédit à des entreprises sur la base de données recueillies sur le web.

Survey-Magazine : Dans quel contexte avez-vous décidé de développer la solution ?

Ozgur Ererdem : Le secteur des PME/TPE constitue un segment crucial pour l’économie française. Selon les statistiques de l’INSEE, les PME et les micro-entreprises rassemblent 49% des effectifs salariés en France, et contribuent à hauteur de 43% à la valeur ajoutée produite en France (source : INSEE, Tableaux de l’Economie Française, Edition 2020, Collection INSEE Référence). Le financement de ce segment de client s’avère ainsi être un enjeu stratégique pour la plupart des institutions de crédit françaises. Cependant, ce segment présente également des risques dont l’évaluation se complexifie davantage avec le manque de données et d’informations pertinentes sur les entreprises. Ce manque est d’ailleurs renforcé avec la possibilité légale des petites entreprises à ne pas divulguer leurs bilans.

Chez Experian, nous avons remarqué que l’apparition et l’accumulation des données alternatives, structurées ou non-structurées, à travers l’avènement du phénomène du Big Data, pouvaient ouvrir des brèches sur le manque de transparence qui régnait sur cette question de l’évaluation du risque des entreprises. Aujourd’hui, la très grande majorité des entreprises de toutes tailles ont une présence web depuis des années. Cette présence révèle des indices sur le fonctionnement de ces entreprises, et peut donc être exploitée pour évaluer le risque de défaillance de celles-ci. La présence et les activités en ligne des entreprises procurent des données et informations bien différentes des données traditionnelles financières. Ceci permet d’enrichir les processus d’évaluation existants, assurant ainsi une amélioration de l’octroi des prêts aux entreprises ou encore une optimisation de la gestion du portefeuille de clients entreprises.

Pouvez-vous nous en dire plus sur les données collectées sur le web (format, type, source etc.) ainsi que la méthodologie d'analyse et traitement de données (machine learning) appliquée ?

Notre solution WDI se matérialise via un score Web, qui est intégré dans le processus de décision d’octroi (ou de gestion de portefeuille) de nos clients. Ce score Web est issu d’une grille de notation définie via la mise en place de méthodes de modélisation avancée (Machine Learning) se servant des données alternatives Web.

Le score Web est calculé pour chaque demande de prêt, sur la base des données d’identification de l’entreprise en question (e.g. SIREN, Raison sociale etc.). Tout d’abord, des requêtes Google sont lancées en utilisant ces éléments d’identification. Cette procédure de Web Crawling permet de collecter les informations nécessaires à l’analyse, comme l’apparition de l’entreprise sur la première page des résultats de recherche, ou encore sa présence sur les sites pertinents (e.g. pour un restaurant, présence sur les sites d’évaluation dédiés). Sur la partie Google Maps, plusieurs données sont collectées à savoir la note moyenne des utilisateurs, le nombre de vote et commentaires, les coordonnées, l’adresse etc.

La grille de notation permettant de traiter ces informations pour en sortir un score de risque a été construite sur un échantillon de PME et TPE françaises, en coopération avec un partenaire qui a fourni ces données. La création de cette grille a nécessité l’usage de plusieurs méthodes modernes de modélisation (e.g. classifications de sites et domaines pertinents par type/secteur d’entreprises, Text Mining et Sentiment Analysis pour évaluer les commentaires, etc.)

L’institution de crédit souhaitant évaluer la probabilité de défaillance d’une entreprise demandant un prêt se connecte à notre plateforme sur le Cloud via un API, et transmet uniquement les données d’identification de l’entreprise en question. La solution WDI met en place l’ensemble des tâches depuis cette plateforme, c’est-à-dire la préparation des requêtes, la réalisation du Web Crawling, et le calcul du score Web. L’institution de crédit reçoit le score Web en quasi-temps-réel et poursuit son évaluation du risque en intégrant ce score fortement prédictif dans son processus. Cet échange peut également se réaliser en « batch », où l’institution de crédit transmet une liste de clients existants, pour récupérer le score Web pour chacun d’entre eux, afin de réaliser, par exemple, une évaluation de son portefeuille.

Avez-vous d'autres projets pour lequel vous développez la même approche ?

Depuis des décennies maintenant, Experian développe des scores et stratégies d’octroi, de comportement ou de recouvrement, pour ses clients. Ces méthodes traditionnelles constituent toujours le cœur des processus décisionnels. Par ailleurs, de par sa qualité d’entreprise innovante, Experian cherche constamment des possibilités d’innover et renforcer ces systèmes décisionnels. La WDI trouve sa place dans cette approche innovante d’Experian. Dans la même logique, nous développons également une solution Open Banking, qui vise à renforcer les dispositifs de décision en y intégrant les données transactionnelles des demandeurs de prêts, en s’appuyant sur la Directive des Services de Paiement (DSP2). Cette solution complète permettra de collecter le consentement du prospect, d’accéder à ses comptes, de collecter les données transactionnelles, de catégoriser en détails celles-ci et de construire un score dédié qui sera intégré dans le processus décisionnel.

Quel intérêt pour les professionnels d'étude de collecter les données du web ?

Les données du Web reflètent des informations liées à la qualité du fonctionnement d’une entreprise (e.g. via les notes des utilisateurs). Celles-ci ne transparaissent pas directement dans les données traditionnelles bilancielles. Le score Web permet ainsi de renforcer les systèmes d’évaluation avec de nouvelles données prédictives. De plus, la solution WDI permet faire des recherches dans le passé. Il est donc possible de calculer l’évaluation des notes et des commentaires dans le temps. Cela permet, par exemple, d’évaluer l’orientation positive ou négative de l’entreprise en termes de fonctionnement et de croiser ceci avec sa situation purement financière. La WDI offre donc la possibilité aux institutions de crédit d’enrichir et d’améliorer significativement leurs évaluations de risque. Nous observons d’ailleurs une amélioration de la puissance prédictive de 20% à 30%, avec l’intégration des informations Web dans l’évaluation du risque.