Réduire les biais dans le credit scoring grâce à l'IA générative

Wei You Pan, Ashwin Gangadhar, and Jack Yallop

Le credit scoring joue un rôle essentiel pour déterminer qui accède au crédit et à quelles conditions. Malgré son importance, les systèmes de credit scoring traditionnels sont depuis longtemps confrontés à de nombreux problèmes critiques liés aux biais et à la discrimination, à une prise en compte limitée des données et à des défis d'évolutivité. Par exemple, une étude sur les prêts américains a montré que les emprunteurs issus des minorités ethniques paient des taux d'intérêt plus élevés (+8 %) et leurs demandes de prêt sont plus souvent rejetées (+14 %) que les emprunteurs appartenant à des groupes plus privilégiés.

En raison de la nature rigide des systèmes, ils peuvent mettre plus de temps à s'adapter à l'évolution de l'économie et aux comportements des consommateurs, ce qui porte préjudice à certains individus, qui sont négligés. Pour y remédier, les banques et autres prêteurs cherchent à adopter l'intelligence artificielle afin de développer des modèles de plus en plus élaborés de credit scoring.

Cet article se penche sur les principes fondamentaux du credit scoring, les défis posés par les systèmes actuels et examine comment l'intelligence artificielle (IA), en particulier l'IA générative (GenAI), peut réduire les biais et améliorer la précision. De l'intégration de sources de données alternatives au développement de modèles de machine learning, nous découvrirons en quoi l'IA pour repenser le credit scoring.

Consultez notre page de ressources sur l'IA pour en savoir plus sur la création d'applications alimentées par l'IA avec MongoDB.

Qu'est-ce que le credit scoring ?

Le credit scoring fait partie intégrante du paysage financier. Il sert d'indicateur numérique de la solvabilité d’un individu. Cet indicateur clé est utilisé par les prêteurs pour évaluer le risque associé à l'octroi d'un crédit à des particuliers ou des entreprises.

Traditionnellement, les banques s'appuient sur des règles prédéfinies et des modèles statistiques souvent construits à l'aide de la régression linéaire ou de la régression logistique. Ces modèles reposent sur des données historiques de crédit et se concentrent sur des facteurs tels que l'historique des paiements, la part d'utilisation du crédit et sa durée.

Cependant, l’évaluation des nouveaux demandeurs de crédit représente un défi, d'où la nécessité d'un profilage plus précis. Pour répondre aux besoins des segments mal desservis ou non desservis, car historiquement discriminés, les fintechs et les banques numériques intègrent de plus en plus d'informations au-delà des antécédents de crédit traditionnels avec des données alternatives pour obtenir une vue plus complète du comportement financier d'un individu.

Défis liés au système traditionnel

Les scores de crédit font partie intégrante de notre quotidien, car ils constituent un facteur déterminant dans diverses transactions financières, telles que l'obtention d'un prêt, la location d'un appartement, les assurances, voire dans les processus de recrutement. Étant donné que la recherche d'un crédit peut être le parcours du combattant, voici quelques-uns des défis ou des limites des modèles de credit scoring traditionnels qui entravent souvent le chemin vers l'obtention d'un crédit.

  • Antécédents de crédit limités : de nombreuses personnes, en particulier celles qui débutent dans ce domaine, se heurtent à un obstacle de taille : des antécédents de crédit limités, voire inexistants. Les modèles traditionnels de credit scoring reposent en grande partie sur les comportements antérieurs en matière de crédit. Les individus qui ne disposent pas d'un solide historique ont donc plus de mal à prouver leur solvabilité. Environ 45 millions d'Américains n'ont pas de scores de crédit simplement parce que ces données n'existent pas pour eux.

  • Revenus irréguliers : les revenus irréguliers, caractéristiques du travail à temps partiel ou indépendant, pose un défi pour les modèles traditionnels de credit scoring, car ils associent des risques plus élevés à ces individus, ce qui peut entraîner un refus ou des restrictions. En 2023 aux États-Unis, les sources de données diffèrent quant au nombre de travailleurs indépendants. Selon une source, plus de 27 millions d'Américains ont rempli des formulaires Schedule C, qui concernent les bénéfices ou les pertes d'une entreprise. Il faut donc utiliser des méthodes d'évaluation différentes pour ces travailleurs.

  • Forte utilisation d'un crédit en cours : une forte dépendance à l'égard d'un crédit en cours est souvent perçue comme un signe de difficultés financières potentielles, ce qui influence les décisions des emprunteurs. Les demandes de crédit peuvent être rejetées ou approuvées à des conditions moins favorables, ce qui traduit les inquiétudes quant à la capacité du demandeur à gérer judicieusement le paiement d'un crédit supplémentaire.

  • Manque de clarté dans les motifs de refus : comprendre les raisons d'un refus permet aux demandeurs de s'attaquer aux causes profondes. Au Royaume-Uni, une étude réalisée entre avril 2022 et avril 2023 a montré que les principaux motifs de rejet étaient les suivants : « mauvais antécédents de crédit » (38 %), « incapacité à rembourser » (28 %), « trop de crédits en cours » (19 %). 10 % ont déclaré qu'on ne leur avait pas expliqué pourquoi leur demande avait été rejetée. Même lorsqu'elles sont données, les explications sont souvent trop vagues, ce qui laisse les demandeurs dans l'ignorance. Il leur est donc difficile de s'attaquer aux causes profondes et d'améliorer leur solvabilité pour de futures demandes. Le manque de transparence n'est pas seulement un problème pour les clients, il peut également pénaliser les banques. Par exemple, en 2023, une banque berlinoise a été condamnée à payer une amende pour manque de transparence dans le cadre du refus d'une demande de carte bancaire.

  • Manque de flexibilité : l'évolution du comportement des consommateurs, en particulier des jeunes générations qui préfèrent les transactions numériques, remet en question les modèles traditionnels. Des facteurs tels que l'essor de l'économie parallèle, les emplois non traditionnels, l'endettement des étudiants et le coût élevé de la vie compliquent l'évaluation de la stabilité des revenus et de la santé financière. Les prévisions traditionnelles en matière de risque de crédit sont limitées en cas de perturbations sans précédent comme la pandémie de COVID-19, car les modèles de notation n'en tiennent pas compte.

Reconnaître ces défis met en évidence la nécessité d'adopter des modèles alternatifs qui peuvent s'adapter à l'évolution des comportements financiers, traiter des sources de données non traditionnelles et fournir une évaluation plus complète et plus précise de la solvabilité dans ce paysage financier en perpétuelle évolution.

Utiliser des données alternatives

Il s'agit d'utiliser des sources de données non traditionnelles (aussi appelées « données alternatives ») et des méthodes pour évaluer la solvabilité d'un individu. Si le système traditionnel s'appuie largement sur les antécédents de crédit des principales sociétés de crédit, la méthode alternative intègre un éventail plus large de facteurs afin de mieux appréhender le comportement financier d'un individu. Voici quelques-unes des sources de données alternatives les plus utilisées :

  • factures d'eau, de gaz, d'électricité : au-delà des antécédents de crédit, le paiement régulier de services comme l'eau et l'électricité montre si le demandeur respecte ses obligations financières et fournit des informations cruciales au-delà des indicateurs traditionnels ;

  • quittances de loyer : pour ceux qui n'ont pas de prêt hypothécaire, les quittances constituent une source de données alternative clé. Montrer que le demandeur paie régulièrement et à temps son loyer permet de donner un aperçu complet de la responsabilité et la fiabilité financières.

  • utilisation du téléphone portable : l’omniprésence des téléphones portables permet d’accéder à une multitude de données alternatives. L’analyse des appels et de SMS fournit des informations sur le réseau, la stabilité et les relations sociales d’un individu, ce qui constitue de précieuses données pour le credit scoring.

  • habitudes d'achat en ligne : l'analyse de la fréquence, de la nature et du montant des achats effectués en ligne fournit de précieuses informations sur les comportements en matière de dépenses et donne une compréhension plus nuancée des habitudes financières ;

  • antécédents scolaires et professionnels : le credit scoring alternatif tient compte des antécédents scolaires et professionnels d’un individu. Les signaux positifs, tels que les bons résultats scolaires et la stabilité de l'emploi, jouent un rôle majeur dans l'évaluation de la stabilité financière.

Ces sources de données alternatives représentent une transition vers une approche plus inclusive, nuancée et holistique des évaluations de crédit. À mesure que la technologie financière continue de progresser, l’exploitation de ces ensembles de données alternatives garantit une évaluation plus complète de la solvabilité, ce qui marque une étape charnière dans l’évolution des modèles de credit scoring.

L'utilisation de l'intelligence artificielle

L'utilisation de l'IA permet également de relever les défis posés par les systèmes traditionnels, et ce pour plusieurs raisons :

  • capacité à réduire les biais : comme les modèles statistiques traditionnels, les modèles d'IA, y compris les grands modèles de langage (LLM), entraînés sur des données historiques qui sont biaisées, conserveront les biais présents ces données, ce qui conduira à des résultats discriminatoires. Les LLM peuvent se concentrer sur certaines fonctionnalités plus que sur d'autres ou ne comprennent pas toujours le contexte plus large de la situation financière d'un individu. La décision est donc biaisée. Cependant, il existe différentes techniques pour pallier cette problématique :
    • stratégies d’atténuation : les initiatives commencent par l’utilisation de données d’entraînement diversifiées et représentatives afin d’éviter de renforcer les biais existants. Des stratégies d’atténuation inadéquates ou inefficaces peuvent entraîner la persistance de résultats biaisés dans les modèles de credit scoring basés sur l’IA. Pour résoudre ce problème, il est essentiel d'accorder une attention toute particulière aux données collectées et à l’élaboration de modèles. L’intégration de données alternatives joue un rôle clé dans la réduction des biais.
    • Des outils rigoureux de détection des biais, des contraintes d'équité et des techniques de régularisation pendant le processus d'entraînement des modèles améliorent leur fiabilité. En effet, l'ajustement de la représentation des caractéristiques et l'utilisation de techniques de post-traitement et d'algorithmes spécialisés contribuent à réduire les biais. L’évaluation inclusive des modèles, la surveillance continue et l’amélioration itérative, combinées au respect des directives éthiques et des pratiques de gouvernance, complètent une approche multidimensionnelle visant à réduire les biais dans les modèles d'IA. C'est un enjeu clé pour répondre aux préoccupations liées aux biais démographiques ou socioéconomiques qui peuvent être présents dans les données historiques sur le crédit.
    • Audits réguliers des biais : effectuez des audits réguliers pour identifier et atténuer les biais dans les LLM. Cela peut impliquer l'analyse des résultats des modèles pour les disparités entre les groupes démographiques et l'ajustement des algorithmes en conséquence.
    • Transparence et explicabilité : améliorez la transparence et l’explicabilité dans les LLM pour comprendre comment les décisions sont prises. Cela peut permettre d'identifier et de corriger les processus décisionnels biaisés. Trade Ledger, un logiciel de prêt en tant que service (SaaS), utilise une approche axée sur les données pour prendre des décisions éclairées avec une plus grande transparence et une meilleure traçabilité en rassemblant des données provenant de plusieurs sources avec des schémas différents dans une seule source de données.
  • Capacité à analyser des ensembles de données vastes et diversifiés : contrairement aux modèles traditionnels qui s'appuient sur des règles prédéfinies et des données de crédit historiques, les modèles d'IA peuvent traiter une myriade d'informations, notamment des sources de données non traditionnelles. L'objectif est d'aboutir à une évaluation plus complète de la solvabilité d'un individu, en veillant à ce qu'un éventail plus large de comportements financiers soit pris en compte.
  • Capacité d'adaptation inégalée : lorsque les conditions économiques changent et que les comportements des consommateurs évoluent, les modèles alimentés par l'IA peuvent rapidement s'adapter et apprendre à partir de nouvelles données. L'apprentissage continu garantit que le credit scoring reste pertinent et efficace dans un secteur financier en perpétuelle évolution.

Les objections les plus courantes des banques qui ne veulent pas utiliser l'IA à cette fin sont la transparence et l'explicabilité des décisions de crédit. La complexité inhérente de certains modèles d'IA, en particulier les algorithmes de deep learning, peut entraîner des difficultés à fournir des explications claires sur les décisions en matière de crédit. Heureusement, la transparence et l'interprétation des modèles d'IA ont connu des avancées significatives. Des techniques comme les valeurs SHapley Additive exPlanations (SHAP) et les graphiques Local Interpretable Model-Agnostic Explanations (LIME), ainsi que plusieurs autres avancées dans le domaine de l'IA explicable (XAI) nous permettent désormais de comprendre comment le modèle aboutit à des décisions spécifiques. Cela permet non seulement de renforcer la confiance dans le processus de credit scoring, mais aussi de répondre à la critique fréquemment évoquée selon laquelle les modèles d'IA sont des « boîtes noires ».

Conscientes des enjeux liés aux données alternatives qui se présentent souvent sous forme semi-structurée ou non structurée, les institutions financières travaillent avec MongoDB pour améliorer leurs processus de demande de crédit grâce à un moyen plus rapide, plus simple et plus flexible d’effectuer des paiements et d’accorder des crédits.

  • Amar Bank, la première banque numérique d’Indonésie, lutte contre les biais en fournissant des microcrédits à des personnes qui ne seraient pas en mesure d’obtenir des services financiers auprès des banques traditionnelles (non bancarisées et mal desservies). Les processus de souscription traditionnels n'étant pas adaptés aux clients qui n'ont pas d'antécédents de crédit ou de garanties, ils ont rationalisé les décisions de prêt en exploitant des données non structurées. En s'appuyant sur MongoDB Atlas, ils ont développé un modèle d'analyse prédictive qui intègre des données structurées et non structurées pour évaluer la solvabilité des emprunteurs. L'évolutivité et la capacité de MongoDB à gérer divers types de données ont joué un rôle déterminant dans l'expansion et l'optimisation de leurs activités.

  • La grande majorité des Indiens ont du mal à obtenir un crédit en raison de réglementations strictes et d'un manque de données en la matière. Grâce à l'utilisation de systèmes de souscription modernes, Slice, l'un des principaux innovateurs de l'écosystème fintech indien, contribue à élargir l'accès au crédit en Inde en rationalisant leur processus KYC pour une expérience de crédit plus fluide. En utilisant MongoDB Atlas dans différents cas d'utilisation, notamment en tant que magasin de fonctionnalités ML en temps réel, slice a transformé son processus d'intégration et réduit les temps de traitement à moins d'une minute. slice utilise le magasin de fonctionnalités en temps réel avec MongoDB et les modèles de ML pour calculer instantanément plus de 100 variables, ce qui permet de déterminer l'éligibilité au crédit en moins de 30 secondes.

Transformer le credit scoring grâce à l'IA générative

Outre l'utilisation de données alternatives et de l'IA dans le credit scoring, la GenAI a le potentiel de révolutionner le credit scoring avec sa capacité à créer des données synthétiques et à comprendre des modèles complexes. Elle offre ainsi une approche plus nuancée, adaptative et prédictive.

Sa capacité à synthétiser divers ensembles de données répond à l'une des principales limites des modèles traditionnels, à savoir la dépendance à l'égard des données de crédit historiques. En créant des données synthétiques qui reflètent les comportements financiers réels, les modèles de GenAI permettent une évaluation plus inclusive de la solvabilité. Cette évolution favorise l'inclusion financière en permettant à un plus grand nombre de personnes d'accéder au crédit.

L'adaptabilité est essentielle pour gérer la nature dynamique des conditions économiques et l'évolution des comportements des consommateurs. Contrairement aux modèles traditionnels qui peinent à s'adapter aux perturbations imprévues, la capacité de la GenAI à apprendre et à s'adapter en permanence garantit l'efficacité du credit scoring en temps réel. Elle offre ainsi un outil plus résistant et plus réactif pour évaluer le risque de crédit. Outre ses prouesses prédictives, la GenAI peut contribuer à la transparence et à l'interprétabilité. Les modèles peuvent expliquer leurs décisions, ce qui permet de mieux comprendre les évaluations de crédit et de renforcer la confiance des consommateurs, des régulateurs et des institutions financières.

Cependant, l'une des principales préoccupations liées à l'utilisation de la GenAI est l'hallucination, qui se caractérise par la génération d'informations absurdes, voire complètement erronées. Il existe plusieurs techniques pour atténuer ce risque. L'une d'entre elles consiste à utiliser la génération augmentée de récupération (RAG). En récupérant des informations factuelles à partir de sources actualisées, la RAG s’assure que les réponses du modèle reflètent les informations les plus récentes et les plus précises disponibles.

À titre d'exemple, Patronus AI utilise la RAG avec MongoDB Atlas pour permettre aux ingénieurs de noter et de comparer les performances des LLM dans des scénarios réels, de générer des cas de test contradictoires généralisés et de surveiller les hallucinations et autres comportements inattendus et dangereux. Cela peut aider à détecter les erreurs généralisées des LLM et à déployer des produits d'IA en toute sécurité.

Robust Intelligence fait également appel aux services de MongoDB. Le pare-feu IA de la société protège les LLM en production en validant les entrées et les sorties en temps réel. Il évalue et atténue les risques opérationnels tels que les hallucinations, les risques éthiques, notamment les biais du modèle et les résultats toxiques, ainsi que les risques de sécurité tels que les injections rapides et les extractions de données à caractère personnel.

Alors que l'IA générative continue de se développer, son intégration dans le credit scoring et les systèmes étendus de demande de crédit promet non seulement une avancée technologique, mais aussi une transformation fondamentale des processus d'évaluation et d'octroi de crédit.

Une étape charnière dans l'histoire du crédit

La convergence des données alternatives, de l'intelligence artificielle et de l'IA générative remodèle les fondements du credit scoring, et marque une étape charnière dans le secteur financier. L'adoption de méthodes alternatives de notation de crédit, qui offrent une évaluation plus inclusive et plus nuancée, permet de relever les défis des modèles traditionnels. Malgré le risque d'hallucination, l'IA générative est une solution résolument innovante. Elle révolutionne non seulement les capacités technologiques, mais redéfinit également fondamentalement l'évaluation du crédit et favorise une nouvelle ère d'inclusion, d'efficacité et d'équité financières.

Si vous souhaitez en savoir plus sur la création d'applications alimentées par AI avec MongoDB, consultez les ressources suivantes :