L’Intelligence Artificielle au service de la Lutte Contre le Blanchiment d’Argent

Autrice : Dr Fatoumata Dama

Alors que les autorités Européennes ont choisi (il y a quelques mois) Francfort pour siège de la AMLA (Anti-Money-Laundering Authority), l’Autorité européenne de lutte contre le blanchiment d’argent, la France entend rester un acteur majeur dans ce domaine.

En effet, le combat pour lutter contre le blanchiment d’argent nécessite la mobilisation de toutes les institutions mais est également, compte tenu de son envergure et de sa complexité, tributaire de l’utilisation des toutes dernières technologies pour que les résultats soient à la hauteur des attentes. Dans cette note, nous allons faire le point sur les meilleurs usages de l’intelligence artificielle afin de lutter contre le blanchiment d’argent.

Introduction

Le blanchiment d’argent est le processus qui permet d’injecter des fonds illicites (générés par exemple par le trafic de stupéfiants ou le crime organisé) dans le système économique tout en dissimulant la provenance de ces fonds. Il représente un enjeu financier colossal avec environ 2 à 5 % du PIB mondial blanchi chaque année à travers le monde. Cela signifie concrètement que de 2 000 à 5 000 milliards de dollars ont été blanchis en 2022 !

Outre l’enjeu financier, il fait également l’objet d’enjeux sécuritaires importants, non seulement à cause des activités illicites qui génèrent les fonds blanchis mais également à cause de l’usage final de ces fonds tel que le financement du terrorisme. Pour toutes ces raisons, le blanchiment d’argent reçoit une attention particulière de la part des autorités économiques et judiciaires.

Diverses lois ont progressivement renforcé les obligations de vigilance et de surveillance des institutions financières (e.g., banques, établissements de crédit, établissements de paiement et prestataires de services sur actifs numériques) en matière de lutte contre le blanchiment d’argent et le financement du terrorisme (LCB-FT). Le graphique suivant décrit la procédure de traitement et de vérification des transactions bancaires.

Procédure de traitement et de vérification des transactions

En pratique, l’identification des activités de blanchiment d’argent est une tâche complexe. Pour lutter contre le blanchiment d’argent, les institutions financières s’appuient sur des outils de détection appelés dispositifs LCB-FT. Force est de constater que les dispositifs standards, basés sur des règles prédéfinies et très largement utilisés dans le domaine, possèdent des limitations importantes en termes de fiabilité et d’efficacité opérationnelle. Dans ce contexte, les algorithmes d’Intelligence Artificielle (IA) représentent une opportunité pour la LCB-FT en permettant la conception de dispositifs LCB-FT à la fois fiables et efficaces.

Dans ce domaine, l’expertise de Talan se distingue par une approche intégrée qui allie stratégie et technologie. Nous construisons avec nos clients des solutions innovantes en matière de détection de fraude. Notre Centre de Recherche et Innovation et nos experts métiers capitalisent sur la puissance des algorithmes d’intelligence artificielle et le savoir-faire de nos experts pour mettre en place des solutions évolutives et pérennes.

Nous permettons à nos clients de :

Identifier les cas de fraudes qui échappent aux outils standards basés sur des règles prédéfinies qui sont inflexibles et peu fiables ;
Réduire le volume des fausses alertes qui représentent jusqu’à 95% du volume total des alarmes générées par les outils de détection standards ;
Réaliser un gain de productivité en réduisant le temps consacré au traitement des fausses alarmes ;
Respecter les délais réglementaires de traitement des alarmes et des déclarations de soupçon, en permettant aux enquêteurs de focaliser leurs efforts sur les cas de fraude, les vraies alarmes.

Vue d’ensemble des IA utilisées dans la LCB-FT

Les algorithmes d’IA utilisés dans le cadre de la LCB-FT peuvent être répartis en deux grandes classes, à savoir les modèles basés sur le Machine Learning (ML) et les modèles à base de Deep Learning (DL).

Le Machine Learning ou apprentissage machine est une sous-catégorie de l’intelligence artificielle qui regroupe les méthodes statistiques permettant de capturer automatiquement les patterns et les relations présents dans les données à des fins de description ou de prédiction d’un phénomène. Tandis que, le Deep Learning ou « apprentissage profond » désigne l’ensemble des algorithmes d’IA basés sur les réseaux de neurones artificiels dont le but est de mimer le fonctionnement du cerveau humain.

Il existe aujourd’hui un grand nombre de modèles d’IA (ML/DL) les plus utilisés dans la littérature.

Les modèles de Machine Learning :

Les arbres de décision (Decision Trees) : CART et C4.5
Les classifieurs de gradient boosting : GBoost, XGB, LGBM, CatBoost, AXGB et ASXGB
Les algorithmes d’ensemble à base d’arbre de décision : Random Forest, Extra Trees, Bagging classifier, AdaBoost et LogitBoost
Les modèles probabilistes : Logistic Regression, Naive Bayes et Bayesian Belief Networks
Autres modèles : SVM, KNN et RIPPER

Les modèles de Deep Learning :

Le modèle Perceptron (MLP)
Les modèles Auto-Encoder et Variationnal Auto-encoder
Les graphes de réseaux de neurones (Graph Neural Network) : GNN, GCN, EvolveGCN et Skip-GCN et Inspection-L

Machine Learning versus Deep Learning

La comparaison des deux modèles montre de grandes différences qu’il faudra prendre en compte lors de choix (voir tableau ci-dessous).

Comparaison Machine/Deep Learning

L’interprétabilité

À la différence des modèles de ML, les modèles de DL sont très opaques, ce qui leur vaut l’appellation de « boîtes noires ». Autrement dit, il est impossible pour un être humain de comprendre le raisonnement suivi par le modèle pour arriver à un résultat final, également appelé prédiction.

Or l’interprétabilité est une propriété fondamentale des outils LCB-FT dans la mesure où les institutions financières, pour des raisons de conformité et de transparence, doivent documenter chaque signalement aux autorités compétentes avec les éléments d’analyse qui ont conduit à suspecter un client.

La flexibilité

Malgré leur opacité très critiquée, les modèles de DL possèdent l’avantage d’être de loin plus flexibles que les modèles de ML. Les modèles de DL présentent en conséquence une meilleure capacité de détection des schémas complexes de blanchiment d’argent. De plus, grâce à leur grande flexibilité, ces modèles présentent une certaine robustesse aux modifications des schémas de blanchiment connus.

De manière générale, plus un modèle est flexible, plus sa complexité augmente, et plus son interprétation est difficile. Dans le cas spécifique de la LCB-FT, le modèle idéal serait un bon compromis entre flexibilité et interprétabilité.

La fréquence d’utilisation

Pour estimer la fréquence d’utilisation des modèles d’IA dans la LCB-FT, nous avons analysé 23 études scientifiques réalisées entre 2010 et 2022. Les résultats obtenus sont présentés dans le graphique ci-dessous.

Nous constatons une utilisation très majoritaire des modèles de ML (gradient boosting, modèles probabilistes, …) en comparaison avec les modèles de DL (MLP, GNN, auto-encoder, …). Ce résultat peut être expliqué par deux facteurs, à savoir le facteur data et le facteur mise en œuvre. En effet, la taille des jeux de données financières disponibles, pour les besoins de la recherche académique, est généralement insuffisante pour entraîner les modèles de DL. De plus, les modèles de ML sont plus faciles à mettre en œuvre (implémentation, apprentissage et calibrage) en comparaison avec les modèles de DL.

L’apport de l’IA dans la LCB-FT

Pour mesurer l’apport de l’IA dans le LCB-FT, notre Centre de Recherche et Innovation s’est appuyé sur une méthodologie comprenant deux métriques essentielles, à savoir la fiabilité et l’efficacité opérationnelle.

La fiabilité est la capacité pour un algorithme à détecter les tentatives de blanchiment. Elle est évaluée par le biais du rappel, calculé comme le ratio du nombre de vrais positifs (transactions frauduleuses effectives identifiées par l’algorithme) par rapport au nombre total de transactions frauduleuses ;
L’efficacité opérationnelle désigne la capacité d’un algorithme à minimiser le volume des fausses alarmes (i.e., le taux de faux positifs) et réduire le coût opérationnel lié au traitement manuel des alarmes. Cette métrique est mesurée au travers de la précision, définie comme le pourcentage de vrais positifs parmi les alarmes créées par l’algorithme (i.e., les fraudes identifiées par l’algorithme).

Le graphique suivant présente la moyenne et l’écart-type des scores de fiabilité et d’efficacité opérationnelle obtenus pour les algorithmes cités au minimum cinq fois dans l’ensemble des 23 études analysées.

Les résultats montrent que les algorithmes d’IA présentent un score d’efficacité opérationnelle moyenne compris entre 42% et 92%. Ces chiffres représentent une amélioration significative comparativement aux dispositifs LCB traditionnels qui génèrent jusqu’à 95% de fausses alarmes (soit une efficacité opérationnelle de seulement 5%). De plus, les transactions frauduleuses correspondant à du blanchiment d’argent sont détectées avec une fiabilité moyenne comprise entre 63% et 93%.

Ces résultats donnent une idée de l’important potentiel de l’IA en tant qu’outil de lutte contre le blanchiment d’argent.

Perspectives

Comme nous l’avons montré précédemment, plusieurs travaux de recherche ont démontré le potentiel de l’IA à détecter les schémas de blanchiment d’argent avec une précision supérieure à celle obtenue par les dispositifs LCB-FT standards ; et réduire dans le même temps le coût opérationnel de la surveillance des transactions. Cela démontre l’urgence pour les établissements financiers à mettre en place des projets test afin de concevoir de nouveaux algorithmes d’IA permettant de suivre l’évolution des pratiques et scénarios de blanchiment d’argent. Cependant, la mise en œuvre pratique de ces outils soulève trois questions majeures.

L’accès aux données

L’accès aux bases données des opérations bancaires est sans doute le plus grand défi de la communauté scientifique LCB-FT. Le nombre limité de bases de données publiques et la taille restreinte des bases de données sont incontestablement un frein au développement de nouveaux modèles de détection. De plus, le manque de données annotées (transactions étiquetées comme « normales » ou « suspectes ») est également un obstacle à la conception des modèles de classification tels que les réseaux de neurones profonds.

Toutefois, la réticence des banques à publier leurs données est légitime et s’explique par leur volonté de protéger la confidentialité de leurs clients. Ainsi, la mise en place d’une stratégie data qui permet d’analyser les données financières sans risque de rupture de confidentialité pour les clients est une condition nécessaire à la mise en place de projets test au sein des banques.

Choisir le modèle

Comme nous l’avons déjà évoqué, l’état de l’art relatif aux algorithmes d’IA utilisés dans le cadre de la LCB-FT, montre une utilisation très majoritaire des modèles de Machine Learning (ML) pour des raisons de limitation de données et de mise en œuvre facilitée, en comparaison avec les modèles de Deep Learning(DL). Chaque classe de modèles (ML ou DL) possède des points forts et des points faibles. Les modèles ML sont inflexibles, faciles à interpréter et leur mise en œuvre demande peu de ressources. À l’inverse, les modèles de DL sont très flexibles. Cependant leur complexité rend l’analyse et la mise en application plus difficile.

En pratique, le choix des modèles dépend à la fois de l’utilisation finale de l’outil développé et des ressources disponibles (données, infrastructures de calcul, …).

L’interprétation des prédictions de l’IA

Une IA est dite interprétable lorsque l’être humain est capable de comprendre les éléments clés conduisant l’IA à fournir un résultat donné. Par exemple, lorsque l’IA conclut qu’une transaction est suspecte et qu’une autre ne l’est pas. À notre connaissance, la problématique de l’interprétation de l’IA dans le cadre de la LCB a été très peu abordée dans la littérature. Pourtant, l’interprétation de l’IA permet de faciliter le travail des enquêteurs chargés d’examiner et documenter les alarmes et de réduire le délai de déclaration de soupçon, ce qui est essentiel pour que les banques restent conformes à la réglementation. Il paraît donc nécessaire d’intégrer cette dimension aux projets.

Mise en œuvre de l’IA-LCB-FT – Mettre en place un plan d’actions

Nous allons dans cette section présenter le plan d’action que nous recommandons pour la mise en pratique des dispositifs LCB-FT basés sur l’IA au sein des banques.

Traiter les Données

Afin d’analyser efficacement les données financières tout en garantissant la confidentialité des clients, nous proposons la stratégie suivante en 7 étapes :

Travailler uniquement sur les données pseudo-anonymisées ;
Sélectionner les variables strictement nécessaires à l’entraînement des modèles ;
Anonymiser les données en utilisant des techniques de differential privacy ;
Prétraiter les données : nettoyage, imputation, normalisation, encodage, … ;
Augmenter les données au moyen de techniques de génération de données synthétiques dans le but de réduire les écarts de représentativité entre les segments (la classe des fraudes et celle des opérations normales), et éviter ainsi d’injecter des biais dans les modèles ;
Augmenter des variables ou Feature Engineering ;
Stocker des données en vue de l’apprentissage des modèles.

Choisir les modèles d’IA

En règle générale, tout modèle d’IA possède des avantages et des inconvénients. Le meilleur modèle correspond à celui qui répond le mieux aux besoins du client. Nous présentons, ici, trois exemples de besoins importants des banques en matière de LCB-FT ainsi que les modèles d’IA adaptés pour y répondre.

Besoin 1 : Détecter les fraudes avec une plus grande fiabilité

Les dispositifs LCB-FT standards utilisés par les banques sont basés sur des règles prédéfinies. À cause de leur inflexibilité, il est relativement facile pour les criminels de contourner ces règles en apportant de légères modifications à la manière dont ils blanchissement leur argent. D’où le besoin pour les banques d’avoir à disposition des d’outils de détection additionnels plus flexibles. Ces nouveaux outils peuvent donc être utilisés en surcouche afin d’examiner les transactions qui passent les règles prédéfinies et identifier les cas de fraudes qui auraient échappé aux outils standards.

Grâce à leur très grande flexibilité, les modèles de Deep Learning sont adaptés pour répondre à ce besoin. De plus, la métrique optimisée lors de l’entraînement des modèles doit être la fiabilité (aussi appelée le rappel) en adéquation avec l’utilisation finale des modèles. La flexibilité apporte une plus grande robustesse aux modifications des scénarios de blanchiment connus, une capacité à détecter les schémas complexes de blanchiment et une meilleure fiabilité.

Besoin 2 : Réduire le volume de faux positifs

Il est bien connu que la très grande majorité des alarmes créées par les dispositifs LCB-FT standards est fausse (jusqu’à 95% de fausses alertes !). En d’autres termes, sur 100 alarmes générées seules 5 correspondent effectivement à des tentatives de blanchiment d’argent. Cela conduit les enquêteurs à passer la majeure partie de leur temps à traiter des alertes infondées. Les dispositifs LCB-FT standards représentent donc un coût opérationnel important pour les banques qui peut être optimisé grâce à l’IA.

Pour cela, les modèles d’IA peuvent être utilisés pour filtrer et prioriser les alarmes générées par les dispositifs standards. Ainsi, les enquêteurs pourront traiter en priorité les alarmes présentant un risque de fraude élevé. Les alarmes pour lesquelles le risque de fraude est infime feraient alors l’objet d’un traitement automatisé.

L’état de l’art montre la capacité des modèles d’IA (ML et DL) à réduire de façon significative le volume de faux positifs et à améliorer l’efficacité opérationnelle des dispositifs LCB-FT. Dans ce cas, le choix entre ML et DL dépendra de la quantité de données disponibles et des infrastructures de calcul mises à disposition. Par ailleurs, l’efficacité opérationnelle (aussi appelée la précision) doit être la métrique optimisée lors de l’entraînement des modèles.

Besoin 3 : Faciliter la documentation des alarmes

Pour des raisons de conformité et de transparence, les banques sont tenues de documenter chaque alarme générée par les outils de détection de fraude. La documentation des alarmes doit inclure le détail des éléments d’analyse qui ont conduit à suspecter un client. Cette documentation doit être transmise aux autorités compétentes en même temps que la déclaration de soupçon. Dans le cas de fausses alarmes, les éléments permettant de lever les soupçons et classer l’alarme sans suite doivent également être documentés et conservés en cas de contrôle. Par ailleurs, la loi réglemente les délais acceptables entre le moment où une alarme est générée et le moment où les autorités compétentes reçoivent un signalement.

Afin de respecter leurs obligations réglementaires, les banques doivent allouer un volume important de ressources qualifiées, les enquêteurs, à la tâche consistant à documenter les alarmes. Cette tâche complexe peut être simplifiée grâce aux techniques permettant d’expliquer les prédictions des modèles d’IA. Ces techniques permettront aux enquêteurs d’avoir une compréhension des éléments clés de la prise de décision de l’IA (pourquoi une transaction est suspecte et une autre ne l’est pas), ce qui facilitera la documentation des alarmes.

Agir

L’adoption judicieuse d’algorithmes d’intelligence artificielle ciblés est un levier puissant pour réduire significativement les coûts associés à la détection des fraudes et au blanchiment d’argent. Notre équipe d’experts-conseils alliée à notre Centre de Recherche et Innovation élaborent des solutions de pointe, qui répondent précisément à ces enjeux.

Contactez-nous pour plus d’information et pour mettre en place les meilleures solutions pour votre organisation.

Image par Steve Buissinne de Pixabay