Le Data Lab du Crédit Agricole a créé une 3ème génération d’IA afin de doper l’analyse des documents remis par ses clients. Sa solution « maison » est totalement industrialisée et proposée sous forme de microservice à toutes les entités du groupe.
Rattaché à Crédit Agricole SA, société mère du Crédit Agricole, le Data Lab Groupe travaille sur les problématiques Data et IA pour l’ensemble des entités du groupe Crédit Agricole, notamment ses caisses régionales. Celui-ci compte une cinquantaine de collaborateurs et il est à l’origine de l’AI Factory Group. La méthode de fabrication des IA a été industrialisée afin de produire « à la chaîne » des IA de confiance et responsables.
Les IA sont construites de manière itérative
« Cette méthode de fabrication s’inspire de l’approche agile. Les IA sont construites de manière itérative avec les membres de l’équipe projet et nos partenaires » présente Léa Fromentin, Chef de projet au Data Lab Groupe du Crédit Agricole à l’occasion de l’événement Big Data & AI Paris 2023. « Dès la phase de cadrage du projet, nous faisons en sorte d’intégrer les contraintes industrielles. Nous faisons particulièrement attention à ce que l’application métier qui embarquera l’IA offre une intégration de qualité et que l’on reste bien collé à la cible » poursuit-elle.
Le Data Lab est en veille sur la sûreté de fonctionnement et la frugalité des algorithmes
Le Data Lab s’est engagé dans la certification de sa chaîne de production des IA, notamment sur le plan de la protection des données personnelles et de la détection des biais dans les algorithmes. Celle-ci a été certifiée en février 2023 par le LNE (Laboratoire national de métrologie et d’essais). En outre, le Data Lab a reçu le label RSE LabelIA Labs, la mesure de la consommation énergétique des algorithmes venant s’ajouter à la protection des données personnelles et à la détection de biais dans les algorithmes.
Des IA pour accélérer le traitement et la classification des documents
Dans ce cadre, les IA documentaires sont un domaine d’intervention d’importance pour le Data Lab car pour un groupe bancaire de la taille du Crédit Agricole qui compte 53 millions de clients et 11,5 millions de sociétaires, le contrôle documentaire est une tâche très chronophage et particulièrement répétitive pour les employés.
« Cela représente 1,1 million d’entrées en relation par an, avec 5 à 6 documents à contrôler par entrée en relation »
La chef de projet précise que toutes les IA créées dans le cadre des solutions d’entrée en relation avec les clients ont pour vocation de simplifier le contrôle des éléments reçus, mais pas de l’automatiser. « La validation du dossier reste toujours à la main du contrôleur. Nous avons réussi à faire gagner 50% de temps par document contrôlé à nos collaborateurs » dit-elle.
Trois générations d’IA développées en interne
Ce projet IA est en quelque sorte l’héritier des plateformes de RAD/LAD (Reconnaissance et Lecture Automatique des Documents) déployées il y a plusieurs dizaines d’années, rappelle Aymen Shabou, Chief Technical Officer au Data Lab Groupe du Crédit Agricole.
« Il y a ensuite à une étape d’extraction d’informations textuelles ou visuelles »
L’expert considère que si la brique de classification est maintenant mature, par contre l’extraction présente encore un certain nombre de challenges. « Pour répondre à ce challenge nous avons mené plusieurs cycles de R&D et proposé 3 générations d’extracteurs d’information. »
Une première génération d’algorithmes utilisait de l’OCR standard
La première génération d’algorithmes produits par le Data Lab reposait sur des techniques standards d’OCR (Optical Character Recognition ou reconnaissance optique de caractères) mais les utilisateurs métiers demandaient de meilleures performances sur les documents non-normés. « Nous avons proposé la technique VisualWordGrid afin de traiter les différentes modalités d’un document, le texte, l’image, la structure afin de bien cibler les champs à extraire » poursuit Aymen Shabou.
Chaque entreprise a ses propres modèles de formats et ceux-ci sont modifiés en permanence
Le Data Lab a alors lancé un nouveau cycle d’innovation plutôt lent afin de créer une IA de bout en bout (end–to-end) pouvant à la fois se passer d’OCR et de documents annotés pour mener à bien son apprentissage. Aymen Shabou explique : « Quand nous avons commencé cette R&D, nous avons testé un certain nombre d’approches end-to-end, notamment celle proposée par Microsoft, mais il s’est avéré que le temps de calcul n’était pas du tout adapté à nos contraintes de production. »
Usage de CPU classiques et non des GPU
En effet, l’informatique de production d’une grande banque est exclusivement basée sur des CPU classiques. Il n’y a pas de machines dotées de GPU (processeurs graphiques tels que ceux commercialisés par NVidia) qui auraient pu accélérer les inférences d’IA. Le responsable souligne que l’algorithme DocParser du Data Lab implémente de manière différente les approches end-to-end du marché en améliorant les performances avec une architecture « encoder et decoder » un peu particulière afin d’accélérer les traitements tout en améliorant les performances.
« Nous travaillons toujours sur des techniques visant à éviter les phases d’annotation »
Ces IA génératives « maison » sont confrontées à celles d’OpenAI et de Google. Le Data Lab ne se repose pas sur ses lauriers et expérimente maintenant les IA génératives sur un certain nombre de tâches en phase d’extraction. « Nous évaluons les IA génératives pour diversifier le panel de tâches que nous pouvons proposer via notre socle IA » déclare Aymen Shabou.
Répondre à des questions sur un document sans entraînement préalable
Les défis vont à l’essentiel. « Il s’agit, par exemple, de répondre à des questions sur un document sans entraînement préalable. Nous intégrons aujourd’hui des IA génératives Open Source pour répondre à ce besoin d’interprétation de certains documents. » Ces IA génératives appliquées au monde documentaire sont actuellement confrontées aux IA du marché comme celles d’OpenAI et de Google.
Les IA sont aujourd’hui packagées et industrialisées sur un socle IA documentaire
Les micro-services sont employés pour donner accès aux solutions. « Nos modèles sont packagés sous forme de micro services, avec notre solution de monitoring et d’observabilité développée en interne » ajoute Aymen Shabou. « Cette solution [MonIA] est capable de détecter les drifts [NDLR : dérive des performances de l’IA] de modèle au cours du temps. Tous les services sont déployés sur Kubernetes avec une offre proposée par CA GIP, l’IT du groupe qui nous fournit des ressources informatiques on-premise ou Cloud. » Ces services sont consommés soit sur l’infrastructure groupe, soit sur des installations on-premise internes au sein de l’entité cliente.
Une accélération des contrôles mais pas une automatisation
Au final, « les IA que nous avons mis à disposition des métiers pour traiter l’entrée en relation ont pour but de simplifier les contrôles, mais pas de les automatiser. La validation du dossier reste toujours à la main du contrôleur. Nous avons réussi à faire gagner 50% de temps par document contrôlé à nos collaborateurs » résume Léa Fromentin, Chef de projet au Data Lab Groupe, Crédit Agricole.
« Tous nos services sont aujourd’hui packagés et industrialisés sur ce que nous appelons le socle IA documentaire. Il s’agit d’un asset commun mis à disposition de tous nos partenaires dans le groupe » conclut Aymen Shabou, Chief Technical Officer au Data Lab Groupe, Crédit Agricole.