BNP Paribas migre le chatbot de sa banque digitale vers l’IA générative

Hugues Even, groupe BNP Paribas et Matteo Dora, Giskard, 17 septembre

L’IA générative est particulièrement adaptée au dialogue avec les clients. Mais comment encadrer ses réponses ? C’est le défi du groupe bancaire BNP Paribas qui est en train de migrer le chatbot classique de sa banque en ligne Hello Bank vers une IA générative. L’enjeu est de placer les bons garde-fous sans dégrader les performances. Pour cela, BNP Paribas fait appel à l’IA générative de startup Mistral.ai. Les tests de bon fonctionnement sont assurés par la startup Giskard. Le chatbot est en cours de test.

Une mise en ligne prévue pour fin 2024

C’est ce que décrit Hugues Even, Chief Data Officer du groupe BNP Paribas. Il a pris la parole le 17 septembre à l’occasion de l’événement « AI For Finance » organisé par la société de conseil Artefact. Matteo Dora, CTO (Chief Technology Officer) de Giskard était présent à ses côtés. La mise en ligne du nouveau chatbot d’Hello Bank est prévue pour la fin d’année.

BNP Paribas revendique 700 cas d’usage de l’intelligence artificielle en production. Mais il s’agit de l’IA dite traditionnelle

Le groupe BNP Paribas revendique 700 cas d’usage de l’intelligence artificielle en production. Mais il s’agit de l’IA dite traditionnelle. Les usages de l’IA générative sont plutôt en stade de test chez la banque. Il est notamment prévu de migrer le chatbot de la banque digitale HelloBank vers l’IA générative. C’est à la fois logique et très risqué. C’est logique car l’IA générative est adaptée à des dialogues ouverts et fluides. C’est risqué car l’IA générative peut se mettre à répondre n’importe quoi.

Hugues Even reconnaît d’abord la rigidité décevante des chatbots classiques. Il insiste sur le fait que ce n’est pas propre au secteur financier. « Les chatbots s’appuient sur la liste des questions fréquemment posées, plus un gestionnaire de dialogue, et une génération de langage naturel. Mais c’est très souvent décevant, car c’est des scripts, c’est limité à un certain nombre de questions auxquelles vous prévoyez de répondre, mais chaque fois que vous vous écartez, vous avez une expérience décevante »  pointe-t-il.


Les chatbots sont le terrain de jeu de l’IA générative

Dès lors, c’est le terrain de jeu idéal pour l’IA générative. « C’est vraiment idéal pour l’IA générative et les grands modèles de langage. Comment passer des chatbots basiques à une véritable assistance conversationnelle » questionne-t-il. BNP Paribas s’est engagé pour cela dans cette voie avec les startups Mistral.ai et Giskard. « Nous testons aujourd’hui chez Hello Bank un assistant conversationnel basé sur LLM ( Large Language Model) en mode beta test. Ce n’est pas si facile, car ce n’est pas comme si vous aviez un LLM prêt à l’emploi, et que vous pouvez le pousser en production, et qu’il fonctionnera » décrit-il.

On veut ensuite que l’assistant soit un peu spécifique au contexte, qu’il utilise un certain vocabulaire, etc.

Le responsable Data précise que l’on veut alors que l’assistant soit un peu spécifique au contexte, à l’existant de la société. Il faut alors faire du RAG (Retrieval Augmented Generation). Ensuite, on veut affiner un peu le comportement du chatbot parce que l’on veut qu’il se comporte d’une certaine manière, qu’il utilise un certain vocabulaire, etc. Là, on peut affiner le modèle de langage en utilisant des adaptations de rang bas, des « Low Range Adaptations ».

Après, on peut vouloir que des agents spécifiques s’attaquent à certaines tâches spécifiques pour lesquelles le « langage large » n’est pas la meilleure option, car il est trop gros et les temps de réponse ne sont pas ceux que l’on attendait. « Cela commence à devenir complexe parce que vous avez une grande pile technique à orchestrer, une grande quantité de garde-fous à mettre en place » prévient-il. C’est pour cela que le groupe bancaire a noué un partenariat avec Mistral.ai, car la startup propose une gamme de modèles d’IA de différentes tailles.

Des modèles d’IA générative installés sur le site de la banque

Plus important encore, ces modèles sont installés sur le site de l’entreprise cliente, ce qui est clé pour une banque. « Il est très important pour nous de garantir la sécurité de nos données et de garantir la protection des intérêts de nos clients. Il est essentiel de disposer de modèles de petite et de grande taille sur site. Je pense que travailler également avec Giskard sur la manière de mettre en œuvre une IA responsable et de contrôler ces modèles est également très important » souligne-t-il.

« Le principal risque que nous observons est l’hallucination« 

« BNP Paribas est un bon exemple sur la manière d’accompagner des entreprises sur la sécurisation de leurs IA avant le passage en production » explique-t-on côté Giskard. « Le principal risque que nous observons est l’hallucination » alerte Matteo Dora, CTO de Giskard.

«  Cela signifie que votre chatbot peut fournir des informations incorrectes. Imaginez que votre chatbot de support client dise au client qu’il peut obtenir une carte de crédit gratuitement alors que ce n’est pas vrai. Mais cela peut empirer car ces LLM sont des modèles à usage général. Ils peuvent parler et discuter de n’importe quoi, et l’utilisateur posera n’importe quelle question » poursuit-il. Le chabot peut fournir des conseils en investissement qui attirent l’attention des autorités de régulation.

Ce que fait Giskard est de tester les dangers avant que le modèle d’IA ne soit mis en production. « Nous avons travaillé sur le chatbot Hello Bank, nous avons fait cet audit et fourni des solutions possibles qui ont été mises en œuvre par l’équipe de BNP Paribas. Nous le faisons avec le groupe BPCE ou Crédit Agricole, et aussi dans le domaine de l’assurance avec AXA » liste-t-il.

Giskard pousse l’IA générative à l’échec

« En sécurité, vous ne pouvez pas résoudre tous les problèmes. Vous ne pouvez pas empêcher toutes les pannes. Vous devez les contrôler. Pour les contrôler, vous devez les mesurer » préconise-t-il. Giskard développe des outils de test automatique. Il s’agit de pousser le système testé à un échec. Cela pourrait être un échec de type « hallucination », un échec dans la discussion de sujets qui ne sont pas censés être abordés, ou cela pourrait aussi bien être un échec technique avec un système ne fonctionnant plus.

« L’exercice de red teaming est très intéressant car vous découvrirez toutes les vulnérabilités de votre système« 

« Étant donné que les grands modèles de langage sont capables de beaucoup de choses, vous souhaitez les contrôler et vous souhaitez également que votre client n’agisse pas de manière étrange avec ces chatbots » confirme Hugues Even de BNP Paribas. « L’exercice de red teaming est très intéressant car vous découvrirez toutes les vulnérabilités de votre système. C’est comme un contrôle de santé que vous devez faire. Ensuite, il s’accompagne également de recommandations » dit-il.

« Une fois que vous avez identifié les vulnérabilités, nous travaillons ensemble sur la façon de les corriger. Ici aussi, c’est un exercice complexe car vous devez trouver le bon équilibre entre le niveau de contrôle, le niveau de filtre, le niveau de garde-fous que vous mettez en place et les performances attendues de votre bot. Plus vous mettez de contrôle, moins vous obtiendrez de performances car vous allez vraiment trop encercler le bot. Ici, nous travaillons également à trouver ce bon équilibre » conseille le responsable Data de BNP Paribas.

Résoudre les défaillances est rapide, la difficulté est de les identifier

Pour le CTO de Giskard la difficulté est d’identifier les éventuelles défaillances. Les solutions qui en découlent sont relativement simples. « Avec le chatbot d’Hello Bank, nous avons fait notre audit et, en deux ou trois semaines, tous les problèmes que nous avons trouvés ont été résolus, et c’était en août [2024]. L’équipe de Data science de BNP Paribas a été très rapide pour résoudre le problème. Donc, une fois que vous savez ce qui ne fonctionne pas, il est relativement facile de le résoudre dans la plupart des cas » affirme-t-il.

Giskard traque les hallucinations, les contenus malveillants, les fuites de données, les contenus insultants, les stéréotypes

Dans le détail, la startup Giskard dont le nom vient d’un petit robot qui édicte une loi sur la robotique dans les romans de science fiction d’Asimov, détecte les vulnérabilités des IA génératives. C’est-à-dire les hallucinations, les contenus malveillants, les fuites de données, les contenus insultants, les stéréotypes. Les IA génératives ont des risques spécifiques qui n’ont jamais existé avec d’autres IA. Giskard propose une technologie pour réaliser le « Red teaming ».

Ce sont des tactiques qui viennent de la cyber sécurité. Une équipe interne ou externe est chargée de jouer le rôle de hackers et de mener une cyber attaque contre l’entreprise. L’objectif est d’évaluer les capacités de détection, de réponse et de défense de l’entreprise, tout en identifiant les vulnérabilités et les points faibles.

Le chatbot donnait des réponses fausses et défavorables sur un assureur

Le logiciel de test de Giskard peut mener des tests sur la réponse de l’IA à des questions gênantes sur la couleur de peau par exemple. « Nous avons récemment évité pour un assureur, avant qu’il ne soit trop tard, qu’il ne passe en production, un chatbot qui était capable de faire des réponses très gênantes sur la couleur de peau de certains collaborateurs, ou qui était capable de donner des réponses qui donnaient une extrêmement mauvaise image de l’entreprise, sur les horaires de travail, sur les salaires, des informations fausses » indique-t-on côté Giskard. Le chatbot conseillait même aux gens qui l’interrogeaient d’aller plutôt à la concurrence.

Giskard crée automatiquement systématiquement et avec le client des tests spécifiques à son domaine

En matière de tests, Giskard réalise des tests généraux et des tests spécifiques. La startup construit une bibliothèque de tests génériques, comme en cyber sécurité. De plus, elle crée automatiquement systématiquement et avec le client des tests spécifiques au domaine. Pour BNP Paribas, le test va être totalement différent d’une autre entreprise. Et là, il faut trouver des tests qui vont parler des produits financiers de BNP Paribas. Giskard est connecté à leur FAQ (Foire aux questions), à la Data de la banque afin de générer des tests qui leur sont spécifiques et pertinents.

Pour l’heure, il n’existe pas de garantie ni d’engagement juridique de la part de Giskard sur le bon fonctionnement des IA testées. Il faut dire que le secteur est encore jeune et qu’il n’existe pas de certification d’IA. Giskard réalise des tests de qualité, de sécurité, de performance, de robustesse et de conformité. La tâche de test apparaît comme devant être récurrente car le contexte interne et externe d’une IA peut évoluer, des modifications peuvent être apportées, etc.

Un chatbot va évoluer avec son contexte à tout moment

Le paysage autour d’un chatbot évolue par exemple. On met à jour des documents, il y a de nouvelles offres. Ou ce sont simplement les situations politiques qui changent. Il n’y a qu’à penser au conflit entre l’Ukraine et la Russie. Giskard commercialise ses services sous forme d’abonnement mensuel et prépare ses clients entreprises à l’AI Act européen.

La qualité des données concerne la disponibilité, la compréhension du cadre juridique, l’accès aux données et la gouvernance des données

Enfin, de son côté, Hugues Even rappelle les quatre conditions pour réussir la mise en production d’une IA et obtenir les bonnes performances sur le long terme sachant qu’un test en laboratoire est facile à réussir avec les IA génératives. La première condition est la qualité des données. Cela signifie la disponibilité, la compréhension du cadre juridique, l’accès aux données et la gouvernance des données.

En mode exécution également, vous devez vous assurer que le modèle est adapté aux données. Ensuite, il y a les performances du modèle. Cela va au-delà des performances pures de l’algorithme. Il faut garantir certains critères spécifiques qui sont nouveaux avec les LLM comme l’explicabilité du modèle, l’équité du modèle et la frugalité du modèle, afin de ne pas consommer trop de puissance électrique pour fonctionner.

L’infrastructure informatique doit suivre la montée en charge de l’IA

Puis, on trouve la nécessité de la montée en puissance dans l’environnement informatique. Il faut avoir des applications robustes embarquant l’IA avec des critères de cybersécurité appropriés et une robustesse en production. Quant au dernier point, il concerne la formation des utilisateurs, l’acculturation des utilisateurs, car en fin de compte, chaque utilisateur doit être formé et comprendre comment il peut s’appuyer sur les résultats de l’IA et comment il doit également être prudent lorsqu’il utilise les résultats des modèles d’IA.

Le LLM sait-il écrire par exemple une phrase avec le mot chien en troisième position ?

Enfin, en matière de choix d’IA générative, on peut également s’appuyer sur l’expertise d’une société comme Zelros qui a connu toutes les étapes vers l’IA générative. Christophe Bourguignat, fondateur de Zelros, spécialiste du secteur de l’assurance, élimine d’emblée les LLMs qui n’ont visiblement pas une capacité de raisonnement suffisante, pour écrire par exemple une phrase avec le mot chien en troisième position. S’il n’arrive pas à faire cela, le LLM n’arriverait probablement pas à conseiller un consommateur en assurance.

Zelros a mené des tests et retient deux plateformes de LLMs parmi les plus gros. Il s’agit de GPT-4o d’Open AI et de Claude de la société Anthropic, financée par AWS. « Après, pour éviter les hallucinations,, on les spécialise sur des informations d’entreprise. Aujourd’hui, nous n’avons eu aucun cas de client qui ait réussi à les faire dériver. On n’est pas du tout dans le ChatGPT grand public » précise-t-il. De plus, Zelros fait en sorte que l’IA générative source ses réponses à partir de faits et utilise le RAG. Il ne s’agit pas de LLM en boucle ouverte.


Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *