La banque Crédit Mutuel Arkéa préfère une Data hybride


Pionnier du Big Data dans les années 2000, Crédit mutuel Arkéa s’engage à son tour dans un « Move to Cloud » de ses infrastructures informatiques. Pour autant, son Data Lake ne va pas migrer dans l’immédiat. Le Data Office préfère miser sur une approche hybride.

Alors que le Crédit Mutuel Arkéa a lancé un programme de migration vers le Cloud « Move to Cloud, »  à l’initiative de sa DSI, l’avenir de la plateforme Data n’est pas de migrer en totalité dans le Cloud. Le groupe bancaire préfère une approche hybride afin de concilier les impératifs de souveraineté, de protection des données sensibles et de coût.



Le choix d’une plateforme Data hybride qui vient de loin


« Cette hybridation de la plateforme Data n’est pas le choix d’une technologie ou d’un Cloud provider, mais plutôt une combinaison d’actions initiées il y a quelques années et qui ont conduit à cette hybridation » présente Maxime Havez, Chief Data Officer, chez Crédit Mutuel Arkéa. La banque dispose d’un Data Lake depuis 2009 mais ne s’est dotée d’un Data Office, c’est-à-dire une direction de la Data, qu’en 2020.

« Nous avons été l’un des premiers en France à avoir un écosystème Hadoop sur site »

Crédit Mutuel Arkéa est un pionnier du Big Data en France. « Nous avons été l’un des premiers en France à avoir un écosystème Hadoop sur site [NDLR : on-premise] » rappelle Maxime Havez, présent chez Crédit Mutuel Arkéa depuis 2016, où il a démarré en tant que Data Scientist. Cet usage de la donnée s’est développé. « Au fil des années, les traitements ont continué de croître sur cette infrastructure » ajoute-t-il.

Cette approche « sur site » n’est pas dogmatique puisqu’en 2017, dans le cadre de l’accompagnement d’une filiale du groupe, un premier environnement de données a été provisionné sur le Cloud Google (Google Cloud Platform ou GCP). Depuis, 7 projets pilotes ont été menés, notamment celui de porter un traitement de données particulièrement conséquent dans le Cloud.

Ce traitement de données mobilisait les ressources du cluster Hadoop pendant plusieurs jours, ce qui avait un impact direct sur les autres utilisateurs. « Ce traitement concernait des données peu sensibles que ce soit au sens RGPD et d’un point de vue stratégique. Dès lors, c’était un cas d’usage intéressant pour tirer profit de la scalabilité du Cloud [NDLR : capacité de montée en charge] afin d’exécuter plus rapidement ce traitement » justifie-t-il.



Une expérimentation positive dans le Cloud

Le bilan de cette expérimentation dans le Cloud s’est avéré particulièrement positif. Le temps de traitement à été ramené à quelques heures et a ainsi pu soulager l’infrastructure on-premise du groupe. « Pour l’anecdote, nous avons même pu rapatrier ce traitement sur notre environnement on-premise par la suite car nous avons pu identifier des pistes d’optimisation, ce que nous ne pouvions pas faire en faisant tourner ce traitement uniquement sur notre infrastructure on-premise  » relève le responsable.

Penser hybride, c’est aller chercher dans le Cloud ce qui est difficile à réaliser sur des infrastructures sur site

Ces projets pilotes dans le Cloud ont permis à la banque de se forger quelques convictions sur l’intérêt effectif des Cloud providers et de penser hybride, notamment pour aller chercher dans le Cloud ce qu’il est difficile à réaliser sur des infrastructures on-premise, relate le Chief Data Officer. Le Crédit Mutuel a fait le choix de la plateforme Google Cloud (GCP) pour opérer son « Move to Cloud ».

L’objectif de la banque reste cependant de conserver un bon niveau de portabilité et d’aller, à terme, vers le Multi-Cloud. « Pour des raisons d’efficacité, il faut dans un premier temps privilégier un fournisseur Cloud, celui qui apporte les meilleures garanties en matière de chiffrement des données via des clés externes » justifie Maxime Havez. « Google a commencé très tôt à travailler sur cette problématique avec Thales, ce qui a donné naissance à S3ns par la suite » dit-il. Pour mémoire, S3NS est une offre de Cloud préparée par Thalès en s’appuyant sur les technologies de Google. S3NS est censé apporter des réponses aux enjeux de souveraineté des données, notamment de protection contre le Cloud Act, ce qui n’apparaît pas encore comme une certitude à l’heure actuelle.



Une plateforme Data de plus en plus hybride



En 2023, lorsque Crédit Mutuel Arkéa lance un vaste programme « Move to Cloud », la question du devenir du Data Lake se pose. L’idée de maintenir une approche hybride s’impose alors. « Nos convictions en matière d’hybridation est qu’il faut être cohérents en termes de portabilité, de protection des données et de souveraineté » détaille le Chief Data Officer.

« Il y a un entre-deux qui se trouve grâce à l’expertise que nous développons en interne depuis 2009« 

La banque souhaite capitaliser sur son expertise interne. « On peut choisir un Cloud provider et utiliser tous ses services managés pour disposer d’une plateforme qui soit ultra simple à mettre en place » analysele responsable. « On peut aussi aller dans le Cloud pour n’aller chercher que de la puissance de calcul. Dans ce cas, on ne tire pas pleinement profit des capacités du Cloud provider » réagit-il. « Il y a un entre-deux et celui-ci se trouve via l’expertise que nous développons en interne accumulée depuis 2009 » souhaite le responsable.

A ce stade, les membres du Data Office interagissent avec les membres de l’équipe « Move to Cloud » afin de définir une feuille de route de transformation de la plateforme Data. Une démarche de cartographie de l’ensemble des capacités de la plateforme Data est engagée. Il s’agit de cerner toutes les capacités accessibles directement par les métiers, comme les outils de Data visualisation, de préparation des données, d’analyse et d’intelligence artificielle et les fonctionnalités purement techniques, accessibles des seuls informaticiens de la DSI.



Une soixantaine de technologies identifiées

« Une fois que nous nous sommes livrés à cette vision capacitaire, nous avons positionné les solutions logicielles face à ces capacités. En nous livrant à cet exercice, nous avons identifié une soixantaine de technologies différentes » indique-t-il. L’objectif de la plateforme Data hybride est de rendre transparente cette dualité entre « on-premise » et Cloud aux yeux des utilisateurs.

La solution vise à générer des flux de données de manière indifférenciée que ce soit pour l’architecture sur site ou dans le Cloud

La plateforme Data hybride doit aussi permettre de conserver une certaine portabilité et permettre, dans un deuxième temps, d’aller vers le multi-Cloud. Une étude composant par composant a été réalisée sur la plateforme afin de choisir des composants réversibles, mais aussi opter pour une architecture portable. De cette analyse naît l’idée de créer un socle de développement dédié au traitement des données, le « Data Processing », une solution qui permettrait de générer des pipelines de données indifféremment que ce soit pour l’architecture sur site (on-premise) ou dans le Cloud, sans imposer de réécriture de code.

Crédit Mutuel Arkéa travaille sur son propre outil de traitement des données. « Nous avons considéré que nous pouvions développer notre propre outil de développement pour le Data Processing en capitalisant sur les expertises du groupe » affirme le responsable.



Une avancée pour la portabilité

La portabilité est un bénéfice attendu. « Ce socle vient faciliter l’interaction avec tous les composants de gestion de la donnée. Ce choix est assez structurant, mais un traitement développé avec cet outil, qu’il tourne sur le Cloud ou sur le on-premise n’implique pas de changer le code. En termes de portabilité, c’est extrêmement intéressant » se félicite-t-il.

« Le SQL permet de répondre à énormément de problématiques liées au développement et à la gestion des pipelines de données« 

Ce socle de développement, baptisé Data Catalyst est de type Low Code. Il permet un développement des pipelines de données en SQL. « Le SQL permet de répondre à énormément de problématiques liées au développement et à la gestion des pipelines. C’est aussi un langage connu de la plupart des métiers » explique-t-il.

Outre sa portabilité entre on-premise et Cloud, l’outil de Crédit Mutuel Arkéa permet d’harmoniser les pratiques et d’animer une communauté. Enfin, l’approche Low Code sert à réduire le temps de développement des pipelines. L’équipe projet réfléchit aujourd’hui à publier cet outil en Open Source.

Virtualiser les données pour gommer la frontière entre sur site et Cloud

L’autre composant clé de la plateforme hybride du Crédit Mutuel Arkéa consiste dans la mise en œuvre d’une solution de virtualisation des données, la solution Starburst, elle-même développée sur la brique Open Source Trino.

La virtualisation via Starburst donne accès aux données du cluster Hadoop et à celles qui sont dans le Cloud

L’objectif est de requêter les données de manière simplifiée qu’elles soient situées sur site (on-premise) ou dans le Cloud. Un connecteur unique vers Starburst est connecté à l’outil de visualisation des données, à la préparation des données et aux environnements de modélisation R ou Python. Ce connecteur donne ainsi accès tant aux données du cluster Hadoop qu’à celles qui sont stockées dans le Cloud.  

La solution de virtualisation des données met en œuvre le langage SQL et présente l’avantage de doper les performances du cluster sur site (on-premise). « Cette couche de virtualisation des données nous offre la capacité d’accélérer les temps de traitement. Elle dispose de son propre cluster de calcul bien différencié de celui du Data Lake, ce qui nous a apporté des gains de performance intéressants » annonce le Chief Data Officer.

L’approche hybride à l’œuvre sur l’IA générative

Autre enjeu, le Data Office a récemment été fortement challengé sur la partie intelligence artificielle générative, indique Maxime Havez. Dans un groupe bancaire comme Crédit Mutuel Arkéa, les cas d’usages des grands modèles de langage (LLM  ou Large Language Models) ne manquent pas et plusieurs approches techniques sont possibles.

L’enjeu est différent si l’IA générative est connectée aux informations publiques ou aux bases de données internes

« Pour une IA générative dont l’apprentissage est mené sur des informations disponibles dans nos FAQ [NDLR : réponses aux questions les plus fréquentes] et sur nos sites publics, l’enjeu en termes de sensibilité des données n’est pas le même que si on envisage un chatbot pour nos conseillers qui intègre des bases de données internes dans son apprentissage » distingue le responsable.

De même, la DSI doit pouvoir proposer des solutions compatibles avec les enjeux de Time-to-Market et de mise sur le marché des métiers, de souveraineté sur les données sachant que les modèles managés ont aussi de forts impacts en termes de coûts et de sobriété.

Développement de ses propres modèles de LLM

Fort de ce constat, l’équipe projet a fait le choix de développer ses propres modèles LLM en s’appuyant sur des modèles Open Source glanés sur Hugging Face, avec un modèle beaucoup plus léger, à mettre en œuvre, accompagné par un protocole d’évaluation des modèles.

Le Cloud donne accès à des infrastructures inaccessibles en interne, notamment en matière de GPU

« Cela n’a été possible que parce que nous disposions d’environnements et d’infrastructures Cloud qui sont inaccessibles en interne, notamment en raison du coût des GPU [Processeurs graphiques tels que ceux commercialisés par Nvidia]» commente Maxime Havez. « Cela nous a ouvert le champ des possibles sur les cas d’usage. Nous avons la possibilité d’explorer les cas d’usage dans des environnements souverains et plus sécurisés. »

Maxime Havez précise que toutes les intelligences artificielles ne seront pas déployées dans le Cloud, mais ce mode de déploiement constituera un levier particulièrement intéressant pour de nombreux cas d’usage.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *