Pionnier du Big Data dans les années 2000, Crédit mutuel Arkéa s’engage à son tour dans un « Move to Cloud » de ses infrastructures informatiques. Pour autant, son Data Lake ne va pas migrer dans l’immédiat. Le Data Office préfère miser sur une approche hybride.
Alors que le Crédit Mutuel Arkéa a lancé un programme de migration vers le Cloud « Move to Cloud, » à l’initiative de sa DSI, l’avenir de la plateforme Data n’est pas de migrer en totalité dans le Cloud. Le groupe bancaire préfère une approche hybride afin de concilier les impératifs de souveraineté, de protection des données sensibles et de coût.
Le choix d’une plateforme Data hybride qui vient de loin
« Cette hybridation de la plateforme Data n’est pas le choix d’une technologie ou d’un Cloud provider, mais plutôt une combinaison d’actions initiées il y a quelques années et qui ont conduit à cette hybridation » présente Maxime Havez, Chief Data Officer, chez Crédit Mutuel Arkéa. La banque dispose d’un Data Lake depuis 2009 mais ne s’est dotée d’un Data Office, c’est-à-dire une direction de la Data, qu’en 2020.
« Nous avons été l’un des premiers en France à avoir un écosystème Hadoop sur site »
Cette approche « sur site » n’est pas dogmatique puisqu’en 2017, dans le cadre de l’accompagnement d’une filiale du groupe, un premier environnement de données a été provisionné sur le Cloud Google (Google Cloud Platform ou GCP). Depuis, 7 projets pilotes ont été menés, notamment celui de porter un traitement de données particulièrement conséquent dans le Cloud.
Ce traitement de données mobilisait les ressources du cluster Hadoop pendant plusieurs jours, ce qui avait un impact direct sur les autres utilisateurs. « Ce traitement concernait des données peu sensibles que ce soit au sens RGPD et d’un point de vue stratégique. Dès lors, c’était un cas d’usage intéressant pour tirer profit de la scalabilité du Cloud [NDLR : capacité de montée en charge] afin d’exécuter plus rapidement ce traitement » justifie-t-il.
Une expérimentation positive dans le Cloud
Le bilan de cette expérimentation dans le Cloud s’est avéré particulièrement positif. Le temps de traitement à été ramené à quelques heures et a ainsi pu soulager l’infrastructure on-premise du groupe. « Pour l’anecdote, nous avons même pu rapatrier ce traitement sur notre environnement on-premise par la suite car nous avons pu identifier des pistes d’optimisation, ce que nous ne pouvions pas faire en faisant tourner ce traitement uniquement sur notre infrastructure on-premise » relève le responsable.
Penser hybride, c’est aller chercher dans le Cloud ce qui est difficile à réaliser sur des infrastructures sur site
L’objectif de la banque reste cependant de conserver un bon niveau de portabilité et d’aller, à terme, vers le Multi-Cloud. « Pour des raisons d’efficacité, il faut dans un premier temps privilégier un fournisseur Cloud, celui qui apporte les meilleures garanties en matière de chiffrement des données via des clés externes » justifie Maxime Havez. « Google a commencé très tôt à travailler sur cette problématique avec Thales, ce qui a donné naissance à S3ns par la suite » dit-il. Pour mémoire, S3NS est une offre de Cloud préparée par Thalès en s’appuyant sur les technologies de Google. S3NS est censé apporter des réponses aux enjeux de souveraineté des données, notamment de protection contre le Cloud Act, ce qui n’apparaît pas encore comme une certitude à l’heure actuelle.
Une plateforme Data de plus en plus hybride
En 2023, lorsque Crédit Mutuel Arkéa lance un vaste programme « Move to Cloud », la question du devenir du Data Lake se pose. L’idée de maintenir une approche hybride s’impose alors. « Nos convictions en matière d’hybridation est qu’il faut être cohérents en termes de portabilité, de protection des données et de souveraineté » détaille le Chief Data Officer.
« Il y a un entre-deux qui se trouve grâce à l’expertise que nous développons en interne depuis 2009«
A ce stade, les membres du Data Office interagissent avec les membres de l’équipe « Move to Cloud » afin de définir une feuille de route de transformation de la plateforme Data. Une démarche de cartographie de l’ensemble des capacités de la plateforme Data est engagée. Il s’agit de cerner toutes les capacités accessibles directement par les métiers, comme les outils de Data visualisation, de préparation des données, d’analyse et d’intelligence artificielle et les fonctionnalités purement techniques, accessibles des seuls informaticiens de la DSI.
Une soixantaine de technologies identifiées
« Une fois que nous nous sommes livrés à cette vision capacitaire, nous avons positionné les solutions logicielles face à ces capacités. En nous livrant à cet exercice, nous avons identifié une soixantaine de technologies différentes » indique-t-il. L’objectif de la plateforme Data hybride est de rendre transparente cette dualité entre « on-premise » et Cloud aux yeux des utilisateurs.
La solution vise à générer des flux de données de manière indifférenciée que ce soit pour l’architecture sur site ou dans le Cloud
Crédit Mutuel Arkéa travaille sur son propre outil de traitement des données. « Nous avons considéré que nous pouvions développer notre propre outil de développement pour le Data Processing en capitalisant sur les expertises du groupe » affirme le responsable.
Une avancée pour la portabilité
La portabilité est un bénéfice attendu. « Ce socle vient faciliter l’interaction avec tous les composants de gestion de la donnée. Ce choix est assez structurant, mais un traitement développé avec cet outil, qu’il tourne sur le Cloud ou sur le on-premise n’implique pas de changer le code. En termes de portabilité, c’est extrêmement intéressant » se félicite-t-il.
« Le SQL permet de répondre à énormément de problématiques liées au développement et à la gestion des pipelines de données«
Outre sa portabilité entre on-premise et Cloud, l’outil de Crédit Mutuel Arkéa permet d’harmoniser les pratiques et d’animer une communauté. Enfin, l’approche Low Code sert à réduire le temps de développement des pipelines. L’équipe projet réfléchit aujourd’hui à publier cet outil en Open Source.
Virtualiser les données pour gommer la frontière entre sur site et Cloud
L’autre composant clé de la plateforme hybride du Crédit Mutuel Arkéa consiste dans la mise en œuvre d’une solution de virtualisation des données, la solution Starburst, elle-même développée sur la brique Open Source Trino.
La virtualisation via Starburst donne accès aux données du cluster Hadoop et à celles qui sont dans le Cloud
La solution de virtualisation des données met en œuvre le langage SQL et présente l’avantage de doper les performances du cluster sur site (on-premise). « Cette couche de virtualisation des données nous offre la capacité d’accélérer les temps de traitement. Elle dispose de son propre cluster de calcul bien différencié de celui du Data Lake, ce qui nous a apporté des gains de performance intéressants » annonce le Chief Data Officer.
L’approche hybride à l’œuvre sur l’IA générative
Autre enjeu, le Data Office a récemment été fortement challengé sur la partie intelligence artificielle générative, indique Maxime Havez. Dans un groupe bancaire comme Crédit Mutuel Arkéa, les cas d’usages des grands modèles de langage (LLM ou Large Language Models) ne manquent pas et plusieurs approches techniques sont possibles.
L’enjeu est différent si l’IA générative est connectée aux informations publiques ou aux bases de données internes
De même, la DSI doit pouvoir proposer des solutions compatibles avec les enjeux de Time-to-Market et de mise sur le marché des métiers, de souveraineté sur les données sachant que les modèles managés ont aussi de forts impacts en termes de coûts et de sobriété.
Développement de ses propres modèles de LLM
Fort de ce constat, l’équipe projet a fait le choix de développer ses propres modèles LLM en s’appuyant sur des modèles Open Source glanés sur Hugging Face, avec un modèle beaucoup plus léger, à mettre en œuvre, accompagné par un protocole d’évaluation des modèles.
Le Cloud donne accès à des infrastructures inaccessibles en interne, notamment en matière de GPU
Maxime Havez précise que toutes les intelligences artificielles ne seront pas déployées dans le Cloud, mais ce mode de déploiement constituera un levier particulièrement intéressant pour de nombreux cas d’usage.