Le Big Data a popularisé le Data Lake ou lac de données où les entreprises ambitionnent de réunir toutes leurs données. Mais qu’est-ce au juste qu’un Data Lake ? Est-il indispensable ? Faut-il le conserver dans l’entreprise ou le placer dans le Cloud ? Décryptage et bonnes pratiques.
Un Data Lake, c’est quoi ?
Le Data Lake ou lac de données est un référentiel de données – reposant sur une infrastructure informatique de stockage, qui est bien souvent Hadoop. Ce concept est apparu il y a plusieurs années dans le sillage du Big Data. Le Data Lake se destine à stocker de grands volumes de données brutes, qu’elles soient structurées ou non structurées.
Le Data Lake regroupe l’ensemble des données d’une entreprise à des fins d’analyse
Voilà pour la théorie. Car comme le souligne l’expert de Kynapse, Christophe Tricot : « Le Data Lake est souvent perçu comme la solution aux problèmes des entreprises qui veulent valoriser leurs données. Il est plus souvent le problème que la solution. »
Un Data Lake pour quoi faire ?
Un Data Lake vise à faciliter l’exploitation des données. Avant l’émergence du Data Lake, les données de natures très différentes étaient hébergées sur des technologies hétérogènes et par silos.
Les usages d’un Data Lake sont multiples. Une entreprise peut vouloir réunir toutes les données relatives à ses clients, par exemple leur comportement sur son site Web et leurs achats enregistrés sur leur carte de fidélité en magasin. Le croisement de ces données peut servir notamment à prédire le risque de départ, le taux d’attrition ou churn, de ces mêmes clients.
« Sur le papier, c’est formidable » reconnaît notre expert. Mais un Data lake n’est pas magique. Il est aussi une source de grande complexité. Pour le scénario évoqué précédemment, cela suppose ainsi de développer différents connecteurs acheminant les données des applications métier, CRM, site web, etc. vers le lac de données.
Ces approches du Data Lake « impliquent de réunir toutes les données au même endroit, et donc de disposer de tous les tuyaux qui acheminent les données jusqu’au Data Lake. » Concevoir ces « tuyaux » est coûteux en temps et en ressources.
Ce n’est par ailleurs par la seule complexité. « On n’a jamais les bonnes données, au bon endroit, propres, à disposition. » Avec le Data Lake, les entreprises ont souvent confondu le moyen et la finalité. Pour éviter ces écueils, une autre approche est nécessaire.
Comment mieux utiliser un Data Lake ?
« Maintenant que la vague du Big Data est passée, que l’on est un peu plus mûr sur la valorisation de la donnée, que ce soit via la business intelligence ou l’intelligence artificielle avec le Machine Learning, on entre dans une nouvelle phase » estime Christophe Tricot.
Il faut regrouper les données en ayant en tête l’usage que l’on veut en faire
Mais même dans le pire des cas, un Data Lake présentera un mérite : le dé-silotage effectif des organisations. Les données ne sont plus la propriété ni exploitées par les seuls métiers, le marketing, les RH, les opérations, les ventes, etc. qui les génèrent ou les utilisent. Le Data Lake doit contribuer à s’extraire d’un fonctionnement en silos et à faciliter l’accès aux données.
Quid de la qualité et de la fraîcheur des données ?
Par ailleurs, le principal challenge d’un Data Lake reste la qualité des données. Cette question doit être traitée en amont, afin que les données présentes dans le Data Lake soient de qualité et véritablement exploitables.
Christophe Tricot estime cependant primordial de se concentrer d’abord sur l’usage, puis d’améliorer la qualité des données. « Si on attend que tout soit propre pour faire quelque chose, on risque de ne jamais rien faire. »
Combien coûte un Data Lake ?
Les coûts d’un Data Lake sont multiples : coûts d’infrastructure, coûts des compétences pour la mise en place et le maintien en condition opérationnelle, ainsi que les coûts de gestion pour le contrôle et la mise en qualité des données.
Le rythme de mise à jour des données du Data Lake est une question clé
Au final, un Data Lake « coûte très cher », des millions d’euros, au point que la question de son coût et du retour sur investissement tient parfois du « tabou ». Une réponse est ainsi de plus en plus de basculer les lacs de données dans le Cloud.
Un Data Lake est-il indispensable ?
Un Data Lake est-il indispensable ? La réponse est non. « De plus en plus de nos clients s’en passent, notamment parce que c’est cher et que cela ne s’y prête pas. » Si l’objectif d’une entreprise est de faire de l’intelligence artificielle et du Machine Learning, celle-ci aura d’abord besoin d’un datalab. Ce datalab comprendra notamment des Data Scientists. Or ces derniers ont généralement besoin de données structurées.
Pour exploiter les données du Data Lake, le mieux est d’en extraire des parties pour chacun des usages
Une grande entreprise, présente à l’international, disposant d’un système d’information complexe, comme dans le cas d’une banque, pourra plus aisément tirer avantage d’un Data Lake et simplifier l’accès aux données. « Un Data Lake n’est pas indispensable. Il est pertinent lorsque l’organisation est assez importante, avec des usages peu définis encore, et pour simplifier l’accès aux données, pas au sens technique, mais organisationnel » synthétise Christophe Tricot.
Faut-il un Data Lake chez soi ou dans le Cloud ?
Culturellement, les entreprises ont dans un premier temps opté pour le déploiement d’un Data Lake sur leur propre infrastructure informatique, ce que l’on appelle on-premise. En raison des coûts inhérents à ces projets, la tendance est désormais à une migration rapide dans le Cloud, notamment le Cloud public à partir des offres AWS (Amazon Web Service) , Azure de Microsoft ou Google Cloud.
Pour une meilleure montée en puissance, le Cloud apparaît comme une évolution naturelle
Même le Health Data Hub qui va centraliser les expérimentations sur les données de santé des Français, a fait le choix d’un fournisseur Cloud. « Même pour des sujets comme les données de santé, les entreprises n’envisagent pas aujourd’hui de faire du on-premise. » Le basculement sur le Cloud s’est de fait amorcé en 2019 parmi les grandes entreprises, qui se donnent deux ans pour l’opérer. Christophe Tricot estime ainsi que d’ici deux ans, 80% des Data Lake seront situés dans le Cloud.
Exclusif stratégie Data
La banque BPCE en attente de son Data Lake pour passer à la vitesse supérieure
La donnée devient la clé de la transformation digitale. C’est ce que souligne Laurent Mignon, président de la banque BPCE (Banque Populaire Caisse d’Epargne), 2ème banque de détail en France. La priorité du groupe bancaire est la disponibilité d’un Data Lake.