Du Big Data à l’écologie des données : créer les usines de traitement des lacs de données


Face au déluge de données quotidien il est impératif de s’organiser et de réfléchir aux moyens d’en tirer de la valeur, sans stress. Voici donc une petite analogie écologique qui devrait vous aider à y voir plus clair.

Impossible d’accéder aux données

Tout d’abord, les données – comme les matières premières – sont abondantes mais pas toujours accessibles. S’il est vrai que les entreprises et les particuliers génèrent toujours plus de données, il est courant de ne pas pouvoir y accéder. Ainsi, dans les grandes entreprises, quelle ne sera pas votre surprise lorsque que vous découvrirez que le premier obstacle à votre projet Big Data est le « protectionnisme des données ».


Quoiqu’il en soit, il vous faudra d’abord faire la liste des sources de données. Vous aurez ainsi une cartographie des rivières de données alimentées par vos clients, vos systèmes et vos réseaux sociaux. Puis, il vous faudra convaincre l’informatique (données internes) et vos fournisseurs (via des API ou des exports réguliers) de vous y donner accès (créer des canalisations, aménager les rives).

Protéger les données 


Une fois les accès autorisés, il faudra discuter avec le département Juridique et de la sécurité pour mettre en place des règles éthique et déontologiques d’accès et de gestion des données privées. La nouvelle loi européenne dans le domaine de la protection des données s’appliquera à tous les états européens de la même manière en 2015, et vous ne pourrez pas y échapper.

Ensuite, on passe de ces rivières de données au Lac de données (« Data Lake »). Les données peuvent être structurées et disponibles dans des bases de données (bien rangées) ou au contraire, ne pas être structurées, et être disponible « en vrac » (fichier de logs, documents bureautiques). Or le besoin actuel est de stocker de gros volumes de données à structures variables, dont on ne sait pas à l’avance comment elles vont être utilisées et analysées.

Créer un lac de données

C’est là qu’entre en scène le concept « de lac de données ». Un lac de données est totalement plat, sans structure. La structure est créée au moment de l’analyse par les usines de traitement. Vous n’échapperez néanmoins pas aux discussions avec vos équipes d’infrastructures car les volumes de données à déplacer (sur le réseau, du réseau vers les disques, des disques vers les caches mémoire, etc.), et à stocker peuvent atteindre des proportions considérables. Par exemple Kayak gère plus de 40 millions de lignes dans 43 tables de faits chaque jour. Allez vous tous réaliser en interne, allez vous passer au Cloud privé, public ? Combien de temps conserver les données ?

Il y a enfin, les usines de (re)traitement. Une fois vos lacs de données prêts, il reste à leur donner de la valeur via les usines de traitement. Ces usines peuvent être « prêtes à l’emploi », comme par exemple dans le cas d’un moteur de recherche (ElasticSearch associé à Kibana pour des données Métier ou Splunk pour des données systèmes par exemple).

La mort de MapReduce

Ou alors, ces usines sont livrées en kits et doivent être mises en œuvre en fonction des besoins (Hadoop en est le meilleur exemple). Il est d’ailleurs difficile de s’y retrouver tant le domaine est en pleine expansion. Google annonce la mort de MapReduce alors que la plupart des entreprises n’ont pas même commencé à s’en servir.

Des nouveaux outils et une nouvelle version de Hadoop est en approche avec Spark (enfin en Version 1) et sa galaxie de modules qui gravitent autour. Attention, les usines de traitement se programment. Et cela aussi sera une surprise pour beaucoup ! Gérer les flux, lancer les travaux, mais aussi utiliser des fonctions statistiques et prédictives (avec R, le langage de programmation préféré des « data scientists ») tout est code. Le point and click n’existe pas !

Adopter une approche par flux

L’écologie des Big Data est un sujet que vous ne pouvez plus éviter, et qui conditionnera la réussite de vos projets. Définissez les règles de gouvernance très tôt, adoptez une approche par flux, et parcourez les rives de la connaissance.

William El Kaim

William El Kaim est expert reconnu de la transformation digitale. Consultant indépendant, et auteur pour la Revue du Digital, il a exercé les responsabilités de "Marketing Technology Director" dans le domaine du voyage d'affaires. Il a contribué à l'invention de multiples concepts et produits digitaux, ainsi qu'au déploiement réussi d'un réseau social d'entreprise.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *