On parle de Big Data quand il s’agit des données de navigation des internautes sur un site Web, des données des opérateurs téléphoniques ou celles de la grande distribution. En revanche, les données de recensement d’un pays ou les transactions immobilières annuelles ne sont pas du Big Data.
Quand le Big Data est-il vraiment du Big Data ? « De manière générale, tout ce qui reste téléchargeable sur internet c’est forcément du ‘small data’ parce que sinon on ne pourrait pas le télécharger à cause du débit d’internet » définit Olivier Grisel, Ingénieur logiciel à l’INRIA, l’Institut National de Recherche en Informatique et en Automatique. Il s’exprimait le 16 Juin à l’événement USI de Octo Technology, à Paris.
« Une vraie copie d’internet, c’est du vrai Big Data. C’est tout de suite en tonnes de données que ça se compte et l’énergie qui va avec » poursuit l’ingénieur. « Suite au projet Internet Archive [NDLR : organisme à but non lucratif consacré à l’archivage du web], 10 péta octets de données publiques avaient été atteintes en 2012, ce qui équivaut à 10 tonnes à peu près » illustre l’ingénieur.
Des millions d’utilisateurs
De même, c’est du Big Data, « si on enregistre toutes les données brutes recueillies par les opérateurs téléphoniques lorsqu’un mobile se connecte aux bornes GSM permettant de tracer le téléphone et de router ses données, cela fait plusieurs millions d’événements par jour. Voire beaucoup plus, vu qu’il y a plusieurs millions d’utilisateurs qui téléphonent et se déplacent régulièrement, donc on arrive sur des volumétries assez grosses » évoque Olivier Grisel.
Idem, avec les informations concernant les terminaux de paiement, ou les bases de données transactionnelles de la grandes distribution, de gros chiffres sont atteints. C’est le cas aussi pour certains sites web et applications mobiles. « Si on enregistre tous les clics, et en général on le fait pour des raisons d’’Analytics’, tout de suite on arrive sur des gros chiffres pour les données brutes » ajoute Olivier Grisel.
Si c’est cher à acquérir, ce n’est pas du Big Data
« Par opposition, ce qui n’est pas Big Data, c’est ce qui coûte cher à acquérir » estime Olivier Grisel. « Tout ce qui est sondage en général, on paye déjà suffisamment cher pour n’avoir que quelques milliers de points, ce n’est clairement pas du Big Data » explique-t-il.
Il poursuit. « Même dans le cas d’un sondage exhaustif d’une population, c’est à dire d’un recensement, donc le nombre de personnes dans un pays, un sondage par an c’est de l’ordre de dizaine de milliers de points voire de centaines de millions pour les gros pays, 100 millions par an, ce n’est pas si gros que ça » affirme-t-il.
« Si on considère les transactions de l’immobilier, les gens ne changent pas d’appartement tous les jours, donc cela reste des volumes relativement raisonnables » conclut l’ingénieur.
Photo : Olivier Grisel, ingénieur logiciel de l’INRIA, l’institut national de recherches en informatique et en automatique, le 16 Juin à l’événement USI d’Octo Technology à Paris.
Morgane Mons
Morgane Mons est journaliste spécialisée dans les nouvelles technologies et la transformation numérique des entreprises. Esprit Geek, passionnée de multimédia, retrouvez ses actualités sur son fil twitter.