5 problématiques Cloud – Big Data

5-problématiques-Cloud_big_data

Depuis quelques années déjà, j’observe avec attention l’inexorable avancée du phénomène Cloud computing. L’une de mes attributions étant de faire une veille médiatique constante sur ce sujet je constate que les articles et réflexion se concentrent autour de 5 grandes problématiques :

  • sécurité
  • souveraineté
  • législation
  • Big Data
  • impact sur l’organisation

Après avoir traité précédemment de la sécurité, de la souveraineté, et de la législation, je vais aujourd’hui aborder l’un des domaines qui tire le plus grand parti de la puissance du Cloud : les « Big Data ».

4 – Les « Big Data »

« Big Data » est un terme relativement récent, et qui a connu une popularité fulgurante depuis 2 ans, au point d’être omniprésent dans l’actualité IT ces dernières semaines. Le sujet est désormais régulièrement traité par les media grand public, y compris au journal télévisé. Mais que recouvre exactement ce terme ?

Il est intéressant de poser quelques bases, car ce concept est à la fois flou et protéiforme. Il peut présenter différents aspects, que nous allons tenter de cerner en préambule. Puis nous verrons ses connexions avec le Cloud Computing.

On peut définir le « Big Data » comme étant la capacité à recueillir puis traiter une quantité très importante de données, pour en extraire des informations pertinentes et nouvelles.

Sur cette simple définition, on constate que le « Big Data » va concerner les entreprises (mais aussi les particuliers) sur 4 aspects distincts, qui seront nous le verrons facilités par le Cloud :

  1. recueil de données en grande quantité
  2. stockage de ces données
  3. agglomération et traitement des données
  4. utilisation et interaction des « néodata », les nouvelles données issues des premières

Intéressons-nous successivement à ces 4 points.

1 – Recueil des données nécessaires au « Big Data »

Si le « Big Data » a pu éclore, et devenir un phénomène « de mode », c’est d’abord une question de changement d’échelle. Le recueil de données sur la clientèle, et leur exploitation, n’a rien de nouveau. On peut parier qu’il était déjà de mise au moment de la révolution industrielle au 19 ème siècle, avec des moyens artisanaux. Mais 2 phénomènes concomitants sont venus changer la donne : l’invention et l’utilisation des nouvelles technologies, notamment mobiles, donnant naissance à de nouveaux terminaux adoptés par un très large public (smartphones, tablettes, gps, portables…) et  l’émergence du Cloud computing donne de nouvelles capacités de recueil, stockage et traitement.

Ces nouveaux terminaux mobiles sont à l’origine d’une quantité de données phénoménale, qu’il est difficile d’imaginer. En 2020, IDC (5) estime que la quantité de données générée sera de 40 Zo (ZettaOctets), soit 57 fois supérieure au nombre de grains de sable à la surface de la terre !
Pour prendre la mesure d’une telle quantité de données, il faut savoir que si l’on devait les enregistrer sur un support « BluRay », le seul poids des disques nécessaires serait égal à celui de 424 porte-avions.

Big-Data-3

Ce phénomène est amplifié par l’arrivée des objets connectés. Ceux-ci ne sont plus des terminaux conçus spécifiquement pour la communication, mais des objets ayant une fonction originelle propre (détecteur de fumée, de présence, électroménager, vêtements…) auxquels on a ajouté des facultés de recueils et d’envoi d’informations. C’est la naissance de l’Internet des Objets, ou « Internet of Things » (IoT). Grâce à cette explosion d’objets « mobiles » et « connectés », de nombreuses entreprises, quelle que soit leur taille, sont désormais en mesure de recueillir un grand volume de données, soit de façon active (c’est à dire auprès de clients ou utilisateurs conscients et ayant donné leur consentement), soit de façon passive : tout objet connecté envoie des données en permanence, qu’il sera possible d’analyser si on les a stocké et « tagué ». La notion de « tag » est essentielle, car une grande partie des données est « perdue » (non exploitable ou analysable) du fait de l’absence de marqueurs.

Par ailleurs, et c’est important de le rappeler, les données deviennent aussi une monnaie d’échange essentielle. Il sera très probablement possible de les acheter auprès des grandes compagnies qui les détiennent, parfois à l’insu de leurs utilisateurs. Même si la législation existe en matière de protection des données personnelles, on peut parier qu’elle aura bien du mal à rattraper les usages, et à être appliquée, du fait du caractère impalpable et délocalisé des informations (par exemple, quelle juridiction sera compétente ?). Ainsi que l’a déclaré un cadre de Google, dans un proche avenir, la vie privée risque de devenir « anormale » (2). D’où la valorisation boursière de grandes compagnies comme Facebook ou Twitter, qui n’est pas en rapport avec leur chiffre d’affaire, mais plutôt avec leur capacité à capter, générer, traiter, voire un jour revendre des données dans un cadre « Big Data ».

Big-Data-1B

2 – Le stockage et l’apport du Cloud computing

Une telle quantité de données ne serait rien si elles étaient disséminées sur une myriade de terminaux répartis à la surface de la planète. Il serait alors quasi impossible de recouper et d’analyser les données existantes, ou même d’en avoir connaissance. Au delà du phénomène mobilité cité précédemment, c’est bien l’émergence du Cloud computing qui permet d’envisager aujourd’hui leur exploitation.

En dématérialisant en théorie le stockage de données et leur traitement, le Cloud computing a en fait tendance (paradoxalement) à concentrer et relier entre elles ces données autrefois disparates. Si les serveurs du Cloud sont délocalisés, ils sont bels et bien reliés (ou « reliables ») les uns aux autres, chose qui n’étaient pas forcément le cas autrefois. Ceci a permis l’augmentation exponentielle de données exploitables et analysables, interconnectées, et non plus simplement « stockées ». Il faut pour cela disposer d’outils techniques qui ont fait leur apparition il y a quelques années, tels que NoSQL, nous le verrons dans le chapitre suivant.

D’où la possibilité pour une entreprise utilisant le Cloud de disposer désormais d’un grand volume de données émanant de différentes filiales, de sites d’exploitation éloignés, de points de vente multiples, ou d’une multitude d’utilisateurs disséminés, y compris dans différents pays, mais toutes interconnectées et manipulables simultanément. Et ceci pour un coût relativement faible, et sans nécessité d’investir lourdement dans des infrastructures, ce qui est l’un des avantages intrinsèques du Cloud computing.

De ce fait, même si pour le moment le Big Data est plutôt l’apanage des grands comptes et des entreprises internationales, rien n’interdit de le voir se développer vers les PME – ETI dans les mois qui viennent, surtout si un « marché » des données se met en place pour « enrichir » la base existante des PME.

Mais restera alors à traiter cette information pléthorique de façon pertinente, ce qui nécessite une grande capacité de calcul et de nouvelles technologies d’analyses. D’où une nouvelle fois l’apport du Cloud, ce que nous verrons dans la seconde partie de cet article.

(à suivre)

Laurent Hercé, Marketor / SaaS Guru

à lire pour aller plus loin sur ce sujet :

(1) Le Big Data pour les nuls

(2) Du Big à l’Open Data : aperçu des enjeux juridiques

(3) 6 chiffres clés de la Data

(4) 57 fois plus de données numériques que de grains de sable dans le monde

(5) Rapport IDC : « The Digital Universe in 2020″ (pdf)

(6) Pourquoi le Big Data n’inventera jamais rien

(7) Le coté obscur de Big Data

(8) Big Data, tous les modèles économiques sont concernés

(9) Pourquoi les Big Datas nous angoissent

(10) Big Data : non, vous n’êtes pas prêt

(11) Serveurs Power8 : IBM revendique le leadership dans le Big Data

Les commentaires sont ferme.