Le mythe du Big Data à faible coût
On l'entend depuis plusieurs années maintenant, à chaque salon, conférence ou présentation: le big data est non seulement la solution miracle mais, en plus, son coût est très faible. Alors, vérité ou simple discours marketing? Une partie de la réponse se trouve dans le titre de ce post: c'est dans la grande majorité des cas un mythe, mais pas toujours :) Revenons sur les raisons qui motivent ce mythe. Hadoop, puisqu'il s'agit souvent de l'écosystème retenu dans les projets Big Data, est une solution open source permettant de stocker, manipuler, requêter de grandes volumétries de données (comprenez plusieurs téra octet). Elle repose sur un principe simple et vieux comme l'informatique: la parallélisation du stockage des données d'une part et des traitements d'autre part. Jusque-là, pas de mystère. Et on retrouve cette même logique en matière de préconisations d'infrastructure. En effet, on parle souvent de cluster hadoop car un projet Big Data sollicite un ensemble de machines virtuel ou physique. Voilà deux leviers suffisant pour introduire des coûts croissants dans l'engrenage...
En effet, qui dit open source dit souvent compétences techniques pointus derrières (pour mettre en place ces technologies souvent non packagés, résoudre les dépendances, les mettre à jour...). La solution qui s'est naturellement imposée est la désormais très célèbre distribution hadoop, avec des grands noms tels que Cloudera, HortonWorks ou MapR: ces éditeurs fournissent une solution tout en une gratuite, mais facturent le support et la formation qui sont rapidement plébiscités par l'entreprise. La difficulté de trouver des profils techniques s'est donc déporté vers des coûts de montée en compétence de l'équipe en place. Côté matériel, mes expériences révèlent la gourmandise des grandes entreprises qui, sous couvert de Big Data, n'hésite plus à passer commande de serveurs aux capacités démesurées (afin de virtualiser le cluster Hadoop) là où, à l'origine, le big data utilisé par les GAFAs* mettaient en avant le célèbre dicton "diviser pour régner" en utilisant (réutilisant) un parc de nombreuses machines aux capacités modestes.
On peut donc faire du big data à faible coût mais les choix (et parfois contraintes) opérés aujourd'hui tirent sur les coûts dans le fameux triangle coût-qualité-délais.
*GAFA: Google, Apple, Facebook, Amazon
Leave a Comment: