Le terme « big data » est souvent employé au sens large, ce qui crée une ambiguïté quant à son véritable sens.

Les mégadonnées ne se résument pas à des volumes massifs d’informations. Il s’agit plutôt d’un écosystème complexe de technologies, de méthodologies et de processus destinés à saisir, stocker, gérer et analyser de vastes volumes de données diverses.

Le concept de big data apparaît pour la première fois au milieu des années 1990, alors que les progrès en matière de technologies numériques permettent aux organisations de commencer à produire des données à des vitesses sans précédent. Au départ, ces jeux de données sont plus petits, structurés de manière classique et stockés dans des formats traditionnels.

Cependant, c’est avec le développement de l’Internet et de la connectivité numérique que le big data est véritablement né. L’explosion de nouvelles sources de données, des transactions en ligne aux interactions avec les réseaux sociaux, en passant par les téléphones portables et les appareils IdO, a créé un vivier d’informations qui s’est rapidement développé.

L’évolution fulgurante de la variété et des volumes de données pousse les organisations à trouver de nouvelles méthodes pour traiter et gérer efficacement ces données. Les premières solutions comme Hadoop introduisent le traitement de données distribué, où les données sont stockées sur plusieurs serveurs, ou « clusters », et non plus sur un seul système.

Cette approche distribuée permet l’exécution d’un traitement parallèle (les organisations peuvent traiter de grands jeux de données plus efficacement en répartissant le workload entre les clusters), et elle joue toujours un rôle critique à ce jour.

Des outils plus récents comme Apache Spark, le moteur analytique open source, ont introduit l’informatique en mémoire. Cela permet aux données d’être traitées directement dans la mémoire principale (RAM) du système pour des temps de traitement beaucoup plus rapides que la lecture traditionnelle du stockage sur disque.

Avec l’augmentation du volume des mégadonnées, les organisations ont également cherché de nouvelles solutions de stockage. Les data lakes sont devenus essentiels en tant que référentiels évolutifs pour les données structurées, semi-structurées et non structurées, offrant une solution de stockage flexible sans exiger de schémas prédéfinis (voir « Stockage du big data » ci-dessous pour plus d’informations).

Le cloud computing est également apparu pour révolutionner l’écosystème du big data. Les principaux fournisseurs de cloud computing ont commencé à proposer des options de stockage et de traitement évolutives et rentables.

Les organisations pouvaient ainsi éviter les investissements importants nécessaires pour le matériel sur site. Au contraire, elles pouvaient augmenter ou diminuer la puissance de stockage et de traitement des données en fonction de leurs besoins, en ne payant que pour les ressources qu’elles utilisaient.

Cette flexibilité a démocratisé l’accès à la science des données et à l’analyse, mettant les connaissances à la disposition des organisations de toutes tailles, au-delà des grandes entreprises disposant de budgets informatiques importants.

Le big data est donc devenu un atout essentiel pour les organisations de divers secteurs, et est à l’origine d’initiatives en matière de business intelligence, d’intelligence artificielle et de machine learning.