Qu'est-ce qu'un data lake ?

Qu'est-ce qu'un data lake ?

Un data lake est un référentiel conçu pour stocker de grands volumes de données brutes, généralement à l’aide d’un stockage d’objets cloud à faible coût. Cette approche permet l’ingestion et le stockage de données structurées, semi-structurées et non structurées au sein d’une seule plateforme.

Les data lakes ont été créés pour aider les entreprises à gérer le flot de mégadonnées généré par les applications et services connectés à Internet à la fin des années 2000 et au début des années 2010. Contrairement aux bases de données et aux entrepôts de données traditionnels, les data lakes n’imposent pas de schémas stricts. Ils utilisent un stockage cloud abordable et évolutif, idéal pour de grandes quantités de données variées.

Les data lakes sont désormais des composants essentiels des architectures de données dans de nombreuses entreprises. Ils sont utilisés comme stockage à faible coût et à usage général, comme archives pour les données anciennes ou inutilisées, comme zones de stockage pour les données entrantes ou pour stocker les ensembles de données non structurés massifs nécessaires aux workloads de science des données, de machine learning (ML), d’intelligence artificielle (IA) et d’analyse des mégadonnées.

Malgré l’évolution des besoins en matière de données et les architectures émergentes (telles que les data lakes), la flexibilité à faible coût des data lakes continue de s’avérer avantageuse pour les entreprises qui génèrent de la valeur à partir de grands volumes de données. D’ici 2030, le marché mondial des data lakes devrait atteindre 45,8 milliards de dollars, avec un taux de croissance annuel composé (TCAC) de 23,9 % par rapport à 2024.1

Pourquoi les data lakes sont-ils importants ?

Les volumes de données d’entreprise commencent à sembler aussi illimités que les étoiles dans le ciel : ils sont vastes, sans limites et apparemment sans fin.

Les données proviennent de capteurs d’Internet des objets (IdO), de réseaux sociaux, d’applications d’entreprise et d’innombrables autres sources. En l’absence d’un espace de stockage rentable et évolutif, les entreprises risquent de commettre une erreur stratégique : laisser des pétaoctets de données non identifiés et inutilisés.

Ces données pourraient détenir les informations nécessaires pour accéder à de nouvelles sources de revenus, stimuler une réelle efficacité opérationnelle ou offrir des expériences client hyper-personnalisées. Elles pourraient également être essentielles pour garantir l’efficacité et la rentabilité des investissements dans l’IA : 72 % des PDG vont jusqu’à dire que les données exclusives sont la clé pour accéder à la valeur de l’IA générative.2

Mais prendre conscience de la valeur de ces données dépend de plus qu’un simple endroit où les placer  un accès facile est également nécessaire à une utilisation collaborative. Selon une étude réalisée en 2025 par l’Institute for Business Value d’IBM, 82 % des responsables des données sondés considèrent que les données sont gaspillées si les employés ne peuvent pas y accéder pour prendre des décisions.3

En tant que référentiels centralisés, les data lakes peuvent améliorer de manière significative l’accessibilité aux données auparavant cloisonnées. Ils offrent généralement un accès aux données en libre-service, permettant aux utilisateurs non techniques d’accéder à des jeux de données fiables provenant de l’ensemble de l’entreprise et de les analyser, afin d’améliorer la collaboration et d’accélérer l’innovation.

L’histoire et l’évolution des data lakes

Pendant longtemps, les entreprises ont eu recours à des bases de données relationnelles (développées dans les années 1970) et à des entrepôts de données (développés dans les années 1980) pour gérer leurs données. Ces solutions constituent toujours des éléments importants des écosystèmes informatiques de nombreuses entreprises, mais elles ont été conçues principalement pour des jeux de données structurés.

Avec la croissance d’Internet, et en particulier l’arrivée des réseaux sociaux et du streaming, les entreprises se sont retrouvées confrontées à de grandes quantités de données non structurées, telles que du texte et des images en format libre. Les entrepôts de données et les bases de données relationnelles étaient mal équipés pour gérer cet afflux de données en temps réel en raison de leurs schémas stricts et de leurs coûts de stockage relativement élevés.

En 2011, James Dixon, alors directeur de la technologie chez Pentaho, a inventé le terme « data lake ». James Dixon voyait le data lake comme une alternative à l’entrepôt de données. Alors que les entrepôts fournissent des données traitées pour des cas d’utilisation métier ciblés, James Dixon imaginait un data lake comme un grand volume de données hébergées dans leur format naturel. Les utilisateurs pouvaient extraire les données dont ils avaient besoin de ce lake et les exploiter à leur guise.

Beaucoup des premiers data lakes ont été construits sur le système de fichiers distribué Hadoop (HDFS), un cadre open source et l’un des composants majeurs d’Apache Hadoop. Ces premiers data lakes étaient hébergés sur site, une caractéristique devenant rapidement un problème, alors que le volume de données continuait d’augmenter. Le cloud computing a offert une solution : déplacer les data lakes vers des services de stockage d’objets dans le cloud plus évolutifs.

Les data lakes ne cessent d’évoluer. Nombreuses sont les solutions de data lake qui ne se contentent plus de proposer un stockage évolutif et bon marché, alliant désormais outils de sécurité des données et de gouvernance, catalogues de données et gestion des métadonnées.

Les data lakes sont également des composants essentiels des data lakehouses, une solution de gestion des données relativement nouvelle qui allie le stockage à faible coût d’un lake et les capacités d’analyse haute performance d’un entrepôt.

Architecture du data lake

Une architecture typique de data lake est organisée en plusieurs couches, chacune prenant en charge une étape du cycle de vie des données.

  • Couche d’ingestion
  • Couche de stockage
  • Catalogue de données et couche de métadonnées
  • Traitement et couche analytique
  • Couche de sécurité et de gouvernance
  • Couche d’accès

Couche d’ingestion

La couche d’ingestion relie le stockage central du data lake à diverses sources de données, telles que des bases de données, des applications, des dispositifs d’Internet des objets (IdO) et des capteurs. La plupart des data lakes suivent un processus d’extraction, de chargement et de transformation (ELT) (plutôt qu’un processus d’extraction, de transformation et de chargement (ETL)) dans cette couche. Ils ingèrent des données dans leur état d’origine à partir de divers pipelines de données, mais ne les transforment pas avant d’en avoir besoin. Cette approche, qui consiste à appliquer un schéma uniquement lors de l’accès aux données, est appelée « schéma en lecture ».

Couche de stockage

Alors que les premiers data lakes étaient construits sur Apache Hadoop, le cœur d’un data lake moderne consiste en un service de stockage d’objets dans le cloud, qui peut être déployé dans des environnements sur site, de cloud privé et de cloud public. Parmi les options courantes, on peut citer Amazon Simple Storage Service (Amazon S3), Microsoft Azure Blob Storage, Google Cloud Storage et IBM Cloud Object Storage.

Le stockage d’objets dans le cloud permet aux entreprises de stocker différents types de données brutes dans un même magasin de données. Il est également généralement plus évolutif et plus rentable que le stockage sur site. Les fournisseurs de stockage dans le cloud permettent aux entreprises de mettre en place de grands clusters de stockage (des serveurs fonctionnant en un système unifié) à la demande, en ne payant que pour le stockage consommé.

Catalogue de données et couche de métadonnées

Le catalogue de données et la couche de métadonnées permettent aux utilisateurs de trouver et de comprendre les données au sein du data lake. Les catalogues de données constituent un inventaire détaillé des données. Ils utilisent des métadonnées (telles que l’auteur, les données de création et la taille du fichier) et des outils de gestion des données pour aider les utilisateurs à découvrir, comprendre, gérer, organiser et accéder facilement aux données.

Sans cette couche, les data lakes peuvent se détériorer et devenir des marécages de données, des groupes désordonnés où les bonnes données sont inaccessibles parce qu’elles manquent de métadonnées, de structure et de gouvernance. Les marécages de données sont en réalité des « dépotoirs » de données.

Traitement et couche analytique

Le stockage et le calcul étant séparés dans une architecture de data lake, le traitement et l’analyse des données sont effectués par l’intégration de moteurs de calcul. Sur cette couche, les data lakes prennent en charge une large gamme d’outils. Des exemples courants incluent les moteurs de traitement de mégadonnées tels qu’Apache, Spark et Hive, mais des cadres de machine learning et d’apprentissage profond tels que TensorFlow et des bibliothèques analytiques comme Pandas.

Couche de sécurité et de gouvernance

Avant tout, le stockage dans un data lake doit être sécurisé, surtout lorsqu’il contient des informations personnelles ou sensibles sur les employés et les clients. Les couches de sécurité et de gouvernance incluent des fonctionnalités telles que des solutions intégrées de gouvernance des données, le chiffrement et les contrôles d’accès via la gestion des identités et des accès (IAM). Ces solutions contribuent à la protection contre les accès non autorisés et à la gestion des données sur les autres couches.

Ces capacités aident également les entreprises à respecter les exigences réglementaires prévues par les lois sur la confidentialité des données telles que le Règlement général sur la protection des données (RGPD) et la loi américaine Health Insurance Portability and Accountability Act (HIPAA).

Couche d’accès

Un des principaux avantages des data lakes est qu’ils permettent d’accéder à des données brutes auparavant inaccessibles. La couche d’accès permet aux utilisateurs d’interroger, de découvrir et d’extraire des informations du data lake. Les utilisateurs en aval regroupent généralement des ingénieurs de données et des data scientists, ainsi que des utilisateurs professionnels avec moins d’expertise technique.

Cette couche utilise des interfaces de requête et des interfaces de programmation d’applications (API) pour connecter les utilisateurs aux données. Parmi les exemples courants, on peut citer les moteurs de requêtes SQL tels que Presto et les API Spark.

Mixture of Experts | 12 décembre, épisode 85

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Les avantages des data lakes

Les data lakes peuvent aider les entreprises à tirer davantage de valeur de leurs données en facilitant leur partage et leur utilisation. Ainsi, les data lakes peuvent fournir :

  • Collecte et ingestion de données flexibles et faciles
  • Optimisation des coûts et des ressources
  • Évolutivité et performances
  • Une prise de décision plus rapide et plus collaborative
Collecte et ingestion de données flexibles et faciles

Les data lakes peuvent ingérer et stocker des données dans une grande variété de formats, y compris des jeux de données structurés, semi-structurés et non structurés. Ils prennent également en charge plusieurs méthodes d’ingestion, qu’il s’agisse de téléchargements par lots ou de données de diffusion en temps réel. Cette flexibilité permet aux entreprises de collecter des données provenant de sources diverses (telles que les appareils IdO, les flux de réseaux sociaux ou les systèmes internes) sans avoir besoin de transformations complexes ou de solutions de stockage séparées.

Optimisation des coûts et des ressources

Avec les data lakes, les données peuvent être ingérées et stockées dans leur format brut natif, évitant ainsi de recourir à des processus de nettoyage et de transformation coûteux. Le stockage d’objets cloud est généralement plus rentable que les alternatives sur site, l’utilisation de technologies open source pour le traitement réduisant davantage les coûts. Ces économies permettent aux entreprises d’optimiser leurs processus de gestion des données et d’allouer plus efficacement le budget et les ressources entre les différentes initiatives.

Évolutivité et performances

Les data lakes découplent les ressources de calcul et de stockage et utilisent souvent des services de stockage dans le cloud, ce qui permet de dimensionner la capacité et le calcul plus facilement que de nombreuses autres solutions de stockage de données. Cette architecture permet de gérer la croissance massive des données (critique pour les workloads d’IA et de ML) sans perte de performance.

Une prise de décision plus rapide et plus collaborative

Les data lakes peuvent aider à réduire les silos de données en unifiant l’information en une source d’information unique accessible à travers l’entreprise, plutôt que répartie entre les différentes unités commerciales. Les analystes et les data scientists n’ont pas besoin de passer du temps à accéder directement à de multiples sources et peuvent au contraire accéder rapidement aux données dont ils ont besoin, les interroger et les utiliser.

Ce référentiel centralisé aide à accélérer la préparation des données, encourage la réutilisation et soutient une prise de décision plus collaborative basée sur les données. Grâce à ces avantages, les entreprises peuvent également bénéficier d’efforts d’innovation, de recherche et de développement accélérés.

Entrepôts de données, data lakes et data lakehouses

Les data lakes, les entrepôts de données et les data lakehouses sont tous des types distincts de solutions de stockage de données. Mais leurs différences se complètent et ils sont souvent utilisés ensemble dans une architecture de données intégrée pour soutenir divers cas d’utilisation.

Data lakes ou entrepôts de données

Comme un data lake, un entrepôt de données regroupe des données provenant de sources disparates dans un magasin central. La principale différence réside dans le fait que les entrepôts de données nettoient et préparent généralement les données avant leur ingestion afin qu’elles soient immédiatement prêtes pour l’analytique.

Les entrepôts sont optimisés pour les données structurées et étroitement intégrés aux moteurs d’analyse, aux tableaux de bord de business intelligence (BI) et aux outils de visualisation des données. Ainsi, les entrepôts ont tendance à offrir de fortes performances mais à un coût plus élevé et avec moins de flexibilité que les data lakes. Les entreprises utilisent généralement des entrepôts de données pour des projets d’analytique spécifiques tout en s’appuyant sur des data lakes pour le stockage de données à grande échelle. 

Data lakes ou data lakehouses

Un data lakehouse est une solution de gestion des données qui combine le stockage flexible et peu coûteux des données d’un data lake et les capacités d’analyse haute performance d’un entrepôt.Tout comme un data lake, un data lakehouse peut stocker des données dans n’importe quel format à un coût peu élevé. Cependant, il fournit également une infrastructure analytique de type entrepôt en plus du stockage du data lake dans le cloud. 

Les entreprises peuvent utiliser les lakehouses pour prendre en charge de nombreux workloads, notamment l’IA, le ML, la BI et l’analytique en temps réel. Les lakehouses peuvent également servir de voie de modernisation pour les architectures de données. Les entreprises peuvent les intégrer aux data lakes et aux entrepôts existants sans avoir à remplacer tout le système, une opération coûteuse.

Cas d’utilisation des data lakes

Les entreprises peuvent utiliser les data lakes pour de nombreuses raisons, quel que soit leur secteur d’activité. En voici quelques-unes :

  • Stockage polyvalent
  • Sauvegardes des données et archivage
  • Analytique avancée et IA
  • Intégration des données

Stockage polyvalent

Pour de nombreuses entreprises, les data lakes constituent des solutions de stockage polyvalentes pour de grands volumes de données. Plutôt que de consacrer du temps et des ressources à la transformation des données en vue de leur ingestion, les entreprises peuvent stocker les données brutes entrantes dans un espace de stockage d’objets évolutif, qui peut facilement héberger des pétaoctets de données dans pratiquement n’importe quel format. Les utilisateurs peuvent soit interroger les données du data lake directement à l’aide d’un moteur analytique, soit les déplacer vers un entrepôt ou une autre plateforme de données selon leurs besoins.

Les entreprises peuvent aussi recourir aux data lakes pour stocker des données « préventives » destinées à des cas d’utilisation encore indéfinis. Comme le stockage d’objets est peu coûteux et évolutif, les entreprises n’ont pas à se soucier de dépasser leurs budgets pour des données sans utilité immédiate.

Sauvegarde et archivage des données

Une grande capacité de stockage et des coûts de stockage relativement faibles font des data lakes un composant courant des stratégies de sauvegarde et de reprise après sinistre pour les données critiques. Les data lakes sont également fréquemment utilisés pour stocker des données froides ou inactives à moindre coût. Cette approche est utile pour archiver d’anciennes données et conserver des enregistrements passés en vue d’audits de conformité, d’enquêtes réglementaires ou de futurs cas d’utilisation analytiques.

Par exemple, le secteur bancaire et financier génère des données transactionnelles à grande vitesse provenant des marchés boursiers, des cartes bancaires et d’autres activités financières. Il doit également conserver les documents juridiques et autres dossiers pour répondre aux exigences réglementaires et d’audit. Les architectures des data lakes sont bien adaptées pour stocker ces formats de données mixtes et préserver l’héritage et les données historiques afin de faciliter les requêtes.

Analytique avancée et IA

Selon l’étude sur les PDG menée par IBM en 2025, 61 % des PDG les plus performants reconnaissent que le fait de disposer des outils d’IA générative les plus avancés confère un avantage concurrentiel à leur entreprise. Les data lakes jouent un rôle important dans les workloads d’IA, de ML et d’analyse de mégadonnées, notamment dans la construction de modèles prédictifs et l’entraînement de systèmes d’IA générative.

Ces projets nécessitent l’accès à de grands jeux de données diversifiés, qu’ils soient structurés, non structurés ou semi-structurés. L’architecture du data lake offre des capacités de stockage évolutif et d’intégration avec des cadres de traitement pour répondre à ces besoins.

Intégration des données

Selon les données d’analyse comparative de l’IBM Institute for Business Value, 64 % des entreprises déclarent que l’élimination des obstacles organisationnels au partage des données est l’un de leurs plus grands défis en termes de ressources humaines. Les entreprises ne peuvent pas tirer pleinement avantage de leurs données si celles-ci sont cloisonnées et difficiles d’accès.

Les data lakes peuvent contribuer aux initiatives d’intégration des données en fournissant un référentiel centralisé pour les données provenant de sources multiples. En consolidant des données diverses dans un seul environnement, ils créent une base solide pour l’harmonisation et la transformation en aval.

Les défis liés aux data lakes

Bien que les data lakes offrent évolutivité, flexibilité et avantages en termes de coûts, les entreprises doivent prendre en compte trois principaux défis.

  • Qualité des données : les data lakes n’imposant pas un schéma strict et acceptant de nombreux types de données provenant de nombreuses sources, ils peuvent rencontrer des difficultés avec la gouvernance des données et la qualité des données. Sans une gestion appropriée, les data lakes peuvent facilement devenir des marécages de données.

  • Sécurité des données : les data lakes stockent de grands volumes de données diverses provenant de sources variées. Il peut être difficile de s’assurer que toutes ces données ne sont pas consultées, utilisées ou modifiées sans autorisation et qu’elles respectent pleinement les réglementations en matière de confidentialité des données.

  • Performance : les data lakes ne disposent pas d’outils de traitement et d’interrogation intégrés, contrairement à de nombreux entrepôts et lakehouses. Les performances de requête et d’analyse peuvent être affectées par l’augmentation du volume de données alimentant un data lake, en particulier si les données ne sont pas optimisées pour la récupération.
Techsplainers | Podcast | Qu’est-ce qu’un data lake ?

Écouter : Qu’est-ce qu’un data lake ?

Suivez le podcast Techsplainers : Spotify, Apple Podcasts et Casted.

Questions fréquentes sur les data lakes

Comment éviter le marécage de données ?

Éviter les marécages de données nécessite une gouvernance des données, une qualité des données et des pratiques de sécurité des données dès le premier jour. Définir et appliquer des normes de données, une gestion des métadonnées, la documentation et des contrôles d’accès contribueront à garantir que les data lakes restent organisés, utiles et sécurisés.

Dinesh Nirmal, vice-président senior d’IBM Software, souligne que ces principes sont particulièrement critiques lors de la préparation des data lakes pour soutenir l’IA générative :

« Bien que les données ne soient pas structurées, il est important d’appliquer la même gouvernance et les mêmes mesures de sécurité que pour les données structurées. Il y a là une énorme opportunité : l’IA générative ne peut réussir que si nous fournissons aux modèles des données fiables et gouvernées. »

Ai-je vraiment besoin d’un data lake ?

Vous n’aurez peut-être pas besoin d’un data lake à moins de gérer de grands volumes de données semi-structurées et de données non structurées pour l’IA, le machine learning ou la science des données. Les data lakes offrent un stockage cloud évolutif et rentable avec un calcul séparé. Par ailleurs, un data lakehouse associe cette évolutivité aux capacités d’analyse de données intégrées d’un entrepôt de données.

Les data lakes sont-ils sécurisés ?

Les data lakes ne sont pas sécurisés par défaut et peuvent être des cibles privilégiées des menaces de sécurité, car se sont des référentiels centralisés de grands volumes de données (dont certaines sont des informations sensibles). Les data lakes sécurisés utilisent le chiffrement des données, les contrôles d’accès et les protections réseau pour protéger les jeux de données contre les accès non autorisés.

Peut-on exécuter le machine learning directement sur un data lake ?

Oui, les data lakes sont parfaitement adaptés au machine learning car ils stockent des volumes massifs de données brutes et diversifiées nécessaires à l’entraînement, à la validation, au réglage et au déploiement des modèles de ML. Grâce à des moteurs de traitement de données et d’analytique (comme Apache Spark), les équipes de science des données peuvent accéder et préparer des jeux de données brutes directement dans le data lake pour concevoir et affiner leurs modèles.

Auteurs

Alexandra Jonker

Staff Editor

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

Solutions connexes
IBM watsonx.data

Exploitez vos données où qu’elles se trouvent grâce à un data lakehouse hybride et ouvert pour l’IA et l’analytique.

Découvrir watsonx.data
Solutions de lac de données

Relevez les défis des données d’aujourd’hui grâce à une architecture de data lakehouse. Connectez-vous aux données en quelques minutes, obtenez rapidement des informations fiables et réduisez les coûts de votre entrepôt de données.

Découvrez les solutions IBM Data Lake
Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique
Passez à l’étape suivante

Pour prospérer, les entreprises doivent exploiter les données pour fidéliser leur clientèle, automatiser les processus métier et innover avec des solutions pilotées par l’IA.

  1. Explorer les solutions d’analytique
  2. Découvrir les services d’analytique
Notes de bas de page