Qu'est-ce qu'un data lake ?

16 janvier 2025

Auteurs

Matthew Kosinski

Enterprise Technology Writer

Qu'est-ce qu'un data lake ?

Un data lake est un environnement de stockage de données à faible coût conçu pour traiter des volumes massifs de données brutes dans n’importe quel format, y compris des données structurées, semi-structurées et non structurées. La plupart des data lakes utilisent le stockage d’objets dans le cloud, comme AWS S3, Google Cloud Storage ou IBM Cloud Object Storage.

Les data lakes ont été créés pour aider les entreprises à gérer le flot de big data (dont une grande partie est non structurée) généré par les applications et les services connectés à Internet à la fin des années 2000 et au début des années 2010.  

Contrairement aux bases de données et aux entrepôts de données traditionnels, les data lakes ne nécessitent pas que toutes les données suivent un schéma défini. Ils peuvent au contraire stocker différents types de données dans des formats variés au sein d’un référentiel centralisé. Les data lakes tirent également parti du cloud computing pour rendre le stockage des données plus évolutif et plus abordable.

Les data lakes sont aujourd’hui des composants essentiels des architectures de données de nombreuses organisations. Selon l’étude IBM auprès des directeurs des données (CDO), 75 % des principaux CDO investissent dans les data lakes. 

Grâce à leur stockage flexible, ces derniers peuvent aider les entreprises à éliminer les silos de données et à créer des data fabrics holistiques. Ils sont également utiles aux data scientists et aux ingénieurs de données, qui les emploient souvent pour gérer les énormes jeux de données non structurées nécessaires aux workloads d’intelligence artificielle (IA) et de machine learning (ML).

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

L’évolution des data lakes

Pendant longtemps, les entreprises ont eu recours à des bases de données relationnelles (développées dans les années 1970) et à des entrepôts de données (développés dans les années 1980) pour gérer leurs données. Ces solutions constituent toujours des éléments importants des écosystèmes informatiques de nombreuses entreprises, mais elles ont été conçues principalement pour des jeux de données structurés.

Avec l’essor d’Internet, et en particulier l’arrivée des réseaux sociaux et des médias en streaming, les entreprises ont dû gérer beaucoup plus de données non structurées, telles que des textes et des images en format libre. En raison de leurs schémas stricts et de leurs coûts de stockage relativement élevés, les entrepôts de données et les bases de données relationnelles étaient peu adaptés pour gérer cet afflux de données.  

En 2011, James Dixon, alors directeur de la technologie chez Pentaho, a inventé le terme « data lake ». Dixon voyait le data lake comme une alternative à l’entrepôt de données. Alors que les entrepôts fournissent des données prétraitées pour des cas d’utilisation métier ciblés, Dixon imaginait un data lake comme un grand volume de données hébergées dans leur format naturel. Les utilisateurs pouvaient extraire les données dont ils avaient besoin de ce lake et les exploiter à leur guise.

La plupart des premiers data lakes ont été construits sur Apache Hadoop, un cadre logiciel open source pour le traitement distribué de grands jeux de données. Ces premiers data lakes étaient hébergés sur site, ce qui est rapidement devenu problématique à mesure que le volume de données continuait d’augmenter.

Le cloud computing a offert une solution : déplacer les data lakes vers des services de stockage d’objets dans le cloud plus évolutifs.

Les data lakes ne cessent d’évoluer. Nombreuses sont les solutions de data lake qui ne se contentent plus de proposer un stockage évolutif et bon marché, alliant désormais outils de sécurité des données et de gouvernance, catalogues de données et gestion des métadonnées.

Les data lakes sont également des composants essentiels des data lakehouses, une solution de gestion des données relativement nouvelle qui allie le stockage à faible coût d’un lake et les capacités d’analyse haute performance d’un entrepôt. (Pour en savoir plus, voir « Data lakes ou data lakehouses »).

AI Academy

La gestion des données est-elle le secret de l’IA générative ?

Découvrez pourquoi des données de haute qualité sont essentielles pour une utilisation réussie de l’IA générative.

Architecture du data lake

Alors que les premiers data lakes reposaient sur Hadoop, le cœur d’un data lake moderne est un service de stockage d’objets dans le cloud. Les options les plus courantes sont Amazon Simple Storage Service (Amazon S3), Microsoft Azure Blob Storage, Google Cloud Storage et IBM Cloud Object Storage.

Le stockage d’objets dans le cloud permet aux entreprises de stocker différents types de données brutes dans un même magasin de données. Il est également généralement plus évolutif et plus rentable que le stockage sur site. Les fournisseurs de stockage dans le cloud permettent aux utilisateurs de créer de grands clusters à la demande, en ne payant que pour le stockage consommé.

Dans une architecture de data lake, les ressources de stockage et de calcul sont séparées les unes des autres. Pour traiter les données, les utilisateurs doivent se connecter à des outils de traitement de données externes. Apache Spark, qui prend en charge des interfaces telles que Python, R et Spark SQL, est un choix populaire.

La dissociation du stockage et du calcul permet de maintenir les coûts à un faible niveau et d’assurer une grande évolutivité. Les entreprises peuvent ajouter davantage de stockage sans augmenter les ressources de calcul en parallèle.  

Le stockage central du data lake est connecté à diverses sources de données (telles que des bases de données, des applications, des dispositifs de l’Internet des objets (IdO) et des capteurs) par le biais d’une couche d’ingestion.  

La plupart des data lakes ont recours à un processus d’extraction, de chargement et de transformation (ELT) plutôt qu’à un processus d’extraction, de transformation et de chargement (ETL) pour ingérer les données. Les données restent dans leur état d’origine lorsque le data lake les ingère, et elles ne sont pas transformées tant qu’elles ne sont pas nécessaires. Cette approche, qui consiste à appliquer un schéma uniquement lorsque les données sont consultées, est appelée « schéma à la lecture ».

En plus de ces composants de base, les entreprises peuvent intégrer d’autres couches dans leurs architectures de data lake pour les rendre plus sûres et plus conviviales. Ces couches peuvent inclure :

  • Plusieurs couches de stockage distinctes pour s’adapter aux différentes étapes du traitement des données. Par exemple, un data lake peut avoir une couche pour les données brutes, une autre pour les données nettoyées et une autre encore pour les données d’application fiables. 

Data lakes, entrepôts de données et data lakehouses

Les data lakes, les entrepôts de données et les lakehouses sont tous des types d’outils de gestion des données, mais ils présentent des différences importantes. Ils sont souvent associés dans une architecture de données intégrée pour prendre en charge divers cas d’utilisation.  

Data lakes ou entrepôts de données

À l’instar d’un data lake, un entrepôt de données regroupe des données provenant de sources disparates dans un seul et même endroit, généralement un système de base de données relationnelle. La principale différence réside dans le fait que les entrepôts de données nettoient et préparent les données qu’ils ingèrent afin qu’elles soient prêtes à être analysées.

Les entrepôts de données sont principalement conçus pour prendre en charge les requêtes haute performance, l’analyse en temps quasi réel et les efforts de business intelligence (BI). Ils sont donc optimisés pour les données structurées et étroitement intégrés aux moteurs d’analyse, aux tableaux de bord et aux outils de visualisation des données.

Les entrepôts ont tendance à avoir un stockage plus coûteux, moins flexible et moins évolutif que les data lakes. Les entreprises emploient généralement les entrepôts pour des projets d’analyse spécifiques, tandis qu’elles s’appuient sur les data lakes pour le stockage polyvalent à grande échelle.  

Data lakes ou data lakehouses

Un data lakehouse est une solution de gestion des données qui combine le stockage flexible des données d’un data lake et les capacités d’analyse haute performance d’un entrepôt.

Comme un data lake, un data lakehouse peut stocker des données dans n’importe quel format à faible coût. Les data lakehouses construisent également une infrastructure d’analyse de type entrepôt au-dessus de ce système de stockage de data lake dans le cloud, fusionnant les fonctionnalités des deux solutions.  

Les organisations peuvent utiliser les lakehouses pour prendre en charge de nombreuses workloads, notamment l’IA, le ML, la BI et l’analyse de données. Les data lakehouses peuvent également servir de voie de modernisation pour les architectures de données. Les entreprises peuvent les intégrer aux data lakes et aux entrepôts existants sans avoir à remplacer tout le système, une opération coûteuse.  

Cas d’utilisation des data lakes

Stockage polyvalent

De nombreuses entreprises se servent des data lakes comme solutions de stockage polyvalentes pour les données entrantes, car elles peuvent facilement héberger des pétaoctets de données, quel que soit leur format.  

Plutôt que de mettre en place différents pipelines de données pour différents types de données, les entreprises peuvent stocker toutes les données entrantes dans un data lake. Les utilisateurs peuvent soit accéder directement aux données du data lake, soit les déplacer vers un entrepôt ou une autre plateforme de données selon les besoins.

Les entreprises peuvent même recourir aux data lakes pour stocker des données « préventives » destinées à des cas d’utilisation encore indéfinis. Comme les data lakes sont peu coûteux et évolutifs, les entreprises n’ont pas à se soucier de dépenser des ressources pour des données sans utilité immédiate.

Sauvegardes, archives et données inactives 

Grâce à leurs capacités de stockage élevées et à leurs faibles coûts, les data lakes sont fréquemment privilégiés pour les sauvegardes et la reprise après sinistre.

Les data lakes peuvent également être un moyen de stocker des données froides ou inactives à bas prix. Ce procédé permet d’archiver d’anciennes données et de conserver des enregistrements historiques qui peuvent être utiles pour les audits de conformité, les enquêtes réglementaires ou même de nouvelles analyses ultérieures.

Workloads d'IA et de ML

Les data lakes jouent un rôle important dans les workloads d’IA, de ML et d’analyse de big data, comme la création de modèles prédictifs et la formation d’applications d’IA générative. Ces projets exigent de vastes quantités de données non structurées, que les data lakes peuvent traiter de manière économique et efficace.  

Selon une étude menée par IBM, 72 % des PDG les plus performants s’accordent pour dire que l’avantage concurrentiel revient aux entreprises qui disposent des outils d’IA générative les plus avancés. Étant donné l’importance de l’IA et du ML, les data lakes s’imposent désormais comme un investissement incontournable pour de nombreuses entreprises.

Intégration des données 

Les data lakes peuvent contribuer à soutenir les initiatives d’intégration des données, qui visent à regrouper et à harmoniser les données provenant de sources multiples afin de les exploiter à des fins analytiques, opérationnelles et décisionnelles.

Selon les données de référence de l’IBM Institute for Business Value, 64 % des entreprises déclarent que l’un de leurs plus grands défis en matière de ressources humaines est de surmonter les obstacles organisationnels au partage des données. Des études révèlent que jusqu’à 68 % des données organisationnelles ne sont jamais analysées. Les entreprises ne peuvent pas tirer pleinement parti de leurs données si les employés ne peuvent pas les utiliser quand ils en ont besoin.

Les data lakes peuvent faciliter l’accès aux données et leur partage en offrant aux entreprises un moyen simple de stocker tous les types de données dans un référentiel central accessible.

Les avantages des data lakes

Les data lakes peuvent aider les entreprises à tirer davantage de valeur de leurs données métier en facilitant leur stockage, leur partage et leur utilisation. Ainsi, les data lakes peuvent fournir :

  • Flexibilité : les data lakes peuvent ingérer des ensembles de données structurées, semi-structurées et non structurées. Les entreprises n’ont pas besoin de maintenir des systèmes de stockage distincts pour différents types de données, ce qui peut contribuer à simplifier les architectures de données.

  • Faibles coûts : les données ne doivent pas passer par un processus coûteux de nettoyage et de transformation pour le stockage, et le stockage d’objets dans le cloud est généralement plus abordable que les alternatives sur site. Les entreprises peuvent optimiser plus efficacement leurs budgets et leurs ressources dans le cadre de leurs initiatives de gestion des données.

  • Évolutivité : étant donné que les data lakes dissocient les ressources de calcul et de stockage et qu’ils ont généralement recours à des services de stockage dans le cloud, ils sont plus faciles à faire évoluer que de nombreuses autres solutions de stockage de données. 

  • Réduction des silos de données : selon les données de référence de l’IBM Institute for Business Value, 61 % des entreprises déclarent que les silos de données constituent l’un de leurs principaux défis. Les data lakes peuvent contribuer à éliminer ces silos en supprimant la nécessité de stocker divers types de données à différents endroits. Un data lake central ou un ensemble de data lakes peut être plus accessible que des magasins de données disparates répartis dans différentes unités commerciales.  

Les défis liés aux data lakes

Gouvernance et qualité des données

Parce qu’ils n’appliquent pas de schéma strict et qu’ils acceptent différents types de données provenant d’innombrables sources, les data lakes peuvent poser des défis en matière de gouvernance et de qualité des données. Sans une gestion appropriée, ils peuvent facilement se transformer en « marécages », à savoir des bourbiers de données peu fiables qui empêchent les utilisateurs de glaner des informations exploitables.

Pour lutter contre les marécages de données, les organisations peuvent investir dans des outils de marquage et de classification, tels que des systèmes de gestion des métadonnées et des catalogues de données, qui facilitent la navigation. 

Les solutions de gouvernance et de sécurité des données, telles que les contrôles d’accès, les outils de prévention des pertes de données et les solutions de détection et de réponse aux incidents liés aux données, peuvent contribuer à garantir que les données ne sont pas consultées, utilisées ou modifiées sans autorisation.  

Performances

Les data lakes ne disposent pas d’outils de traitement et d’interrogation intégrés, contrairement à de nombreux entrepôts et lakehouses. De plus, les performances de requête et d’analyse peuvent être affectées par l’augmentation du volume de données alimentant un data lake, en particulier si les données ne sont pas optimisées pour la récupération.

L’utilisation des outils et configurations adéquats, tels que des formats de stockage et des moteurs de requête optimisés, peut contribuer à garantir des performances élevées, quelle que soit la taille du data lake.

Solutions connexes
IBM watsonx.data

Exploitez vos données où qu’elles se trouvent grâce à un data lakehouse hybride et ouvert pour l’IA et l’analytique.

Découvrir watsonx.data
Solutions de lac de données

Relevez les défis des données d’aujourd’hui grâce à une architecture de data lakehouse. Connectez-vous aux données en quelques minutes, obtenez rapidement des informations fiables et réduisez les coûts de votre entrepôt de données.

Découvrez les solutions IBM Data Lake
Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique
Passez à l’étape suivante

Élaborez une stratégie de gestion des données qui élimine les silos, réduit la complexité et améliore la qualité des données pour offrir une expérience client et collaborateur exceptionnelle.

Découvrir les solutions de gestion des données Découvrir watsonx.data