Qu’est-ce qu’un data lake ? I IBM

Qu'est-ce qu'un data lake ?

Inventé à l’origine par l’ancien directeur technique de Pentaho, un data lake est un environnement de stockage à faible coût, qui héberge généralement des pétaoctets de données brutes.

Contrairement à un entrepôt de données, un data lake peut stocker à la fois des données structurées et non structurées, et il ne nécessite pas de schéma défini pour stocker les données, une caractéristique connue sous le nom de « schéma à la lecture ». Cette flexibilité en matière de stockage est particulièrement utile pour les data scientists, les ingénieurs en traitement de données et les développeurs, car elle leur permet d’accéder aux données pour des exercices de découverte de données et des projets de machine learning.

Un récent rapport Voice of the Enterprise (lien externe à ibm.com) de 451 Research a révélé que près des « trois quarts (71 %) des entreprises utilisent ou testent actuellement un environnement de data lake ou prévoient de le faire dans les 12 prochains mois, et 53 % des entreprises interrogées sont déjà en cours de déploiement ou de preuve de concept (POC) ». Les personnes interrogées dans ce rapport soulignent que l’agilité commerciale est l’un des principaux avantages de leurs déploiements, qui peuvent varier. Elles ont également constaté que les data lakes sont généralement hébergés dans le cloud ou sur site via les centres de données d’une organisation.

Alors que les utilisateurs trouvent de la valeur dans les data lakes, certains peuvent être victimes de devenir des marécages ou des puits de données. Un marécage de données est le résultat d’un data lake mal géré, c’est-à-dire qu’il manque de pratiques adaptées en matière de qualité et de gouvernance des données pour fournir des informations pertinentes. En l’absence d’une surveillance adéquate, les données contenues dans ces référentiels seront inutilisables. Les puits de données, quant à eux, sont similaires aux marécages de données en ce sens qu’ils n’apportent qu’une faible valeur ajoutée à l’entreprise. Cependant, la source du problème de données n’est pas claire dans ces cas-là. De même, la participation des équipes chargées de la gouvernance et de la science des données peut contribuer à éviter ces écueils.

IBM nommé leader par IDC

Découvrez pourquoi IBM a été nommé leader dans le rapport IDC MarketScape : Worldwide AI Governance Platforms 2023.

Contenu connexe

Lire le guide à l’intention des responsables des données

Data lake ou entrepôt de données

Si les data lakes et les entrepôts de données stockent tous deux des données, chaque référentiel a ses propres exigences en matière de stockage, ce qui en fait un choix idéal pour différents scénarios. Par exemple, les entrepôts de données nécessitent un schéma défini pour répondre aux exigences spécifiques de l’analyse des données pour les sorties de données, telles que les tableaux de bord, les visualisations de données et d’autres tâches de business Intelligence. Ces exigences sont généralement spécifiées par les utilisateurs professionnels et les autres parties prenantes concernées, qui utiliseront régulièrement les résultats du reporting. La structure sous-jacente d’un entrepôt de données est généralement organisée comme un système relationnel (c’est-à-dire dans un format de données structuré), dont les données proviennent de bases de données transactionnelles. Les data lakes, quant à eux, intègrent des données provenant de systèmes relationnels et non relationnels, ce qui permet aux data scientists d’incorporer des données structurées et non structurées dans un plus grand nombre de projets de science des données.

Chaque système présente également ses propres avantages et inconvénients. Par exemple, les entrepôts de données ont tendance à être plus performants, mais à un coût plus élevé. Les data lakes peuvent être plus lents à renvoyer les résultats des requêtes, mais leurs coûts de stockage sont moindres. En outre, la capacité de stockage des data lakes en fait la solution idéale pour les données d’entreprise.

Data lake ou data lakehouse

Alors que l’adoption des data lakes et des entrepôts de données ne fera qu’augmenter avec la croissance des nouvelles sources de données, les limites de ces deux référentiels de données conduisent à une convergence de ces technologies. Un data lakehouse associe les avantages en termes de coûts d’un data lake aux capacités de structure et de gestion des données d’un entrepôt de données. Selon un autre rapport d’enquête (lien externe à ibm.com) de 415 Research, « les deux tiers des entreprises utilisent ou pilotent déjà un environnement de data lakehouse ou prévoient de le faire dans les 12 mois ». En outre, ils ont constaté que 93 % des organisations qui ont adopté les data lakes prévoient également d’adopter un data lakehouse au cours des 12 prochains mois.

Architecture du data lake

Les data lakes sont également souvent associés à Apache Hadoop, un logiciel open source qui permet un traitement distribué fiable et peu coûteux pour le stockage de données volumineuses. Ils étaient traditionnellement déployés sur site, mais comme l’indique le rapport de 451 Research, les utilisateurs adoptent rapidement des environnements cloud car ils offrent une plus grande flexibilité aux utilisateurs finaux. Contrairement aux déploiements sur site, les fournisseurs de stockage dans le cloud permettent aux utilisateurs de créer de larges clusters en fonction de leurs besoins, en ne payant que pour le stockage spécifié. Cela signifie que si vous avez besoin d’une puissance de calcul supplémentaire pour exécuter un travail en quelques heures plutôt qu’en quelques jours, vous pouvez facilement le faire sur une plateforme cloud en achetant des nœuds de calcul supplémentaires. Selon Forrester Research (lien externe à ibm.com), les entreprises qui utilisent des data lakes dans le cloud plutôt que sur site réalisent des économies d’environ 25 %.

Au sein de Hadoop, le système de fichiers distribués Hadoop (HDFS) stocke et réplique les données sur plusieurs serveurs, tandis que le système YARN (Yet Another Resource Negotiator) détermine la manière d’allouer les ressources sur ces serveurs. Vous pouvez ensuite utiliser Apache Spark pour créer un grand espace mémoire pour le traitement des données, ce qui permet aux utilisateurs plus avancés d’accéder aux données via des interfaces utilisant Python, R et Spark SQL.

Le volume de données augmentant à un rythme exponentiel, les data lakes constituent un composant essentiel du pipeline de données.

Cas d'utilisation d'un data lake

Les data lakes étant principalement utilisés pour leur capacité à stocker de grandes quantités de données brutes, l’objectif commercial des données ne doit pas nécessairement être défini dès le départ. Cela dit, les deux principaux cas d’utilisation des data lakes sont décrits ci-dessous :

– Preuve de concepts (POC) : le stockage de data lake est idéal pour les projets de preuve de concept. Leur capacité à stocker différents types de données est particulièrement bénéfique pour les modèles de machine learning, car ils permettent d’intégrer des données structurées et non structurées dans les modèles prédictifs. Cela peut être pratique pour des cas d’utilisation tels que la classification de textes, car les data scientists ne peuvent pas exploiter les bases de données relationnelles à cette fin (du moins pas sans prétraiter les données pour qu’elles correspondent aux exigences du schéma). Les data lakes peuvent également servir de bac à sable pour d’autres projets d’analyse du big data. Cela peut aller du développement de tableaux de bord à grande échelle à la prise en charge d’applications IdO, qui nécessitent généralement des données en flux continu en temps réel. Une fois que l’objectif et la valeur des données ont été déterminés, elles peuvent être soumises à un traitement ETL ou ELT pour être stockées dans un entrepôt de données en aval.

– Sauvegarde et restauration des données : une capacité de stockage élevée et de faibles coûts de stockage permettent aux data lakes d’agir comme une alternative de stockage pour les incidents de reprise après sinistre. Ils peuvent également être utiles pour les audits de données afin de mettre en œuvre l’assurance qualité, car les données sont stockées dans leur format d’origine (c.-à-d. sans transformation). Cela peut être particulièrement utile si un entrepôt de données ne dispose pas de la documentation appropriée sur le traitement des données, permettant aux équipes de recouper le travail des propriétaires de données précédents.

Enfin, comme les données d’un data lake n’ont pas nécessairement besoin d’être stockées dans l’immédiat, il peut également s’agir d’un moyen de stocker des données froides ou inactives à un prix avantageux, qui peuvent être utiles ultérieurement pour des enquêtes réglementaires ou de nouvelles analyses nettes.

Avantages d'un data lake

Plus flexibles : les data lakes peuvent ingérer à la fois des jeux de données structurées, semi-structurées et non structurées, ce qui les rend idéaux pour les projets d’analyse avancée et de machine learning.

Coût : étant donné que les data lakes ne nécessitent pas autant de planification initiale pour l’ingestion des données (par ex. schéma et définition de la transformation), moins d’argent doit être investi dans les ressources humaines. En outre, les coûts de stockage réels des data lakes sont inférieurs à ceux d’autres référentiels de stockage, comme les entrepôts de données. Cela permet aux entreprises d’optimiser leurs budgets et leurs ressources de manière plus efficace dans le cadre de leurs initiatives de gestion des données.

Évolutivité : les data lakes peuvent aider les entreprises à évoluer de plusieurs façons. La fonctionnalité en libre-service et la capacité de stockage globale rendent les data lakes plus évolutifs que les autres services de stockage. En outre, les data lakes offrent aux travailleurs un bac à sable pour développer des POC réussis. Une fois qu’un projet a démontré sa valeur à petite échelle, il est plus facile d’étendre ce workflow à plus grande échelle grâce à l’automatisation.

Réduction des silos de données : des soins de santé à la chaîne d’approvisionnement, les entreprises de divers secteurs sont confrontées à des silos de données au sein de leur organisation. Étant donné que les data lakes ingèrent des données brutes dans différentes fonctions, ces dépendances commencent à disparaître car les jeux de données n’ont plus un seul propriétaire.

Amélioration de l’expérience client : même si cet avantage n’est pas immédiatement perceptible, une démonstration de faisabilité réussie peut améliorer l’expérience globale de l’utilisateur en permettant aux équipes de mieux comprendre et de personnaliser le parcours du client grâce à des analyses nouvelles et perspicaces.

Défis d'un data lake

Si les data lakes offrent un certain nombre d’avantages, ils ne sont pas sans poser de problèmes. En voici quelques-uns :

– Performances : à mesure que le volume de données injecté dans un data lake augmente, cela se fait au détriment des performances, qui sont déjà plus lentes que celles des autres systèmes de stockage de données alternatifs.

Gouvernance : si la capacité d’un data lake à ingérer diverses sources de données offre aux entreprises un avantage dans leurs pratiques de gestion des données, une gouvernance solide est également nécessaire pour le gérer de manière appropriée. Les données doivent être étiquetées et classées avec des métadonnées pertinentes afin d’éviter les marécages de données, et ces informations doivent être facilement accessibles par le biais d’un catalogue de données, permettant une fonctionnalité en libre-service pour le personnel moins technique, comme les analystes commerciaux. Enfin, des garde-fous doivent également être mis en place pour respecter les normes réglementaires et de protection de la vie privée ; il peut s’agir de contrôles d’accès, de chiffrement des données, etc.

Solutions connexes

Solutions de lac de données

Alimentez vos applications, l'analytique et l'IA avec n'importe quelles données dans un cloud de données ouvert.

Découvrez les solutions de data lake

Ressources

IBM + Cloudera

En savoir plus sur le partenariat d’IBM et de Cloudera pour fournir une plateforme de données d’entreprise pour le cloud hybride.

Gouvernance intelligente des données et data lakes

Découvrez les bonnes pratiques pour garantir la qualité, l’accessibilité et la sécurité des données en tant que fondement d’une architecture de données centrée sur l’IA.

State Bank of India

Découvrez comment la State Bank of India a utilisé plusieurs solutions IBM, ainsi que la méthodologie IBM Garage, pour développer une plateforme bancaire en ligne complète.

Qu’est-ce qu’un data lakehouse ?

Découvrez la prochaine évolution des solutions de gestion des données sur le marché.

Passez à l’étape suivante

Faites évoluer les workloads d’IA pour toutes vos données n’importe où avec IBM watsonx.data, un entrepôt de données adapté à vos besoins basé sur une architecture data lakehouse ouverte.

Découvrir watsonx.data

Réserver une démo en direct