Inventé à l'origine par l'ancien directeur technique de Pentaho, un lac de données est un environnement de stockage à faible coût, qui abrite généralement des pétaoctets de données brutes. Contrairement à un entrepôt de données, un lac de données peut stocker à la fois des données structurées et non structurées, et il ne nécessite pas de schéma défini pour stocker les données, une caractéristique connue sous le nom de "schéma en lecture". Cette souplesse dans les exigences de stockage est particulièrement utile pour les scientifiques des données, les ingénieurs de données et les développeurs, car elle leur permet d'accéder aux données dans le cadre d'exercices de découverte de données et de projets d'apprentissage automatique.
Un récent rapport Voice of the Enterprise (lien externe à ibm.com) de 451 Research a déterminé que près de "trois quarts ( 71 %) des entreprises utilisent actuellement ou pilotent un environnement de lac de données ou prévoient de le faire dans les 12 prochains mois, et 53 % des répondants sont déjà en cours de déploiement ou preuve de concept". Les personnes interrogées dans ce rapport soulignent l'agilité de l'entreprise comme un avantage clé de leurs déploiements, qui peuvent varier. Ils ont également constaté que les lacs de données sont généralement hébergés soit dans le cloud, soit "sur site" dans les centres de données d'une organisation.
Alors que les adoptants trouvent une valeur ajoutée dans les lacs de données, certains d'entre eux peuvent se transformer en des marais ou des puits de données. Un marais de données est le résultat d'un lac de données mal géré, c'est-à-dire qu'il ne dispose pas des pratiques appropriées en matière de qualité et de gouvernance des données pour fournir des informations pertinentes. Sans une surveillance adéquate, les données contenues dans ces référentiels seront rendues inutiles. Les puits de données, quant à eux, sont similaires aux marais de données en ce sens qu'ils n'apportent que peu de valeur commerciale, mais la source du problème des données n'est pas claire dans ces cas. De même, l'implication des équipes de gouvernance des données et de science des données peut aider à se prémunir contre ces pièges.
Si les lacs de données et les entrepôts de données stockent tous deux des données, chaque référentiel a ses propres exigences en matière de stockage, ce qui fait de chacun un choix idéal pour différents scénarios. Par exemple, les entrepôts de données nécessitent un schéma défini pour répondre aux exigences spécifiques de l'analyse des données pour les sorties de données, telles que les tableaux de bord, les visualisations de données et d'autres tâches de business intelligence. Ces exigences sont généralement spécifiées par les utilisateurs professionnels et les autres parties prenantes concernées, qui utiliseront régulièrement les résultats des rapports. La structure sous-jacente d'un entrepôt de données est généralement organisée comme un système relationnel (c'est-à-dire dans un format de données structurées), qui s'approvisionne en données auprès de bases de données transactionnelles. Les lacs de données, en revanche, intègrent des données provenant de systèmes relationnels et non relationnels, ce qui permet aux scientifiques des données d'intégrer des données structurées et non structurées dans davantage de projets de science des données.
Chaque système a également ses propres avantages et inconvénients. Par exemple, les entrepôts de données ont tendance à être plus performants, mais ils ont un coût plus élevé. Les lacs de données peuvent être plus lents à renvoyer les résultats des requêtes, mais leurs coûts de stockage sont moins élevés. En outre, la capacité de stockage des lacs de données en fait un outil idéal pour les données d'entreprise.
Alors que l'adoption des lacs de données et des entrepôts de données ne fera qu'augmenter avec la croissance de nouvelles sources de données, les limites des deux référentiels de données conduisent à une convergence de ces technologies. Un data lakehouse allie les avantages économiques d'un lac de données à la structure des données et aux capacités de gestion des données d'un entrepôt de données. Selon un autre rapport d'enquête (lien externe à ibm.com) de 415 Research, "les deux tiers des entreprises utilisent ou pilotent déjà un environnement de type data lakehouse, ou prévoient de le faire dans les 12 mois." En outre, cette étude a révélé que 93 % des organisations qui ont adopté les lacs de données prévoient également d'adopter un data lakehouse dans les 12 prochains mois.
Les lacs de données sont également couramment associés à Apache Hadoop, une infrastructure logicielle open source qui fournit un traitement distribué fiable et peu coûteux pour le stockage de données volumineuses. Ils étaient traditionnellement déployés sur site, mais comme l'indique le rapport de 451 Research, les adoptants se tournent rapidement vers les environnements cloud car ils offrent plus de flexibilité aux utilisateurs finaux. Contrairement aux déploiements sur site, les fournisseurs de stockage dans le cloud permettent aux utilisateurs de créer de grands clusters selon les besoins, en ne faisant payer que le stockage spécifié. Cela signifie que si vous avez besoin d'une puissance de calcul supplémentaire pour exécuter une tâche en quelques heures plutôt qu'en quelques jours, vous pouvez facilement le faire sur une plateforme cloud en achetant des nœuds de calcul supplémentaires. Forrester Research (lien externe à ibm.com) révèle que les entreprises qui utilisent des lacs de données dans le cloud plutôt que des lacs de données sur site réalisent des économies d'environ 25 %.
Dans Hadoop, Hadoop Distributed File System (HDFS) stocke et réplique les données sur plusieurs serveurs tandis que Yet Another Resource Negotiator (YARN) détermine comment allouer les ressources sur ces serveurs. Vous pouvez ensuite utiliser Apache Spark pour créer un grand espace mémoire pour le traitement des données, ce qui permet aux utilisateurs plus avancés d'accéder aux données via des interfaces utilisant Python, R et Spark SQL.
Alors que le volume de données augmente à un rythme exponentiel, les lacs de données constituent un élément essentiel du pipeline de données.
Les lacs de données étant principalement utilisés pour leur capacité à stocker de grandes quantités de données brutes, l'objectif commercial des données ne doit pas nécessairement être défini dès le départ. Cela dit, deux principaux cas d'utilisation des lacs de données sont présentés ci-dessous :
- Preuve de concepts (POC) : Le stockage dans un lac de données est idéal pour les projets de preuve de concept. Leur capacité à stocker différents types de données est particulièrement bénéfique pour les modèles d'apprentissage automatique car ils offrent la possibilité d'intégrer des données structurées et non structurées dans les modèles prédictifs. Cela peut être utile pour des cas d'utilisation tels que la classification de texte, car les scientifiques des données ne peuvent pas utiliser les bases de données relationnelles pour cela (du moins pas sans prétraitement des données pour répondre aux exigences du schéma). Les lacs de données peuvent également servir de bac à sable pour d'autres projets d'analyse de données volumineuses. Cela peut aller du développement de tableaux de bord à grande échelle à la prise en charge d'applications IoT, qui nécessitent généralement des données en continu en temps réel. Après avoir déterminé l'objectif et la valeur des données, on peut les soumettre à un processus ETL ou ELT pour les stocker dans un entrepôt de données en aval.
- Sauvegarde et récupération de données : La capacité de stockage élevée et les faibles coûts de stockage des lacs de données permettent à ces derniers de servir d'alternative de stockage en cas de reprise après incident. Ils peuvent également être utiles pour les audits de données afin de renforcer l'assurance qualité, car les données sont stockées dans leur format natif (c'est-à-dire sans transformation). Cela peut être particulièrement utile si un entrepôt de données ne dispose pas de la documentation appropriée sur le traitement des données, ce qui permet aux équipes de recouper le travail des anciens propriétaires des données.
Enfin, étant donné que le stockage des données dans un lac de données n'a pas nécessairement besoin d'une finalité immédiate, il peut aussi être un moyen de stocker des données froides ou inactives à un prix économique, qui peuvent être utiles ultérieurement pour des enquêtes réglementaires ou de nouvelles analyses précises.
Plus flexible : Les lacs de données peuvent ingérer des ensembles de données structurés, semi-structurés et non structurés, ce qui les rend idéaux pour les projets d'analyse avancée et d'apprentissage automatique.
Coût : Étant donné que les lacs de données ne nécessitent pas autant de planification initiale pour ingérer les données (par exemple, définition du schéma et de la transformation), l'investissement dans les ressources humaines est moindre. De plus, les coûts de stockage réels des lacs de données sont inférieurs à ceux d'autres référentiels de stockage, tels que les entrepôts de données. Les entreprises peuvent ainsi optimiser leurs budgets et leurs ressources de manière plus efficace pour l'ensemble des initiatives de gestion des données.
Évolutivité : Les lacs de données peuvent aider les entreprises à évoluer de plusieurs manières. La fonctionnalité de libre-service et la capacité de stockage globale rendent les lacs de données plus évolutifs par rapport aux autres services de stockage. De plus, les lacs de données fournissent un bac à sable qui permet aux travailleurs de développer des preuves de concept réussies. Une fois qu'un projet a démontré sa valeur à petite échelle, il est plus facile d'étendre ce flux de travail à plus grande échelle grâce à l'automatisation.
Silos de données réduits : Des soins de santé à la chaîne d'approvisionnement, les entreprises de divers secteurs connaissent des silos de données au sein de leur organisation. Étant donné que les lacs de données ingèrent des données brutes à travers différentes fonctions, ces dépendances commencent à s'éliminer d'elles-mêmes puisqu'il n'y a plus un seul propriétaire pour un ensemble de données spécifique.
Expérience client enrichie : Bien que cet avantage ne soit pas immédiatement visible, une preuve de concept réussie peut améliorer l'expérience globale de l'utilisateur, en permettant aux équipes de mieux comprendre et personnaliser le parcours du client grâce à des analyses inédites et perspicaces.
Bien que les lacs de données offrent un certain nombre d'avantages, ils ne sont pas sans présenter des défis. En voici quelques-uns :
- Performance : À mesure que le volume de données introduites dans un lac de données augmente, cela se fait au détriment des performances, qui sont déjà plus lentes que des autres systèmes de stockage de données.
- Gouvernance : Bien que la capacité d'un lac de données à ingérer diverses sources de données offre aux entreprises un avantage dans leurs pratiques de gestion des données, elle nécessite également une gouvernance solide pour assurer une gestion appropriée. Les données doivent être étiquetées et classées avec des métadonnées pertinentes pour éviter les marais de données, et ces informations doivent être facilement accessibles par le biais d'un catalogue de données, permettant une fonctionnalité en libre-service pour le personnel moins technique, comme les analystes commerciaux. Enfin, des garde-fous doivent également être mis en place pour respecter les normes de confidentialité et à la réglementation. Cela peut inclure des contrôles d'accès, le chiffrement des données, etc.
En savoir plus sur le partenariat entre IBM et Cloudera pour fournir une plateforme de données d'entreprise pour le cloud hybride.
Découvrez les meilleures pratiques pour garantir la qualité, l'accessibilité et la sécurité des données en tant que fondement d'une architecture de données centrée sur l'IA
Découvrez comment la State Bank of India a utilisé plusieurs solutions IBM, ainsi que la méthodologie IBM Garage™, pour développer une plateforme bancaire en ligne complète.