Le data lakehouse est une plateforme de données qui regroupe les meilleurs aspects des entrepôts de données et des data lakes au sein d’une seule et même solution de gestion des données.
Le data lakehouse et l’architecture de gouvernance d’IBM pour les environnements cloud hybrides sont ancrés dans sa plateforme watsonx.data. Ce data lakehouse hybride et ouvert permet aux entreprises de mettre l’analytique et l’IA à l’échelle, et fournissant un magasin de données robuste, qui repose sur une architecture ouverte de data lakehouse. L’architecture allie la performance et l’utilisabilité d’un entrepôt de données à la flexibilité et l’évolutivité d’un data lake, afin d’offrir une solution adaptée aux tâches de gestion des données et d’analytique.
La plateforme watsonx.data est proposée sous forme d’offre SaaS et de solution sur site. Les clients implantés dans une zone géographique non concernée par l’offre SaaS, ou contraints de conserver la plateforme de data lakehouse sur site pour des raisons réglementaires ou autres, disposent de plusieurs options de déploiement flexibles pour profiter des fonctionnalités de data lakehouse en tout lieu :
Data lakehouse : watsonx.data est l’architecture de magasin de données nouvelle génération qui allie les atouts des data lakes et des entrepôts de données. Il s’agit d’un élément essentiel de l’approche de data lakehouse d’IBM, qui facilite la mise à l’échelle des workloads d’IA et de machine learning (ML), tout en garantissant une gouvernance efficace des données.
Plateforme d’IA générative : le data lakehouse peut être connecté à une plateforme d’IA générative pour augmenter les requêtes grâce aux LLM. Les utilisateurs saisissent un prompt qui est envoyé à un LLM affiné pour générer des requêtes de récupération à exécuter par les moteurs pris en charge dans le data lakehouse.
Schéma de lakehouse 1 : plusieurs moteurs de requête adaptés à l’usage
Utiliser des capacités de calcul adaptées pour optimiser les coûts en employant le bon moteur pour chaque workload, tout en partageant simultanément les données et les métadonnées entre les différents moteurs, le métastore partagé (c’est-à-dire Catalogue de données) et le même environnement.
Schéma de lakehouse 2 : vue unifiée de toutes vos données
Les data lakehouses permettent une approche moderne des architectures de données actuelles. Les entreprises se sont construit au fil des années plusieurs magasins de données cloisonnés pour répondre à différents besoins, des entrepôts de données d’entreprise structurés et hautement performants aux data lakes non structurés/semi-structurés à volume élevé, qui se transforment la plupart du temps en marais de données (duplication, qualité des données, manque de gouvernance). Avec watsonx.data, votre data lakehouse vous fournira une couche d’accès unique aux différents magasins de données associant plusieurs moteurs de requête, formats de données ouverts et gouvernance, sans avoir à déplacer les données.
Schéma de data lakehouse 3 : améliorer les workloads des entrepôts de données pour optimiser les coûts
Réduire les coûts d’entreposage, tout en conservant les capacités de requête temporelle, grâce au faible coût de stockage et de calcul du lakehouse et à la possibilité pour les différents moteurs de requête de consommer le même jeu de données. Les moteurs de requête tels que Spark permettent d’effectuer des requêtes Vacuum/matérialisées dans l’état actuel des données (par exemple, pas tout l’historique de modification des données), ce qui réduit la taille des requêtes et leur coût de calcul. En outre, les capacités de prétraitement et de transformation sélective des data lakehouses permettent une distribution optimale des workloads de l’entrepôt de données et, implicitement, une réduction des coûts.
Schéma de lakehouse 4 : déploiement multi-cloud hybride
Connexion et accès à distance aux données du cloud hybride, avec mise en cache des sources distantes.
Schéma de data lakehouse 5 : intégrer les données mainframe dans un écosystème analytique
Synchroniser et intégrer les données Db2 for z/OS à des fins d’analytique lakehouse ; analyser les données VSAM et Db2 sur le mainframe en temps réel. La virtualisation des données interroge systématiquement les données à partir du mainframe, avec des considérations de charge supplémentaires, tandis que l’outil CDC recueille les informations au format Iceberg selon la fréquence définie par l’administration (sans ajouter de charge à votre mainframe, mais aussi sans fournir de données en temps réel).
Le choix du moteur de requête dépend généralement du type de données à interroger.