Leadspace remanié en s’appuyant sur le leadspace Watson pour l’assistance client.
Aperçu

Le data lakehouse est une plateforme de données qui regroupe les meilleurs aspects des entrepôts de données et des data lakes au sein d’une seule et même solution de gestion des données.

Le data lakehouse et l’architecture de gouvernance d’IBM pour les environnements cloud hybrides sont ancrés dans sa plateforme watsonx.data. Ce data lakehouse hybride et ouvert permet aux entreprises de mettre l’analytique et l’IA à l’échelle, et fournissant un magasin de données robuste, qui repose sur une architecture ouverte de data lakehouse. L’architecture allie la performance et l’utilisabilité d’un entrepôt de données à la flexibilité et l’évolutivité d’un data lake, afin d’offrir une solution adaptée aux tâches de gestion des données et d’analytique.

Déploiement

La plateforme watsonx.data est proposée sous forme d’offre SaaS et de solution sur site. Les clients implantés dans une zone géographique non concernée par l’offre SaaS, ou contraints de conserver la plateforme de data lakehouse sur site pour des raisons réglementaires ou autres, disposent de plusieurs options de déploiement flexibles pour profiter des fonctionnalités de data lakehouse en tout lieu :

  1. Provisionner watsonx.data SaaS sur IBM Cloud ou AWS.
  2. Déployer watsonx.data comme solution autonome complétant OpenShift sur site ou d’autres hyperscalers avec OpenShift géré.
  3. Déployer watsonx.data comme composant du cluster IBM CloudPak for Data (CP4D).
Déployer watsonx.data comme composant du cluster IBM CloudPak for Data (CP4D).
Une architecture de data lakehouse permettant d’utiliser plusieurs moteurs de requête adaptés à l’usage, qui peuvent accéder simultanément aux mêmes données
  • Sources de données : il s’agit notamment de données structurées provenant de bases de données et d’applications, de données non structurées provenant de fichiers, de réseaux sociaux, d’appareils connectés (IdO), etc., ainsi que d’entrepôts de données d’entreprise et d’autres magasins de données non structurées provenant d’applications client sur site et du SaaS.

  • Applications client  : certains clients disposent d’applications sur site, ou SaaS avec leur propre magasin de données (structurées et non structurées) dont les données se trouvent en dehors du data lake. Ces clients peuvent vouloir amener ces données dans le data lakehouse pour faciliter les requêtes.

  • Data lakehouse : watsonx.data est l’architecture de magasin de données nouvelle génération qui allie les atouts des data lakes et des entrepôts de données. Il s’agit d’un élément essentiel de l’approche de data lakehouse d’IBM, qui facilite la mise à l’échelle des workloads d’IA et de machine learning (ML), tout en garantissant une gouvernance efficace des données.
     

  • Plateforme d’IA générative : le data lakehouse peut être connecté à une plateforme d’IA générative pour augmenter les requêtes grâce aux LLM. Les utilisateurs saisissent un prompt qui est envoyé à un LLM affiné pour générer des requêtes de récupération à exécuter par les moteurs pris en charge dans le data lakehouse.

Schémas de lakehouse

Schéma de lakehouse 1 : plusieurs moteurs de requête adaptés à l’usage

Utiliser des capacités de calcul adaptées pour optimiser les coûts en employant le bon moteur pour chaque workload, tout en partageant simultanément les données et les métadonnées entre les différents moteurs, le métastore partagé (c’est-à-dire Catalogue de données) et le même environnement.

Plusieurs moteurs de requête adaptés aux besoins : utilisez une puissance de calcul optimisée pour réduire les coûts en sélectionnant le moteur le plus adapté à chaque workload.
Une architecture de data lakehouse permettant d’utiliser plusieurs moteurs de requête pour optimiser les coûts et la performance.

Schéma de lakehouse 2 : vue unifiée de toutes vos données

Les data lakehouses permettent une approche moderne des architectures de données actuelles. Les entreprises se sont construit au fil des années plusieurs magasins de données cloisonnés pour répondre à différents besoins, des entrepôts de données d’entreprise structurés et hautement performants aux data lakes non structurés/semi-structurés à volume élevé, qui se transforment la plupart du temps en marais de données (duplication, qualité des données, manque de gouvernance). Avec watsonx.data, votre data lakehouse vous fournira une couche d’accès unique aux différents magasins de données associant plusieurs moteurs de requête, formats de données ouverts et gouvernance, sans avoir à déplacer les données.

Une interface unifiée pour accéder à toutes vos données sans avoir à les déplacer. Une architecture de data lakehouse pour fournir une couche d’accès unique (vue unifiée) à tous les magasins de données de l’entreprise, y compris le stockage d’objets, les données relationnelles et les data lakes.

Schéma de data lakehouse 3 : améliorer les workloads des entrepôts de données pour optimiser les coûts

Réduire les coûts d’entreposage, tout en conservant les capacités de requête temporelle, grâce au faible coût de stockage et de calcul du lakehouse et à la possibilité pour les différents moteurs de requête de consommer le même jeu de données. Les moteurs de requête tels que Spark permettent d’effectuer des requêtes Vacuum/matérialisées dans l’état actuel des données (par exemple, pas tout l’historique de modification des données), ce qui réduit la taille des requêtes et leur coût de calcul. En outre, les capacités de prétraitement et de transformation sélective des data lakehouses permettent une distribution optimale des workloads de l’entrepôt de données et, implicitement, une réduction des coûts.

Optimisation des workloads des entrepôts de données : réduisez les coûts d’entreposage tout en maintenant des capacités d’interrogation temporelle, en exploitant la technologie des entrepôts de données.
Une architecture de data lakehouse pour réduire les dépenses en entrepôt de données et optimiser la performance des requêtes dans les entrepôts.

Schéma de lakehouse 4 : déploiement multi-cloud hybride

Connexion et accès à distance aux données du cloud hybride, avec mise en cache des sources distantes.

Connexion et accès à distance aux données du cloud hybride, avec mise en cache des sources distantes.
Une architecture de data lakehouse pour intégrer les données sur site et dans le cloud provenant de fournisseurs multiples.

Schéma de data lakehouse 5 : intégrer les données mainframe dans un écosystème analytique

Synchroniser et intégrer les données Db2 for z/OS à des fins d’analytique lakehouse ; analyser les données VSAM et Db2 sur le mainframe en temps réel. La virtualisation des données interroge systématiquement les données à partir du mainframe, avec des considérations de charge supplémentaires, tandis que l’outil CDC recueille les informations au format Iceberg selon la fréquence définie par l’administration (sans ajouter de charge à votre mainframe, mais aussi sans fournir de données en temps réel).

Synchroniser et intégrer les données Db2 for z/OS à des fins d’analytique lakehouse ; analyser les données VSAM et Db2 sur le mainframe en temps réel.
Une architecture de type data lakehouse associant passerelle de données et virtualisation des données pour intégrer les données mainframe avec des données provenant de sources non mainframe.
Autres cas d’utilisation des lakehouses
  • Niveau de stockage pour les nouveaux actifs de données : les applications modernes s’appuient souvent sur de nouveaux jeux de données et des techniques avancées de traitement pour fournir des services plus efficaces, plus évolutifs et davantage axés sur les données. Les data lakehouses allient niveau de données/stockage requis, intégration, performance, évolutivité et rentabilité.

  • Prompt et réponse en langage naturel : associé à l’IA générative et aux capacités des grands modèles de langage (LLM) (watsonx.ai), le data lakehouse (watsonx.data) permet aux analystes sans connaissance de la structure technique de l’information, ou qui ne maîtrisent pas SQL, d’utiliser des prompts en langage naturel pour réaliser une analyse croisée des différents magasins de données et obtenir des réponses du LLM.
Décisions d’architecture

Sélection du moteur de requête

Le choix du moteur de requête dépend généralement du type de données à interroger.

  1. Le moteur de requête Presto est particulièrement adapté aux tables/compartiments Hive et Parquet.
  2. Le moteur de requête Spark est particulièrement adapté aux cas où le codage SCALA est utilisé dans un environnement Hadoop/Cloudera existant.
  3. Le moteur de requête DB2 est particulièrement adapté aux magasins de données DB2.
  4. Le moteur de requête Netezza est particulièrement adapté pour interroger l’entrepôt de données Netezza.
Caractéristiques des data lakehouses
  1. Gestion unifiée des données : s’assurer que le data lakehouse sert de source d’information unique est crucial pour garantir la cohérence et la fiabilité de l’analyse des données et de la prise de décision.
  2. Intégration des données : l’intégration de données provenant de diverses sources et sous différents formats doit être fluide, avec une prise en charge de l’ingestion de données en temps réel et par lots.
  3. Performance des requêtes : performance des requêtes optimisée pour répondre aux besoins d’analyse et de production de rapports de l’entreprise, conformément aux SLA/SLO.
  4. Gouvernance des données : pour être efficace, la mise en œuvre des data lakehouses exige un cadre robuste, qui garantisse la qualité et la traçabilité des données, ainsi que la gestion des métadonnées.
  5. Sécurité : assurer chiffrement des données, contrôle des accès et pistes d’audit pour se conformer aux exigences réglementaires et aux politiques de l’entreprise.
  6. Déploiement flexible : la prise en charge des déploiements sur site, hybrides et multi-cloud offre une grande flexibilité et permet d’optimiser les coûts, ainsi que la performance.
  7. Sensibilité des données : faciliter le déplacement des données dans différents environnements, tout en préservant leur cohérence et leur intégrité.
  8. Surveillance et gestion : mettre en œuvre des outils de surveillance, de journalisation et de gestion pour avoir une meilleure visibilité sur le déplacement des données, les délais et les taux d’achèvement des tâches et l’optimisation de la performance.
Étapes suivantes

Échangez avec nos experts pour bien mettre en œuvre votre schéma de déploiement cloud hybride.

Autres moyens d’information Centre d’architectures de cloud hybride Outils de diagrammes et modèles IBM Well-Architected Framework
Contributeurs

Bryan KyleManav GuptaMihai Criveti, Wissam DibChris Kirby

Mise à jour : 11 décembre 2023