Un data lakehouse è una piattaforma dati che unisce i migliori aspetti dei data warehouse e dei data lake in un'unica soluzione di gestione dei dati.
Il data lakehouse e l'architettura di governance di IBM per ambienti hybrid cloud sono ancorati alla sua piattaforma watsonx.data. Questa piattaforma consente alle aziende di scalare analytics e AI, fornendo un robusto storage dei dati basato su un'architettura aperta del data lakehouse. L'architettura unisce gli attributi di prestazioni e usabilità di un data warehouse con la flessibilità e la scalabilità di un data lake, offrendo una soluzione bilanciata per la gestione dei dati e le attività di analytics.
La piattaforma watsonx.data è proposta sia come offerta SaaS che come soluzione on-premise. Ai clienti in un'area geografica senza un'offerta SaaS o che richiedono che la piattaforma Lakehouse rimanga on-premise a causa di vincoli normativi o di altro tipo, IBM offre flessibilità attraverso le seguenti opzioni di implementazione per utilizzare le funzionalità di data lakehouse ovunque:
Data Lakehouse - watsonx.data è l'architettura di storage dei dati di nuova generazione che bilancia le funzionalità dei data lake e dei data warehouse. Questo è fondamentale per l'approccio Data Lakehouse di IBM, che facilita la scalabilità dei workload di AI e machine learning (ML) garantendo al contempo una governance efficiente dei dati.
Piattaforma GenAI: il data lakehouse può essere facoltativamente collegato a una piattaforma GenAI per aumentare le query con gli LLM. Gli utenti possono inserire un prompt, che viene inviato a un LLM ottimizzato per generare query di recupero che possono essere eseguite dai motori supportati nel data lakehouse.
Modello lakehouse 1: più motori di query fit-for-purpose
Utilizza funzionalità di calcolo fit-for-purpose per ottimizzare i costi usando il motore giusto per il workload giusto, mentre condividi contemporaneamente dati e metadati tra tutti i motori, metastore condiviso (ad es. il catalogo dati) e lo stesso ambiente.
Modello Lakehouse 2: un unico pannello di controllo per tutti i tuoi dati
Il data lakehouse consente un approccio moderno alle attuali architetture di dati, in cui le aziende hanno costruito nel corso degli anni diversi silos di storage dei dati per soddisfare le diverse esigenze, dai data warehouse aziendali strutturati e ad alte prestazioni (EDW) ai data lake non strutturati/semi-strutturati ad alto volume, che il più delle volte si trasformano in paludi di dati (duplicazione, qualità dei dati, mancanza di governance). Un data lakehouse con watsonx.data consente un singolo livello di accesso a una varietà di archivi di dati attraverso più motori di query, formati di dati aperti e governance, senza dover spostare i dati.
Modello Lakehouse 3: ottimizza i workload del data warehouse per ottimizzare i costi
Riduci i costi di magazzino pur mantenendo le funzionalità di query temporali utilizzando lo storage e l'elaborazione a basso costo di Lakehouse e consentendo a più motori di query di usare lo stesso set di dati. I motori di query come Spark consentono di eseguire query di dati Vacuumed/Materialized nel loro stato attuale (ad es. non tutta la cronologia delle modifiche ai dati), il che riduce le dimensioni delle query di dati e i costi di elaborazione delle query. Inoltre, le funzionalità di pre-elaborazione e trasformazione di Lakehouse consentono una distribuzione ottimale dei workload del data warehouse, riducendo così i costi.
Modello Lakehouse 4: implementazione multi-cloud ibrida
Connettiti e accedi ai dati da remoto nell'hybrid cloud con la possibilità di memorizzare nella cache le fonti remote.
Modello Lakehouse 5: integrazione dei dati mainframe nell'ecosistema analitico
Sincronizza e incorpora i dati Db2 for z/OS per l'analytics di Lakehouse ed esegui la real-time analytics sul mainframe tra dati VSAM e Db2. La virtualizzazione dei dati interrogherà sempre i dati direttamente dal mainframe con considerazioni aggiuntive sul carico, mentre il CDC acquisirà le informazioni in formato iceberg in base alla frequenza definita dall'amministrazione (senza aggiungere carico al mainframe ma anche non fornendo dati in tempo reale)
La scelta del motore di query da utilizzare è in genere determinata dal tipo di dati da interrogare.