Architettura e benefici del data lakehouse

Informazioni generali

Un data lakehouse è una piattaforma dati che unisce i migliori aspetti dei data warehouse e dei data lake in un'unica soluzione di gestione dei dati.

Il data lakehouse e l'architettura di governance di IBM per ambienti hybrid cloud sono ancorati alla sua piattaforma watsonx.data. Questa piattaforma consente alle aziende di scalare analytics e AI, fornendo un robusto storage dei dati basato su un'architettura aperta del data lakehouse. L'architettura unisce gli attributi di prestazioni e usabilità di un data warehouse con la flessibilità e la scalabilità di un data lake, offrendo una soluzione bilanciata per la gestione dei dati e le attività di analytics.

Distribuzione

La piattaforma watsonx.data è proposta sia come offerta SaaS che come soluzione on-premise. Ai clienti in un'area geografica senza un'offerta SaaS o che richiedono che la piattaforma Lakehouse rimanga on-premise a causa di vincoli normativi o di altro tipo, IBM offre flessibilità attraverso le seguenti opzioni di implementazione per utilizzare le funzionalità di data lakehouse ovunque:

Fornire watsonx.data SaaS su IBM Cloud o AWS.
Distribuire watsonx.data come soluzione indipendente su OpenShift on-premise o altri hyperscaler con OpenShift gestito.
Distribuisci watsonx.data, disponibile all'interno del cluster IBM CloudPak for Data (CP4D).

Distribuisci watsonx.data come parte del diagramma del cluster IBM CloudPak for Data (CP4D)

Un'architettura data lakehouse che consente di utilizzare più motori di query fit-for-purpose fornendo al contempo l'accesso simultaneo agli stessi dati su tutti i motori.

Origini dati: sono inclusi i dati strutturati provenienti da database e applicazioni, nonché i dati non strutturati provenienti da file, social media, dispositivi IoT ecc., nonché data warehouse aziendali e altri storage dei dati non strutturati, sia da applicazioni client on-premise che da soluzioni SaaS.
Applicazioni client: i clienti possono avere applicazioni on-premise, o SaaS con i propri storage dei dati (strutturati e non strutturati) i cui dati potrebbero non essere nel data lake e i clienti potrebbero voler portare quei dati nel lakehouse per semplificare l'esecuzione delle query.
Data Lakehouse - watsonx.data è l'architettura di storage dei dati di nuova generazione che bilancia le funzionalità dei data lake e dei data warehouse. Questo è fondamentale per l'approccio Data Lakehouse di IBM, che facilita la scalabilità dei workload di AI e machine learning (ML) garantendo al contempo una governance efficiente dei dati.
Piattaforma GenAI: il data lakehouse può essere facoltativamente collegato a una piattaforma GenAI per aumentare le query con gli LLM. Gli utenti possono inserire un prompt, che viene inviato a un LLM ottimizzato per generare query di recupero che possono essere eseguite dai motori supportati nel data lakehouse.

Modelli di lakehouse

Modello lakehouse 1: più motori di query fit-for-purpose

Utilizza funzionalità di calcolo fit-for-purpose per ottimizzare i costi usando il motore giusto per il workload giusto, mentre condividi contemporaneamente dati e metadati tra tutti i motori, metastore condiviso (ad es. il catalogo dati) e lo stesso ambiente.

Grafico del workflow di più motori di query adatti allo scopo

Un'architettura data lakehouse che consente l'uso di più motori di query per ottimizzare costi e prestazioni.

Modello Lakehouse 2: un unico pannello di controllo per tutti i tuoi dati

Il data lakehouse consente un approccio moderno alle attuali architetture di dati, in cui le aziende hanno costruito nel corso degli anni diversi silos di storage dei dati per soddisfare le diverse esigenze, dai data warehouse aziendali strutturati e ad alte prestazioni (EDW) ai data lake non strutturati/semi-strutturati ad alto volume, che il più delle volte si trasformano in paludi di dati (duplicazione, qualità dei dati, mancanza di governance). Un data lakehouse con watsonx.data consente un singolo livello di accesso a una varietà di archivi di dati attraverso più motori di query, formati di dati aperti e governance, senza dover spostare i dati.

Un unico pannello di controllo per tutti i tuoi dati, senza la necessità di spostarli.

Un'architettura data lakehouse per fornire un unico livello di accesso (single pane of glass) per tutti gli storage dei dati di un'azienda, compresi object storage, dati relazionali e data lake.

Modello Lakehouse 3: ottimizza i workload del data warehouse per ottimizzare i costi

Riduci i costi di magazzino pur mantenendo le funzionalità di query temporali utilizzando lo storage e l'elaborazione a basso costo di Lakehouse e consentendo a più motori di query di usare lo stesso set di dati. I motori di query come Spark consentono di eseguire query di dati Vacuumed/Materialized nel loro stato attuale (ad es. non tutta la cronologia delle modifiche ai dati), il che riduce le dimensioni delle query di dati e i costi di elaborazione delle query. Inoltre, le funzionalità di pre-elaborazione e trasformazione di Lakehouse consentono una distribuzione ottimale dei workload del data warehouse, riducendo così i costi.

Ottimizza il workload del data warehouse per ottimizzare i costi, ridurre i costi di data warehousing pur mantenendo le funzionalità di query temporali utilizzando

Un'architettura data lakehouse per ridurre al minimo i costi del data warehouse e ottimizzare le prestazioni delle query del data warehouse.

Modello Lakehouse 4: implementazione multi-cloud ibrida

Connettiti e accedi ai dati da remoto nell'hybrid cloud con la possibilità di memorizzare nella cache le fonti remote.

Un'architettura data lakehouse per integrare dati on-premise e su cloud tra più provider.

Modello Lakehouse 5: integrazione dei dati mainframe nell'ecosistema analitico

Sincronizza e incorpora i dati Db2 for z/OS per l'analytics di Lakehouse ed esegui la real-time analytics sul mainframe tra dati VSAM e Db2. La virtualizzazione dei dati interrogherà sempre i dati direttamente dal mainframe con considerazioni aggiuntive sul carico, mentre il CDC acquisirà le informazioni in formato iceberg in base alla frequenza definita dall'amministrazione (senza aggiungere carico al mainframe ma anche non fornendo dati in tempo reale)

Un'architettura data lakehouse che utilizza un data gateway e la virtualizzazione dei dati per integrare i dati del mainframe con i dati non provenienti dal mainframe.

Altri casi d'uso di Lakehouse

Livello di storage per nuovi asset di dati Le applicazioni moderne spesso si basano su nuovi set di dati e tecniche avanzate di trattamento dei dati per fornire servizi più efficienti, scalabili e basati sui dati. Data Lakehouse può fornire il livello di dati/storage richiesto, così come integrazione, prestazioni, scalabilità ed efficienza dei costi.
Prompt e risposta dei dati in linguaggio naturale Data Lakehouse (watsonx.data), in combinazione con funzionalità di AI generativa e un modello linguistico di grandi dimensioni (LLM) (watsonx.ai), consente a un analista che non conosce la struttura tecnica delle informazioni e non padroneggia SQL di utilizzare prompt in linguaggio naturale per condurre un'analisi incrociata tra i diversi storage dei dati e ottenere risposte dall'LLM.

Decisioni sull'architettura

Scelta del motore di query

La scelta del motore di query da utilizzare è in genere determinata dal tipo di dati da interrogare.

Il motore di query Presto è più adatto per l'uso con tabelle/bucket Hive e Parquet.
Il motore di query Spark è più adatto quando la codifica SCALA viene utilizzata all'interno di un ambiente Hadoop/Cloudera esistente.
Il motore di query DB2 è più adatto per l'uso con gli storage dei dati DB2.
Il motore di query Netezza è più adatto per interrogare il data warehouse Netezza

Caratteristiche del data lakehouse

Gestione dei dati unificata: garantire che il Data Lakehouse funga da singola fonte affidabile è fondamentale per la coerenza e l'affidabilità nell'analytics e nel processo decisionale.
Integrazione dei dati: l'integrazione di dati provenienti da diverse fonti e in vari formati dovrebbe essere perfetta, con supporto per la data ingestion in tempo reale e in batch.
Prestazioni delle query: prestazioni delle query ottimizzate per supportare le esigenze di analytics e reporting in linea con gli SLA/SLO aziendali.
Governance dei dati: le implementazioni di data lakehouse di successo richiedono un solido framework di governance dei dati per garantire la qualità dei dati, la gestione dei metadati e il tracciamento del lineage.
Sicurezza: è necessario garantire la crittografia dei dati, il controllo degli accessi e i percorsi di audit per soddisfare i requisiti organizzativi e normativi.
Flessibilità di implementazione: il supporto per implementazioni on-premise, ibride e multi-cloud offre flessibilità e aiuta a ottimizzare costi e prestazioni.
Sensibilità ai dati: è necessario garantire un facile spostamento dei dati tra diversi ambienti mantenendo la coerenza e l'integrità dei dati.
Monitoraggio e gestione: devono essere implementati strumenti di monitoraggio, registrazione e gestione per ottenere la visibilità dello spostamento dei dati, dei tempi e delle percentuali di completamento dei job e per l'ottimizzazione delle prestazioni.