Come modernizzare i data lake con un'architettura data lakehouse

Veduta aerea del ponte Sylvenstein, lago Sylvenstein, Alta Baviera, Germania

I data lake esistono ormai da oltre un decennio e supportano le operazioni analitiche di alcune delle più grandi aziende mondiali. Alcuni sostengono però che la grande maggioranza di queste distribuzioni si sia ormai trasformata in “paludi” di dati. Indipendentemente da quale sia la parte con cui ci si schiera in questa controversia, la realtà è che in questi sistemi sono ancora conservati moltissimi dati. Questi volumi di dati non sono facili da spostare, migrare o modernizzare.

Le ultime notizie nel campo della tecnologia, supportate dalle analisi degli esperti

Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.

Le sfide di un'architettura di data lake monolitica

I data lake sono, a un livello alto, singoli repository di dati su larga scala. I dati possono essere memorizzati nella loro forma originale grezza oppure ottimizzati in un formato diverso, adatto al consumo da parte di motori specializzati.

Nel caso di Hadoop, uno dei data lake più popolari, la promessa di implementare un repository del genere usando software open-source in esecuzione su hardware commerciale significava poter memorizzare molti dati su questi sistemi, con costi molto bassi. I dati potevano essere conservati in formati open data, democratizzandone il consumo, oltre a replicarsi automaticamente, il che aiutava a mantenere un'alta disponibilità. Il framework predefinito offriva la possibilità di ripristinare dai guasti in corso. Si trattava, senza dubbio, di un allontanamento significativo dagli ambienti analitici tradizionali, che spesso comportavano il vincolo a determinati fornitori e l'impossibilità di lavorare con i dati su larga scala.

Un'altra sfida inaspettata è stata l'introduzione di Spark quale framework di elaborazione per i big data. Questa soluzione ha guadagnato rapidamente popolarità grazie al suo supporto per le trasformazioni dei dati, lo streaming e SQL. Tuttavia non è mai coesistita amichevolmente negli ambienti di data lake esistenti. Di conseguenza, spesso si è dovuto ricorrere a ulteriori cluster di elaborazione dedicati solo per poter eseguire Spark.

Facciamo un salto in avanti di quasi 15 anni e la realtà si è rivelata nei compromessi e nelle rinunce che questa tecnologia comportava. La rapida adozione ha fatto sì che i clienti perdessero presto traccia di ciò che finiva nel data lake. E, cosa altrettanto impegnativa, non riuscivano a capire da dove provenissero i dati, come fossero stati inserti e come fossero stati trasformati durante il processo. La governance dei dati rimane una frontiera inesplorata per questa tecnologia. Il software può essere aperto, ma qualcuno deve imparare a usarlo, mantenerlo e supportarlo. Affidarsi al supporto della community non sempre consente di ottenere i tempi di risposta richiesti dalle operazioni commerciali. Un'alta disponibilità tramite la replica significa più copie dei dati su più dischi, maggiori costi di storage e guasti più frequenti. Un framework di elaborazione distribuita altamente disponibile significava rinunciare alle prestazioni a favore della resilienza (stiamo parlando di un notevole degrado delle prestazioni per l'analisi interattiva e la BI).

Mixture of Experts | 12 dicembre, episodio 85

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Perché modernizzare il tuo data lake?

I data lake si sono rivelati efficaci nei casi in cui le aziende sono state in grado di concentrarsi su scenari di utilizzo specifici. Tuttavia, è emersa chiaramente l'urgenza di modernizzare queste implementazioni e di proteggere gli investimenti in infrastrutture, skill e dati contenuti in questi sistemi.

Alla ricerca di risposte, il settore ha esaminato le tecnologie delle piattaforme di dati esistenti e i loro punti di forza. È diventato chiaro che un approccio efficace consisteva nel riunire le caratteristiche principali dei tradizionali magazzini o data mart (legacy, se vogliamo) con ciò che funzionava meglio nei data lake. Diversi elementi sono saliti rapidamente in cima a livello di importanza:

  • Storage resiliente e scalabile, in grado di soddisfare la domanda di una quantità di dati sempre in aumento.
  • Formati di dati aperti che mantengono i dati accessibili a tutti, ma ottimizzati per prestazioni elevate e con una struttura ben definita.
  • Metadati aperti (condivisibili) che consentono di utilizzare più motori o framework di consumo.
  • Capacità di aggiornare i dati (proprietà ACID) e di supportare la concomitanza transazionale.
  • Sicurezza e governance dei dati (lineage, definizione e applicazione di policy complete di accesso ai dati, compresa la geo-dispersione)

Tutto questo ha portato all'avvento del data lakehouse. Un data lakehouse è una piattaforma dati che unisce i migliori aspetti dei data warehouse e dei data lake in una soluzione di gestione dei dati unificata e coesa.

Vantaggi della modernizzazione dei data lake con watsonx.data

La risposta di IBM all'attuale crocevia dell'analytics è watsonx.data. Si tratta di un nuovo data store aperto per la gestione dei dati su larga scala che consente alle aziende di integrare, aumentare e modernizzare i data lake e data warehouse esistenti senza dover effettuare delle migrazioni. La sua natura ibrida significa che può essere eseguito su infrastrutture gestite dal cliente (on-premise e/o IaaS) e cloud. Si basa su un'architettura lakehouse e incorpora un unico set di soluzioni (e uno stack software comune) per tutti i fattori di forma.

A differenza delle soluzioni concorrenti sul mercato, l'approccio di IBM si basa su uno stack e un'architettura open-source. Non si tratta di componenti nuovi, bensì di soluzioni già consolidate nel settore. IBM si è occupata della loro interoperabilità e coesistenza, così come dello scambio di metadati. Gli utenti possono iniziare rapidamente, riducendo così drasticamente i costi di ingresso e di adozione grazie a un'architettura di alto livello e a concetti fondamentali familiari e intuitivi:

  • Dati aperti (e formati delle tabelle) su Object Store
  • Accesso ai dati tramite S3
  • Presto e Spark per il consumo di elaborazione (SQL, data science, trasformazioni e streaming)
  • Condivisione aperta dei metadati (tramite Hive e costrutti compatibili).

Watsonx.data offre alle aziende un mezzo per proteggere i loro investimenti decennali nei data lake e nei data warehouse. Ciò consente alle aziende di espandere immediatamente le proprie installazioni, modernizzandole gradualmente e concentrando ogni componente sugli scenari di utilizzo più importanti per loro.

Un elemento distintivo è la strategia che permette agli utenti di utilizzare la tecnologia giusta per il lavoro giusto al momento giusto, tutto tramite una piattaforma dati unificata. Watsonx.data consente ai clienti di implementare uno storage su più livelli completamente dinamico (e l'elaborazione associata). Questo può generare, nel tempo, risparmi molto significativi nella gestione dei dati e nei costi di elaborazione.

Alla fine, se il tuo obiettivo è quello di modernizzare le implementazioni dei data lake esistenti con un data lakehouse moderno, watsonx.data semplifica questo compito riducendo al minimo la migrazione dei dati e delle applicazioni tramite la scelta del tipo di elaborazione.

Cosa puoi fare adesso?

Negli ultimi anni i data lake hanno svolto un ruolo importante nella strategia di gestione dei dati della maggior parte delle aziende. Se il tuo obiettivo è quello di evolvere e modernizzare la tua strategia di gestione dei dati verso un'architettura cloud ibrida di analytics, allora watsonx.data, il nuovo data store di IBM basato su un'architettura data lakehouse, merita la tua considerazione.

Autore

Hebert W. Pereyra

Chief Architect

IBM Data and AI and IBM Distinguished Engineer

Soluzioni correlate
Strumenti e soluzioni per l'analytics

Per prosperare, le aziende devono utilizzare i dati per fidelizzare i clienti, automatizzare i processi aziendali e innovare con soluzioni basate sull'AI.

Esplora le soluzioni di analytics
Servizi di consulenza per dati e analytics

Sblocca il valore dei dati aziendali con IBM Consulting e crea un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics
IBM Cognos Analytics

Introduzione a Cognos Analytics 12.0, insight basati sull'AI per prendere decisioni migliori.

Esplora Cognos Analytics
Fasi successive

Per prosperare, le aziende devono utilizzare i dati per fidelizzare i clienti, automatizzare i processi aziendali e innovare con soluzioni basate sull'AI.

Esplora le soluzioni di analytics Esplora i servizi di analytics