I data lake esistono ormai da oltre un decennio e supportano le operazioni analitiche di alcune delle più grandi aziende mondiali. Alcuni sostengono però che la grande maggioranza di queste distribuzioni si sia ormai trasformata in “paludi” di dati. Indipendentemente da quale sia la parte con cui ci si schiera in questa controversia, la realtà è che in questi sistemi sono ancora conservati moltissimi dati. Questi volumi di dati non sono facili da spostare, migrare o modernizzare.
Newsletter di settore
Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.
L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.
I data lake sono, a un livello alto, singoli repository di dati su larga scala. I dati possono essere memorizzati nella loro forma originale grezza oppure ottimizzati in un formato diverso, adatto al consumo da parte di motori specializzati.
Nel caso di Hadoop, uno dei data lake più popolari, la promessa di implementare un repository del genere usando software open-source in esecuzione su hardware commerciale significava poter memorizzare molti dati su questi sistemi, con costi molto bassi. I dati potevano essere conservati in formati open data, democratizzandone il consumo, oltre a replicarsi automaticamente, il che aiutava a mantenere un'alta disponibilità. Il framework predefinito offriva la possibilità di ripristinare dai guasti in corso. Si trattava, senza dubbio, di un allontanamento significativo dagli ambienti analitici tradizionali, che spesso comportavano il vincolo a determinati fornitori e l'impossibilità di lavorare con i dati su larga scala.
Un'altra sfida inaspettata è stata l'introduzione di Spark quale framework di elaborazione per i big data. Questa soluzione ha guadagnato rapidamente popolarità grazie al suo supporto per le trasformazioni dei dati, lo streaming e SQL. Tuttavia non è mai coesistita amichevolmente negli ambienti di data lake esistenti. Di conseguenza, spesso si è dovuto ricorrere a ulteriori cluster di elaborazione dedicati solo per poter eseguire Spark.
Facciamo un salto in avanti di quasi 15 anni e la realtà si è rivelata nei compromessi e nelle rinunce che questa tecnologia comportava. La rapida adozione ha fatto sì che i clienti perdessero presto traccia di ciò che finiva nel data lake. E, cosa altrettanto impegnativa, non riuscivano a capire da dove provenissero i dati, come fossero stati inserti e come fossero stati trasformati durante il processo. La governance dei dati rimane una frontiera inesplorata per questa tecnologia. Il software può essere aperto, ma qualcuno deve imparare a usarlo, mantenerlo e supportarlo. Affidarsi al supporto della community non sempre consente di ottenere i tempi di risposta richiesti dalle operazioni commerciali. Un'alta disponibilità tramite la replica significa più copie dei dati su più dischi, maggiori costi di storage e guasti più frequenti. Un framework di elaborazione distribuita altamente disponibile significava rinunciare alle prestazioni a favore della resilienza (stiamo parlando di un notevole degrado delle prestazioni per l'analisi interattiva e la BI).
I data lake si sono rivelati efficaci nei casi in cui le aziende sono state in grado di concentrarsi su scenari di utilizzo specifici. Tuttavia, è emersa chiaramente l'urgenza di modernizzare queste implementazioni e di proteggere gli investimenti in infrastrutture, skill e dati contenuti in questi sistemi.
Alla ricerca di risposte, il settore ha esaminato le tecnologie delle piattaforme di dati esistenti e i loro punti di forza. È diventato chiaro che un approccio efficace consisteva nel riunire le caratteristiche principali dei tradizionali magazzini o data mart (legacy, se vogliamo) con ciò che funzionava meglio nei data lake. Diversi elementi sono saliti rapidamente in cima a livello di importanza:
Tutto questo ha portato all'avvento del data lakehouse. Un data lakehouse è una piattaforma dati che unisce i migliori aspetti dei data warehouse e dei data lake in una soluzione di gestione dei dati unificata e coesa.
La risposta di IBM all'attuale crocevia dell'analytics è watsonx.data. Si tratta di un nuovo data store aperto per la gestione dei dati su larga scala che consente alle aziende di integrare, aumentare e modernizzare i data lake e data warehouse esistenti senza dover effettuare delle migrazioni. La sua natura ibrida significa che può essere eseguito su infrastrutture gestite dal cliente (on-premise e/o IaaS) e cloud. Si basa su un'architettura lakehouse e incorpora un unico set di soluzioni (e uno stack software comune) per tutti i fattori di forma.
A differenza delle soluzioni concorrenti sul mercato, l'approccio di IBM si basa su uno stack e un'architettura open-source. Non si tratta di componenti nuovi, bensì di soluzioni già consolidate nel settore. IBM si è occupata della loro interoperabilità e coesistenza, così come dello scambio di metadati. Gli utenti possono iniziare rapidamente, riducendo così drasticamente i costi di ingresso e di adozione grazie a un'architettura di alto livello e a concetti fondamentali familiari e intuitivi:
Watsonx.data offre alle aziende un mezzo per proteggere i loro investimenti decennali nei data lake e nei data warehouse. Ciò consente alle aziende di espandere immediatamente le proprie installazioni, modernizzandole gradualmente e concentrando ogni componente sugli scenari di utilizzo più importanti per loro.
Un elemento distintivo è la strategia che permette agli utenti di utilizzare la tecnologia giusta per il lavoro giusto al momento giusto, tutto tramite una piattaforma dati unificata. Watsonx.data consente ai clienti di implementare uno storage su più livelli completamente dinamico (e l'elaborazione associata). Questo può generare, nel tempo, risparmi molto significativi nella gestione dei dati e nei costi di elaborazione.
Alla fine, se il tuo obiettivo è quello di modernizzare le implementazioni dei data lake esistenti con un data lakehouse moderno, watsonx.data semplifica questo compito riducendo al minimo la migrazione dei dati e delle applicazioni tramite la scelta del tipo di elaborazione.
Negli ultimi anni i data lake hanno svolto un ruolo importante nella strategia di gestione dei dati della maggior parte delle aziende. Se il tuo obiettivo è quello di evolvere e modernizzare la tua strategia di gestione dei dati verso un'architettura cloud ibrida di analytics, allora watsonx.data, il nuovo data store di IBM basato su un'architettura data lakehouse, merita la tua considerazione.
Per prosperare, le aziende devono utilizzare i dati per fidelizzare i clienti, automatizzare i processi aziendali e innovare con soluzioni basate sull'AI.
Sblocca il valore dei dati aziendali con IBM Consulting e crea un'organizzazione basata su insight in grado di generare vantaggi aziendali.
Introduzione a Cognos Analytics 12.0, insight basati sull'AI per prendere decisioni migliori.