La gestione dei dati è la pratica di raccogliere, elaborare e utilizzare i dati in modo sicuro ed efficiente per ottenere risultati aziendali migliori.
Il 72% dei CEO più performanti concorda sul fatto che il vantaggio competitivo dipenda da chi possiede l'AI generativa più avanzata. Tuttavia, per utilizzare al meglio l'AI, le organizzazioni devono innanzitutto organizzare la propria architettura informativa per rendere i dati accessibili e utilizzabili. Le sfide fondamentali nella gestione dei dati includono i volumi e i silo di dati tra più sedi e provider di cloud. Anche i nuovi tipi di dati e i vari formati, come documenti, immagini e video, rappresentano una sfida. Inoltre, la complessità e l'incoerenza dei set di dati possono limitare la capacità di un'organizzazione di utilizzare i dati per l'AI.
Come risultato di queste sfide, un'efficace strategia di gestione dei dati è diventata una priorità crescente per le organizzazioni per affrontare le sfide presentate dai big data. Un sistema di gestione dei dati flessibile e moderno si integra con la tecnologia esistente all'interno di un'organizzazione per accedere a dati utilizzabili e di alta qualità per data scientist, ingegneri di AI e di apprendimento automatico (ML), nonché utenti business dell'organizzazione.
Una strategia di gestione dei dati completa tiene conto di vari fattori, tra cui il modo di:
Sebbene gli strumenti di gestione dei dati per la creazione di applicazioni di AI generativa siano ampiamente disponibili, i dati stessi hanno valore sia per i clienti, sia per le aziende. Elevati volumi di dati di qualità devono essere organizzati ed elaborati correttamente per addestrare con successo i modelli. Questo approccio è un caso d'uso in rapida crescita per la gestione dei dati moderna.
Ad esempio, durante l'edizione 2023 di Wimbledon è stata offerta una telecronaca basata su AI generativa che aveva accesso in tempo reale alle informazioni di 130 milioni di documenti e 2,7 milioni di dati contestuali pertinenti . I visitatori che hanno utilizzato l'app o hanno visitato il sito web del torneo hanno avuto accesso a statistiche complete, telecronache e al commento delle partite, nonché a un pronostico affidabile sul vincitore in qualsiasi momento durante lo svolgimento del torneo. Una corretta strategia di gestione dei dati può aiutare a garantire che i dati preziosi siano sempre disponibili, integrati, governati, sicuri e accurati.
L'AI generativa può offrire alle organizzazioni un deciso vantaggio competitivo, con la strategia di AI che si basa sulla forza dei dati utilizzati. Numerose organizzazioni si trovano ancora ad affrontare sfide fondamentali legate ai dati, rese ancora più impegnative dalla domanda di AI generativa, che richiede un numero sempre maggiore di dati, creando così ulteriori problematiche nella gestione dei dati.
I dati possono essere memorizzati in più sedi, applicazioni e cloud, spesso causando silo di dati isolati. Per aggiungere ulteriore complessità, l'utilizzo dei dati è diventato sempre più vario, con dati in forme diverse e complesse, come immagini, video, documenti e audio. Occorre quindi più tempo per l'integrazione, la preparazione e la pulizia dei dati. Queste sfide possono indurre le organizzazioni a evitare di utilizzare l'intero patrimonio di dati per scopi di analytics e AI.
Tuttavia, con strumenti moderni per l'architettura dei dati, la governance e la sicurezza dei dati, i dati possono essere utilizzati con successo per acquisire nuovi insight e fare previsioni più precise in modo coerente. Questa funzionalità può consentire una conoscenza più profonda delle preferenze dei clienti e migliorare l'esperienza del cliente (CX) fornendo insight derivati dall'analisi dei dati. Inoltre, facilita lo sviluppo di innovativi modelli di business basati sui dati, come le offerte di servizi basate su AI generativa che si basano su dati di alta qualità per l'addestramento del modello.
I leader dei dati e dell'analytics affrontano sfide importanti nella trasformazione delle loro organizzazioni, a causa della crescente complessità del landscape di dati nelle implementazioni di hybrid cloud. Anche l'AI generativa e gli assistenti di AI, l'apprendimento automatico (ML), l'analytics avanzata, l'Internet of Things (IoT), e l'automazione richiedono enormi volumi di dati per funzionare in modo efficace. Questi dati devono essere memorizzati, integrati, governati, trasformati e preparati per la giusta base di dati. E per costruire una solida base di dati per l'AI, le organizzazioni devono concentrarsi sulla costruzione di una base di dati aperta e affidabile, il che significa creare una strategia di gestione dei dati incentrata sull'apertura, la fiducia e la collaborazione.
Il requisito di AI è stato riassunto da un analista di Gartner®1: "I dati pronti per l'AI significano che i dati devono essere rappresentativi del caso d'uso, inclusi tutti i modelli, gli errori, gli outlier e le emergenze impreviste necessarie per addestrare o eseguire i modelli AI per l'uso specifico."
I dirigenti di dati e analytics potrebbero ritenere che i dati preparati con l'AI siano equivalenti a dati di alta qualità, ma gli standard dei dati di alta qualità per scopi diversi dall'AI non soddisfano necessariamente lo standard di preparazione per l'AI. Nel campo dell'analytics, ad esempio, i dati in genere vengono raffinati per eliminare gli outlier o conformarsi alle aspettative umane. Tuttavia, quando si addestra un algoritmo, sono necessari dati rappresentativi.
La governance dei dati è un sottoinsieme della gestione dei dati. Questo significa che quando un team di governance dei dati individua i punti in comune tra set di dati eterogenei e desidera integrarli, dovrà collaborare con un team di architettura o ingegneria del database per definire il modello di dati e l'architettura dei dati per agevolare i collegamenti e il flusso dei dati. Un altro esempio riguarda l'accesso ai dati. Un team di governance dei dati potrebbe stabilire le politiche relative all'accesso a tipi specifici di dati, come le informazioni di identificazione personale (PII). Nel frattempo, un team di gestione dei dati fornirà l'accesso diretto o metterà in atto un meccanismo per fornire l'accesso, come la regolazione dei ruoli utente definiti internamente per approvare l'accesso.
Un'efficace gestione dei dati, incluse robuste pratiche di governance dei dati, può aiutare a rispettare la conformità normativa. Questa conformità comprende le normative nazionali e globali sulla privacy dei dati, come il Regolamento generale sulla protezione dei dati (GDPR) e il California Consumer Privacy Act (CCPA), oltre agli standard di privacy e sicurezza specifici del settore. Stabilire politiche e procedure complete di gestione dei dati diventa fondamentale per dimostrare o sottoporsi ad audit per convalidare queste protezioni.
Le moderne soluzioni di gestione dei dati offrono un modo efficiente per gestire dati e metadati in diversi set di dati. I sistemi moderni sono costruiti con il più recente software di gestione dei dati e database o storage dei dati affidabile. Questo può includere data lake transazionali , data warehouse o data lakehouse, combinati con un'architettura di data fabric che comprende data ingestion, governance, lineage, osservabilità e Master Data Management. Insieme, questa affidabile base di dati può fornire dati di qualità ai consumatori di dati come prodotti di dati, business intelligence (BI) e dashboard, e modelli AI, sia apprendimento automatico (ML), sia AI generativa.
Una solida strategia di gestione dei dati include in genere più componenti per semplificare la strategia e le operazioni in tutta l'organizzazione.
Sebbene i dati possano essere memorizzati prima o dopo il trattamento dei dati, il tipo di dati e lo scopo di solito determinano il repository di storage utilizzato. Mentre i database relazionali organizzano i dati in un formato tabellare, i database non relazionali non hanno uno schema di database altrettanto rigido.
I database relazionali sono anche tipicamente associati a database transazionali, che eseguono comandi o transazioni in modo collettivo. Un esempio è un bonifico bancario. Un importo definito viene prelevato da un conto per essere depositato su un altro conto. Tuttavia, affinché le aziende supportino tipi di dati strutturati e non strutturati, sono necessari database creati appositamente. Questi database devono inoltre soddisfare vari casi d'uso tra analytics, AI e applicazioni. Devono comprendere database relazionali e non relazionali, come chiave-valore, documento, colonna larga, grafico e in-memory. Questi database multimodali forniscono supporto nativo per diversi tipi di dati e i modelli di sviluppo più recenti e possono eseguire numerosi tipi di workload, tra cui IoT, analytics, apprendimento automatico (ML) e AI.
Le best practice di gestione dei dati suggeriscono di ottimizzare il data warehousing per l'analytics ad alte prestazioni su dati strutturati. Questo richiede uno schema definito per soddisfare specifici requisiti di analytics dei dati per specifici casi d'uso, come ad esempio dashboard, visualizzazione dei dati e altre attività di business intelligence. Questi requisiti in materia di dati sono generalmente diretti e documentati dagli utenti business in collaborazione con gli ingegneri dei dati, che alla fine si baseranno sul modello di dati definito.
La struttura di base di un data warehouse è in genere organizzata come un sistema relazionale che utilizza un formato di dati strutturato, ricavando i dati da database transazionali. Tuttavia, per i dati non strutturati e semistrutturati, i data lake incorporano dati provenienti da sistemi relazionali e non relazionali e da altre attività di business intelligence. I data lake spesso sono preferiti alle altre opzioni di storage in quando solitamente rappresentano un ambiente di storage a basso costo, in grado di ospitare petabyte di dati non elaborati.
I data lake offrono un beneficio in particolare ai data scientist, in quanto consentono loro di incorporare sia dati strutturati, sia dati non strutturati nei loro progetti di data science. Tuttavia, i data warehouse e i data lake presentano dei limiti. I formati di dati proprietari e gli elevati costi di storage limitano la collaborazione e l'implementazione di modelli di AI e di apprendimento automatico (ML) in un data warehouse.
Al contrario, i data lake hanno difficoltà nell'estrazione di insight direttamente in modo controllato e performante. Un data lakehouse aperto supera queste limitazioni gestendo più formati aperti su cloud object storage e combina i dati provenienti da molteplici fonti, tra cui i repository esistenti, per consentire fondamentalmente analytics e AI su larga scala.
Le strategie multicloud e ibride stanno diventando sempre più popolari. Le tecnologie AI sono alimentate da enormi quantità di dati che richiedono moderni storage dei dati che risiedono su architetture cloud-native per garantire scalabilità, ottimizzazione dei costi, prestazioni migliorate e continuità aziendale. Secondo Gartner2, entro la fine del 2026, "il 90% degli strumenti e delle piattaforme di gestione dei dati che non supportano funzionalità multi-cloud e ibride sarà disattivato"
Sebbene gli strumenti esistenti aiutino gli amministratori di database (DBA) ad automatizzare numerose funzioni di gestione convenzionali, il coinvolgimento manuale rimane necessario a causa della natura tipicamente ampia e complessa delle configurazioni del database. Ogni volta che si rende necessario un intervento manuale, la probabilità di errori aumenta. Ridurre al minimo la necessità di gestione dei dati manuale è un obiettivo primario nella gestione dei database come servizi completamente gestiti.
I database cloud completamente gestiti automatizzano attività che richiedono molto tempo, come gli aggiornamenti, i backup, il patching e la manutenzione. Questo approccio aiuta a liberare i DBA da attività manuali che richiedono molto tempo per dedicare quindi più tempo ad attività preziose come l'ottimizzazione degli schemi, le nuove app cloud-native e il supporto per nuovi casi d'uso di AI. A differenza delle implementazioni on-premise, i fornitori di cloud storage consentono agli utenti di creare cluster di grandi dimensioni secondo necessità, di solito richiedendo il pagamento solo per lo storage indicato. Questo significa che se un'organizzazione ha bisogno di maggiore potenza di calcolo per eseguire un lavoro in poche ore (piuttosto che in alcuni giorni), può farlo su una piattaforma cloud acquistando più nodi di calcolo.
Questo passaggio a piattaforme di dati cloud facilita inoltre l'adozione del trattamento dei dati in streaming. Strumenti come Apache Kafka consentono una maggiore trattamento dei dati in tempo reale, in modo che i consumatori possano abbonarsi agli argomenti per ricevere dati in pochi secondi. Tuttavia, l'elaborazione in batch presenta ancora i suoi vantaggi in quanto è più efficiente rispetto all'elaborazione di grandi volumi di dati. Sebbene l'elaborazione in batch rispetti una pianificazione prestabilita, ad esempio giornaliera, settimanale o mensile, è l'ideale per le dashboard delle prestazioni aziendali, che in genere non richiedono dati in tempo reale.
Più recentemente, i data fabric si sono affermati come supporto nella gestione della complessità di questi sistemi di dati. I data fabric utilizzano sistemi intelligenti e automatizzati per agevolare l'integrazione end-to-end delle pipeline di dati e degli ambienti cloud. Un data fabric semplifica inoltre la distribuzione di dati di qualità e fornisce un framework per l'applicazione delle policy di governance dei dati per garantire che i dati utilizzati siano conformi. Questo facilita l'accesso self-service a prodotti di dati affidabili collegandosi ai dati che risiedono in silo organizzativi, in modo che i leader aziendali abbiano una visione più olistica delle prestazioni aziendali. L'unificazione dei dati tra i reparti risorse umane, marketing, vendite, supply chain e altri ancora offre ai leader una migliore conoscenza dei clienti.
Potrebbe essere utile anche un data mesh. Un data fabric è un'architettura che facilita l'integrazione end-to-end. Al contrario, un data mesh è un'architettura di dati decentralizzata che organizza i dati in base a un dominio aziendale specifico, ad esempio marketing, vendite, servizio clienti e altro ancora. Questo approccio offre maggiore proprietà ai produttori di un set di dati.
In questa fase del ciclo di vita della gestione dei dati, i dati non elaborati vengono acquisiti da una serie di fonti di dati, come API web, app mobili, dispositivi Internet of Things (IoT), moduli, sondaggi e altro ancora. Dopo la raccolta dei dati, generalmente i dati vengono elaborati o caricati utilizzando tecniche di integrazione dei dati, come estrazione, trasformazione, caricamento (ETL) o estrazione, caricamento, trasformazione (ELT). Sebbene l'ETL sia stato storicamente il metodo standard per integrare e organizzare i dati in diversi set di dati, l'ELT è diventato sempre più popolare con l'emergere di piattaforme di dati cloud e la crescente domanda di dati in tempo reale.
Oltre all'elaborazione in batch, la replica dei dati è un metodo alternativo per integrare i dati e consiste nella sincronizzazione dei dati da una posizione di origine a una o più posizioni di destinazione, contribuendo a garantire la disponibilità, l'affidabilità e la resilienza dei dati. Una tecnologia come la Change Data Capture (CDC) utilizza la replica basata su log per acquisire le modifiche apportate ai dati alla fonte e propagare tali modifiche ai sistemi di destinazione, aiutando le organizzazioni a prendere decisioni sulla base delle informazioni correnti.
Indipendentemente dalla tecnica di integrazione dei dati utilizzata, i dati generalmente vengono filtrati, uniti o aggregati durante la fase di trattamento dei dati per soddisfare i requisiti per lo scopo previsto. Queste applicazioni possono variare da una dashboard di business intelligence a un algoritmo di apprendimento automatico predittivo.
L'utilizzo dell'integrazione e della distribuzione continua (CI/CD) per il controllo delle versioni può consentire ai team di dati di tenere traccia delle modifiche al codice e agli asset. Il controllo delle versioni consente ai team di dati di collaborare in modo più efficace, in quanto possono lavorare contemporaneamente su diverse parti di un progetto e unire le modifiche senza conflitti.
La governance dei dati promuove la disponibilità e l'utilizzo dei dati. Per contribuire a garantire la conformità, la governance include generalmente processi, politiche e strumenti relativi alla qualità dei dati, all'accesso ai dati, all'usabilità e alla sicurezza dei dati. Ad esempio, i consigli di governance dei dati tendono ad allineare le tassonomie per contribuire a garantire che i metadati vengano aggiunti in modo coerente tra le varie fonti di dati. Una tassonomia può inoltre essere ulteriormente documentata attraverso un catalogo di dati per rendere i dati più accessibili agli utenti, facilitando la democratizzazione dei dati in un'organizzazione.
Arricchire i dati con il giusto contesto aziendale è fondamentale per l'applicazione automatica delle policy di governance dei dati e qualità dei dati. È qui che entrano in gioco le regole degli accordi sul livello di servizio (SLA), che aiutano a garantire la protezione dei dati e la qualità richiesta. È inoltre importante capire la provenienza dei dati e ottenere la trasparenza del percorso dei dati mentre si spostano attraverso le pipeline. Questo richiede robuste funzionalità di data lineage per favorire la visibilità mentre i dati organizzativi seguono il percorso dalle fonti di dati agli utenti finali. I team di governance dei dati definiscono inoltre ruoli e responsabilità per contribuire a garantire che l'accesso ai dati sia fornito in modo appropriato. Questo accesso controllato è particolarmente importante per mantenere la privacy dei dati.
La sicurezza dei dati pone delle barriere per proteggere le informazioni digitali da accessi non autorizzati, danneggiamento o furti. Man mano che la tecnologia digitale diventa una parte sempre più importante della nostra vita, vengono esaminate con maggiore attenzione le pratiche di sicurezza delle aziende moderne. Questo controllo è importante per aiutare a proteggere i dati dei clienti dai criminali informatici o per aiutare a prevenire incidenti che richiedono un disaster recovery. Sebbene la perdita di dati possa essere devastante per qualsiasi azienda, le violazioni dei dati, in particolare, possono comportare costose conseguenze sia dal punto di vista finanziario, sia in termini di reputazione del marchio. I team addetti alla sicurezza dei dati possono ottimizzare la protezione dei propri dati utilizzando la crittografia e il mascheramento dei dati nell'ambito della loro strategia di sicurezza dei dati.
L'osservabilità dei dati si riferisce alla pratica di monitorare, gestire e mantenere i dati in modo da garantirne la qualità, la disponibilità e l'affidabilità nei vari processi, sistemi e pipeline all'interno di un'organizzazione. L'osservabilità dei dati riguarda la conoscenza approfondita dello stato di salute dei dati di un'organizzazione e del loro stato all'interno di un ecosistema di dati. Comprende una varietà di attività che vanno oltre il tradizionale monitoraggio, il quale descrive unicamente un problema. L'osservabilità dei dati può aiutare a individuare e risolvere i problemi relativi ai dati quasi in tempo reale.
La Master Data Management (MDM) si concentra sulla creazione di una visione unica e di alta qualità delle entità core business, tra cui prodotti, clienti, dipendenti e fornitori. Fornendo visualizzazioni accurate dei dati master e relative relazioni, la gestione dei dispositivi mobili (MDM) consente insight più rapidi, una migliore qualità dei dati e preparazione alla conformità. Con una visione unica a 360 gradi dei dati master in tutta l'azienda, la gestione dei dispositivi mobili (MDM) consente alle aziende di disporre dei dati corretti per eseguire l'analytics, determinare i prodotti e i mercati di maggior successo e i clienti più stimati.
Le organizzazioni usufruiscono di numerosi benefici nell'avvio e nel mantenimento delle iniziative di gestione dei dati.
Numerose aziende creano inavvertitamente silo di dati all'interno della propria organizzazione. I moderni framework e strumenti di gestione dei dati, come data fabric e data lake, aiutano a eliminare i silo di dati e le dipendenze dai proprietari dei dati. Ad esempio, i data fabric aiutano a rivelare potenziali integrazioni tra set di dati eterogenei e funzioni, come risorse umane, marketing e vendite. Tuttavia, i data lake acquisiscono dati non elaborati da quelle stesse funzioni, rimuovendo le dipendenze ed eliminando i singoli proprietari di un set di dati.
I consigli di governance aiutano a posizionare parapetti per proteggere le aziende da sanzioni e dalla pubblicità negativa che possono verificarsi a causa della mancata conformità alle normative e alle politiche di governo. In questa situazione gli errori possono risultare costosi, sia dal punto di vista del brand, sia da quello finanziario.
Anche se questo beneficio potrebbe non notarsi immediatamente, un proof of concept efficace può migliorare l'esperienza complessiva dell'utente, consentendo ai team di conoscere e personalizzare meglio il percorso del cliente attraverso analisi più olistiche.
La gestione dei dati può aiutare le aziende a crescere, ma questo dipende in gran parte dalla tecnologia e dai processi in atto. Ad esempio, le piattaforme cloud consentono una maggiore flessibilità, in modo che i proprietari dei dati possano aumentare o diminuire la propria potenza di calcolo in base alle necessità.
Nel corso dell'ultimo decennio, i progressi in ambito di hybrid cloud, intelligenza artificiale, Internet of Things (IoT) ed edge computing hanno portato a una crescita esponenziale dei big data, creando una complessità ancora maggiore da gestire per le aziende. I nuovi componenti continuano a migliorare le funzionalità di gestione dei dati. Ecco alcune delle più recenti:
Per potenziare ulteriormente le funzionalità di gestione dei dati, la gestione aumentata dei dati sta diventando sempre più popolare. Si tratta di una branca dell'intelligenza aumentata, basata su tecnologie cognitive, che includono AI, apprendimento automatico (ML), automazione, data fabric e data mesh. I benefici di questa automazione includono la possibilità per i proprietari dei dati di creare prodotti di dati come cataloghi di asse di dati, con la possibilità di cercare e trovare prodotti di dati e di richiedere query su prodotti di dati e visivi utilizzando le API. Inoltre, gli insight ricavati dai metadati di data fabric possono aiutare ad automatizzare le attività imparando da modelli come parte del processo di creazione del prodotto di dati o come parte del processo di gestione dei dati di monitoraggio dei prodotti di dati.
Uno storage dei dati per l'AI generativa come IBM® watsonx.data™ può aiutare le organizzazioni a unificare, rendere accurato e preparare i dati in modo efficiente per le applicazioni e i modelli AI. Le funzionalità di embedding integrate e vettorizzate consentono casi d'uso di retrieval-augmented generation (RAG) su larga scala su grandi insiemi di dati governati.
Per semplificare la connettività e la sicurezza delle applicazioni tra piattaforme, cluster e cloud, può essere utile un hybrid cloud. Le applicazioni possono essere facilmente implementate e spostate tra ambienti in quanto i container e l'object storage hanno reso portatili l'elaborazione e i dati.
Per accelerare l'accesso ai dati e sbloccare nuovi insight sui dati senza SQL, le organizzazioni stanno creando un livello semantico incorporabile e basato su AI. Si tratta di un livello di metadati e astrazione basato sui dati di origine dell'organizzazione, come un data lake o un warehouse. I metadati possono arricchire il modello di dati utilizzato ed essere sufficientemente chiari da essere comprensibili per gli utenti business.
Le organizzazioni possono accedere ai dati su un hybrid cloud collegando ambienti di storage e analytics. Questo accesso può avvenire attraverso un unico punto di ingresso con un livello di metadati condiviso tra cloud e ambienti on-premise. È possibile utilizzare più motori di query per ottimizzare i workload di analytics e AI.
La creazione di un livello di metadati condiviso in un data lakehouse per catalogare e condividere i dati è una best practice. Questo accelera la scoperta e l'arricchimento, l'analisi dei dati tra più fonti, l'esecuzione di più workload e casi d'uso.
Inoltre, uno strumento condiviso per la gestione dei metadati velocizza la gestione di oggetti in un repository condiviso. Può essere utilizzato per aggiungere un nuovo sistema host, aggiungere un nuovo database o file di dati oppure per aggiungere un nuovo schema, oltre a eliminare elementi da un repository condiviso.
Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.
Watsonx.data ti consente di scalare l'analytics e l'AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.
Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.
1 Wire19.com: “Ways to ensure that your data is AI-ready”, 14 June 2024
2 Gartner: "Strategic Roadmap for Migrating Data Management Solutions to the Cloud", 27 September 2023