Data di pubblicazione: 6 settembre 2024
Autore: Matthew Kosinski
La gestione dei dati AI è la pratica di utilizzare l'intelligenza artificiale (AI) e l'apprendimento automatico (ML) nel ciclo di vita della gestione dei dati. Alcuni esempi includono l'applicazione dell'AI per automatizzare o semplificare la raccolta dei dati, la pulizia, l'analisi, la sicurezza dei dati e altri processi di gestione.
Sia l'AI tradizionale basata sulle regole che i modelli di AI generativa più avanzati possono aiutare nella gestione dei dati.
Le aziende moderne possiedono grandi quantità di dati su tutto, dalle transazioni finanziarie all'inventario dei prodotti, dai record dei dipendenti alle preferenze dei clienti. Le organizzazioni che utilizzano questi dati per informare il processo decisionale e guidare le iniziative aziendali possono ottenere vantaggi significativi rispetto alla concorrenza.
Tuttavia, la sfida è rendere questi grandi set di dati abbastanza accurati, affidabili e accessibili da consentire alle persone di utilizzarli nella pratica.
IBM Data Differentiator riporta che l'82% delle aziende presenta silo di dati che ostacolano i workflow chiave. Fino al 68% dei dati organizzativi non viene mai analizzato, il che significa che l'azienda non trae mai il massimo vantaggio da tali dati.
Gli strumenti di AI e ML possono aiutare le organizzazioni a mettere a frutto i loro dati, ottimizzando attività come l'integrazione delle fonti di dati, la pulizia dei dati e il loro recupero. Di conseguenza, le aziende possono prendere decisioni più basate sui dati.
La gestione dei dati AI aiuta anche le organizzazioni a creare le pipeline di dati di alta qualità di cui hanno bisogno per addestrare e implementare i propri modelli AI e algoritmi di machine learning.
Scopri le opportunità per migliorare i servizi di dati utilizzando l'AI generativa per potenziare i professionisti dei dati.
Molti tipi di strumenti di gestione dei dati, come soluzioni di archiviazione dei dati, strumenti di integrazione, di master data management, di governance e altri, ora incorporano funzionalità di ML e AI. Questi strumenti possono utilizzare sia algoritmi di AI tradizionali che sistemi di AI generativa.
I sistemi di AI tradizionale svolgono attività specifiche basate su regole, ad esempio un sistema di gestione di database che classifica automaticamente i dati in base a criteri predefiniti.
I sistemi di AI generativa, come Microsoft Copilot, Llama di Meta e IBM Granite, rispondono al linguaggio naturale e creano contenuti originali. Ad esempio, un sistema di gestione di database con un modello linguistico di grandi dimensioni (LLM) integrato può creare riepiloghi di dati e accettare domande in inglese anziché in SQL.
AI e ML possono essere inseriti in quasi tutte le fasi del processo di gestione dei dati, ma alcuni dei casi d'uso più comuni includono:
Oggi le organizzazioni lavorano con una grande quantità di dati che arrivano all'azienda da fonti diverse e in formati diversi. Questi dati vengono gestiti da vari utenti e finiscono per essere sparsi tra cloud pubblici e privati, sistemi di storage on-premise e persino endpoint personali dei dipendenti.
Monitorare e gestire centralmente tutti questi dati non è facile, il che solleva due problemi.
Innanzitutto, un'organizzazione non può utilizzare un set di dati se non sa che esiste.
In secondo luogo, questi "shadow data" non scoperti e non gestiti comportano rischi per la sicurezza. Secondo il report Cost of a Data Breach di IBM, il 35% delle violazioni coinvolge shadow data. Queste violazioni costano in media 5,27 milioni di dollari, il 16% in più rispetto al costo medio complessivo delle violazioni.
AI e ML possono automatizzare molti aspetti della data discovery, garantendo alle organizzazioni maggiore visibilità e controllo su tutte le loro risorse di dati.
Gli strumenti di data discovery basati sull'AI possono scansionare automaticamente i dispositivi di rete e i repository di data storage, indicizzando i nuovi dati quasi in tempo reale.
Gli strumenti di classificazione automatizzata dei dati possono etichettare i nuovi dati in base a regole predefinite o modelli di machine learning. Ad esempio, lo strumento può classificare qualsiasi numero di nove cifre nel formato XXX-XX-XXXX come numero di previdenza sociale statunitense.
Gli LLM e altri strumenti di elaborazione del linguaggio naturale possono estrarre dati strutturati da fonti non strutturate, ad esempio estraendo i dati di contatto e le esperienze passate dei candidati da documenti di testo con diversi formati.
È più problematico avere dati errati che non avere nessun dato. Se i dati di un'organizzazione sono incompleti o imprecisi, anche le iniziative di business e i modelli di AI costruiti su di essi non saranno all'altezza.
Gli strumenti di AI e ML possono aiutare a identificare e correggere gli errori nei dati organizzativi, il che significa che gli utenti non devono svolgere il dispendioso lavoro di pulizia manuale dei dati. L'AI è anche in grado di lavorare più rapidamente e di cogliere più errori di un utente umano.
Gli strumenti di data preparation abilitati dall'AI possono eseguire controlli di convalida e segnalare o correggere errori come formattazione impropria e valori irregolari. Alcuni strumenti di data preparation possono anche convertire i dati nel formato appropriato, ad esempio trasformando le note non strutturate delle riunioni in tabelle strutturate.
I generatori di dati sintetici sono in grado di fornire valori mancanti e colmare altre lacune nei set di dati. Questi generatori possono utilizzare modelli di machine learning per identificare modelli nei dati esistenti e generare punti dati sintetici altamente accurati.
Alcuni strumenti di master data management (MDM) possono utilizzare AI e ML per rilevare e correggere errori e duplicati nei record critici, come l'unione di due record di clienti con lo stesso nome, indirizzo e dettagli di contatto.
Gli strumenti di osservabilità dei dati basati sull'AI possono generare automaticamente record di derivazione dei dati in modo che le organizzazioni possano tenere traccia di chi utilizza i dati e di come questi cambiano nel tempo.
I silo di dati impediscono a molte organizzazioni di realizzare il pieno valore dei propri dati. AI e ML possono semplificare le attività di integrazione dei dati, sostituendo i repository in silos con data fabric unificati. Gli utenti di tutta l'organizzazione possono accedere agli asset di dati di cui hanno bisogno, quando ne hanno bisogno.
Gli strumenti di integrazione dei dati abilitati dall'AI possono rilevare automaticamente le relazioni tra diversi set di dati, consentendo all'organizzazione di collegarli o unirli.
Gli strumenti di gestione dei metadati con funzionalità di AI aiutano ad automatizzare la creazione di cataloghi di dati generando descrizioni delle risorse di dati basate su tag e classificazione.
I database e i cataloghi di dati con interfacce basate su LLM possono accettare ed elaborare comandi in linguaggio naturale, consentendo agli utenti di trovare asset e prodotti di dati senza scrivere codice personalizzato o SQL Query. Alcune interfacce basate su LLM sono anche in grado di aiutare gli utenti a perfezionare le query, arricchire i set di dati o suggerire punti dati correlati.
I motori di query abilitati dall'AI possono utilizzare algoritmi di machine learning per migliorare le prestazioni del database analizzando i modelli di workload e ottimizzando l'esecuzione delle query.
Per dare priorità alla sicurezza dei dati è necessario partire da un business case. La violazione media dei dati può costare a un'organizzazione 4,88 milioni di dollari tra perdita di attività, tempi di inattività del sistema, danni alla reputazione e sforzi di risposta, secondo il report Cost of a Data Breach.
AI e ML possono aiutare ad applicare le politiche di sicurezza, a rilevare le violazioni e a bloccare le attività non autorizzate.
Gli strumenti di prevenzione della perdita di dati basati sull'AI possono rilevare automaticamente le informazioni di identificazione personale (PII) e altri dati sensibili, applicare controlli di sicurezza e segnalare o bloccare l'uso non autorizzato di tali dati.
Gli strumenti di rilevamento delle minacce basati sulle anomalie, come l'analisi del comportamento degli utenti e delle entità (UEBA) e il rilevamento e la risposta degli endpoint (EDR) utilizzano algoritmi di AI e ML per monitorare l'attività di rete rilevando deviazioni sospette dalla norma, come lo spostamento improvviso di molti dati in una nuova posizione.
Gli LLM possono aiutare le organizzazioni a generare e implementare politiche di governance dei dati. Ad esempio, in un sistema di controllo degli accessi basato sui ruoli (RBAC), un LLM permette al team di sicurezza di delineare i diversi tipi di ruoli e le relative autorizzazioni. L'LLM può anche aiutare a convertire queste descrizioni dei ruoli in regole per un sistema di gestione delle identità e degli accessi.
Gli strumenti di rilevamento delle frodi abilitati dall'AI possono utilizzare AI e ML per analizzare i modelli e individuare le transazioni anomale.
L'AI può aiutare a trasformare la gestione dei dati automatizzando attività ardue come la scoperta, la pulizia e la catalogazione dei dati, semplificando al contempo il recupero e l'analisi dei dati. Le organizzazioni possono creare processi di gestione dei dati più efficienti, meno inclini agli errori e più idonei alla data science, alle iniziative di AI e alla privacy dei dati.
Nell'AI and Information Management Report di AvePoint, il 64% delle organizzazioni intervistate ha dichiarato di gestire almeno un petabyte di dati.1 In prospettiva, è pari a circa 9 quadrilioni di bit di informazioni. E gran parte è disponibile in formati non strutturati, come file di testo, immagini e video.
Tutti questi dati possono essere un vantaggio per i data scientist, ma è impossibile gestire manualmente dati così complessi in quantità così massicce. Gli strumenti di AI e ML possono rendere questi dati fruibili automatizzando attività critiche come il rilevamento, l'integrazione e la pulizia.
Quando i dati sono puliti e accessibili, le organizzazioni possono utilizzarli per progetti avanzati di analytics, come un'iniziativa di analytics predittiva che utilizza i dati storici per prevedere le tendenze future della spesa dei consumatori.
Le tecnologie di AI possono anche rendere i dati più accessibili agli utenti senza background di data science. I cataloghi di dati di facile utilizzo con interfacce di database basate su LLM e visualizzazioni automatizzate consentono a un maggior numero di utenti in tutta l'azienda di utilizzare i dati per prendere decisioni informate.
Il 59% degli amministratori delegati intervistati dall'IBM Institute for Business Value ritiene che il vantaggio competitivo di un'organizzazione in futuro dipenderà da chi avrà l'IA generativa più avanzata. Per costruire e implementare questi modelli di AI, le organizzazioni hanno bisogno di flussi costanti di dati puliti e di alta qualità.
Semplificando la gestione dei dati, gli strumenti di AI aiutano a costruire le pipeline di dati affidabili e di alta qualità di cui le organizzazioni hanno bisogno per addestrare i propri modelli di AI e ML. E poiché questi modelli possono essere addestrati sui dati aziendali, possono essere addestrati per eseguire attività e risolvere problemi specifici dell'azienda e dei suoi clienti.
Gli strumenti di sicurezza e governance basati sull'AI aiutano a respingere gli attacchi informatici e le violazioni dei dati che possono essere costosi. Consentono inoltre alle aziende di utilizzare i dati in loro possesso nel rispetto delle normative sulla privacy e sulla protezione dei dati come il GDPR e il Payment Card Industry Data Security Standard (PCI-DSS).
Secondo l'Institute for Business Value, il 57% degli amministratori delegati afferma che la sicurezza dei dati è un ostacolo all'adozione dell'AI generativa. Il 45% afferma che anche la privacy dei dati è una barriera. Questi ostacoli possono essere particolarmente difficili da superare in settori altamente regolamentati, come la sanità e la finanza.
La gestione dei dati abilitata all'AI può aiutare applicando automaticamente protezioni e politiche appropriate di utilizzo dei dati. In questo modo, solo gli utenti autorizzati possono accedere ai dati e utilizzarli unicamente nei modi consentiti dalle normative di settore e dalle politiche aziendali.
Anche i generatori di dati sintetici possono aiutare generando set di dati che riflettono accuratamente le tendenze generali, rimuovendo al contempo i dati personali sensibili che un'organizzazione potrebbe non essere autorizzata a utilizzare in determinati modi.
Progetta una strategia dati che elimini i silo di dati, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.
Storage di file e oggetti ad alte prestazioni per workload AI, ML, analytics e NVIDIA.
Impara la strategia, le tecnologie e la cultura fondamentali per guidare un'organizzazione basata sui dati alimentata dall'AI.
La gestione dei dati è la pratica di raccogliere, elaborare e utilizzare i dati in modo sicuro ed efficiente per ottenere risultati aziendali migliori.
Scopri come fare l'investimento ottimale nella giusta base di dati aperta e affidabile per le tue esigenze.
1 AI and Information Management Report 2024, AvePoint, 2024. (Link esterno a ibm.com.)