Cos'è l'ottimizzazione dei dati?

Un approccio organizzato allo storage e al warehousing

Definizione dell'ottimizzazione dei dati

L'ottimizzazione dei dati è il processo di miglioramento dell'organizzazione e della qualità degli set di dati per garantire l'efficienza a livello di data storage, elaborazione e analisi da parte delle aziende e di altre entità.

 

L'ottimizzazione dei dati comprende un'ampia gamma di tecniche di gestione dei dati. Include strategie per ottimizzare pulizia, storage, trasformazione ed elaborazione dei dati, oltre a quelle per ottimizzare le query. Ottimizzando efficacemente i dati, le organizzazioni possono sperimentare un processo decisionale più informato, stabilire operazioni aziendali meno costose e supportare iniziative di intelligenza artificiale (AI) scalabili.

Poiché le aziende si concentrano sempre più sull'ottimizzazione dei loro patrimoni di dati, molte stanno implementando soluzioni basate su AI per migliorare i processi di ottimizzazione dei dati. Queste soluzioni includono strumenti di pulizia dei dati basati su AI, software di governance e observability dei dati, soluzioni di storage hybrid cloud e piattaforme data lakehouse.

Perché l'ottimizzazione dei dati è importante?

Sebbene l'accesso a dati di alta qualità e pertinenti sia sempre stato importante per l'affidabilità dell'analytics e per un processo decisionale migliore, assume un'urgenza ancora maggiore nel panorama dei dati moderno. I motivi sono tre: volume dei dati, complessità e pressione competitiva legata all'AI.

Le organizzazioni devono affrontare attualmente volumi di dati che sono ordini di grandezza superiori rispetto a quanto disponibile per gran parte della storia umana: uno studio globale del 2024 su organizzazioni di diverse dimensioni ha rilevato che quasi due terzi gestivano almeno un petabyte di dati.1

Molti di questi dati sono big data, ovvero enormi set di dati in vari formati, tra cui dati strutturati, semi-strutturati e non strutturati. In particolare, i dati non strutturati non si adattano facilmente agli schemi fissi dei database relazionali, il che significa che gli strumenti e i metodi convenzionali in genere non possono essere utilizzati per l'analisi e l'elaborazione dei dati non strutturati.

Allo stesso tempo, le aziende sono sotto pressione per utilizzare dati AI-ready, ovvero informazioni di alta qualità, accessibili e affidabili, che le organizzazioni possono utilizzare con fiducia per l'addestramento e le iniziative di intelligenza artificiale.

Tuttavia, la maggior parte delle aziende non dispone ancora di dati AI-ready: secondo un sondaggio condotto nel 2024 dall'IBM Institute for Business Value, solo il 29% dei leader tecnologici concorda fermamente sul fatto che i propri dati aziendali soddisfino gli standard d'importanza chiave per scalare in modo efficiente l'AI generativa.2

Ottenere un valore da set di dati enormi e complessi, garantendo al contempo la prontezza dell'AI, richiede gli strumenti, l'infrastruttura e le strategie di gestione dei dati giusti. Tuttavia, le aziende non possono solitamente permettersi risorse infinite di calcolo e storage. Devono bilanciare gli sforzi per sbloccare valore con misure progettate per aumentare al massimo l'efficienza e il ritorno sugli investimenti.

L'ottimizzazione dei dati le aiuta a fare questo.

Attraverso l'ottimizzazione dei dati, le organizzazioni possono migliorare sia le prestazioni che l'efficienza dei workflow dei dati. Diverse tecniche di ottimizzazione dei dati aiutano le aziende a migliorare la qualità e l'accessibilità dei propri dati, riducendo al contempo il peso che lo storage e l'elaborazione impongono alle loro risorse e ai loro budget.

Quali sono i benefici dell'ottimizzazione dei dati?

L'ottimizzazione dei dati può aiutare le organizzazioni ad affrontare le sfide a livello di budget e pipeline di dati. I benefici dell'ottimizzazione dei dati includono:

Qualità dei dati superiore

L'ottimizzazione dei dati migliora la qualità dei dati, aiutando le imprese a prendere decisioni migliori basate sui dati e a supportare l'addestramento dei modelli di AI ad alte prestazioni e machine learning. "L'AI aziendale su larga scala è finalmente a portata di mano", ha dichiarato Ed Lovely, Vice President and Chief Data Officer di IBM, in un recente report di IBV. "La tecnologia è pronta, a condizione che le organizzazioni possano fornirle i dati giusti".

Migliore accesso ai dati

Si stima che il 68% dei dati aziendali rimanga inutilizzato, in gran parte perché intrappolato in silos di dati o semplicemente troppo difficile da interpretare. I dati organizzati attraverso le tecniche di ottimizzazione dei dati sono più facilmente accessibili agli stakeholder, dai team di dati agli utenti aziendali. Questo consente a un maggior numero di dipendenti di generare insight e di supportare le decisioni strategiche in tutta l'azienda.

Prestazioni più veloci

Accedere ed elaborare rapidamente i dati giusti è fondamentale per l'analytics dei dati in tempo reale e per il processo decisionale. Tuttavia, i volumi di dati possono rallentare le prestazioni del sistema e la velocità delle query. Le tecniche di ottimizzazione dei dati favoriscono un recupero accelerato e un'elaborazione più rapida. Inoltre, prestazioni più rapide possono accelerare il servizio clienti, migliorando l'esperienza del cliente.

Riduzione dei costi

L'elaborazione e lo storage dei dati possono essere costosi e difficili da pianificare. Secondo un sondaggio del 2025, il 62% dei leader aziendali ha dichiarato che le proprie organizzazioni avevano superato i budget di cloud storage l'anno precedente.3 L'ottimizzazione dei dati include strategie per gestire set di dati, risorse e storage al fine di ridurre i costi.

Scalabilità e innovazione

Una migliore gestione dell'elaborazione e dello storage non si limita a ridurre al minimo i costi; le risorse risparmiate grazie all'ottimizzazione dei dati possono essere allocate per supportare la scalabilità delle iniziative e dell'innovazione basate sui dati. Questi risparmi potrebbero eliminare un ostacolo importante per i leader aziendali intenzionati a implementare strategie dati più sofisticate: secondo un sondaggio del 2025, le "limitazioni delle risorse" erano una delle principali sfide affrontate dai CDO.4

Conformità e supporto alla sicurezza

Il miglioramento della qualità dei dati attraverso la loro ottimizzazione significa maggiore accuratezza e tempestività, spesso richieste da normative come il Regolamento Generale sulla Protezione dei Dati (GDPR) dell'Unione Europea. Aiuta inoltre a prevenire lo storage non necessario di dati ridondanti, mitigando i rischi per la sicurezza.

Tecniche di ottimizzazione dei dati

Le tecniche di ottimizzazione dei dati aiutano a migliorare l'usabilità e l'efficienza dei workload dei dati nei punti chiave del ciclo di vita dei dati, come data storage, trasformazione dei dati e utilizzo dei dati.

Ottimizzazione dello storage

L'ottimizzazione del data storage include la riduzione dello spazio di storage necessario per tabelle e indici dei dati. Comprende anche strategie per utilizzare diverse opzioni di storage al fine di distribuire i dati in modo più efficiente ed economico.

  • Ridurre lo spazio di storage: un approccio comune per ridurre i costi di storage e lo spazio necessario è la compressione. Questo processo utilizza algoritmi per codificare e decodificare i dati, riducendo così i bit necessari per la loro archiviazione.
  • Utilizzare lo storage a più livelli: nello storage a più livelli, i dati vengono raggruppati in base ai requisiti di accesso. Le opzioni di data storage più costose, che in genere consentono un recupero più rapido, sono riservate ai dati "caldi" a cui si accede frequentemente. Nel frattempo, i dati "freschi" o "freddi", ovvero dati utilizzati meno spesso, risiedono in ambienti di storage meno costosi e che richiedono più tempo per l'accesso.
  • Scegliere l'architettura di data storage: oltre a utilizzare i livelli di storage, l'organizzazione può anche scegliere uno o più metodi per ottimizzare velocità, risparmi sui costi e altri obiettivi. I tre tipi principali di sistemi di storage sono object storage, file storage e block storage, ognuno con diversi punti di forza e svantaggi.

Trasformazione e pulizia dei dati

Un significativo miglioramento della qualità dei dati si verifica durante i processi di trasformazione dei dati e pulizia dei dati eseguiti con successo.

La trasformazione dei dati è la conversione di dati non elaborati in un formato e una struttura unificati. Il primo passo della trasformazione dei dati è la pulizia dei dati. Chiamata anche data cleansing o data scrubbing, consiste nell'identificazione e nella correzione di errori e incoerenze nei set di dati.

Le tecniche chiave di pulizia dei dati includono:

  • Standardizzazione: quando i dati sono rappresentati in strutture e formati diversi all'interno dello stesso set di dati, le incongruenze che ne derivano possono renderne più difficile l'utilizzo. La standardizzazione delle strutture e dei formati dei dati può aiutare a garantire l'uniformità e la compatibilità per un'analisi accurata.
  • Deduplicazione dei dati: i dati duplicati o ridondanti possono distorcere l'analisi. La deduplicazione dei dati elimina i record duplicati (come quelli creati da problemi di integrazione dei dati, errori di inserimento manuale o malfunzionamenti del sistema). Oltre a migliorare la qualità dei dati, la deduplicazione dei dati può anche ridurre i costi e l'utilizzo delle risorse, poiché meno capacità di calcolo e storage vengono impiegati per i record duplicati.
  • Gestire i valori mancanti: i valori mancanti possono anche distorcere l'analisi dei dati. Le tattiche adottate dai professionisti dei dati per colmare queste lacune includono la sostituzione dei valori mancanti con dati stimati o la rimozione di voci incomplete.
  • Convalida dei dati: la convalida dei dati è il processo di verifica che i dati siano puliti, accurati e pronti per l'uso. Comporta l'istituzione e l'applicazione di regole aziendali e controlli di validazione dei dati, inclusi controlli su coerenza, tipo di dato, formato, intervallo e unicità.

Per affrontare la scarsa qualità dei dati nell'addestramento dei modelli di AI,i ricercatori ricorrono spesso a misure aggiuntive per migliorare la qualità dei set di dati di addestramento, inclusi data augmentation e generazione di dati sintetici.

Gestione dei metadati

La gestione dei metadati consiste nell'organizzazione e nell'utilizzo dei metadati per migliorare l'accessibilità e la qualità dei dati.

Esempi di metadati includono:

  • Metadati descrittivi: includono informazioni di base, come titoli e parole chiave. Questo tipo di metadati aiuta le organizzazioni a migliorare la facilità di ricerca e la reperibilità dei propri dati nei cataloghi, nelle piattaforme di social media e nei motori di ricerca.
  • Metadati amministrativi: comprendono la proprietà, le autorizzazioni e le policy di conservazione. Questo tipo di metadati aiuta le organizzazioni a rispettare le policy legali, normative e interne.
  • Metadati di conservazione: garantiscono l'usabilità e l'accessibilità a lungo termine dei dati. Questo tipo di metadati aiuta le organizzazioni a soddisfare i requisiti estesi di conservazione dei dati, soprattutto nei settori in cui i record devono rimanere accessibili per la conformità.

Ottimizzazione delle query e della loro elaborazione

L'ottimizzazione delle query velocizza l'esecuzione delle query (il recupero e la manipolazione dei dati) nei database SQL e NoSQL, riducendo al minimo l'uso di risorse come memoria e CPU. Mentre le tecniche di ottimizzazione delle query variano a seconda del tipo di database, quelle più comuni includono:

  • Filtraggio: assicurati che il sistema non stia scansionando dati irrilevanti per le query.
  • Aggiunta di un indice: gli indici possono preordinare le informazioni per supportare ricerche più intelligenti.
  • Caching: la memorizzazione nella cache dei risultati delle query ripetitive riduce la necessità di nuovi calcoli ogni volta che la query si ripete.
  • Partizionamento: durante la progettazione del database, i database possono essere suddivisi in segmenti più piccoli per query più rapide e mirate.

Scegliere il motore di query giusto e adatto allo scopo può anche essere un componente chiave dell'ottimizzazione delle query, poiché motori diversi possono essere più adatti a workload di dati differenti. Ad esempio, Presto C++ può essere utilizzato per query ad alte prestazioni e bassa latenza su set di dati di grandi dimensioni, mentre Spark funziona bene per attività complesse e distribuite.

Altre tecniche

Altre tecniche implementate per l'ottimizzazione dei dati includono elaborazione parallela (suddividere le attività di elaborazione dei dati in parti più piccole da eseguire simultaneamente su più processori), controllo degli accessi basato su regole o RBAC (limitare l'accesso ai dati sensibili, contribuendo a prevenire perdite di dati accidentali e violazioni dei dati intenzionali) e la visualizzazione dei dati (la rappresentazione grafica dei dati per facilitare l'analisi dei dati).

AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Ottimizzazione dei dati, gestione dei dati e governance dei dati a confronto

L'ottimizzazione dei dati può essere considerata una componente della gestione dei dati, oppure una pratica complementare. In definitiva, ciò che conta è che l'ottimizzazione dei dati consenta una gestione dei dati più efficace, migliorando la qualità e l'accessibilità dei dati gestiti.

La governance dei dati è una disciplina di gestione dei dati che contribuisce a garantire l'integrità e la sicurezza dei dati definendo e implementando policy, standard di qualità e procedure per la raccolta, la proprietà, lo storage, l'elaborazione e l'uso dei dati. In quanto tale, può supportare varie tecniche di ottimizzazione dei dati.

Ad esempio, il programma di governance dei dati di un'organizzazione può stabilire metriche di qualità dei dati per misurare i progressi verso il miglioramento della qualità dei dati e stabilire policy di conservazione dei dati che aiutino a ottimizzare il data storage.

Strumenti di ottimizzazione dei dati

Gli strumenti per l'ottimizzazione dei dati spaziano da soluzioni mirate a piattaforme complete, tipicamente dotate di componenti basati su AI che riducono i processi manuali e supportano l'efficienza operativa.

Strumenti di pulizia dei dati

Gli strumenti di pulizia dei dati basati su AI possono identificare automaticamente modelli, anomalie e incongruenze nei dati di origine. I modelli AI basati su regole o appresi possono anche consolidare o eliminare i duplicati, decidendo quale record debba "sopravvivere" in base all'accuratezza, alla ricorrenza o all'affidabilità. I modelli AI possono automatizzare la creazione e l'applicazione delle regole di pulizia dei dati imparando dalle correzioni storiche e dai feedback degli utenti.

Strumenti di data observability

Gli strumenti di data observability consentono il monitoraggio automatizzato, l'allerta di triage, l'analisi della causa principale, il data lineage e il monitoraggio degli accordi sul livello di servizio (SLA), aiutando i professionisti a comprendere la qualità dei dati end-to-end. Questi strumenti consentono ai team di rilevare problemi quali valori mancanti, record duplicati o formati incoerenti prima che influiscano sulle dipendenze a valle, portando a una risoluzione più rapida ed efficiente dei problemi.

Strumenti di governance dei dati

Gli strumenti di governance dei dati aiutano le imprese a far rispettare le policy definite dai programmi di governance dei dati, comprese quelle a supporto dell'ottimizzazione dei dati. Le funzionalità comuni delle soluzioni di governance dei dati includono la scoperta e la classificazione automatica dei dati, l'applicazione delle regole di protezione dei dati e dei controlli di accesso basati sui ruoli, oltre a funzionalità a supporto dei requisiti di conformità e privacy dei dati.

Soluzioni hybrid cloud

Le soluzioni hybrid cloud offrono un approccio "mix-and-match" al data storage, con piattaforme di cloud pubblico, ambienti di cloud privato e infrastrutture on-premise disponibili per aiutare le organizzazioni a memorizzare i dati in modo flessibile, scalabile e ottimizzato in termini di costi.

Le organizzazioni possono scegliere l'opzione di storage migliore e più conveniente per soddisfare le loro esigenze aziendali e trasferire i workload dei dati secondo le necessità. Gli approcci basati sul multicloud ibrido offrono ulteriore flessibilità, poiché le aziende possono utilizzare i servizi di più provider di cloud.

Data lakehouse

Un data lakehouse è una piattaforma di dati che combina il data storage flessibile dei data lake con le capacità di analytics ad alte prestazioni dei data warehouse. I data lakehouse utilizzano il cloud object storage per uno storage rapido e a basso costo su un'ampia gamma di tipi di dati.

Inoltre, la loro architettura ibrida elimina la necessità di mantenere più sistemi di data storage, rendendoli meno costosi da gestire. Le caratteristiche delle soluzioni leader includono più motori di query per un'esecuzione efficiente delle query e funzionalità integrate per la governance, la pulizia e l'observability dei dati.

Casi d'uso dell'ottimizzazione dei dati

Le strategie e gli strumenti di ottimizzazione dei dati possono migliorare l'efficienza e le prestazioni in una serie di campi e settori.

  • Reti Internet of Things (IoT): Comprimere enormi quantità di dati raccolti dai sensori nelle reti IoT può rendere il cloud storage più efficiente.5
  • Customer relationship management (CRM): la pulizia e la deduplicazione dei dati nei sistemi CRM possono aiutare a migliorare la gestione dei lead, la previsione delle vendite e la gestione delle comunicazioni con i clienti.
  • Veicoli autonomi: il filtraggio delle immagini raccolte per l'addestramento del modello di veicolo autonomo può garantire che i dati di addestramento includano le immagini più utili, accelerando al contempo la velocità di addestramento.6

Autori

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Soluzioni correlate
IBM watsonx.governance

Metti all'opera un'AI affidabile monitorando i modelli, gestendo i rischi e facendo rispettare la governance in tutto il ciclo di vita dell'AI.

Esplora watsonx.governance
Soluzioni di governance dei dati

Acquisisci il controllo dei tuoi dati con strumenti di governance che migliorano la qualità, garantiscono la conformità e abilitano analytics e AI.

Esplora le soluzioni di governance dei dati
Consulenza sulla governance dell'AI

Stabilisci pratiche di AI responsabile con la guida degli esperti per gestire i rischi, rispettare le normative e rendere operativa un'AI affidabile su larga scala.

Esplora la consulenza sulla governance dell'AI
Fasi successive

Dirigi, gestisci e monitora la tua AI attraverso un portfolio unificato, accelerando risultati responsabili, trasparenti e spiegabili.

  1. Esplora watsonx.governance
  2. Esplora le soluzioni di governance dell'AI