Cos'è la riduzione dei dati?
Esplora la nostra piattaforma AI Abbonati per ricevere gli aggiornamenti sull'AI
Un uomo in una sala server

Data di pubblicazione: 18 gennaio 2024
Autori: Phill Powell, Ian Smalley

Cos'è la riduzione dei dati?

La riduzione dei dati è il processo mediante il quale un'organizzazione si propone di limitare la quantità di dati che memorizza.

Le tecniche di riduzione dei dati hanno l'obiettivo di contenere le ridondanze rilevate nel set di dati originale, in modo che la mole dei dati originari possa essere memorizzata in modo più efficiente sotto forma di dati ridotti.

Innanzitutto, va sottolineato che il termine "riduzione dei dati" non equivale automaticamente a una perdita di informazioni. In molti casi, riduzione dei dati significa soltanto che i dati vengono ora memorizzati in modo più intelligente, magari dopo essere stati sottoposti a un processo di ottimizzazione ed essere stati riassemblati in una configurazione più fruibile.

La riduzione dei dati non è sinonimo di deduplicazione, un processo che consiste nell'eliminazione di copie in eccesso dei medesimi dati per ottimizzare lo spazio di archiviazione. Nello specifico, la riduzione dei dati combina singoli aspetti di diverse attività, come appunto la deduplicazione e la razionalizzazione dei dati, per raggiungere i propri scopi.

Perché la governance dell'AI è un imperativo aziendale per scalare l'AI aziendale

Scopri gli ostacoli all'adozione dell'AI, in particolare la mancanza di soluzioni di governance e gestione del rischio dell'AI.

Contenuti correlati

Registrati per leggere la guida sui foundation model

Una visione dei dati più ampia

Quando si parla di dati nel contesto della loro riduzione spesso si parla di "dato" nella sua forma singolare, in contrapposizione alla forma plurale tipicamente utilizzata. Un aspetto della riduzione dei dati, ad esempio, riguarda la definizione delle dimensioni fisiche effettive dei singoli punti dati.

I principi della data science giocano un ruolo di primo piano nelle attività di riduzione dei dati. Il materiale può essere abbastanza complesso e difficile da riassumere in modo conciso, e questo dilemma ha generato un termine proprio: l'interpretabilità, ovvero la capacità di un essere umano di intelligenza media di comprendere un particolare modello di machine learning.

Afferrare il significato di alcuni di questi termini non è semplice, perché si tratta di dati visti da una prospettiva quasi microscopica. Di solito parliamo di dati nella loro forma "macro", ma in ambito di riduzione dei dati ci riferiamo a essi nell'accezione più "micro". Per essere più precisi, la maggior parte delle discussioni su questo argomento richiederà sia analisi a livello macro che a livello micro.

I vantaggi della riduzione dei dati

Quando un'organizzazione riduce il volume dei propri dati, in genere è in grado di realizzare notevoli risparmi di costi, in quanto riduce sia il proprio fabbisogno in termini di spazio di archiviazione che la spesa complessiva che deve sostenere.

I metodi di riduzione dei dati offrono anche ulteriori vantaggi, come ad esempio l'aumento dell'efficienza. Una volta ottenuta la riduzione, i dati possono essere utilizzati più facilmente dai metodi di intelligenza artificiale (AI) in vari modi, comprese sofisticate applicazioni analytics dei dati che possono semplificare notevolmente le attività decisionali.

Ad esempio, quando la storage virtualization viene utilizzata correttamente, essa contribuisce al coordinamento tra gli ambienti server e desktop, migliorandone l'efficienza complessiva e rendendoli più affidabili.

Gli sforzi di riduzione dei dati svolgono un ruolo chiave nelle attività di data mining. I dati devono essere il più possibile ripuliti e preparati prima di essere estratti e utilizzati per le attività di analisi.

Tipologie di riduzione dei dati

A seguire riportiamo alcune delle metodologie che un'organizzazione può usare per ridurre i propri dati.

Riduzione della dimensionalità

Alla base del concetto, la nozione di dimensionalità del dato. La dimensionalità si riferisce al numero di attributi (o caratteristiche) assegnati a un singolo set di dati. Tuttavia, qui è presente un punto di disequilibrio: maggiore è la dimensionalità, maggiore sarà lo spazio di archiviazione necessario per quel set di dati. Inoltre, maggiore è la dimensionalità, più i dati tendono a essere sparsi, complicando la necessaria analisi degli outlier.

La riduzione della dimensionalità contrasta questo fenomeno limitando il "rumore" nei dati e consentendone una migliore visualizzazione. Un primo esempio di riduzione della dimensionalità è il metodo della trasformata wavelet, che aiuta la compressione dell'immagine mantenendo la distanza relativa che esiste tra gli oggetti a vari livelli di risoluzione.

L'estrazione di funzione è un'altra possibile trasformazione dei dati, in quanto trasforma i dati originali in caratteristiche numeriche e funziona in combinazione con il machine learning. Essa si differenzia dall'analisi dei componenti principali (PCA), un altro mezzo per ridurre la dimensionalità di set di dati di grandi dimensioni, in cui un insieme considerevole di variabili viene trasformato in un insieme più piccolo pur conservando la maggior parte dei dati del set più grande.

Riduzione della numerosità

L'altro metodo prevede la selezione di un formato più piccolo per rappresentare i dati, provvisto di una minore densità. Esistono due tipi di riduzione della numerosità: quella basata su metodi parametrici e quella basata su metodi non parametrici. I metodi parametrici, come la regressione, si concentrano sui parametri del modello, escludendo i dati stessi. Allo stesso modo, è possibile impiegare un modello log-lineare che si concentra sui sottospazi all'interno dei dati. I metodi non parametrici (come gli istogrammi, che mostrano il modo in cui i dati numerici sono distribuiti) non sono basati su modelli.

Aggregazione dei cubi di dati

I "cubi" sono un metodo visivo usato per memorizzare i dati. Il termine "cubo di dati" è in realtà quasi fuorviante nella sua singolarità implicita, perché in realtà descrive un grande cubo multidimensionale composto da cuboidi più piccoli e organizzati. Ciascuno dei cuboidi rappresenta un aspetto dei dati totali all'interno di un dato cubo, in particolare le porzioni di dati riguardanti misure e dimensioni. L'aggregazione dei cubi di dati, quindi, è il consolidamento degli stessi nel formato visivo del cubo multidimensionale, che riduce la dimensionalità dei dati dotandoli di un container unico appositamente creato.

Discretizzazione dei dati

Un altro metodo utilizzato è la cosiddetta discretizzazione dei dati, in cui viene creato un insieme lineare di valori di dati in base a un insieme definito di intervalli, ciascuno dei quali corrisponde a un determinato valore di dati.

Compressione dei dati

Per limitare le dimensioni dei file e ottenere una corretta compressione dei dati è possibile utilizzare vari tipi di codifica. In generale, le tecniche di compressione dei dati si dividono in compressione senza perdita di dati o compressione con perdita di dati. Nella compressione senza perdita di dati, le dimensioni dei dati vengono ridotte attraverso tecniche e algoritmi di codifica e, se necessario, è possibile ripristinare i dati originali completi. La compressione con perdita di dati, invece, utilizza altri metodi per eseguire la compressione e, sebbene i dati così ottenuti possono comunque essere meritevoli d'essere preservati, essi non saranno una copia esatta dei dati d'origine.

Pre-elaborazione dei dati

Alcuni dati devono essere puliti, trattati ed elaborati prima di essere sottoposti ai processi di analisi e riduzione. Una parte di queste trasformazioni può comportare il cambiamento della natura del dato da analogico a digitale. Il binning è un altro esempio di pre-elaborazione dei dati, in cui i valori mediani vengono utilizzati per normalizzare vari tipi di dati e garantirne l'integrità.

Soluzioni correlate
Sostenibilità nell'archiviazione dei dati con IBM FlashSystem

L'uso dei dispositivi di storage IBM FlashSystem è una scelta vincente sia per la tua azienda che per l'ambiente. Consuma meno energia e risparmia sui costi, riducendo allo stesso tempo l'impronta di carbonio della tua azienda.

Esplora la sostenibilità nell'archiviazione dei dati con IBM FlashSystem

IBM Spectrum Virtualize for Public Cloud

Immagina una soluzione che supporti il mirroring tra i data center on-premise e il cloud, oppure tra più data center che risiedono nel cloud. IBM Spectrum Virtualize for Public Cloud aiuta inoltre a implementare le strategie di disaster recovery.

Esplora IBM Spectrum Virtualize for Public Cloud

IBM Storage-as-a-Service

Ottieni il meglio da due mondi con IBM Storage-as-a-Service. Inizia con l'hardware on-premise fornito e gestito da IBM. Per una combinazione flessibile, abbinalo a un modello tariffario basato sul consumo, proprio come il cloud.

Esplora IBM Storage-as-a-Service
Risorse Presentazione del prodotto IBM FlashSystem

Esplora FlashSystems, basato sul software di IBM Spectrum Virtualize che impiega la virtualizzazione simmetrica.

Guarda il webinar sulla sostenibilità dello storage

Sia i costi dell'energia che i dati sembrano crescere a ritmi esponenziali. Le aziende si trovano pertanto a dover fare i conti con questa realtà, decisamente onerosa dal punto di vista finanziario, e a correre ai ripari richiedendo al mercato sistemi di archiviazione efficienti sotto il profilo energetico.

IBM Data Reduction Estimator Tool

Il Data Reduction Estimator Tool (DRET) è una utility in hosting a riga di comando, che viene utilizzato per stimare i risparmi in termini di riduzione dei dati sui dispositivi a blocchi.

Cos'è il consolidamento dei dati?

Scopri perché molte organizzazioni si affidano a strumenti di consolidamento dei dati per gestire il proprio data warehouse.

Che cos'è il data storage?

Scopri le nozioni di base sul data storage, inclusi i tipi di dispositivi di archiviazione e i diversi formati.

Che cos'è il flash storage?

Le soluzioni di flash storage possono variare da unità USB a installazioni per grandi aziende. Scopri le loro caratteristiche.

Fai il passo successivo

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e una minima quantità di dati.

Esplora watsonx.ai Prenota una demo live