Cos'è la riduzione dei dati?

Autori

Staff Writer

IBM Think

Staff Editor

IBM Think

Che cos'è la riduzione dei dati?

La riduzione dei dati è il processo mediante il quale un'organizzazione si propone di limitare la quantità di dati che memorizza.

Le tecniche di riduzione dei dati hanno l'obiettivo di contenere le ridondanze rilevate nel set di dati originale, in modo che la mole dei dati originari possa essere memorizzata in modo più efficiente sotto forma di dati ridotti.

Innanzitutto, va sottolineato che il termine "riduzione dei dati" non equivale automaticamente a una perdita di informazioni. In molti casi, riduzione dei dati significa soltanto che i dati vengono ora memorizzati in modo più intelligente, magari dopo essere stati sottoposti a un processo di ottimizzazione ed essere stati riassemblati in una configurazione più fruibile.

La riduzione dei dati non è sinonimo di deduplicazione, un processo che consiste nell'eliminazione di copie in eccesso dei medesimi dati per ottimizzare lo spazio di archiviazione. Nello specifico, la riduzione dei dati combina singoli aspetti di diverse attività, come appunto la deduplicazione e il consolidamento dei dati, per raggiungere i propri scopi.

Le ultime notizie nel campo della tecnologia, supportate dalle analisi degli esperti

Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.

Una visione dei dati più ampia

Quando si parla di dati nel contesto della loro riduzione spesso si parla di "dato" nella sua forma singolare, in contrapposizione alla forma plurale tipicamente utilizzata. Un aspetto della riduzione dei dati, ad esempio, riguarda la definizione delle dimensioni fisiche effettive dei singoli punti dati.

I principi della data science giocano un ruolo di primo piano nelle attività di riduzione dei dati. Il materiale può essere abbastanza complesso e difficile da riassumere in modo conciso e questo dilemma ha generato un termine proprio: l'interpretabilità, ovvero la capacità di un essere umano di intelligenza media di comprendere un particolare modello di apprendimento automatico.

Afferrare il significato di alcuni di questi termini non è semplice, perché si tratta di dati visti da una prospettiva quasi microscopica. Di solito parliamo di dati nella loro forma "macro", ma in ambito di riduzione dei dati ci riferiamo a essi nell'accezione più "micro". Per essere più precisi, la maggior parte delle discussioni su questo argomento richiederà sia analisi a livello macro che a livello micro.

I vantaggi della riduzione dei dati

Quando un'organizzazione riduce il volume dei propri dati, in genere è in grado di realizzare notevoli risparmi di costi, in quanto riduce sia il proprio fabbisogno in termini di spazio di archiviazione che la spesa complessiva che deve sostenere.

I metodi di riduzione dei dati offrono anche ulteriori vantaggi, come ad esempio l'aumento dell'efficienza. Una volta ottenuta la riduzione, i dati che ne risultano possono essere utilizzati più facilmente dai metodi di intelligenza artificiale (AI) in vari modi, comprese sofisticate applicazioni analytics dei dati che possono semplificare notevolmente le attività del processo decisionale.

Ad esempio, quando la storage virtualization viene utilizzata correttamente, essa contribuisce al coordinamento tra gli ambienti server e desktop, migliorandone l'efficienza complessiva e rendendoli più affidabili.

Le attività di riduzione dei dati svolgono un ruolo chiave nelle attività di data mining. I dati devono essere il più possibile ripuliti e preparati prima di essere estratti e utilizzati per le attività di analisi.

AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Vai all'episodio

Tipologie di riduzione dei dati

A seguire riportiamo alcune delle metodologie che un'organizzazione può usare per ridurre i propri dati.

Riduzione della dimensionalità

Alla base del concetto, la nozione di dimensionalità del dato. La dimensionalità si riferisce al numero di attributi (o caratteristiche) assegnati a un singolo set di dati. Tuttavia, qui è presente un punto di disequilibrio: maggiore è la dimensionalità, maggiore sarà lo spazio di archiviazione necessario per quel set di dati. Inoltre, maggiore è la dimensionalità, più i dati tendono a essere sparsi, complicando la necessaria analisi degli outlier.

La riduzione della dimensionalità contrasta questo fenomeno limitando il "rumore" nei dati e consentendone una migliore visualizzazione. Un primo esempio di riduzione della dimensionalità è il metodo della trasformata wavelet, che aiuta la compressione dell'immagine mantenendo la distanza relativa che esiste tra gli oggetti a vari livelli di risoluzione.

L'estrazione di funzione è un'altra possibile trasformazione dei dati, in quanto trasforma i dati originali in caratteristiche numeriche e funziona in combinazione con il machine learning. Essa si differenzia dall'analisi dei componenti principali (PCA), un altro mezzo per ridurre la dimensionalità di set di dati di grandi dimensioni, in cui un insieme considerevole di variabili viene trasformato in un insieme più piccolo pur conservando la maggior parte dei dati del set più grande.

Riduzione della numerosità

L'altro metodo prevede la selezione di un formato più piccolo per rappresentare i dati, provvisto di una minore densità. Esistono due tipi di riduzione della numerosità: quella basata su metodi parametrici e quella basata su metodi non parametrici. I metodi parametrici, come la regressione, si concentrano sui parametri del modello, escludendo i dati stessi. Allo stesso modo, è possibile impiegare un modello log-lineare che si concentra sui sottospazi all'interno dei dati. I metodi non parametrici (come gli istogrammi, che mostrano il modo in cui i dati numerici sono distribuiti) non sono basati su modelli.

Aggregazione dei cubi di dati

I "cubi" sono un metodo visivo usato per memorizzare i dati. Il termine "cubo di dati" è in realtà quasi fuorviante nella sua singolarità implicita, perché in realtà descrive un grande cubo multidimensionale composto da cuboidi più piccoli e organizzati. Ciascuno dei cuboidi rappresenta un aspetto dei dati totali all'interno di un dato cubo, in particolare le porzioni di dati riguardanti misure e dimensioni. L'aggregazione dei cubi di dati, quindi, è il consolidamento degli stessi nel formato visivo del cubo multidimensionale, che riduce la dimensionalità dei dati dotandoli di un container unico appositamente creato.

Discretizzazione dei dati

Un altro metodo utilizzato è la cosiddetta discretizzazione dei dati, in cui viene creato un insieme lineare di valori di dati in base a un insieme definito di intervalli, ciascuno dei quali corrisponde a un determinato valore di dati.

Compressione dei dati

Per limitare le dimensioni dei file e ottenere una corretta compressione dei dati è possibile utilizzare vari tipi di codifica. In generale, le tecniche di compressione dei dati si dividono in compressione senza perdita di dati o compressione con perdita di dati. Nella compressione senza perdita di dati, le dimensioni dei dati vengono ridotte attraverso tecniche e algoritmi di codifica e, se necessario, è possibile ripristinare i dati originali completi. La compressione con perdita di dati, invece, utilizza altri metodi per eseguire la compressione e, sebbene i dati così ottenuti possono comunque essere meritevoli d'essere preservati, essi non saranno una copia esatta dei dati d'origine.

Pre-elaborazione dei dati

Alcuni dati devono essere puliti, trattati ed elaborati prima di essere sottoposti ai processi di analisi e riduzione. Una parte di queste trasformazioni può comportare il cambiamento della natura del dato da analogico a digitale. Il binning è un altro esempio di pre-elaborazione dei dati, in cui i valori mediani vengono utilizzati per normalizzare vari tipi di dati e garantirne l'integrità.