Cos'è la riduzione dei dati?

Autori

Phill Powell

Staff Writer

IBM Think

Ian Smalley

Staff Editor

IBM Think

Che cos'è la riduzione dei dati?

La riduzione dei dati è il processo mediante il quale un'organizzazione si propone di limitare la quantità di dati che memorizza.

Le tecniche di riduzione dei dati hanno l'obiettivo di contenere le ridondanze rilevate nel set di dati originale, in modo che la mole dei dati originari possa essere memorizzata in modo più efficiente sotto forma di dati ridotti.

Innanzitutto, va sottolineato che il termine "riduzione dei dati" non equivale automaticamente a una perdita di informazioni. In molti casi, riduzione dei dati significa soltanto che i dati vengono ora memorizzati in modo più intelligente, magari dopo essere stati sottoposti a un processo di ottimizzazione ed essere stati riassemblati in una configurazione più fruibile.

La riduzione dei dati non è sinonimo di deduplicazione, un processo che consiste nell'eliminazione di copie in eccesso dei medesimi dati per ottimizzare lo spazio di archiviazione. Nello specifico, la riduzione dei dati combina singoli aspetti di diverse attività, come appunto la deduplicazione e il consolidamento dei dati, per raggiungere i propri scopi.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI 

Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think.

Una visione dei dati più ampia

Quando si parla di dati nel contesto della loro riduzione spesso si parla di "dato" nella sua forma singolare, in contrapposizione alla forma plurale tipicamente utilizzata. Un aspetto della riduzione dei dati, ad esempio, riguarda la definizione delle dimensioni fisiche effettive dei singoli punti dati.

I principi della data science giocano un ruolo di primo piano nelle attività di riduzione dei dati. Il materiale può essere abbastanza complesso e difficile da riassumere in modo conciso e questo dilemma ha generato un termine proprio: l'interpretabilità, ovvero la capacità di un essere umano di intelligenza media di comprendere un particolare modello di apprendimento automatico.

Afferrare il significato di alcuni di questi termini non è semplice, perché si tratta di dati visti da una prospettiva quasi microscopica. Di solito parliamo di dati nella loro forma "macro", ma in ambito di riduzione dei dati ci riferiamo a essi nell'accezione più "micro". Per essere più precisi, la maggior parte delle discussioni su questo argomento richiederà sia analisi a livello macro che a livello micro.

AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Vai all'episodio

I vantaggi della riduzione dei dati

Quando un'organizzazione riduce il volume dei propri dati, in genere è in grado di realizzare notevoli risparmi di costi, in quanto riduce sia il proprio fabbisogno in termini di spazio di archiviazione che la spesa complessiva che deve sostenere.

I metodi di riduzione dei dati offrono anche ulteriori vantaggi, come ad esempio l'aumento dell'efficienza. Una volta ottenuta la riduzione, i dati che ne risultano possono essere utilizzati più facilmente dai metodi di intelligenza artificiale (AI) in vari modi, comprese sofisticate applicazioni analytics dei dati che possono semplificare notevolmente le attività del processo-decisionale.

Ad esempio, quando la storage virtualization viene utilizzata correttamente, essa contribuisce al coordinamento tra gli ambienti server e desktop, migliorandone l'efficienza complessiva e rendendoli più affidabili.

Le attività di riduzione dei dati svolgono un ruolo chiave nelle attività di data mining. I dati devono essere il più possibile ripuliti e preparati prima di essere estratti e utilizzati per le attività di analisi.

Tipologie di riduzione dei dati

A seguire riportiamo alcune delle metodologie che un'organizzazione può usare per ridurre i propri dati.

Riduzione della dimensionalità

Alla base del concetto, la nozione di dimensionalità del dato. La dimensionalità si riferisce al numero di attributi (o caratteristiche) assegnati a un singolo set di dati. Tuttavia, qui è presente un punto di disequilibrio: maggiore è la dimensionalità, maggiore sarà lo spazio di archiviazione necessario per quel set di dati. Inoltre, maggiore è la dimensionalità, più i dati tendono a essere sparsi, complicando la necessaria analisi degli outlier.

La riduzione della dimensionalità contrasta questo fenomeno limitando il "rumore" nei dati e consentendone una migliore visualizzazione. Un primo esempio di riduzione della dimensionalità è il metodo della trasformata wavelet, che aiuta la compressione dell'immagine mantenendo la distanza relativa che esiste tra gli oggetti a vari livelli di risoluzione.

L'estrazione di funzione è un'altra possibile trasformazione dei dati, in quanto trasforma i dati originali in caratteristiche numeriche e funziona in combinazione con il machine learning. Essa si differenzia dall'analisi dei componenti principali (PCA), un altro mezzo per ridurre la dimensionalità di set di dati di grandi dimensioni, in cui un insieme considerevole di variabili viene trasformato in un insieme più piccolo pur conservando la maggior parte dei dati del set più grande.

Riduzione della numerosità

L'altro metodo prevede la selezione di un formato più piccolo per rappresentare i dati, provvisto di una minore densità. Esistono due tipi di riduzione della numerosità: quella basata su metodi parametrici e quella basata su metodi non parametrici. I metodi parametrici, come la regressione, si concentrano sui parametri del modello, escludendo i dati stessi. Allo stesso modo, è possibile impiegare un modello log-lineare che si concentra sui sottospazi all'interno dei dati. I metodi non parametrici (come gli istogrammi, che mostrano il modo in cui i dati numerici sono distribuiti) non sono basati su modelli.

Aggregazione dei cubi di dati

I "cubi" sono un metodo visivo usato per memorizzare i dati. Il termine "cubo di dati" è in realtà quasi fuorviante nella sua singolarità implicita, perché in realtà descrive un grande cubo multidimensionale composto da cuboidi più piccoli e organizzati. Ciascuno dei cuboidi rappresenta un aspetto dei dati totali all'interno di un dato cubo, in particolare le porzioni di dati riguardanti misure e dimensioni. L'aggregazione dei cubi di dati, quindi, è il consolidamento degli stessi nel formato visivo del cubo multidimensionale, che riduce la dimensionalità dei dati dotandoli di un container unico appositamente creato.

Discretizzazione dei dati

Un altro metodo utilizzato è la cosiddetta discretizzazione dei dati, in cui viene creato un insieme lineare di valori di dati in base a un insieme definito di intervalli, ciascuno dei quali corrisponde a un determinato valore di dati.

Compressione dei dati

Per limitare le dimensioni dei file e ottenere una corretta compressione dei dati è possibile utilizzare vari tipi di codifica. In generale, le tecniche di compressione dei dati si dividono in compressione senza perdita di dati o compressione con perdita di dati. Nella compressione senza perdita di dati, le dimensioni dei dati vengono ridotte attraverso tecniche e algoritmi di codifica e, se necessario, è possibile ripristinare i dati originali completi. La compressione con perdita di dati, invece, utilizza altri metodi per eseguire la compressione e, sebbene i dati così ottenuti possono comunque essere meritevoli d'essere preservati, essi non saranno una copia esatta dei dati d'origine.

Pre-elaborazione dei dati

Alcuni dati devono essere puliti, trattati ed elaborati prima di essere sottoposti ai processi di analisi e riduzione. Una parte di queste trasformazioni può comportare il cambiamento della natura del dato da analogico a digitale. Il binning è un altro esempio di pre-elaborazione dei dati, in cui i valori mediani vengono utilizzati per normalizzare vari tipi di dati e garantirne l'integrità.

Rendering 3D di una spirale di diverse icone allineate, come una fotocamera, una manopola del volume e una lavagnetta

Leggi la guida per i Data Leader per scoprire come rendere i dati della tua organizzazione AI-ready.

Risorse

Rendering 3D di diverse icone allineate, come un microfono e una fotocamera

Gli agenti AI funzionano con i dati: i tuoi sono pronti?

I dati sono il tuo vantaggio competitivo. Scopri come sbloccarli in modo sicuro e ottenere un ROI misurabile dall'AI in questo breve webinar.

Cos'è la gestione dei dati

Techsplainers by IBM analizza gli elementi essenziali dei dati per l'AI, dai concetti chiave ai casi d'uso del mondo reale. Gli episodi chiari e rapidi ti aiutano ad apprendere rapidamente le nozioni fondamentali.

Rendering 3D di diverse icone allineate, come una manopola del volume e una cartellina

Unifica e accedi ai tuoi dati per scalare la tua AI

Scopri perché il percorso verso i dati AI-ready spesso inizia con un accesso efficace ai dati strutturati e non strutturati e quali problematiche possono ostacolare i leader dei dati.

Gli oneri legali si trasformano in insight strategici

Scopri come un agente legale basato su AI aiuta ad accelerare il processo decisionale, ridurre il lavoro manuale e migliorare la conformità normativa.

Due uomini che parlano tra loro in un podcast

AI Academy: sviluppare una strategia dei dati per l'AI aziendale

In questo episodio, Cathy Reese spiega come le organizzazioni necessitino attualmente di una strategia dei dati pronta per l’AI avanzata, utilizzando al meglio i loro dati di qualità superiore.

Rendering 3D di diverse icone allineate, come una fotocamera e aeroplani di carta

Il data lakehouse ibrido e aperto per l'AI

Semplifica l'accesso ai dati e automatizza la governance dei dati. Scopri la potenza dell'integrazione di una strategia di data lakehouse nella tua architettura di dati, con ottimizzazione dei costi dei workload e scalabilità dell'AI e dell'analytics, con tutti i tuoi dati, ovunque.

Report Cost of a Data Breach 2025

I costi delle violazioni dei dati non sono mai stati così elevati. Ottieni insight aggiornati sulle minacce alla cybersecurity e sul loro impatto finanziario sulle organizzazioni.

Rendering 3D di due righe di diverse icone come una fotocamera, una manopola del volume e una cartellina

La guida ai dati AI-ready per i leader dei dati

Scopri i passi concreti che i leader dei dati possono intraprendere per superare le sfide legate ai dati, creare le basi per una piattaforma dati affidabile e preparare i dati della tua organizzazione per l’AI.

Rendering 3D di diverse icone allineate, come la fotocamera, la manopola del volume e gli appunti

Come i vertici aziendali trasformano le informazioni in impatto

Esplora gli insight di 1.700 CDO in questo report intersettoriale per i leader dei dati.

Soluzioni correlate

Software e soluzioni per la gestione dei dati

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

Esplora le soluzioni di gestione dei dati

IBM watsonx.data™

Watsonx.data ti consente di scalare l'analytics e l'AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.

Scopri watsonx.data

Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics

Fai il passo successivo

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.