Home
topics
Riduzione dei dati
Data di pubblicazione: 18 gennaio 2024
Autori: Phill Powell, Ian Smalley
La riduzione dei dati è il processo mediante il quale un'organizzazione si propone di limitare la quantità di dati che memorizza.
Le tecniche di riduzione dei dati hanno l'obiettivo di contenere le ridondanze rilevate nel set di dati originale, in modo che la mole dei dati originari possa essere memorizzata in modo più efficiente sotto forma di dati ridotti.
Innanzitutto, va sottolineato che il termine "riduzione dei dati" non equivale automaticamente a una perdita di informazioni. In molti casi, riduzione dei dati significa soltanto che i dati vengono ora memorizzati in modo più intelligente, magari dopo essere stati sottoposti a un processo di ottimizzazione ed essere stati riassemblati in una configurazione più fruibile.
La riduzione dei dati non è sinonimo di deduplicazione, un processo che consiste nell'eliminazione di copie in eccesso dei medesimi dati per ottimizzare lo spazio di archiviazione. Nello specifico, la riduzione dei dati combina singoli aspetti di diverse attività, come appunto la deduplicazione e la razionalizzazione dei dati, per raggiungere i propri scopi.
Scopri gli ostacoli all'adozione dell'AI, in particolare la mancanza di soluzioni di governance e gestione del rischio dell'AI.
Quando si parla di dati nel contesto della loro riduzione spesso si parla di "dato" nella sua forma singolare, in contrapposizione alla forma plurale tipicamente utilizzata. Un aspetto della riduzione dei dati, ad esempio, riguarda la definizione delle dimensioni fisiche effettive dei singoli punti dati.
I principi della data science giocano un ruolo di primo piano nelle attività di riduzione dei dati. Il materiale può essere abbastanza complesso e difficile da riassumere in modo conciso, e questo dilemma ha generato un termine proprio: l'interpretabilità, ovvero la capacità di un essere umano di intelligenza media di comprendere un particolare modello di machine learning.
Afferrare il significato di alcuni di questi termini non è semplice, perché si tratta di dati visti da una prospettiva quasi microscopica. Di solito parliamo di dati nella loro forma "macro", ma in ambito di riduzione dei dati ci riferiamo a essi nell'accezione più "micro". Per essere più precisi, la maggior parte delle discussioni su questo argomento richiederà sia analisi a livello macro che a livello micro.
Quando un'organizzazione riduce il volume dei propri dati, in genere è in grado di realizzare notevoli risparmi di costi, in quanto riduce sia il proprio fabbisogno in termini di spazio di archiviazione che la spesa complessiva che deve sostenere.
I metodi di riduzione dei dati offrono anche ulteriori vantaggi, come ad esempio l'aumento dell'efficienza. Una volta ottenuta la riduzione, i dati possono essere utilizzati più facilmente dai metodi di intelligenza artificiale (AI) in vari modi, comprese sofisticate applicazioni analytics dei dati che possono semplificare notevolmente le attività decisionali.
Ad esempio, quando la storage virtualization viene utilizzata correttamente, essa contribuisce al coordinamento tra gli ambienti server e desktop, migliorandone l'efficienza complessiva e rendendoli più affidabili.
Gli sforzi di riduzione dei dati svolgono un ruolo chiave nelle attività di data mining. I dati devono essere il più possibile ripuliti e preparati prima di essere estratti e utilizzati per le attività di analisi.
A seguire riportiamo alcune delle metodologie che un'organizzazione può usare per ridurre i propri dati.
Alla base del concetto, la nozione di dimensionalità del dato. La dimensionalità si riferisce al numero di attributi (o caratteristiche) assegnati a un singolo set di dati. Tuttavia, qui è presente un punto di disequilibrio: maggiore è la dimensionalità, maggiore sarà lo spazio di archiviazione necessario per quel set di dati. Inoltre, maggiore è la dimensionalità, più i dati tendono a essere sparsi, complicando la necessaria analisi degli outlier.
La riduzione della dimensionalità contrasta questo fenomeno limitando il "rumore" nei dati e consentendone una migliore visualizzazione. Un primo esempio di riduzione della dimensionalità è il metodo della trasformata wavelet, che aiuta la compressione dell'immagine mantenendo la distanza relativa che esiste tra gli oggetti a vari livelli di risoluzione.
L'estrazione di funzione è un'altra possibile trasformazione dei dati, in quanto trasforma i dati originali in caratteristiche numeriche e funziona in combinazione con il machine learning. Essa si differenzia dall'analisi dei componenti principali (PCA), un altro mezzo per ridurre la dimensionalità di set di dati di grandi dimensioni, in cui un insieme considerevole di variabili viene trasformato in un insieme più piccolo pur conservando la maggior parte dei dati del set più grande.
L'altro metodo prevede la selezione di un formato più piccolo per rappresentare i dati, provvisto di una minore densità. Esistono due tipi di riduzione della numerosità: quella basata su metodi parametrici e quella basata su metodi non parametrici. I metodi parametrici, come la regressione, si concentrano sui parametri del modello, escludendo i dati stessi. Allo stesso modo, è possibile impiegare un modello log-lineare che si concentra sui sottospazi all'interno dei dati. I metodi non parametrici (come gli istogrammi, che mostrano il modo in cui i dati numerici sono distribuiti) non sono basati su modelli.
I "cubi" sono un metodo visivo usato per memorizzare i dati. Il termine "cubo di dati" è in realtà quasi fuorviante nella sua singolarità implicita, perché in realtà descrive un grande cubo multidimensionale composto da cuboidi più piccoli e organizzati. Ciascuno dei cuboidi rappresenta un aspetto dei dati totali all'interno di un dato cubo, in particolare le porzioni di dati riguardanti misure e dimensioni. L'aggregazione dei cubi di dati, quindi, è il consolidamento degli stessi nel formato visivo del cubo multidimensionale, che riduce la dimensionalità dei dati dotandoli di un container unico appositamente creato.
Un altro metodo utilizzato è la cosiddetta discretizzazione dei dati, in cui viene creato un insieme lineare di valori di dati in base a un insieme definito di intervalli, ciascuno dei quali corrisponde a un determinato valore di dati.
Per limitare le dimensioni dei file e ottenere una corretta compressione dei dati è possibile utilizzare vari tipi di codifica. In generale, le tecniche di compressione dei dati si dividono in compressione senza perdita di dati o compressione con perdita di dati. Nella compressione senza perdita di dati, le dimensioni dei dati vengono ridotte attraverso tecniche e algoritmi di codifica e, se necessario, è possibile ripristinare i dati originali completi. La compressione con perdita di dati, invece, utilizza altri metodi per eseguire la compressione e, sebbene i dati così ottenuti possono comunque essere meritevoli d'essere preservati, essi non saranno una copia esatta dei dati d'origine.
Alcuni dati devono essere puliti, trattati ed elaborati prima di essere sottoposti ai processi di analisi e riduzione. Una parte di queste trasformazioni può comportare il cambiamento della natura del dato da analogico a digitale. Il binning è un altro esempio di pre-elaborazione dei dati, in cui i valori mediani vengono utilizzati per normalizzare vari tipi di dati e garantirne l'integrità.
L'uso dei dispositivi di storage IBM FlashSystem è una scelta vincente sia per la tua azienda che per l'ambiente. Consuma meno energia e risparmia sui costi, riducendo allo stesso tempo l'impronta di carbonio della tua azienda.
Immagina una soluzione che supporti il mirroring tra i data center on-premise e il cloud, oppure tra più data center che risiedono nel cloud. IBM Spectrum Virtualize for Public Cloud aiuta inoltre a implementare le strategie di disaster recovery.
Ottieni il meglio da due mondi con IBM Storage-as-a-Service. Inizia con l'hardware on-premise fornito e gestito da IBM. Per una combinazione flessibile, abbinalo a un modello tariffario basato sul consumo, proprio come il cloud.
Esplora FlashSystems, basato sul software di IBM Spectrum Virtualize che impiega la virtualizzazione simmetrica.
Sia i costi dell'energia che i dati sembrano crescere a ritmi esponenziali. Le aziende si trovano pertanto a dover fare i conti con questa realtà, decisamente onerosa dal punto di vista finanziario, e a correre ai ripari richiedendo al mercato sistemi di archiviazione efficienti sotto il profilo energetico.
Il Data Reduction Estimator Tool (DRET) è una utility in hosting a riga di comando, che viene utilizzato per stimare i risparmi in termini di riduzione dei dati sui dispositivi a blocchi.
Scopri perché molte organizzazioni si affidano a strumenti di consolidamento dei dati per gestire il proprio data warehouse.
Scopri le nozioni di base sul data storage, inclusi i tipi di dispositivi di archiviazione e i diversi formati.
Le soluzioni di flash storage possono variare da unità USB a installazioni per grandi aziende. Scopri le loro caratteristiche.