My IBM Accedi Iscriviti
Che cosa sono i dark data?

Che cosa sono i dark data?

Esplora la soluzione di dark data di IBM Iscriviti per ricevere gli aggiornamenti sull'AI
Illustrazione con collage di pittogrammi di nuvole, grafico a torta, pittogrammi grafici
Che cosa sono i dark data?

Che cosa sono i dark data?

Secondo Gartner, i dark data si riferiscono alle risorse informative che le organizzazioni raccolgono, elaborano e archiviano durante le normali attività aziendali, ma generalmente non vengono utilizzate per altri scopi, come analytics, relazioni commerciali e monetizzazione diretta.1

La maggior parte delle aziende oggi memorizza grandi quantità di dark data. Nell'indagine di ricerca globale di Splunk su oltre 1.300 responsabili delle decisioni aziendali e IT, il 60% degli intervistati ha riferito che metà o più dei dati della propria organizzazione è considerato oscuro. Un terzo degli intervistati ha riferito che questa quantità è pari o superiore al 75%.2

I dark data si accumulano perché le organizzazioni hanno accettato l'idea che sia prezioso archiviare tutte le informazioni che possono acquisire nei big data lake. Questo in parte è dovuto all'avvento di uno storage economico, che ha reso facile giustificare la memorizzazione di così tanti dati, nel caso in cui un giorno diventassero preziosi.

Alla fine, la maggior parte delle aziende non utilizza nemmeno una parte di quanto memorizza, in quanto il serbatoio di storage non documenta adeguatamente le etichette dei metadati, alcuni dati sono in un formato che gli strumenti integrati non riescono a leggere oppure i dati non sono recuperabili tramite query.

I dark data sono uno dei principali fattori limitanti nella produzione di una buona analisi dei dati perché la qualità di qualsiasi analisi dei dati dipende dal corpus di informazioni accessibili agli strumenti di analisi, sia tempestivamente sia in modo completo.

Altri problemi relativi ai dark data sono che creano responsabilità, costi di storage significativi e opportunità mancate a causa del fatto che i team non si rendono conto dei dati potenzialmente disponibili per loro.

Perché la governance dell'AI è un imperativo aziendale per scalare l'AI aziendale

Scopri gli ostacoli all’adozione dell’AI, in particolare la mancanza di soluzioni di governance e gestione del rischio dell’AI.

Contenuti correlati Registrati per ricevere il report IDC
Perché i dati diventano oscuri (dark)

Perché i dati diventano oscuri (dark)

Ci sono numerose cause per cui i dati di un'organizzazione diventano oscuri, tra cui:

  • Mancanza di consapevolezza: i dati ottenuti nel corso delle normali operazioni aziendali spesso diventano oscuri perché le organizzazioni non sono a conoscenza della loro esistenza o non ne comprendono il valore o la rilevanza.

  • Dati bloccati in silos: quando diversi reparti all'interno di un'organizzazione raccolgono e memorizzano i dati in modo indipendente, questo può portare alla frammentazione e all'isolamento dei dati. Questi silo di dati potrebbero non essere accessibili o visibili ad altri team, che potrebbero potenzialmente trovare i dati molto preziosi.

  • Mancanza di governance dei dati: senza un solido framework di governance dei dati, le organizzazioni potrebbero avere difficoltà a gestire e monitorare efficacemente i dati nel loro ecosistema. Questo causa disorganizzazione, perdita e inutilizzabilità dei dati.

  • Sistemi legacy: man mano che le organizzazioni aggiornano i loro software e hardware, i sistemi più vecchi potrebbero essere dismessi o diventare meno pertinenti. I dati memorizzati in questi sistemi legacy vengono persi se non possono essere integrati con i moderni strumenti di analisi dell'organizzazione.

  • Integrazione dei dati incompleta: processi di integrazione dei dati incompleti o inefficaci possono causare lacune e incongruenze nei dati. Ciò può lasciare alcuni set di dati inaccessibili o non collegati correttamente ad altre fonti di dati.

  • Cambiamento delle priorità aziendali: con l'evoluzione delle priorità aziendali, alcuni set di dati possono diventare meno pertinenti o perdere di vista l'obiettivo. I dati che una volta venivano utilizzati attivamente possono rimanere oscuri man mano che gli obiettivi organizzativi cambiano.

  • Risorse e alfabetizzazione limitate: le organizzazioni con risorse limitate possono dare priorità alla raccolta e allo storage dei dati rispetto all'analisi dei dati. Inoltre, un'alfabetizzazione dei dati insufficiente tra i dipendenti può ostacolare la scoperta e l'utilizzo di dati preziosi.

  • Problemi di qualità dei dati: una scarsa qualità dei dati, ad esempio dati imprecisi o incompleti, può portare a scartare o ignorare i dati. I dati percepiti come inaffidabili hanno meno probabilità di essere utilizzati, rendendoli effettivamente oscuri.

  • Finalità di conformità normativa: molti standard di conformità e di regolamentazione costringono le organizzazioni a seguire norme rigorose sulla durata della memorizzazione dei dati sensibili. Spesso finiscono per memorizzarli per molto tempo dopo il periodo obbligatorio perché non riescono a tenere traccia di quali dati sensibili dovrebbero essere distrutti.

  • Dati ridondanti, obsoleti e banali (ROT): i dati ROT si creano quando i dipendenti salvano più copie delle stesse informazioni, informazioni obsolete e informazioni estranee che non aiutano l'organizzazione a raggiungere i suoi obiettivi.
Tipi di dark data

Tipi di dark data

In termini di reperibilità per iniziative di analisi dei dati tempestive e complete, i dark data possono essere dati strutturati, dati non strutturati o dati semistrutturati.   

I dati strutturati sono informazioni aggiunte a un foglio di calcolo o a campi di database chiaramente definiti prima di essere memorizzati.

I file di log del server, i dati dei sensori dell'Internet of Things (IoT), i database di gestione delle relazioni con i clienti (CRM) e i sistemi ERP (Enterprise Resources Planning) sono esempi di dark data creati da fonti di dati strutturati.

Sebbene la maggior parte delle forme di dati sensibili, come gli estratti conto bancari elettronici, le cartelle cliniche e i dati crittografati dei clienti, siano in genere in forma strutturata, è difficile visualizzarli e classificarli a causa di problemi di autorizzazione.

A differenza dei dati strutturati, i dati non strutturati includono informazioni che non possono essere organizzate in database o fogli di calcolo per l'analisi senza conversione, codifica, suddivisione in livelli e strutturazione.

Corrispondenze e-mail, PDF, documenti di testo, post sui social, registrazioni di call center, registri delle chat e riprese video di sorveglianza sono esempi di dark data creati da fonti di dati non strutturate.

I dati semi-strutturati sono dati non strutturati che contengono alcune informazioni in campi dati definiti. Sebbene non presentino la stessa facilità del data discovery dei dark data come dei dati strutturati, è possibile ricercarli o catalogarli.

Gli esempi includono codice HTML, fatture, grafici, tabelle e documenti XML.

I costi dei dark data

I costi dei dark data

I costi di memorizzazione dei dark data possono essere significativi e superare di gran lunga il costo finanziario diretto dello storage dei dark data. I costi diretti e indiretti comprendono:

Costi di data storage

Lo storage dei dati, anche se non vengono utilizzati attivamente, richiede un'infrastruttura di storage fisica o digitale. Questo può includere server, data center, soluzioni di storage su cloud e sistemi di backup. Maggiore è il numero di dati nel tuo ecosistema, maggiore è la capacità di data storage di cui hai bisogno, il che comporta un aumento dei costi dell'infrastruttura.

Costi di responsabilità

Negli ultimi anni i governi hanno introdotto una serie di leggi globali sulla privacy, che si applicano a tutti i dati, anche a quelli che rimangono inutilizzati nei repository di analisi.

Costi opportunità

Molte aziende perdono delle opportunità non utilizzando questi dati. Sebbene sia utile eliminare i dati oscuri che non sono di fatto utilizzabili, a causa di rischi e costi, è utile analizzare prima quali dati sono disponibili per determinare quali potrebbero essere utilizzabili.

L'inefficienza ha un costo

La gestione di grandi volumi di dati, inclusi i dark data, può rallentare i processi di recupero e analisi dei dati. I dipendenti potrebbero dover dedicare più tempo alla ricerca di informazioni pertinenti, con conseguente riduzione della produttività e aumento dei costi del lavoro.

Costi dei rischi

I dark data possono comportare rischi in termini di scarsa cybersecurity, violazione dei dati, violazioni della conformità e perdita di dati. Questi rischi possono causare danni alla reputazione e conseguenze finanziarie.

Problemi di qualità dei dati e dark data

Problemi di qualità dei dati e dark data

A volte i dati oscuri vengono creati a causa di problemi relativi alla qualità dei dati.

Ad esempio, una trascrizione da una registrazione audio viene generata automaticamente, ma l'AI che ha creato la trascrizione commette alcuni errori nella trascrizione. Qualcuno però conserva la trascrizione, pensando che a un certo punto risolverà il problema, cosa che non però non fa mai.

Quando le organizzazioni tentano di pulire i dati di scarsa qualità, a volte non individuano la causa del problema. Senza un'adeguata comprensione, è impossibile garantire che il problema della qualità dei dati non continui a verificarsi in futuro.

Questa situazione diventa quindi ciclica perché, invece di limitarsi a utilizzare politiche di cancellazione per i dark data che rimangono invariate senza mai essere utilizzate, le organizzazioni lasciano che continuino a rimanere bloccate e contribuiscono a un crescente problema di qualità dei dati.

Fortunatamente, le organizzazioni possono adottare tre misure di gestione della qualità dei dati per contribuire a mitigare questo problema:

  1. Analizza e individua la situazione "così com'è": per dare priorità ai problemi, individua innanzitutto tutti i problemi attuali, gli standard di dati esistenti e l'impatto sul business.

  2. Evitare che i dati errati si ripetano: successivamente, valuta la causa principale di ogni problema e applica le risorse per affrontare il problema in modo sostenibile in modo che non si ripeta.

  3. Comunica spesso: condividi cosa sta succedendo, cosa sta facendo il team, l'impatto di quel lavoro e il modo in cui tali sforzi si collegano agli obiettivi aziendali.
Come far luce sui dark data

Come far luce sui dark data

Nonostante i costi e i problemi di qualità dei dati legati ai dark data, esistono anche dei lati positivi. Come afferma Splunk, "i dark data possono essere una delle maggiori risorse inutilizzate di un'organizzazione".3

Adottando un approccio proattivo alla gestione dei dati oscuri, le organizzazioni possono far luce sui dati oscuri. Questo non solo riduce le responsabilità e i costi, ma offre anche ai team le risorse necessarie per scoprire insight dai dati nascosti.

Quando si tratta di gestire i dati oscuri e potenzialmente utilizzarli per prendere decisioni migliori basate sui dati, esistono diverse best practice da seguire:

Elimina i silo

I dark data spesso si verificano a causa dei silo all'interno dell'organizzazione. Un team crea dei dati che potrebbero essere utili a un altro, ma l'altro team non ne è a conoscenza. L'abbattimento di questi silo rende i dati disponibili per il team che ne ha bisogno. Passa da una situazione di immobilismo a un'offerta di immenso valore.

Migliorare la gestione dei dati

È importante capire quali dati esistono all'interno dell'organizzazione. Questo sforzo inizia con la classificazione di tutti i dati all'interno dell'organizzazione, per ottenere una visione completa e accurata. Da lì, i team possono iniziare a organizzare meglio i propri dati con l'obiettivo di rendere più facile per i singoli team trovare e utilizzare ciò di cui hanno bisogno.

Imposta criteri di governance dei dati

L'introduzione di una politica di governance dei dati può aiutare a migliorare la sfida a lungo termine. Questa politica dovrebbe affrontare il modo in cui tutti i dati in entrata vengono esaminati e offrire linee guida chiare su quello che deve essere conservato (e organizzato per mantenere una chiara gestione dei dati), archiviato o distrutto. Una parte importante di questa politica è essere rigorosi su quali dati devono essere distrutti e quando. L'applicazione della governance dei dati e la revisione regolare delle pratiche possono aiutare a ridurre al minimo la quantità di dark data che non verrà mai utilizzata.

Utilizza l'apprendimento automatico (ML) e gli strumenti di AI per analizzare i dati

Per aiutare a scoprire i dark data, l'apprendimento automatico (ML)e l'AI possono fare il lavoro pesante di categorizzazione dei dark data, eseguendo analisi sui dati che possono contenere insight preziosi. Inoltre, l'automazione dell'apprendimento automatico (ML) può aiutare a rispettare le normative in materia di conformità della privacy dei dati, eliminando automaticamente le informazioni sensibili dai dati memorizzati.

Prodotti correlati

Prodotti correlati

IBM Databand

IBM® Databand è un software di osservabilità per warehouse e pipeline di dati che raccoglie automaticamente i metadati per creare linee di base cronologiche, rilevare anomalie e assegnare priorità agli avvisi per correggere i problemi di qualità dei dati.

Esplora Databand

IBM DataStage

Supportando i modelli ETL ed ELT, IBM® DataStage® offre un'integrazione dati flessibile e quasi in tempo reale, sia on-premise che nel cloud.

Esplora DataStage

IBM Knowledge Catalog

Catalogo intelligente di dati per l'era dell'AI, IBM® Knowledge Catalog ti consente di accedere, rendere accurati, categorizzare e condividere i dati, gli asset di conoscenza e le loro relazioni, ovunque si trovino.

Esplora il catalogo conoscenze
Risorse

Risorse

Cos'è la data science?

Scopri che cos’è la data science e come può sbloccare gli insight aziendali, accelerare la trasformazione digitale e consentire un processo decisionale basato sui dati.

Cos'è l'intelligenza artificiale (AI)?

Scopra cos’è l’AI, i suoi diversi tipi, la storia dell’AI e perché l’AI generativa ha accelerato notevolmente l’adozione dell’AI nelle aziende.

I 6 pilastri della qualità dei dati – e come migliorarla

Scopri perché dati di alta qualità sono fondamentali per prendere decisioni ben informate, eseguire analisi accurate e sviluppare strategie efficaci.

Che cosa fare con i dark data?

Ogni azienda accumula dati oscuri. Scopri come gli strumenti di gestione possono trasformarli da una responsabilità costosa in una risorsa preziosa piena di opportunità non sfruttate.

AI in Action Assistant

AI explained

AI In Action 2024

We utilize an IBM-approved foundation model to create recommendations, insights, and summaries from our AI in Action 2024 report.

All chat information is stored for analytics and to improve the assistant’s performance. Please refrain from sharing any sensitive, personal, or confidential information.

It’s important to note that while we strive to provide accurate and helpful information, there may be instances where the responses are not entirely correct or may appear unusual. The AI generated output should be considered as suggestions, not definitive information. For comprehensive and accurate information, please refer to the report.

Base foundation model

Granite Instruct 3.1 8B
watsonx 9:17:17 PM

Hello and welcome to AI in Action 2024 report

Get instant access to the insights from the AI in Action report right at your fingertips.



What would you like to know about the AI in Action 2024 report?


Active loading indicator
Fai il passo successivo

Implementa oggi stesso l'osservabilità proattiva dei dati con IBM Databand, in modo da individuare un problema di integrità dei dati prima che lo facciano i tuoi utenti.

Esplora Databand Prenota una demo live
Note a piè di pagina

1 Gartner Glossary (link esterno a ibm.com), Gartner

2 The State of Dark Data (link esterno a ibm.com), Splunk, 2019

3 Dark Data: Discovery, Uses & Benefits of Hidden Data (link esterno a ibm.com), Splunk, 03 agosto 2023