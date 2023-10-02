Secondo Gartner, i dark data si riferiscono agli asset informativi che le organizzazioni raccolgono, elaborano e memorizzano durante le normali attività aziendali, ma generalmente non vengono utilizzate per altri scopi, come analytics, relazioni commerciali e monetizzazione diretta.1
La maggior parte delle aziende oggi memorizza grandi quantità di dark data. Nel sondaggio di ricerca globale di Splunk su oltre 1.300 responsabili delle decisioni aziendali e IT, il 60% dei rispondenti ha riferito che metà o più dei dati della propria organizzazione è considerato oscuro. Un terzo dei rispondenti ha riferito che questa quantità è pari o superiore al 75%.2
I dark data si accumulano perché le organizzazioni hanno accettato l'idea che sia prezioso archiviare tutte le informazioni che possono acquisire nei big data lake. Questo in parte è dovuto all'avvento di uno storage economico, che ha reso facile giustificare la memorizzazione di così tanti dati, nel caso in cui un giorno diventassero preziosi.
Alla fine, la maggior parte delle aziende non utilizza nemmeno una parte di quanto memorizza, in quanto il serbatoio di storage non documenta adeguatamente le etichette dei metadati, alcuni dati sono in un formato che gli strumenti integrati non riescono a leggere oppure i dati non sono recuperabili tramite query.
I dark data sono uno dei principali fattori limitanti nella produzione di una buona analisi dei dati perché la qualità di qualsiasi analisi dei dati dipende dal corpus di informazioni accessibili agli strumenti di analisi, sia tempestivamente sia in modo completo.
Altri problemi relativi ai dark data sono che creano responsabilità, costi di storage significativi e opportunità mancate a causa del fatto che i team non si rendono conto dei dati potenzialmente disponibili per loro.
Ci sono numerose cause per cui i dati di un'organizzazione diventano oscuri, tra cui:
In termini di reperibilità per iniziative di analytics dei dati tempestive e complete, i dark data possono essere dati strutturati, dati non strutturati o dati semistrutturati.
I dati strutturati sono informazioni aggiunte a un foglio di calcolo o a campi di database chiaramente definiti prima di essere memorizzati.
I file di log del server, i dati dei sensori dell'Internet of Things (IoT), i database di customer relationship management (CRM) e i sistemi ERP (Enterprise Resources Planning) sono esempi di dark data creati da fonti di dati strutturati.
Sebbene la maggior parte delle forme di dati sensibili, come gli estratti conto bancari elettronici, le cartelle cliniche e i dati crittografati dei clienti, siano in genere in forma strutturata, è difficile visualizzarli e classificarli a causa di problemi di autorizzazione.
A differenza dei dati strutturati, i dati non strutturati includono informazioni che non possono essere organizzate in database o fogli di calcolo per l'analisi senza conversione, codifica, suddivisione in livelli e strutturazione.
Corrispondenze e-mail, PDF, documenti di testo, post sui social, registrazioni di call center, registri delle chat e riprese video di sorveglianza sono esempi di dark data creati da fonti di dati non strutturate.
I dati semi-strutturati sono dati non strutturati che contengono alcune informazioni in campi dati definiti. Sebbene non presentino la stessa facilità del data discovery dei dark data come dei dati strutturati, è possibile ricercarli o catalogarli.
Gli esempi includono codice HTML, fatture, grafici, tabelle e documenti XML.
I costi di memorizzazione dei dark data possono essere significativi e superare di gran lunga il costo finanziario diretto dello storage dei dark data. I costi diretti e indiretti comprendono:
Lo storage dei dati, anche se non vengono utilizzati attivamente, richiede un'infrastruttura di storage fisica o digitale. Questo può includere server, data center, soluzioni di storage su cloud e sistemi di backup. Maggiore è il numero di dati nel tuo ecosistema, maggiore è la capacità di data storage di cui hai bisogno, il che comporta un aumento dei costi dell'infrastruttura.
Negli ultimi anni i governi hanno introdotto una serie di leggi globali sulla privacy, che si applicano a tutti i dati, anche a quelli che rimangono inutilizzati nei repository di analisi.
Molte aziende perdono delle opportunità non utilizzando questi dati. Sebbene sia utile eliminare i dati oscuri che non sono di fatto utilizzabili, a causa di rischi e costi, è utile analizzare prima quali dati sono disponibili per determinare quali potrebbero essere utilizzabili.
La gestione di grandi volumi di dati, inclusi i dark data, può rallentare i processi di recupero e analisi dei dati. I dipendenti potrebbero dover dedicare più tempo alla ricerca di informazioni pertinenti, con conseguente riduzione della produttività e aumento dei costi del lavoro.
I dark data possono comportare rischi in termini di scarsa cybersecurity, violazione dei dati, violazioni della conformità e perdita di dati. Questi rischi possono causare danni alla reputazione e conseguenze finanziarie.
A volte i dati oscuri vengono creati a causa di problemi relativi alla qualità dei dati.
Ad esempio, una trascrizione da una registrazione audio viene generata automaticamente, ma l'AI che ha creato la trascrizione commette alcuni errori nella trascrizione. Qualcuno però conserva la trascrizione, pensando che a un certo punto risolverà il problema, cosa che non però non fa mai.
Quando le organizzazioni tentano di pulire i dati di scarsa qualità, a volte non individuano la causa del problema. Senza un'adeguata comprensione, è impossibile garantire che il problema della qualità dei dati non continui a verificarsi in futuro.
Questa situazione diventa quindi ciclica perché, invece di limitarsi a utilizzare politiche di cancellazione per i dark data che rimangono invariate senza mai essere utilizzate, le organizzazioni lasciano che continuino a rimanere bloccate e contribuiscono a un crescente problema di qualità dei dati.
Fortunatamente, le organizzazioni possono adottare tre misure di gestione della qualità dei dati per contribuire a mitigare questo problema:
Nonostante i costi e i problemi di qualità dei dati legati ai dark data, esistono anche dei lati positivi. Come afferma Splunk, "i dark data possono essere una delle maggiori risorse inutilizzate di un'organizzazione".3
Adottando un approccio proattivo alla gestione dei dati oscuri, le organizzazioni possono far luce sui dati oscuri. Questo non solo riduce le responsabilità e i costi, ma offre anche ai team le risorse necessarie per scoprire insight dai dati nascosti.
Quando si tratta di gestire i dark data e potenzialmente utilizzarli per prendere decisioni migliori basate sui dati, esistono diverse best practice da seguire:
I dark data spesso si verificano a causa dei silos all'interno dell'organizzazione. Un team crea dei dati che potrebbero essere utili a un altro, ma l'altro team non ne è a conoscenza. L'abbattimento di questi silos rende i dati disponibili per il team che ne ha bisogno. Passa da una situazione di immobilismo a un'offerta di immenso valore.
È importante capire quali dati esistono all'interno dell'organizzazione. Questo sforzo inizia con la classificazione di tutti i dati all'interno dell'organizzazione, per ottenere una visione completa e accurata. Da lì, i team possono iniziare a organizzare meglio i propri dati con l'obiettivo di rendere più facile per i singoli team trovare e utilizzare ciò di cui hanno bisogno.
L'introduzione di una politica di governance dei dati può aiutare a migliorare la sfida a lungo termine. Questa politica dovrebbe affrontare il modo in cui tutti i dati in entrata vengono esaminati e offrire linee guida chiare su quello che deve essere conservato (e organizzato per mantenere una chiara gestione dei dati), archiviato o distrutto. Una parte importante di questa politica è essere rigorosi su quali dati devono essere distrutti e quando. L'applicazione della governance dei dati e la revisione regolare delle pratiche possono aiutare a ridurre al minimo la quantità di dark data che non verrà mai utilizzata.
Per aiutare a scoprire i dark data, l'apprendimento automatico (ML)e l'AI possono fare il lavoro pesante di categorizzazione dei dark data, eseguendo analisi sui dati che possono contenere insight preziosi. Inoltre, l'automazione dell'apprendimento automatico (ML) può aiutare a rispettare le normative in materia di conformità della privacy dei dati, eliminando automaticamente le informazioni sensibili dai dati memorizzati.
Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.
