Cos'è la data discovery?

Data discovery: definizione

­­La data discovery è il processo di raccolta, valutazione ed esplorazione di dati provenienti da fonti multiple, spesso eterogenee. Aiuta le organizzazioni a scoprire i dati nascosti o isolati, assicurando che nessuna informazione preziosa sfugga all'attenzione o all'analisi.

Durante la data discovery, i professionisti dei dati identificano ed estraggono i dati non elaborati da tutti i database, le applicazioni, i file interni e gli altri repository di un'organizzazione. Esaminano le caratteristiche, il formato, il lineage, la qualità e i potenziali utilizzi dei dati (un processo chiamato profilazione dei dati), gettando le basi per una data ingestion efficace. Le informazioni scoperte durante il processo di data discovery vengono utilizzate per informare e semplificare le decisioni aziendali in aree quali strategie di marketing, esperienza del cliente e operazioni della supply chain.

L'analisi esplorativa dei dati (EDA) è un approccio ampiamente utilizzato per data discovery. Nell'EDA, vengono impiegati metodi e algoritmi statistici per esaminare i set di dati e riassumerne le caratteristiche principali. Questi risultati aiutano i data scientist a determinare il modo migliore per manipolare le fonti di dati e ottenere approfondimenti preziosi.

Oltre ad aiutare le organizzazioni a identificare e utilizzare tutte le loro fonti di dati, la data discovery migliora anche la sicurezza dei dati, ottimizza l'accuratezza dei dati e supporta la conformità a determinate normative sulla privacy dei dati. Quando integrata con AI e machine learning (ML), può offrire alle organizzazioni una visibilità e un controllo ancora maggiori sui propri asset.

Il tuo team sarebbe in grado di rilevare in tempo il prossimo zero-day?

Unisciti ai leader della sicurezza che si affidano alla newsletter Think per ricevere notizie selezionate su AI, cybersecurity, dati e automazione. Impara velocemente da tutorial e articoli informativi consegnati direttamente nella tua casella di posta. Leggi l'Informativa sulla privacy IBM.

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'informativa sulla privacy IBM.

https://www.ibm.com/it-it/privacy

Data discovery vs analisi dei dati tradizionale

A prima vista, data discovery e analisi dei dati possono sembrare sinonimi. Tuttavia, sono processi di gestione dei dati distinti che funzionano meglio se usati insieme.

La data discovery spesso avviene per prima. È una fase esplorativa che aiuta le organizzazioni a localizzare e comprendere tutti i dati disponibili, comprese le informazioni che sono isolate o nascoste. In questa fase, gli analisti potrebbero non sapere esattamente quali dati stiano cercando.

Una volta trovati i dati, possono iniziare ad analizzarli. Questo processo prevede l'uso di tecniche e query specifiche per interpretare i dati e scoprire insight significativi.

Considera questa analogia: la data discovery è simile alla ricerca di ingredienti nella tua cucina, compresi quelli nascosti nella parte posteriore dell'armadietto. L'analisi dei dati consiste nell'utilizzare gli ingredienti che hai trovato per creare un pasto nutriente e di alta qualità. Più approfondita è la tua scoperta, migliore sarà il risultato.

Perché la data discovery è importante?

I dati sono fondamentali per le aziende moderne. Ogni giorno, queste raccolgono enormi quantità di informazioni da un ecosistema di fonti in espansione, che coprono dipartimenti, unità di business e aree geografiche. Questi dati sono gestiti da vari utenti e memorizzati in archivi di dati eterogenei e nei dispositivi dei dipendenti.

Ma quando i dati sono ovunque, diventa più difficile trovarli, accedervi e utilizzarli. Infatti, si stima che il 68% dei dati aziendali rimanga inutilizzato. Il mancato analisi di tutti i tipi di dati porta ad approfondimenti mancati e opportunità inesplorate. Ad esempio, cosa succede se la chiave per migliorare la customer retention è nascosta nelle note delle riunioni e nelle discussioni e-mail, ma il team di vendita si affida solo ai dati del proprio sistema di customer relationship management (CRM)?

Non sapere quali dati si possiedono e dove risiedono espone anche l'organizzazione a rischi, come la non conformità alla crescente lista di regolamenti sulla privacy dei dati personali. Tuttavia, la data discovery è un problema sia di privacy che di sicurezza dei dati. Se non sai dove si trovano i tuoi dati sensibili, non puoi nemmeno proteggerli adeguatamente.  

I benefici della data discovery

La data discovery aiuta le organizzazioni a esplorare e sfruttare tutti i dati disponibili, favorendo i seguenti benefici:

  • Processi decisionali migliori
  • Miglioramento dell'accuratezza e della qualità dei dati
  • Sicurezza dei dati rafforzata
  • Conformità rigorosa
Processi decisionali migliori

Portando alla luce i dati non sfruttati, la data discovery offre nuove strade per l'esplorazione dei dati. Gli stakeholder potrebbero scoprire modelli e correlazioni nascosti, insight attuabili e nuove tendenze di mercato. Di conseguenza, le aziende possono prendere decisioni più informate e ottimizzare le prestazioni per raggiungere l'efficienza operativa.

Miglioramento dell'accuratezza e della qualità dei dati

Con una visione olistica dell'inventario di dati dell'organizzazione, per gli analisti è più facile individuare i problemi di qualità dei dati come i dati incoerenti o gli outlier nei set di dati. Il raggiungimento di un livello di precisione più elevato può aiutare a ridurre al minimo i falsi positivi e negativi durante la classificazione dei dati.

Sicurezza dei dati rafforzata

La data discovery aiuta a garantire che tutti i dati sensibili all'interno di un'organizzazione (come le informazioni di identificazione personale (PII) e la proprietà intellettuale) siano identificati e localizzati. Questo rende più facile per i team di sicurezza applicare misure di cybersecurity personalizzate. (Per ulteriori informazioni, consulta: "La data discovery nella sicurezza dei dati".)

Conformità rigorosa

Individuare dove risiedono tutti i dati può aiutare le organizzazioni a comprendere il data lineage e ad applicare regole specifiche in materia di protezione, condivisione e accesso alle informazioni sensibili. Ad esempio, la data discovery può aiutare le organizzazioni a determinare quando i dati rientrano nel Regolamento generale sulla protezione dei dati (GDPR) o nel California Consumer Privacy Act (CCPA).

La data discovery nella sicurezza dei dati

I dati non scoperti e non gestiti, spesso definiti shadow data, rappresentano un rischio significativo per la sicurezza, soprattutto quando contengono informazioni sensibili. Secondo il Report Cost of a Data Breach 2024 di IBM, le violazioni dei dati che coinvolgono gli shadow data rappresentano un terzo di tutti gli incidenti e costano in media 5,27 milioni di dollari, il 16% in più rispetto al costo medio delle violazioni calcolato nel report.

Fondamentale per proteggere tutti i dati organizzativi è capire come e dove questi entrano nella rete, e come e dove vengono condivisi e memorizzati. Solidi processi di data discovery sono quindi elementi cruciali sia per la sicurezza dei dati che per la protezione dei dati. L'uso dell'AI e del ML per addestrare i sistemi a identificare automaticamente i file contenenti dati sensibili può dare ulteriore impulso a questi sforzi.

Le pratiche di data discovery possono anche contribuire a ridurre la superficie di attacco di un'organizzazione. Una superficie di attacco è composta da tutte le vulnerabilità, i percorsi o i metodi di un'organizzazione che gli hacker possono utilizzare per ottenere l'accesso non autorizzato a dati sensibili o lanciare un attacco informatico. Attraverso la data discovery, i dati non utilizzati o duplicati vengono eliminati, lasciando solo i dati sensibili più necessari. Le organizzazioni possono quindi stabilire le priorità e adattare le misure di sicurezza dei dati a questi asset critici.

Come funziona la data discovery?

La data discovery è una combinazione di processi tecnici, strumenti e strategie che possono essere raggruppati nei seguenti passaggi:

  • Definizione degli obiettivi
  • Raccolta e integrazione dei dati
  • Data Preparation
  • Visualizzazione dei dati
  • Analisi dei dati

Definizione degli obiettivi

Questo primo passaggio prevede in genere la definizione degli obiettivi del processo di data discovery. Questi obiettivi devono essere allineati con la strategia dei dati generale dell'organizzazione. In questo caso, i vertici aziendali e i leader dell'unità di business collaborano per determinare quali indicazioni approfondite vogliono trovare, il che aiuta a guidare l'esplorazione dei dati.

Raccolta e integrazione dei dati

Successivamente, i dati vengono raccolti da varie fonti utilizzando metodi di estrazione come l'interrogazione dei database, l'estrazione di file remoti o il recupero dei dati attraverso le application programming interface (API). I dati raccolti vengono inseriti, integrati e trasformati in un formato unificato e coerente per risiedere in un catalogo dati (un inventario dettagliato degli asset di dati all'interno di un'organizzazione).

Preparazione dei dati

Una volta raccolti e combinati, i dati vengono sottoposti a vari processi di garanzia della qualità per assicurare che siano privi di errori, incongruenze e altri problemi di integrità dei dati. Questa preparazione può includere tecniche di convalida dei dati, di pulizia dei dati e di standardizzazione.

Visualizzazione dei dati

I team dei dati possono creare rappresentazioni visive dei dati preparati (come grafici, diagrammi, dashboard e infografiche) che mostrano relazioni tra dati complesse in interfacce intuitive.

Analisi dei dati

Gli strumenti di visualizzazione dei dati potrebbero persino supportare l'analisi self-service. Questi strumenti consentono agli utenti senza esperienza tecnica di accedere alle visualizzazioni e analizzarle, il che aiuta a promuovere un processo decisionale basato sui dati. In questa fase è possibile applicare anche analisi avanzate, che utilizzano modelli predittivi e altre tecniche sofisticate per generare previsioni.

Durante tutto il processo, una solida governance dei dati aiuta a garantire l'integrità e la sicurezza dei dati. Definisce e implementa le politiche, gli standard e le procedure per la raccolta, la proprietà, l'archiviazione, l'elaborazione e l'utilizzo dei dati.

Strumenti di data discovery con AI e ML

L'uso di AI, ML ed elaborazione del linguaggio naturale (NLP) nella data discovery aggiunge sia velocità che intelligenza al processo. Queste tecnologie offrono alle organizzazioni maggiore visibilità e controllo sui propri dati. I principali esempi e casi d'uso includono:

  • Data discovery automatizzata: questi strumenti scansionano automaticamente i dispositivi della rete e i sistemi di data storage, indicizzando i nuovi dati e metadati quasi in tempo reale per un'identificazione più rapida degli asset.

  • Classificazione automatizzata dei dati: questa funzionalità automatizza l'etichettatura dei nuovi dati in base a regole predefinite, come i livelli di sensibilità, i controlli di accesso ai dati e le regole di conformità.

  • Ricerca intelligente: la ricerca basata su AI utilizza l'NLP per interpretare le query degli utenti, comprendere l'intento e poi fornire risultati rilevanti. Gli assistenti AI possono fornire una guida intuitiva in linguaggio naturale.

  • NLP per dati non strutturati: gli strumenti di NLP, inclusi i modelli linguistici di grandi dimensioni (LLM), possono estrarre dati strutturati da fonti di dati non strutturate come documenti, e-mail e trascrizioni di chat.

L'integrazione di AI, ML e NLP nei workflow di data discovery accelera i tempi di acquisizione di insight, aumenta la precisione e può contribuire a rafforzare la conformità normativa. Con la crescita dei volumi di dati, la data discovery basata su AI diventerà una funzionalità essenziale e un vantaggio competitivo.

Autore

Alexandra Jonker

Staff Editor

IBM Think

Soluzioni correlate
Soluzioni per la sicurezza e la protezione dei dati

Proteggi i dati aziendali in ambienti diversi, rispetta le normative sulla privacy e semplifica le complessità operative.

    Scopri le soluzioni per la sicurezza dei dati
    IBM Guardium

    Scopri IBM Guardium, una famiglia di software di sicurezza dei dati che protegge i dati sensibili on-premise e nel cloud.

     

      Esplora IBM Guardium
      Servizi per la sicurezza dei dati

      IBM offre servizi completi di sicurezza dei dati per proteggere i dati aziendali, le applicazioni e l'AI.

      Scopri i servizi per la sicurezza dei dati
      Fai il passo successivo

      Proteggi i dati della tua organizzazione in tutti i cloud ibridi e semplifica i requisiti di conformità con le soluzioni di sicurezza dei dati.

      Scopri le soluzioni per la sicurezza dei dati Prenota una demo live