I dati sono una raccolta di fatti, numeri, parole, osservazioni o altre informazioni utili. Attraverso il trattamento dei dati e l'analisi dei dati, le organizzazioni trasformano i dati non elaborati in preziosi insight che migliorano il processo decisionale e portano a risultati aziendali migliori.
Le organizzazioni raccolgono dati da varie fonti e in vari formati, inclusi dati qualitativi non numerici (come le recensioni dei clienti) e dati quantitativi numerici (come i dati sulle vendite). Altri esempi di dati includono dati pubblici, come statistiche del governo e registri dei censimenti, e dati privati, come la cronologia degli acquisti dei clienti o le cartelle cliniche di una persona.
Negli ultimi dieci anni, i big data, set di dati ampi e complessi provenienti da fonti come social, l'e-commerce e le transazioni finanziarie, hanno guidato la trasformazione digitale in tutti i settori. I big data, infatti, si sono guadagnati il soprannome di "nuovo petrolio" per il loro valore come promotore della crescita e dell'innovazione del business.
Negli ultimi anni, l'ascesa dell' intelligenza artificiale (AI) ha ulteriormente aumentato l'attenzione sui dati. Le organizzazioni hanno bisogno di dati per addestrare modelli di apprendimento automatico (ML) e perfezionare gli algoritmi predittivi. Più dati di alta qualità analizzano questi sistemi di AI, più accurati ed efficaci diventano.
Con l'aumentare del volume, della complessità e dell'importanza dei dati, le organizzazioni necessitano di processi di gestione dei dati efficaci per mantenere le informazioni organizzate e accessibili per l'analisi dei dati.
Allo stesso tempo, le crescenti preoccupazioni relative alla privacy e alla sicurezza dei dati, sia da parte degli utenti sia delle autorità di regolamentazione, hanno posto una crescente enfasi sulla protezione dei dati e sulla conformità a leggi come il General Data Protection Regulation (GDPR) e il California Consumer Privacy Act (CCPA).
I dati si presentano in numerosi formati diversi, ciascuno definito da caratteristiche, fonti e formati unici. Conoscere queste distinzioni può consentire un'organizzazione e un'analisi dei dati più efficaci, in quanto diversi tipi di dati supportano casi d'uso diversi.
Inoltre, un singolo punto dati o set di dati può rientrare in più categorie. Ad esempio, strutturati e quantitativi, non strutturati, qualitativi e così via.
Alcuni dei tipi di dati più comuni includono:
Dati qualitativi
Dati strutturati
Dati non strutturati
Dati semi-strutturati
Metadati
Big Data
I dati quantitativi sono costituiti da valori che possono essere misurati numericamente. Esempi di dati quantitativi includono punti dati discreti (come il numero di prodotti venduti) o punti dati continui (come i dati sulla temperatura o sui ricavi).
I dati quantitativi sono spesso strutturati, il che li rende facili da analizzare utilizzando strumenti matematici e algoritmi.
I casi d'uso più comuni dei dati quantitativi includono la previsione, l'analisi statistica, la pianificazione del budget, l'identificazione dei modelli e la misurazione delle prestazioni.
I dati qualitativi sono descrittivi e non numerici e catturano caratteristiche, concetti o esperienze che i numeri non riescono a misurare. Gli esempi includono il feedback dei clienti, le recensioni dei prodotti e i commenti sui social.
I dati qualitativi possono essere strutturati (come le risposte codificate ai sondaggi) o non strutturati (come le risposte a testo libero o le trascrizioni delle interviste).
I casi d'uso più comuni dei dati qualitativi includono la conoscenza del comportamento dei clienti, delle tendenze del mercato e delle esperienze degli utenti.
I dati strutturati sono organizzati in un formato chiaro e definito, spesso memorizzati in database relazionali o fogli di calcolo. Possono essere costituiti da dati quantitativi (come i dati sulle vendite) e qualitativi (come etichette categoriche come "sì o no").
Esempi di dati strutturati includono i record dei clienti e i report finanziari, in cui i dati si adattano perfettamente a righe e colonne con campi predefiniti.
La natura altamente organizzata dei dati strutturati consente una rapida interrogazione e analisi dei dati, rendendoli utili per i sistemi di business intelligence e i processi di reporting.
I dati non strutturati mancano di un formato rigorosamente definito. Di solito si presentano sotto forma complessa come documenti di testo, immagini e video. I dati non strutturati possono includere sia informazioni qualitative (come i commenti dei clienti), sia elementi quantitativi (come i valori numerici incorporati nel testo).
Esempi di dati non strutturati includono e-mail, contenuti sui social e file multimediali.
I dati non strutturati non si adattano facilmente ai database relazionali tradizionali e le organizzazioni utilizzano spesso tecniche come l'elaborazione del linguaggio naturale (NLP) e l'apprendimento automatico per semplificare l'analisi dei dati non strutturati.
I dati non strutturati svolgono spesso un ruolo chiave nell'analisi del sentiment, nel riconoscimento di modelli complessi e in altri progetti di analytics avanzata.
I dati semi-strutturati mescolano elementi di dati strutturati e di non strutturati. Non seguono un formato rigido, ma possono includere tag o indicatori che ne facilitano l'organizzazione e l'analisi. Esempi di dati semi-strutturati includono file XML e oggetti JSON.
I dati semi-strutturati sono ampiamente utilizzati in scenari come il web scraping e i progetti di integrazione dei dati in quanto offrono flessibilità pur mantenendo una certa struttura per la ricerca e l'analisi.
I metadati sono dati sui dati. In altre parole, si tratta di informazioni sugli attributi di un punto dati o di un set di dati, come nomi di file, autori, date di creazione o tipi di dati.
I metadati migliorano l'organizzazione, la ricercabilità e la gestione dei dati. Sono fondamentali per sistemi come database, librerie digitali e piattaforme di gestione dei contenuti in quanto aiutano gli utenti a ordinare e trovare più facilmente i dati di cui hanno bisogno.
I big data si riferiscono a set di dati massivi e complessi che i sistemi tradizionali non sono in grado di gestire. Includono dati strutturati e dati non strutturati provenienti da fonti quali sensori, social e transazioni.
L'analytics dei big data aiuta le organizzazioni a elaborare e analizzare questi set di dati di grandi dimensioni per estrarre sistematicamente insight preziosi. Spesso sono necessari strumenti avanzati come l'apprendimento automatico.
I casi d'uso più comuni dei big data includono l'analisi del comportamento dei clienti, il rilevamento delle frodi e la manutenzione predittiva.
I dati consentono alle organizzazioni di trasformare le informazioni non elaborate in insight attuabili per prevedere il comportamento dei clienti, ottimizzare le supply chain e alimentare l'innovazione.
Il termine "dati" deriva dal plurale di "datum", una parola latina che significa "qualcosa dato": una definizione che rimane altrettanto adatta oggi. Ogni giorno, milioni di persone forniscono dati alle aziende attraverso interazioni come impressioni, clic, transazioni, letture di sensori o anche solo navigando online.
Le organizzazioni di tutti i settori possono quindi utilizzare questo flusso costante di informazioni per stimolare crescita e innovazione. Ad esempio, i rivenditori di e-commerce utilizzano vasti set di dati e analytics per prevedere la domanda, contribuendo a garantire di avere a disposizione i prodotti giusti al momento giusto.
Allo stesso modo, le piattaforme di streaming basate sui dati utilizzano algoritmi di apprendimento automatico non solo per consigliare i contenuti ma anche per ottimizzarli, analizzando quali scene riscuotono maggiore interesse tra gli spettatori per contribuire a prendere decisioni di produzione future.
I dati sono sempre più essenziali anche nell'era dell'intelligenza artificiale (AI), in cui sono necessari set di dati di grandi dimensioni e di alta qualità per addestrare modelli di apprendimento automatico (per maggiori informazioni vedi "Il ruolo dei dati nell’intelligenza artificiale (AI)").
Inoltre, la capacità dell'AI in materia di trattamento dei dati in tempo reale è fondamentale in settori quali la cybersecurity, in cui un'analisi rapida dei dati individua le minacce prima che degenerino; il trading finanziario, in cui decisioni prese in frazioni di secondo hanno un impatto sui profitti; e l'edge computing, dove la gestione dei dati più vicina alla fonte porta a insight più rapidi, a processi decisionali più rapidi e a una migliore larghezza di banda.
Le organizzazioni di tutti i settori utilizzano i dati per vari scopi, tra cui migliorare il processo decisionale, semplificare le operazioni e promuovere l'innovazione.
I modi più comuni a disposizione delle organizzazioni per utilizzare i dati nelle loro operazioni comprendono:
Analitica predittiva
Generative AI
Innovazioni nel settore sanitario
Ricerca nelle scienze sociali
Cybersecurity e gestione del rischio
Efficienza operativa
Customer experience
Iniziative del governo
Business intelligence (BI)
L'analytics predittiva è una branca dell'analytics avanzata che prevede tendenze e risultati futuri utilizzando dati storici combinati con modellazione statistica, data mining e apprendimento automatico.
Le aziende di e-commerce spesso utilizzano l'analytics predittiva per anticipare i comportamenti di acquisto dei clienti in base alle transazioni passate. Nel settore manifatturiero e dei trasporti, l'analytics predittiva consente la manutenzione predittiva, analizzando i dati delle macchine in tempo reale per prevedere quando è probabile che le attrezzature si guastino e consigliare una manutenzione proattiva.
L'AI generativa, nota anche come gen AI, è un tipo di intelligenza artificiale (AI) in grado di creare contenuti originali come testi, immagini, video, audio o codice software, in risposta al prompt o alla richiesta di un utente.
L'AI generativa si basa su sofisticati modelli di apprendimento automatico chiamati modelli di deep learning. Questi modelli sono addestrati su set di dati di grandi dimensioni, il che consente loro di fare cose come capire le richieste degli utenti, generare contenuti di marketing personalizzati e scrivere codice.
L'analytics dei dati può aiutare gli operatori sanitari a migliorare l'assistenza ai pazienti, prevedere le epidemie di malattie e migliorare i protocolli di trattamento.
Ad esempio, il monitoraggio dei pazienti attraverso i dati delle serie temporali, come il monitoraggio dei parametri vitali del paziente nel tempo, fornisce insight in tempo reale sulle condizioni del paziente. Questo, a sua volta, consente interventi più rapidi e trattamenti più personalizzati.
I ricercatori di scienze sociali analizzano spesso dati quantitativi e qualitativi provenienti da sondaggi, censimenti e social. L'esame di questi set di dati consente di studiare i comportamenti, le tendenze e gli impatti delle politiche.
Ad esempio, i ricercatori potrebbero utilizzare i dati del censimento per tenere traccia dei cambiamenti della popolazione, le risposte ai sondaggi per misurare l'opinione pubblica e i dati dei social per analizzare le tendenze emergenti.
Con l'aumento della frequenza degli attacchi informatici e delle violazioni dei dati, le organizzazioni si affidano sempre più all'analisi dei dati per individuare e rispondere più rapidamente alle minacce, riducendo al minimo i danni e i tempi di inattività.
Ad esempio, i sistemi di gestione delle informazioni e degli eventi di sicurezza (SIEM) possono aiutare a rilevare e rispondere alle anomalie in tempo reale aggregando e analizzando gli avvisi di sicurezza provenienti da tutta la rete.
Gli algoritmi di apprendimento automatico, addestrati su set di dati di grandi dimensioni, possono aiutare le organizzazioni a incrementare l'efficienza operativa ottimizzando la logistica, prevedendo la domanda, migliorando la pianificazione e automatizzando i workflow.
Ad esempio, spesso le società di e-commerce raccolgono e analizzano i dati di vendita in tempo reale per informare la gestione dell'inventario, riducendo la probabilità di esaurimento delle scorte o di eccesso di scorte.
I dati sono la spina dorsale delle esperienze dei clienti personalizzate, in particolare nel marketing, in cui le organizzazioni possono utilizzare l'analytics dei dati per adattare contenuti e annunci ai diversi utenti.
Ad esempio, i servizi di streaming si affidano ad algoritmi di apprendimento automatico per analizzare le abitudini di visualizzazione e consigliare contenuti.
I governi di tutto il mondo spesso utilizzano politiche aperte sui dati per rendere accessibili al pubblico importanti set di dati, incoraggiando le aziende e le organizzazioni a utilizzare queste risorse per la ricerca e l'innovazione.
Ad esempio, la piattaforma Data.gov del governo degli Stati Unitifornisce accesso a vari set di dati nei settori della sanità, dell'istruzione e dei trasporti. Questo accesso aiuta a promuovere la trasparenza e consente alle aziende di tutti i settori di sviluppare soluzioni basate sui dati in base alle informazioni disponibili al pubblico.
La business intelligence (BI) è un insieme di processi tecnologici per la raccolta, la gestione e l'analisi dei dati, con conseguente trasformazione dei dati non elaborati in insight che possono orientare le decisioni aziendali.
L'analytics aziendale integra la BI aiutando le organizzazioni a interpretare e visualizzare i dati attraverso grafici, dashboard e report, rendendo più facile individuare le tendenze e prendere decisioni informate.
La raccolta dei dati è il processo sistematico di raccolta dei dati da varie fonti, contribuendo al contempo a garantirne la qualità e l'integrità. Eseguita in genere da data scientist e analisti, è la base per un'analisi dei dati accurata e affidabile.
La raccolta dei dati inizia con la definizione di obiettivi chiari e l'identificazione delle fonti pertinenti. I dati vengono quindi acquisiti, puliti e integrati in un set di dati unificato. I sistemi di data storage e i costanti controlli di qualità contribuiscono a garantire che i dati raccolti siano accurati e affidabili.
Senza un'adeguata raccolta dei dati, le organizzazioni rischiano di basare le proprie analisi su dati incompleti, imprecisi o fuorvianti, portando a insight e processi decisionali compromessi.
Alcune fonti di dati comuni includono:
Le organizzazioni gestiscono enormi quantità di dati in più formati sparsi su cloud pubblici e privati, il che rende la frammentazione e la cattiva gestione dei dati sfide significative.
Secondo l'IBM Data Differentiator, l'82% delle aziende ha problemi con silo di dati che interrompono i workflow e il 68% dei dati non viene analizzato, limitandone il pieno potenziale.
La gestione dei dati consiste nella pratica di raccogliere, elaborare e utilizzare i dati in modo sicuro ed efficiente per migliorare i risultati aziendali. Indirizza sfide critiche come la gestione di insiemi di dati di grandi dimensioni, l'abbattimento dei silo e la gestione di formati di dati incoerenti.
Le soluzioni di gestione dei dati si integrano solitamente con l'infrastruttura esistente per contribuire a garantire l'accesso a dati utilizzabili di alta qualità per data scientist, analisti e altri stakeholder. Queste soluzioni spesso incorporano data lake, data warehouse o data lakehouse, combinati in un data fabric unificato.
Questi sistemi aiutano a creare una solida fondazione di gestione dei dati, alimentando dati di alta qualità in strumenti di business intelligence, nelle dashboard e nei modelli AI, compreso l'apprendimento automatico e l'AI generativa.
Inoltre, l'AI sta trasformando il modo in cui le organizzazioni gestiscono i dati. La gestione dei dati AI consiste nella pratica di utilizzare l'intelligenza artificiale (AI) e l'apprendimento automatico nel ciclo di vita della gestione dei dati. Alcuni esempi includono l'applicazione dell'AI per automatizzare o semplificare le operazioni di pulizia, analisi, sicurezza e raccolta dei dati e altri processi di gestione dei dati.
Dal momento che le aziende di tutti i settori, si affidano sempre più ai dati per indirizzare il processo decisionale, per migliorare le operazioni e per arricchire l'esperienza dei clienti, la domanda di professionisti esperti nel campo dei dati è andata sempre più aumentando.
2 dei ruoli più significativi nel campo della data science sono i data scientist e gli analisti di dati.
Entrambi i ruoli riguardano la raccolta dei dati, il data modeling, l'analisi dei dati e la garanzia di dati di alta qualità. Analisti e scienziati potrebbero utilizzare varie metodologie e strumenti per raccogliere e preparare i dati, tra cui Microsoft Excel, Python e il structured query language (SQL).
Potrebbero anche utilizzare tecniche di visualizzazione dei dati, come dashboard e grafici, per aiutare a scoprire tendenze, correlazioni e insight nei dati, anche se in modi diversi.
Ad esempio, un data scientist potrebbe sviluppare un modello predittivo utilizzando l'apprendimento automatico per prevedere il comportamento futuro dei clienti. Questo modello potrebbe aiutare l'azienda ad anticipare le tendenze, personalizzare le campagne di marketing e prendere decisioni strategiche informate a lungo termine.
In confronto, un analista di dati sullo stesso progetto potrebbe utilizzare uno strumento di visualizzazione per creare una dashboard che mostri i modelli di comportamento dei clienti nel tempo. Questa capacità di tracciare le tendenze storiche delle vendite insieme alle metriche di coinvolgimento potrebbe aiutare il team a ottimizzare le attuali strategie di marketing o ad adeguare le offerte di prodotti per aumentare i profitti.
La protezione dei dati è la pratica di salvaguardare le informazioni sensibili dalla perdita, dal furto e dal danneggiamento dei dati. La protezione dei dati è sempre più importante in quanto le organizzazioni gestiscono volumi maggiori di dati sensibili in ambienti complessi e distribuiti.
Il crescente rischio di minacce informatiche e le normative più severe in materia di privacy dei dati hanno anche reso la protezione dei dati una priorità per aziende e consumatori. Secondo un recente studio, l'81% degli americani è preoccupato per il modo in cui le aziende utilizzano i dati raccolti su di loro.1
Esistono anche solide motivazioni aziendali a favore della priorità della protezione dei dati. In media, la violazione dei dati costa a un'organizzazione 4,88 milioni di dollari tra perdita di attività, tempi di inattività del sistema, danni alla reputazione e attività di risposta, secondo il report IBM Cost of a Data Breach.
La protezione dei dati ha 2 importanti sotto campi: la sicurezza dei dati e la privacy dei dati. Entrambi svolgono ruoli distinti ma complementari nella salvaguardia e nella gestione dei dati.
La sicurezza dei dati implica la protezione delle informazioni digitali da accessi non autorizzati, corruzione o furto. Comprende vari aspetti della sicurezza delle informazioni, che vanno dalla sicurezza fisica, alle politiche organizzative e ai controlli degli accessi.
La privacy dei dati si concentra sulle politiche che sostengono il principio generale secondo cui una persona dovrebbe avere il controllo sui propri dati personali, compresa la capacità di decidere come le organizzazioni possono raccogliere, memorizzare e utilizzare i propri dati.
I dati devono affrontare numerose vulnerabilità e potenziali minacce informatiche, in particolare con l'avanzare delle funzionalità di AI.
Alcune delle minacce più comuni includono:
Le organizzazioni utilizzano diverse tecnologie di protezione dei dati per difendersi da attori delle minacce e contribuire a garantire l'integrità, la riservatezza e la disponibilità dei dati.
Alcune delle soluzioni più popolari includono:
Il 72% dei CEO di maggior successo concorda sul fatto che avere un vantaggio competitivo dipende da chi possiede l'AI generativa più avanzata. Tuttavia, avere a disposizione un'AI all'avanguardia è solo una parte dell'equazione. Senza dati gestiti e accessibili correttamente, anche gli strumenti di AI più potenti non riescono a sfruttare il loro pieno potenziale.
I dati sono la base per il progresso e il successo dell'AI. I sistemi di AI, in particolare i modelli di apprendimento automatico, si basano sui dati per apprendere, adattarsi e fornire valore nei vari settori.
I modelli di apprendimento automatico vengono addestrati su set di dati di grandi dimensioni e utilizzano questi dati per individuare schemi e prendere decisioni.
La diversità e la qualità dei dati dei dati relativi alla formazione di un modello AI influiscono direttamente sulle sue prestazioni. Se i dati sono incompleti o presentano dei pregiudizi, gli output di AI possono diventare imprecisi e inaffidabili.
Ad esempio, nel settore sanitario, i modelli AI addestrati su set di dati con pregiudizi potrebbero sottorappresentare determinati gruppi razziali, portando a risultati diagnostici scadenti. Allo stesso modo, nella selezione del personale, una scarsa qualità dei dati può determinare previsioni errate, con la possibilità di rafforzare gli stereotipi di genere o razziali e creare modelli AI che favoriscono alcuni gruppi demografici a discapito di altri.
In breve, l'AI è buona quanto i dati che elabora.
Garantire input di alta qualità attraverso una convalida e una pulizia complete dei dati è fondamentale per creare sistemi di AI etici e affidabili che evitano il perpetuarsi di pregiudizi.
Sebbene l'AI generativa possa creare contenuti di valore, presenta anche nuove sfide. I modelli AI possono generare dati falsi o fuorvianti, che gli autori delle aggressioni possono utilizzare per ingannare sistemi o individui.
L'autenticità e la sicurezza dei dati sono preoccupazioni crescenti. Un report recente ha rilevato che il 75% degli esperti in cybersecurity sta assistendo a un numero sempre maggiore di attacchi informatici, e l'85% ne attribuisce l'aumento ai malintenzionati che utilizzano l'AI generativa.2
Per contrastare queste minacce, numerose organizzazioni si stanno rivolgendo alla sicurezza dell'AI, utilizzando l'AI stessa per automatizzare il rilevamento, la prevenzione e la risposta e migliorare la protezione dei dati.
Tutti i link sono esterni a ibm.com.
1 How Americans View Data Privacy, Pew Research Center, 18 October 2023.
2 AI advances risk facilitating cyber crime, top US officials say, Reuters, 9 January 2024.
Per prosperare, le aziende devono utilizzare i dati per fidelizzare i clienti, automatizzare i processi aziendali e innovare con soluzioni basate sull'AI.
Sblocca il valore dei dati aziendali con IBM Consulting e crea un'organizzazione basata su insight in grado di generare vantaggi aziendali.
Introduzione a Cognos Analytics 12.0, insight basati sull'AI per prendere decisioni migliori.