Che cosa sono i dati?

Rendering 3D di varie forme

Autori

Annie Badman

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

Che cosa sono i dati?

I dati sono una raccolta di fatti, numeri, parole, osservazioni o altre informazioni utili. Attraverso il trattamento dei dati e l'analisi dei dati, le organizzazioni trasformano i dati non elaborati in preziosi insight che migliorano il processo decisionale e portano a risultati aziendali migliori.

Le organizzazioni raccolgono dati da varie fonti e in vari formati, inclusi dati qualitativi non numerici (come le recensioni dei clienti) e dati quantitativi numerici (come i dati sulle vendite). Altri esempi di dati includono dati pubblici, come statistiche del governo e registri dei censimenti, e dati privati, come la cronologia degli acquisti dei clienti o le cartelle cliniche di una persona.

Negli ultimi dieci anni, i big data, set di dati ampi e complessi provenienti da fonti come social, l'e-commerce e le transazioni finanziarie, hanno guidato la trasformazione digitale in tutti i settori. I big data, infatti, si sono guadagnati il soprannome di "nuovo petrolio" per il loro valore come promotore della crescita e dell'innovazione del business.

Negli ultimi anni, l'ascesa dell' intelligenza artificiale (AI) ha ulteriormente aumentato l'attenzione sui dati. Le organizzazioni hanno bisogno di dati per addestrare modelli di apprendimento automatico (ML) e perfezionare gli algoritmi predittivi. Più dati di alta qualità analizzano questi sistemi di AI, più accurati ed efficaci diventano.

Con l'aumentare del volume, della complessità e dell'importanza dei dati, le organizzazioni necessitano di processi di gestione dei dati efficaci per mantenere le informazioni organizzate e accessibili per l'analisi dei dati.

Allo stesso tempo, le crescenti preoccupazioni relative alla privacy e alla sicurezza dei dati, sia da parte degli utenti sia delle autorità di regolamentazione, hanno posto una crescente enfasi sulla protezione dei dati e sulla conformità a leggi come il General Data Protection Regulation (GDPR) e il California Consumer Privacy Act (CCPA).

Tipi di dati

I dati si presentano in numerosi formati diversi, ciascuno definito da caratteristiche, fonti e formati unici. Conoscere queste distinzioni può consentire un'organizzazione e un'analisi dei dati più efficaci, in quanto diversi tipi di dati supportano casi d'uso diversi.

Inoltre, un singolo punto dati o set di dati può rientrare in più categorie. Ad esempio, strutturati e quantitativi, non strutturati, qualitativi e così via.

Alcuni dei tipi di dati più comuni includono:

  • Dati quantitativi
  • Dati qualitativi

  • Dati strutturati

  • Dati non strutturati

  • Dati semi-strutturati

  • Metadati

  • Big Data

Dati quantitativi

I dati quantitativi sono costituiti da valori che possono essere misurati numericamente. Esempi di dati quantitativi includono punti dati discreti (come il numero di prodotti venduti) o punti dati continui (come i dati sulla temperatura o sui ricavi).

I dati quantitativi sono spesso strutturati, il che li rende facili da analizzare utilizzando strumenti matematici e algoritmi.

I casi d'uso più comuni dei dati quantitativi includono la previsione, l'analisi statistica, la pianificazione del budget, l'identificazione dei modelli e la misurazione delle prestazioni.

Dati qualitativi

I dati qualitativi sono descrittivi e non numerici e catturano caratteristiche, concetti o esperienze che i numeri non riescono a misurare. Gli esempi includono il feedback dei clienti, le recensioni dei prodotti e i commenti sui social.

I dati qualitativi possono essere strutturati (come le risposte codificate ai sondaggi) o non strutturati (come le risposte a testo libero o le trascrizioni delle interviste).

I casi d'uso più comuni dei dati qualitativi includono la conoscenza del comportamento dei clienti, delle tendenze del mercato e delle esperienze degli utenti.

Dati strutturati

I dati strutturati sono organizzati in un formato chiaro e definito, spesso memorizzati in database relazionali o fogli di calcolo. Possono essere costituiti da dati quantitativi (come i dati sulle vendite) e qualitativi (come etichette categoriche come "sì o no").

Esempi di dati strutturati includono i record dei clienti e i report finanziari, in cui i dati si adattano perfettamente a righe e colonne con campi predefiniti.

La natura altamente organizzata dei dati strutturati consente una rapida interrogazione e analisi dei dati, rendendoli utili per i sistemi di business intelligence e i processi di reporting.

Dati non strutturati

I dati non strutturati mancano di un formato rigorosamente definito. Di solito si presentano sotto forma complessa come documenti di testo, immagini e video. I dati non strutturati possono includere sia informazioni qualitative (come i commenti dei clienti), sia elementi quantitativi (come i valori numerici incorporati nel testo).

Esempi di dati non strutturati includono e-mail, contenuti sui social e file multimediali.

I dati non strutturati non si adattano facilmente ai database relazionali tradizionali e le organizzazioni utilizzano spesso tecniche come l'elaborazione del linguaggio naturale (NLP) e l'apprendimento automatico per semplificare l'analisi dei dati non strutturati.

I dati non strutturati svolgono spesso un ruolo chiave nell'analisi del sentiment, nel riconoscimento di modelli complessi e in altri progetti di analytics avanzata.

Dati semi-strutturati

I dati semi-strutturati mescolano elementi di dati strutturati e di non strutturati. Non seguono un formato rigido, ma possono includere tag o indicatori che ne facilitano l'organizzazione e l'analisi. Esempi di dati semi-strutturati includono file XML e oggetti JSON.

I dati semi-strutturati sono ampiamente utilizzati in scenari come il web scraping e i progetti di integrazione dei dati in quanto offrono flessibilità pur mantenendo una certa struttura per la ricerca e l'analisi.

Metadati

I metadati sono dati sui dati. In altre parole, si tratta di informazioni sugli attributi di un punto dati o di un set di dati, come nomi di file, autori, date di creazione o tipi di dati.

I metadati migliorano l'organizzazione, la ricercabilità e la gestione dei dati. Sono fondamentali per sistemi come database, librerie digitali e piattaforme di gestione dei contenuti in quanto aiutano gli utenti a ordinare e trovare più facilmente i dati di cui hanno bisogno.

Big Data

I big data si riferiscono a set di dati massivi e complessi che i sistemi tradizionali non sono in grado di gestire. Includono dati strutturati e dati non strutturati provenienti da fonti quali sensori, social e transazioni.

L'analytics dei big data aiuta le organizzazioni a elaborare e analizzare questi set di dati di grandi dimensioni per estrarre sistematicamente insight preziosi. Spesso sono necessari strumenti avanzati come l'apprendimento automatico.

I casi d'uso più comuni dei big data includono l'analisi del comportamento dei clienti, il rilevamento delle frodi e la manutenzione predittiva.

Perché i dati sono importanti

I dati consentono alle organizzazioni di trasformare le informazioni non elaborate in insight attuabili per prevedere il comportamento dei clienti, ottimizzare le supply chain e alimentare l'innovazione.

Il termine "dati" deriva dal plurale di "datum", una parola latina che significa "qualcosa dato": una definizione che rimane altrettanto adatta oggi. Ogni giorno, milioni di persone forniscono dati alle aziende attraverso interazioni come impressioni, clic, transazioni, letture di sensori o anche solo navigando online.

Le organizzazioni di tutti i settori possono quindi utilizzare questo flusso costante di informazioni per stimolare crescita e innovazione. Ad esempio, i rivenditori di e-commerce utilizzano vasti set di dati e analytics per prevedere la domanda, contribuendo a garantire di avere a disposizione i prodotti giusti al momento giusto.

Allo stesso modo, le piattaforme di streaming basate sui dati utilizzano algoritmi di apprendimento automatico non solo per consigliare i contenuti ma anche per ottimizzarli, analizzando quali scene riscuotono maggiore interesse tra gli spettatori per contribuire a prendere decisioni di produzione future.

I dati sono sempre più essenziali anche nell'era dell'intelligenza artificiale (AI), in cui sono necessari set di dati di grandi dimensioni e di alta qualità per addestrare modelli di apprendimento automatico (per maggiori informazioni vedi "Il ruolo dei dati nell’intelligenza artificiale (AI)").

Inoltre, la capacità dell'AI in materia di trattamento dei dati in tempo reale è fondamentale in settori quali la cybersecurity, in cui un'analisi rapida dei dati individua le minacce prima che degenerino; il trading finanziario, in cui decisioni prese in frazioni di secondo hanno un impatto sui profitti; e l'edge computing, dove la gestione dei dati più vicina alla fonte porta a insight più rapidi, a processi decisionali più rapidi e a una migliore larghezza di banda.

Donna di colore che lavora al laptop

Rimani aggiornato sulle ultime novità dal mondo della tecnologia

Insight, ricerche e opinioni di esperti su AI, sicurezza, cloud e molto altro nella newsletter settimanale Think.

Come vengono utilizzati i dati?

Le organizzazioni di tutti i settori utilizzano i dati per vari scopi, tra cui migliorare il processo decisionale, semplificare le operazioni e promuovere l'innovazione.

I modi più comuni a disposizione delle organizzazioni per utilizzare i dati nelle loro operazioni comprendono:

  • Analitica predittiva

  • Generative AI

  • Innovazioni nel settore sanitario

  • Ricerca nelle scienze sociali

  • Cybersecurity e gestione del rischio

  • Efficienza operativa

  • Customer experience

  • Iniziative del governo

  • Business intelligence (BI)

Analitica predittiva

L'analytics predittiva è una branca dell'analytics avanzata che prevede tendenze e risultati futuri utilizzando dati storici combinati con modellazione statistica, data mining e apprendimento automatico.

Le aziende di e-commerce spesso utilizzano l'analytics predittiva per anticipare i comportamenti di acquisto dei clienti in base alle transazioni passate. Nel settore manifatturiero e dei trasporti, l'analytics predittiva consente la manutenzione predittiva, analizzando i dati delle macchine in tempo reale per prevedere quando è probabile che le attrezzature si guastino e consigliare una manutenzione proattiva.

Generative AI

L'AI generativa, nota anche come gen AI, è un tipo di intelligenza artificiale (AI) in grado di creare contenuti originali come testi, immagini, video, audio o codice software, in risposta al prompt o alla richiesta di un utente.

L'AI generativa si basa su sofisticati modelli di apprendimento automatico chiamati modelli di deep learning. Questi modelli sono addestrati su set di dati di grandi dimensioni, il che consente loro di fare cose come capire le richieste degli utenti, generare contenuti di marketing personalizzati e scrivere codice.

Innovazioni nel settore sanitario

L'analytics dei dati può aiutare gli operatori sanitari a migliorare l'assistenza ai pazienti, prevedere le epidemie di malattie e migliorare i protocolli di trattamento.

Ad esempio, il monitoraggio dei pazienti attraverso i dati delle serie temporali, come il monitoraggio dei parametri vitali del paziente nel tempo, fornisce insight in tempo reale sulle condizioni del paziente. Questo, a sua volta, consente interventi più rapidi e trattamenti più personalizzati.

Ricerca nelle scienze sociali

I ricercatori di scienze sociali analizzano spesso dati quantitativi e qualitativi provenienti da sondaggi, censimenti e social. L'esame di questi set di dati consente di studiare i comportamenti, le tendenze e gli impatti delle politiche.

Ad esempio, i ricercatori potrebbero utilizzare i dati del censimento per tenere traccia dei cambiamenti della popolazione, le risposte ai sondaggi per misurare l'opinione pubblica e i dati dei social per analizzare le tendenze emergenti.

Cybersecurity e gestione del rischio

Con l'aumento della frequenza degli attacchi informatici e delle violazioni dei dati, le organizzazioni si affidano sempre più all'analisi dei dati per individuare e rispondere più rapidamente alle minacce, riducendo al minimo i danni e i tempi di inattività.

Ad esempio, i sistemi di gestione delle informazioni e degli eventi di sicurezza (SIEM) possono aiutare a rilevare e rispondere alle anomalie in tempo reale aggregando e analizzando gli avvisi di sicurezza provenienti da tutta la rete.

Efficienza operativa

Gli algoritmi di apprendimento automatico, addestrati su set di dati di grandi dimensioni, possono aiutare le organizzazioni a incrementare l'efficienza operativa ottimizzando la logistica, prevedendo la domanda, migliorando la pianificazione e automatizzando i workflow.

Ad esempio, spesso le società di e-commerce raccolgono e analizzano i dati di vendita in tempo reale per informare la gestione dell'inventario, riducendo la probabilità di esaurimento delle scorte o di eccesso di scorte.

Customer experience

I dati sono la spina dorsale delle esperienze dei clienti personalizzate, in particolare nel marketing, in cui le organizzazioni possono utilizzare l'analytics dei dati per adattare contenuti e annunci ai diversi utenti.

Ad esempio, i servizi di streaming si affidano ad algoritmi di apprendimento automatico per analizzare le abitudini di visualizzazione e consigliare contenuti.

Iniziative del governo

I governi di tutto il mondo spesso utilizzano politiche aperte sui dati per rendere accessibili al pubblico importanti set di dati, incoraggiando le aziende e le organizzazioni a utilizzare queste risorse per la ricerca e l'innovazione.

Ad esempio, la piattaforma Data.gov del governo degli Stati Unitifornisce accesso a vari set di dati nei settori della sanità, dell'istruzione e dei trasporti. Questo accesso aiuta a promuovere la trasparenza e consente alle aziende di tutti i settori di sviluppare soluzioni basate sui dati in base alle informazioni disponibili al pubblico.

Business intelligence (BI)

La business intelligence (BI) è un insieme di processi tecnologici per la raccolta, la gestione e l'analisi dei dati, con conseguente trasformazione dei dati non elaborati in insight che possono orientare le decisioni aziendali.

L'analytics aziendale integra la BI aiutando le organizzazioni a interpretare e visualizzare i dati attraverso grafici, dashboard e report, rendendo più facile individuare le tendenze e prendere decisioni informate.

Raccolta dati

La raccolta dei dati è il processo sistematico di raccolta dei dati da varie fonti, contribuendo al contempo a garantirne la qualità e l'integrità. Eseguita in genere da data scientist e analisti, è la base per un'analisi dei dati accurata e affidabile.

La raccolta dei dati inizia con la definizione di obiettivi chiari e l'identificazione delle fonti pertinenti. I dati vengono quindi acquisiti, puliti e integrati in un set di dati unificato. I sistemi di data storage e i costanti controlli di qualità contribuiscono a garantire che i dati raccolti siano accurati e affidabili.

Senza un'adeguata raccolta dei dati, le organizzazioni rischiano di basare le proprie analisi su dati incompleti, imprecisi o fuorvianti, portando a insight e processi decisionali compromessi.

Alcune fonti di dati comuni includono:

  • Interazioni con i social: i dati in tempo reale provenienti da piattaforme come Twitter e Facebook possono essere utilizzati per monitorare il coinvolgimento del brand, valutare l'opinione pubblica e scoprire il sentiment dei consumatori.
  • Dati pubblici: i set di dati liberamente disponibili di governi e organizzazioni, come i dati del censimento e gli indicatori economici, possono aiutare a fornire un contesto per i cambiamenti demografici, la segmentazione del mercato e l'analisi finanziaria.
  • Set di dati aperti: i set di dati provenienti da istituzioni accademiche e governi su argomenti come il cambiamento climatico e i dati geospaziali sono spesso utilizzati per la ricerca e l'elaborazione delle politiche.
  • Dati transazionali: i dati delle transazioni commerciali, come registri delle vendite, fatture e informazioni di pagamento, possono aiutare le aziende a monitorare le prestazioni, ottimizzare i prezzi e migliorare l'esperienza del cliente.
  • Sondaggi e questionari: i dati qualitativi o quantitativi raccolti attraverso il feedback dei clienti o i sondaggi di ricerca possono fornire insight su preferenze, opinioni e tendenze.
  • Analytics web: i dati delle interazioni con i siti Web, come le visualizzazioni delle pagine e le percentuali di clic, aiutano le aziende a conoscere il comportamento degli utenti, ottimizzare i contenuti e migliorare le esperienze degli utenti.
  • Dispositivi IoT: dati dell' Internet of Things (IoT) come contatori intelligenti e tracker indossabili possono supportare la real-time analytics e la manutenzione predittiva e prevenire i tempi di inattività delle attrezzature.

Gestione dei dati

Le organizzazioni gestiscono enormi quantità di dati in più formati sparsi su cloud pubblici e privati, il che rende la frammentazione e la cattiva gestione dei dati sfide significative.

Secondo l'IBM Data Differentiator, l'82% delle aziende ha problemi con silo di dati che interrompono i workflow e il 68% dei dati non viene analizzato, limitandone il pieno potenziale.

La gestione dei dati consiste nella pratica di raccogliere, elaborare e utilizzare i dati in modo sicuro ed efficiente per migliorare i risultati aziendali. Indirizza sfide critiche come la gestione di insiemi di dati di grandi dimensioni, l'abbattimento dei silo e la gestione di formati di dati incoerenti.

Le soluzioni di gestione dei dati si integrano solitamente con l'infrastruttura esistente per contribuire a garantire l'accesso a dati utilizzabili di alta qualità per data scientist, analisti e altri stakeholder. Queste soluzioni spesso incorporano data lake, data warehouse o data lakehouse, combinati in un data fabric unificato.

  • I data lake sono ambienti di storage a basso costo che ospitano dati non elaborati, dati non strutturati, che successivamente possono essere elaborati e analizzati.
  • I data warehouse memorizzano dati strutturati provenienti da varie fonti, ottimizzati per attività di data mining e analisi.
  • I data lakehouse uniscono gli aspetti migliori dei data warehouse e dei data lake, offrendo una soluzione unificata per la gestione dei dati strutturati e dati non strutturati.

Questi sistemi aiutano a creare una solida fondazione di gestione dei dati, alimentando dati di alta qualità in strumenti di business intelligence, nelle dashboard e nei modelli AI, compreso l'apprendimento automatico e l'AI generativa.

Inoltre, l'AI sta trasformando il modo in cui le organizzazioni gestiscono i dati. La gestione dei dati AI consiste nella pratica di utilizzare l'intelligenza artificiale (AI) e l'apprendimento automatico nel ciclo di vita della gestione dei dati. Alcuni esempi includono l'applicazione dell'AI per automatizzare o semplificare le operazioni di pulizia, analisi, sicurezza e raccolta dei dati e altri processi di gestione dei dati.

Data scientist e analisti di dati

Dal momento che le aziende di tutti i settori, si affidano sempre più ai dati per indirizzare il processo decisionale, per migliorare le operazioni e per arricchire l'esperienza dei clienti, la domanda di professionisti esperti nel campo dei dati è andata sempre più aumentando.

2 dei ruoli più significativi nel campo della data science sono i data scientist e gli analisti di dati.

  • Data scientist: i data scientist svolgono attività complesse e fondamentali relative ai dati. Ad esempio, creano modelli e algoritmi per trovare insight dettagliati in set di dati di grandi dimensioni, spesso utilizzando strumenti avanzati come l'apprendimento automatico e la modellazione predittiva.
  • Analista di dati: gli analisti di dati si concentrano su attività più immediate e pratiche. Utilizzano le statistiche per analizzare i dati e rispondere a domande aziendali specifiche. Il loro obiettivo principale è quello di trovare insight utili che aiutino nelle decisioni e nelle strategie quotidiane.

Entrambi i ruoli riguardano la raccolta dei dati, il data modeling, l'analisi dei dati e la garanzia di dati di alta qualità. Analisti e scienziati potrebbero utilizzare varie metodologie e strumenti per raccogliere e preparare i dati, tra cui Microsoft Excel, Python e il structured query language (SQL).

Potrebbero anche utilizzare tecniche di visualizzazione dei dati, come dashboard e grafici, per aiutare a scoprire tendenze, correlazioni e insight nei dati, anche se in modi diversi.

Ad esempio, un data scientist potrebbe sviluppare un modello predittivo utilizzando l'apprendimento automatico per prevedere il comportamento futuro dei clienti. Questo modello potrebbe aiutare l'azienda ad anticipare le tendenze, personalizzare le campagne di marketing e prendere decisioni strategiche informate a lungo termine.

In confronto, un analista di dati sullo stesso progetto potrebbe utilizzare uno strumento di visualizzazione per creare una dashboard che mostri i modelli di comportamento dei clienti nel tempo. Questa capacità di tracciare le tendenze storiche delle vendite insieme alle metriche di coinvolgimento potrebbe aiutare il team a ottimizzare le attuali strategie di marketing o ad adeguare le offerte di prodotti per aumentare i profitti.

Protezione dei dati

La protezione dei dati è la pratica di salvaguardare le informazioni sensibili dalla perdita, dal furto e dal danneggiamento dei dati. La protezione dei dati è sempre più importante in quanto le organizzazioni gestiscono volumi maggiori di dati sensibili in ambienti complessi e distribuiti.

Il crescente rischio di minacce informatiche e le normative più severe in materia di privacy dei dati hanno anche reso la protezione dei dati una priorità per aziende e consumatori. Secondo un recente studio, l'81% degli americani è preoccupato per il modo in cui le aziende utilizzano i dati raccolti su di loro.1

Esistono anche solide motivazioni aziendali a favore della priorità della protezione dei dati. In media, la violazione dei dati costa a un'organizzazione 4,88 milioni di dollari tra perdita di attività, tempi di inattività del sistema, danni alla reputazione e attività di risposta, secondo il report IBM Cost of a Data Breach.

Sicurezza dei dati e riservatezza dei dati

La protezione dei dati ha 2 importanti sotto campi: la sicurezza dei dati e la privacy dei dati. Entrambi svolgono ruoli distinti ma complementari nella salvaguardia e nella gestione dei dati.

La sicurezza dei dati implica la protezione delle informazioni digitali da accessi non autorizzati, corruzione o furto. Comprende vari aspetti della sicurezza delle informazioni, che vanno dalla sicurezza fisica, alle politiche organizzative e ai controlli degli accessi.

La privacy dei dati si concentra sulle politiche che sostengono il principio generale secondo cui una persona dovrebbe avere il controllo sui propri dati personali, compresa la capacità di decidere come le organizzazioni possono raccogliere, memorizzare e utilizzare i propri dati.

Vulnerabilità dei dati

I dati devono affrontare numerose vulnerabilità e potenziali minacce informatiche, in particolare con l'avanzare delle funzionalità di AI.

Alcune delle minacce più comuni includono:

  • Minacce interne: i dipendenti o gli appaltatori con accesso autorizzato possono comportare rischi significativi. Secondo il Report Cost of a Data Breach, le violazioni dei dati avviate da insider malevoli costano in media 4,99 milioni di dollari.
  • Ingegneria sociale:gli autori delle minacce spesso utilizzano attacchi di ingegneria sociale come il phishing per sfruttare le debolezze umane e indurre le persone a rivelare informazioni sensibili. Gli strumenti di AI generativa sono ora in grado di creare e-mail di phishing estremamente convincenti, aumentando il tasso di successo di tali attacchi.
  • Ransomware: i criminali informatici utilizzano il ransomware per crittografare i dati di un'organizzazione e chiedere un riscatto in cambio della chiave di decrittazione. I sistemi sanitari, le istituzioni finanziarie e le agenzie di dati del governo sono particolarmente vulnerabili a questi attacchi.
  • Sicurezza cloud: con l'adozione diffusa dei servizi cloud, configurazioni errate, API non sicure e scarso controllo degli accessi possono portare a perdite di dati pubblici. Secondo il Report Cost of a Data Breach, le violazioni dei dati che coinvolgono i cloud pubblici sono le più costose, con un costo medio pari a 5,17 milioni di dollari.

Soluzioni di protezione dei dati

Le organizzazioni utilizzano diverse tecnologie di protezione dei dati per difendersi da attori delle minacce e contribuire a garantire l'integrità, la riservatezza e la disponibilità dei dati.

Alcune delle soluzioni più popolari includono:

  • I backup dei dati creano e memorizzano regolarmente copie di dati critici, consentendo un rapido ripristino in caso di perdita o danneggiamento e riducendo al minimo i tempi di inattività.
  • I firewall monitorano e controllano il traffico di rete, agendo come prima linea di difesa per bloccare gli accessi non autorizzati.
  • Gli strumenti antivirus e anti-malware rilevano, prevengono ed eliminano software dannosi come virus, spyware e ransomware che potrebbero compromettere i dati.
  • Gli strumenti di prevenzione della perdita di dati (DLP) (DLP) monitorano l'attività degli utenti e segnalano i comportamenti sospetti per impedire l'accesso non autorizzato, la trasmissione o la perdita di informazioni sensibili.

Il ruolo dei dati nell'intelligenza artificiale (AI)

Il 72% dei CEO di maggior successo concorda sul fatto che avere un vantaggio competitivo dipende da chi possiede l'AI generativa più avanzata. Tuttavia, avere a disposizione un'AI all'avanguardia è solo una parte dell'equazione. Senza dati gestiti e accessibili correttamente, anche gli strumenti di AI più potenti non riescono a sfruttare il loro pieno potenziale.

I dati sono la base per il progresso e il successo dell'AI. I sistemi di AI, in particolare i modelli di apprendimento automatico, si basano sui dati per apprendere, adattarsi e fornire valore nei vari settori.

Pregiudizio e qualità dei dati

I modelli di apprendimento automatico vengono addestrati su set di dati di grandi dimensioni e utilizzano questi dati per individuare schemi e prendere decisioni.

La diversità e la qualità dei dati dei dati relativi alla formazione di un modello AI influiscono direttamente sulle sue prestazioni. Se i dati sono incompleti o presentano dei pregiudizi, gli output di AI possono diventare imprecisi e inaffidabili.

Ad esempio, nel settore sanitario, i modelli AI addestrati su set di dati con pregiudizi potrebbero sottorappresentare determinati gruppi razziali, portando a risultati diagnostici scadenti. Allo stesso modo, nella selezione del personale, una scarsa qualità dei dati può determinare previsioni errate, con la possibilità di rafforzare gli stereotipi di genere o razziali e creare modelli AI che favoriscono alcuni gruppi demografici a discapito di altri.

In breve, l'AI è buona quanto i dati che elabora.

Garantire input di alta qualità attraverso una convalida e una pulizia complete dei dati è fondamentale per creare sistemi di AI etici e affidabili che evitano il perpetuarsi di pregiudizi.

AI generativa e vulnerabilità dei dati

Sebbene l'AI generativa possa creare contenuti di valore, presenta anche nuove sfide. I modelli AI possono generare dati falsi o fuorvianti, che gli autori delle aggressioni possono utilizzare per ingannare sistemi o individui.

L'autenticità e la sicurezza dei dati sono preoccupazioni crescenti. Un report recente ha rilevato che il 75% degli esperti in cybersecurity sta assistendo a un numero sempre maggiore di attacchi informatici, e l'85% ne attribuisce l'aumento ai malintenzionati che utilizzano l'AI generativa.2

Per contrastare queste minacce, numerose organizzazioni si stanno rivolgendo alla sicurezza dell'AI, utilizzando l'AI stessa per automatizzare il rilevamento, la prevenzione e la risposta e migliorare la protezione dei dati.

Note a piè di pagina

Tutti i link sono esterni a ibm.com.

1 How Americans View Data Privacy, Pew Research Center, 18 October 2023.

2 AI advances risk facilitating cyber crime, top US officials say, Reuters, 9 January 2024.

Soluzioni correlate
Strumenti e soluzioni per l'analytics

Per prosperare, le aziende devono utilizzare i dati per fidelizzare i clienti, automatizzare i processi aziendali e innovare con soluzioni basate sull'AI.

Esplora le soluzioni di analytics
Servizi di consulenza per dati e analytics

Sblocca il valore dei dati aziendali con IBM Consulting e crea un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics
IBM Cognos Analytics

Introduzione a Cognos Analytics 12.0, insight basati sull'AI per prendere decisioni migliori.

Esplora Cognos Analytics
Fasi successive

Per prosperare, le aziende devono utilizzare i dati per fidelizzare i clienti, automatizzare i processi aziendali e innovare con soluzioni basate sull'AI.

Esplora le soluzioni di analytics Esplora i servizi di analytics