My IBM Accedi Iscriviti

Che cos'è un set di dati?

10 dicembre 2024

Autori

Matthew Kosinski

Enterprise Technology Writer

Che cos'è un set di dati?

Un set di dati è una raccolta di dati generalmente organizzata in tabelle, array o formati specifici, come CSV o JSON, per un facile recupero e analisi. Sono essenziali per l'analisi dei dati, l'apprendimento automatico (ML), l'intelligenza artificiale (AI) e altre applicazioni che richiedono dati affidabili e accessibili.

Le organizzazioni oggi raccolgono grandi quantità di dati da varie fonti, tra cui interazioni con i clienti, transazioni finanziarie, dispositivi IoT e piattaforme di social media.

Per sbloccare il valore aziendale di tutti questi dati, spesso devono essere organizzati in set di dati, ovvero raccolte organizzate che rendono le informazioni accessibili per l'analisi e l'applicazione.

I vari tipi di set di dati archiviano i dati in vari modi. Ad esempio, i set di dati strutturati spesso dispongono i punti dati in tabelle con righe e colonne definite. Quelli non strutturati possono contenere vari formati come file di testo, immagini e audio.

Sebbene non tutti i set di dati contengano dati strutturati, presentano sempre una struttura generale, come schemi definiti o di una sintassi vagamente organizzata in formati di dati semistrutturati, come JSON o XML.

Alcuni esempi di set di dati includono:

  • Set di dati del servizio clienti, monitoraggio delle interazioni di supporto e delle risoluzioni.
  • Set di dati di produzione che monitorano le metriche delle prestazioni delle attrezzature.
  • Set di dati sulle vendite che analizzano i modelli di transazione e il comportamento dei consumatori.
  • Set di dati di marketing che misurano l'efficacia e il coinvolgimento delle campagne.

Le organizzazioni spesso utilizzano e gestiscono più set di dati per supportare varie iniziative aziendali, tra cui l'analisi dei dati e la business intelligence (BI).

I big data, in particolare, si basano su set di dati enormi e complessi per fornire valore. Se raccolti, gestiti e analizzati correttamente utilizzando l'analytics dei big data, questi set di dati possono aiutare a scoprire nuove informazioni e consentire un processo decisionale basato sui dati.

Negli ultimi anni, l'ascesa dell'intelligenza artificiale (AI) e del machine learning ha ulteriormente aumentato l'attenzione sui set di dati. Le organizzazioni hanno bisogno di dati di formazione estesi e ben organizzati per sviluppare modelli di machine learning accurati e perfezionare algoritmi predittivi.

Secondo Gartner, il 61% delle organizzazioni dichiara di dover evolvere o ripensare il proprio modello operativo di dati e analytics a causa dell'impatto delle tecnologie AI.1

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI 


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Cos'è e cosa non è un set di dati

Sebbene "set di dati" sia spesso usato come termine ombrello dai molti significati, esistono alcune qualità che determinano se una raccolta di dati costituisce un set di dati. In genere, i set di dati hanno 3 caratteristiche fondamentali: variabili, schemi e metadati.

  • Le variabili rappresentano le caratteristiche o gli attributi specifici studiati all'interno del set di dati. Ad esempio, in un set di dati sulle vendite, le variabili possono includere l'ID del prodotto, il prezzo e la data di acquisto. Spesso fungono da input per algoritmi di apprendimento automatico e analisi statistiche.
  • Gli schemi definiscono la struttura di un set di dati, comprese le relazioni e la sintassi tra le sue variabili. Ad esempio, lo schema di un set di dati tabulare potrebbe delineare i formati e le intestazioni delle colonne del set di dati, come "data", "importo" e "categoria". Uno schema JSON potrebbe descrivere strutture di dati annidate come i profili dei clienti con attributi come "nome", "e-mail" e una serie di oggetti "cronologia degli ordini".
  • I metadati o i "dati sui dati" forniscono un contesto essenziale sul set di dati, inclusi i dettagli sulla sua origine, lo scopo e le linee guida per l'utilizzo. Queste informazioni aiutano a garantire che i set di dati rimangano interpretabili e che si integrino efficacemente con altri sistemi.

Non tutte le raccolte di dati si qualificano come set di dati. Gli accumuli casuali di punti dati non correlati in genere non costituiscono un set di dati senza un'organizzazione e una struttura adeguate per consentire un'analisi significativa.

Allo stesso modo, sebbene le interfacce di programmazione delle applicazioni (API) , i database e i fogli di calcolo possano interagire con i set di dati o contenerli, non sono necessariamente essi stessi dei set di dati.

Le API consentono alle applicazioni di comunicare tra loro, il che a volte comporta l'accesso e lo scambio di set di dati. I database e i fogli di calcolo sono contenitori di informazioni, che possono includere set di dati.

Tipi di set di dati

Le organizzazioni solitamente lavorano con 3 tipi principali di set di dati, in genere classificati in base al tipo di dati che gestiscono:

  • Set di dati strutturati
  • Set di dati non strutturati
  • Set di dati semistrutturati

Le organizzazioni utilizzano spesso più tipi di set di dati in combinazione per supportare strategie di analytics dei dati complete. Ad esempio, un'azienda retail potrebbe analizzare i dati di vendita strutturati insieme alle recensioni dei clienti non strutturate e all'analytics web semistrutturata per ottenere migliori insight sul comportamento e sulle preferenze dei clienti.

Set di dati strutturati

I set di dati strutturati organizzano le informazioni in formati predefiniti, in genere tabelle con righe e colonne chiaramente definite. Sono fondamentali per molti processi aziendali critici, come la gestione delle relazioni con i clienti (CRM) e la gestione dell' inventario.

Poiché i set di dati strutturati seguono schemi coerenti, consentono di eseguire query rapide e analizzare in modo affidabile, il che li rende ideali per gli strumenti di business intelligence e i sistemi di reporting che richiedono dati precisi e quantificabili.

Tra gli esempi più comuni di set di dati strutturati vi sono:

  • Registri finanziari organizzati in fogli di calcolo Excel con campi definiti per date, importi e categorie.
  • Database dei clienti con formati standardizzati per le informazioni di contatto e la cronologia degli acquisti.
  • Sistemi di inventario che monitorano le quantità, le ubicazioni e i movimenti dei prodotti.
  • I flussi di dati dei sensori forniscono metriche uniformi per il monitoraggio delle attrezzature e la manutenzione predittiva.

Set di dati non strutturati

I set di dati non strutturati contengono informazioni non conformi ai modelli di dati tradizionali o agli schemi rigidi. Sebbene richiedano strumenti di elaborazione più sofisticati, spesso contengono insight approfonditi che i formati di dati strutturati non sono in grado di acquisire.

Le organizzazioni si affidano ai set di dati non strutturati per potenziare l'intelligenza artificiale e i modelli di machine learning. Questi set di dati forniscono i diversi dati reali necessari per addestrare modelli AI e sviluppare funzionalità di analytics più avanzate.

Esempi comuni di set di dati non strutturati includono:

  • Documenti di testo, come e-mail, report e pagine web.
  • Immagini e video utilizzati per formare i modelli di machine learning.
  • Registrazioni audio da applicazioni reali.
  • Registri di chat e trascrizioni del servizio clienti.

Set di dati semistrutturati

I set di dati semistrutturati colmano il divario tra dati strutturati e non strutturati. Sebbene non seguano schemi rigidi, incorporano sintassi o indicatori definiti per aiutare a organizzare le informazioni in formati flessibili ma analizzabili.

Questo approccio ibrido rende i set di dati semistrutturati preziosi per i progetti moderni e le applicazioni di integrazione che devono gestire diversi tipi di dati mantenendo una certa struttura organizzativa.

Esempi comuni di set di dati semistrutturati sono: 

  • File JSON, HTML e XML utilizzati nelle applicazioni web e nelle API.
  • I file di registro contenenti sia campi formattati che testo libero.
  • Set di dati pubblici che combinano più formati per una più ampia accessibilità.
Mixture of Experts | Podcast

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Fonti dei set di dati

Le organizzazioni raccolgono dati da più fonti per creare set di dati che supportano varie iniziative aziendali. Le fonti possono determinare direttamente sia la qualità che l'utilità dei set di dati.

Alcune fonti di dati comuni includono:

  • Archivi di dati
  • Database
  • Application programming interface (API)
  • Piattaforme dati pubbliche

Archivi di dati

I repository di dati sono storage centralizzati di dati. I repository di dati proprietari spesso contengono dati sensibili o critici per l'azienda, come i record dei clienti, le transazioni finanziarie o le metriche operative che offrono vantaggi competitivi.

Altri repository di dati sono disponibili pubblicamente. Ad esempio, una piattaforma come GitHub ospita set di dati open source insieme al codice. I ricercatori e le organizzazioni possono utilizzare questi set di dati pubblici per collaborare apertamente su modelli di machine learning e progetti di data science.

Database

I database sono repository di dati digitali ottimizzati per archiviare in modo sicuro e recuperare facilmente i dati quando necessario.

Un database può contenere uno o più set di dati. Gli utenti possono estrarre rapidamente i punti dati pertinenti eseguendo query sul database che utilizzano linguaggi specializzati come Structured Query Language (SQL).

Application programming interface (API)

Le API collegano le applicazioni software in modo che possano comunicare tra loro. I consumatori di dati possono utilizzare le API per acquisire dati in tempo reale da fonti connesse, come servizi web e piattaforme digitali, e incanalarli verso altre app e repository per l'uso.

I data scientist spesso creano pipeline automatizzate di raccolta dei dati utilizzando linguaggi come Python, che offre solide librerie per l'integrazione delle API e il trattamento dei dati. Ad esempio, un sistema di retail analytics potrebbe utilizzare queste pipeline automatizzate per raccogliere continuamente i dati sugli acquisti dei clienti e i livelli di inventario dai negozi di e-commerce e dai sistemi di gestione dell'inventario.

Piattaforme dati pubbliche

Siti come Data.gov e iniziative di open data a livello cittadino, come New York City Open Data, forniscono accesso gratuito a set di dati che includono metriche sanitarie, di trasporto e ambientali. I ricercatori possono utilizzare questi set di dati per studiare tutto, dai modelli di trasporto alle tendenze della salute pubblica.

Casi d'uso dei set di dati

Dal potenziamento dell'intelligenza artificiale all'abilitazione di insight basati sui dati, i set di dati sono fondamentali per diverse iniziative aziendali e tecnologiche chiave.

Alcune delle applicazioni più comuni dei set di dati includono:

  • Intelligenza artificiale (AI) e machine learning (ML)
  • Analisi dei dati e insight
  • Business intelligence (BI)

Intelligenza artificiale (AI) e machine learning (ML)

L'intelligenza artificiale (AI) ha il potenziale per essere un elemento di differenziazione critico per molte organizzazioni.

Secondo l'IBM Institute for Business Value, il 72% dei CEO con le migliori prestazioni ritiene che il loro vantaggio competitivo dipenda dall'avere l'AI generativa (gen AI) più avanzata. Questi sistemi di AI all'avanguardia si basano su vasti set di dati, etichettati e non, per addestrare i modelli in modo efficace.

Con dati di formazione completi, le organizzazioni possono sviluppare sistemi AI che svolgono attività complesse come:

  • Elaborazione del linguaggio naturale (NLP): i modelli di NLP si basano su set di dati in inglese e in più lingue per comprendere il linguaggio umano e potenziare applicazioni come modelli linguistici di grandi dimensioni (LLM), chatbot, servizi di traduzione e strumenti di analisi del testo. Ad esempio, un chatbot del servizio clienti può utilizzare l'NLP per analizzare i set di dati delle conversazioni di assistenza passate e imparare a rispondere alle domande più comuni.
  • Computer vision: utilizzando set di dati di immagini etichettati, l'AI può imparare a riconoscere oggetti, volti e schemi visivi. La computer vision aiuta a promuovere l'innovazione nei veicoli autonomi, nell'analisi delle immagini mediche e altro ancora. Ad esempio, i sistemi AI nel settore sanitario possono analizzare set di dati di scansioni mediche per rilevare i primi segni di malattia con elevata precisione.
  • Analisi predittiva: l'analisi predittiva si basa su set di dati strutturati per addestrare modelli in grado di prevedere risultati reali, come i prezzi delle abitazioni e la domanda dei consumatori. Questi modelli di regressione analizzano i modelli di dati storici per effettuare previsioni accurate, come analizzare interi anni di dati di vendita per prevedere la domanda stagionale e ottimizzare i livelli di inventario.
  • Ricerca: i sistemi AI possono elaborare vasti set di dati di ricerca per scoprire nuovi insight e accelerare l'innovazione. Le aziende farmaceutiche, per esempio possono utilizzare l'AI per analizzare set di dati molecolari e identificare nuovi farmaci promettenti più rapidamente rispetto ai metodi tradizionali.

Analisi dei dati e insight

I data scientist e gli analisti utilizzano i set di dati per estrarre preziosi insight e guidare la scoperta nelle varie discipline. Poiché le organizzazioni raccolgono più dati che mai, l'analisi dei dati è diventata fondamentale per verificare le ipotesi, identificare le tendenze e scoprire le relazioni che informano le decisioni strategiche.

Alcuni modi comuni in cui i set di dati aiutano l'analisi dei dati includono:

  • Riconoscimento dei pattern: l'analisi avanzata di grandi aggregati di set di dati può rivelare tendenze, correlazioni e anomalie nascoste che le organizzazioni possono utilizzare per identificare le opportunità e mitigare i rischi. Ad esempio, le aziende retail possono scoprire le tendenze di acquisto durante le festività natalizie analizzando i dati delle transazioni.
  • Visualizzazione dei dati: gli strumenti di visualizzazione trasformano set di dati complessi in insight chiari e fruibili utilizzando diagrammi, grafici e dashboard per rendere i dati più accessibili. Ad esempio, un'azienda può utilizzare dashboard interattivi per visualizzare le tendenze delle vendite e dei ricavi, aiutando i dirigenti a comprendere rapidamente le metriche delle prestazioni e a prendere decisioni informate.
  • Analisi statistica: utilizzando metodi statistici rigorosi, i data scientist possono trasformare i set di dati in insight quantificabili che aiutano a misurare la significatività e convalidare i risultati. Gli analisti finanziari, ad esempio, possono calcolare le metriche chiave dai set di dati per valutare le prestazioni del mercato.
  • Verifica delle ipotesi: i data scientist possono utilizzare set di dati sperimentali per convalidare le teorie e valutare potenziali soluzioni, fornendo un supporto basato sull'evidenza per le decisioni aziendali e di ricerca. Un'azienda farmaceutica, per esempio, può analizzare i set di dati degli studi clinici per determinare l'efficacia di un nuovo farmaco.

Business intelligence (BI)

Le organizzazioni utilizzano la business intelligence per scoprire insight nei set di dati e guidare il processo decisionale in tempo reale.

Gli strumenti di BI possono aiutare ad analizzare vari tipi di dati per identificare le tendenze, monitorare le prestazioni e scoprire nuove opportunità. Alcune applicazioni includono:

  • Monitoraggio in tempo reale: con i set di dati delle metriche e gli indicatori chiave di prestazione (KPI), le organizzazioni possono ottenere una visibilità continua sull'efficienza operativa e sulle prestazioni del sistema. Le società di logistica, per proporre un esempio, utilizzano il monitoraggio in tempo reale durante le festività di punta per tenere traccia dei tempi di consegna e risolvere rapidamente i ritardi.
  • Analisi del comportamento dei clienti: i set di dati sulle transazioni e sul coinvolgimento possono aiutare a rivelare i modelli di acquisto e le preferenze dei clienti. Le organizzazioni possono quindi utilizzare questi insight per sviluppare strategie mirate e migliorare le esperienze dei clienti in tutti i punti di contatto.
  • Analisi delle serie temporali: con l'aiuto di set di dati sequenziali e storici, le organizzazioni possono monitorare meglio le tendenze e i modelli delle prestazioni nel tempo. I fornitori di energia possono analizzare i dati delle serie temporali per prevedere e prepararsi ai picchi di domanda di elettricità, migliorando l'affidabilità della rete e il servizio clienti.
  • Ottimizzazione della supply chain: i set di dati integrati possono aiutare le Organizzazione a semplificare la logistica e la gestione dei fornitori. I rivenditori possono quindi analizzare i livelli di inventario, i dati di spedizione e le metriche delle prestazioni dei fornitori per ottimizzare i piani di rifornimento e ridurre i costi di trasporto.

Considerazioni sui set di dati

La gestione di set di dati ampi e complessi per qualsiasi iniziativa può introdurre diverse sfide e considerazioni. Alcune delle più rilevanti includono:

  • Qualità dei dati: mantenere l'integrità e la qualità dei dati nei set di dati è fondamentale: dati incompleti o imprecisi possono infatti portare a risultati fuorvianti. Ad esempio, un nuovo set di dati con formati incoerenti tra le colonne può interrompere i workflow e distorcere l'analisi. Tecniche di convalida come la standardizzazione dei formati e la rimozione dei duplicati possono contribuire a garantire accuratezza e coerenza man mano che i set di dati aumentano.
  • Interoperabilità e integrazione dei dati: l'integrazione di set di dati da diverse fonti o formati può presentare sfide, come la fusione di file CSV con dati JSON. La creazione di uno schema unificato o la standardizzazione dei formati di dati può aiutare ad affrontare queste sfide e ad allineare le strutture dei dati per garantire la compatibilità del sistema.
Note a piè di pagina

Tutti i link sono esterni a ibm.com.

Organizations are evolving their D&A operating model because of AI technologies, Gartner, 29 aprile 2024. 

Soluzioni correlate

Soluzioni correlate

Strumenti e soluzioni per l'analytics

Per prosperare, le aziende devono utilizzare i dati per fidelizzare i clienti, automatizzare i processi aziendali e innovare con soluzioni basate sull'AI.

Esplora le soluzioni di analytics
Servizi di consulenza per dati e analytics

Sblocca il valore dei dati aziendali con IBM Consulting e crea un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics
IBM Cognos Analytics

Introduzione a Cognos Analytics 12.0, insight basati sull'AI per prendere decisioni migliori.

Esplora Cognos Analytics
Fasi successive

Per prosperare, le aziende devono utilizzare i dati per fidelizzare i clienti, automatizzare i processi aziendali e innovare con soluzioni basate sull'AI.

Esplora le soluzioni di analytics Esplora i servizi di analytics