Un set di dati è una raccolta di dati generalmente organizzata in tabelle, array o formati specifici, come CSV o JSON, per un facile recupero e analisi. Sono essenziali per l'analisi dei dati, l'apprendimento automatico (ML), l'intelligenza artificiale (AI) e altre applicazioni che richiedono dati affidabili e accessibili.
Le organizzazioni oggi raccolgono grandi quantità di dati da varie fonti, tra cui interazioni con i clienti, transazioni finanziarie, dispositivi IoT e piattaforme di social media.
Per sbloccare il valore aziendale di tutti questi dati, spesso devono essere organizzati in set di dati, ovvero raccolte organizzate che rendono le informazioni accessibili per l'analisi e l'applicazione.
I vari tipi di set di dati archiviano i dati in vari modi. Ad esempio, i set di dati strutturati spesso dispongono i punti dati in tabelle con righe e colonne definite. Quelli non strutturati possono contenere vari formati come file di testo, immagini e audio.
Sebbene non tutti i set di dati contengano dati strutturati, presentano sempre una struttura generale, come schemi definiti o di una sintassi vagamente organizzata in formati di dati semistrutturati, come JSON o XML.
Alcuni esempi di set di dati includono:
Le organizzazioni spesso utilizzano e gestiscono più set di dati per supportare varie iniziative aziendali, tra cui l'analisi dei dati e la business intelligence (BI).
I big data, in particolare, si basano su set di dati enormi e complessi per fornire valore. Se raccolti, gestiti e analizzati correttamente utilizzando l'analytics dei big data, questi set di dati possono aiutare a scoprire nuove informazioni e consentire un processo decisionale basato sui dati.
Negli ultimi anni, l'ascesa dell'intelligenza artificiale (AI) e del machine learning ha ulteriormente aumentato l'attenzione sui set di dati. Le organizzazioni hanno bisogno di dati di formazione estesi e ben organizzati per sviluppare modelli di machine learning accurati e perfezionare algoritmi predittivi.
Secondo Gartner, il 61% delle organizzazioni dichiara di dover evolvere o ripensare il proprio modello operativo di dati e analytics a causa dell'impatto delle tecnologie AI.1
Sebbene "set di dati" sia spesso usato come termine ombrello dai molti significati, esistono alcune qualità che determinano se una raccolta di dati costituisce un set di dati. In genere, i set di dati hanno 3 caratteristiche fondamentali: variabili, schemi e metadati.
Non tutte le raccolte di dati si qualificano come set di dati. Gli accumuli casuali di punti dati non correlati in genere non costituiscono un set di dati senza un'organizzazione e una struttura adeguate per consentire un'analisi significativa.
Allo stesso modo, sebbene le interfacce di programmazione delle applicazioni (API) , i database e i fogli di calcolo possano interagire con i set di dati o contenerli, non sono necessariamente essi stessi dei set di dati.
Le API consentono alle applicazioni di comunicare tra loro, il che a volte comporta l'accesso e lo scambio di set di dati. I database e i fogli di calcolo sono contenitori di informazioni, che possono includere set di dati.
Le organizzazioni solitamente lavorano con 3 tipi principali di set di dati, in genere classificati in base al tipo di dati che gestiscono:
Le organizzazioni utilizzano spesso più tipi di set di dati in combinazione per supportare strategie di analytics dei dati complete. Ad esempio, un'azienda retail potrebbe analizzare i dati di vendita strutturati insieme alle recensioni dei clienti non strutturate e all'analytics web semistrutturata per ottenere migliori insight sul comportamento e sulle preferenze dei clienti.
I set di dati strutturati organizzano le informazioni in formati predefiniti, in genere tabelle con righe e colonne chiaramente definite. Sono fondamentali per molti processi aziendali critici, come la gestione delle relazioni con i clienti (CRM) e la gestione dell' inventario.
Poiché i set di dati strutturati seguono schemi coerenti, consentono di eseguire query rapide e analizzare in modo affidabile, il che li rende ideali per gli strumenti di business intelligence e i sistemi di reporting che richiedono dati precisi e quantificabili.
Tra gli esempi più comuni di set di dati strutturati vi sono:
I set di dati non strutturati contengono informazioni non conformi ai modelli di dati tradizionali o agli schemi rigidi. Sebbene richiedano strumenti di elaborazione più sofisticati, spesso contengono insight approfonditi che i formati di dati strutturati non sono in grado di acquisire.
Le organizzazioni si affidano ai set di dati non strutturati per potenziare l'intelligenza artificiale e i modelli di machine learning. Questi set di dati forniscono i diversi dati reali necessari per addestrare modelli AI e sviluppare funzionalità di analytics più avanzate.
Esempi comuni di set di dati non strutturati includono:
I set di dati semistrutturati colmano il divario tra dati strutturati e non strutturati. Sebbene non seguano schemi rigidi, incorporano sintassi o indicatori definiti per aiutare a organizzare le informazioni in formati flessibili ma analizzabili.
Questo approccio ibrido rende i set di dati semistrutturati preziosi per i progetti moderni e le applicazioni di integrazione che devono gestire diversi tipi di dati mantenendo una certa struttura organizzativa.
Esempi comuni di set di dati semistrutturati sono:
Le organizzazioni raccolgono dati da più fonti per creare set di dati che supportano varie iniziative aziendali. Le fonti possono determinare direttamente sia la qualità che l'utilità dei set di dati.
Alcune fonti di dati comuni includono:
I repository di dati sono storage centralizzati di dati. I repository di dati proprietari spesso contengono dati sensibili o critici per l'azienda, come i record dei clienti, le transazioni finanziarie o le metriche operative che offrono vantaggi competitivi.
Altri repository di dati sono disponibili pubblicamente. Ad esempio, una piattaforma come GitHub ospita set di dati open source insieme al codice. I ricercatori e le organizzazioni possono utilizzare questi set di dati pubblici per collaborare apertamente su modelli di machine learning e progetti di data science.
I database sono repository di dati digitali ottimizzati per archiviare in modo sicuro e recuperare facilmente i dati quando necessario.
Un database può contenere uno o più set di dati. Gli utenti possono estrarre rapidamente i punti dati pertinenti eseguendo query sul database che utilizzano linguaggi specializzati come Structured Query Language (SQL).
Le API collegano le applicazioni software in modo che possano comunicare tra loro. I consumatori di dati possono utilizzare le API per acquisire dati in tempo reale da fonti connesse, come servizi web e piattaforme digitali, e incanalarli verso altre app e repository per l'uso.
I data scientist spesso creano pipeline automatizzate di raccolta dei dati utilizzando linguaggi come Python, che offre solide librerie per l'integrazione delle API e il trattamento dei dati. Ad esempio, un sistema di retail analytics potrebbe utilizzare queste pipeline automatizzate per raccogliere continuamente i dati sugli acquisti dei clienti e i livelli di inventario dai negozi di e-commerce e dai sistemi di gestione dell'inventario.
Siti come Data.gov e iniziative di open data a livello cittadino, come New York City Open Data, forniscono accesso gratuito a set di dati che includono metriche sanitarie, di trasporto e ambientali. I ricercatori possono utilizzare questi set di dati per studiare tutto, dai modelli di trasporto alle tendenze della salute pubblica.
Dal potenziamento dell'intelligenza artificiale all'abilitazione di insight basati sui dati, i set di dati sono fondamentali per diverse iniziative aziendali e tecnologiche chiave.
Alcune delle applicazioni più comuni dei set di dati includono:
L'intelligenza artificiale (AI) ha il potenziale per essere un elemento di differenziazione critico per molte organizzazioni.
Secondo l'IBM Institute for Business Value, il 72% dei CEO con le migliori prestazioni ritiene che il loro vantaggio competitivo dipenda dall'avere l'AI generativa (gen AI) più avanzata. Questi sistemi di AI all'avanguardia si basano su vasti set di dati, etichettati e non, per addestrare i modelli in modo efficace.
Con dati di formazione completi, le organizzazioni possono sviluppare sistemi AI che svolgono attività complesse come:
I data scientist e gli analisti utilizzano i set di dati per estrarre preziosi insight e guidare la scoperta nelle varie discipline. Poiché le organizzazioni raccolgono più dati che mai, l'analisi dei dati è diventata fondamentale per verificare le ipotesi, identificare le tendenze e scoprire le relazioni che informano le decisioni strategiche.
Alcuni modi comuni in cui i set di dati aiutano l'analisi dei dati includono:
Le organizzazioni utilizzano la business intelligence per scoprire insight nei set di dati e guidare il processo decisionale in tempo reale.
Gli strumenti di BI possono aiutare ad analizzare vari tipi di dati per identificare le tendenze, monitorare le prestazioni e scoprire nuove opportunità. Alcune applicazioni includono:
La gestione di set di dati ampi e complessi per qualsiasi iniziativa può introdurre diverse sfide e considerazioni. Alcune delle più rilevanti includono:
Tutti i link sono esterni a ibm.com.
1 Organizations are evolving their D&A operating model because of AI technologies, Gartner, 29 aprile 2024.
Ottieni insight unici sul landscape in evoluzione delle soluzioni ABI, in particolare sui risultati, le ipotesi e le raccomandazioni chiave per i responsabili dei dati e dell’analytics.
Semplifica l’accesso ai dati e automatizza la governance dei dati. Scopri la potenza dell’integrazione di una strategia di data lakehouse nella tua architettura di dati, con ottimizzazione dei costi dei workload e scalabilità dell’AI e dell’analytics, con tutti i tuoi dati, ovunque.
Esplora la guida per i leader dei dati che desiderano creare un’organizzazione basata sui dati e ottenere un vantaggio aziendale.
Scopri come un approccio di data lakehouse aperto può fornire dati affidabili e un’esecuzione più rapida dell’analytics e dei progetti di AI.
Per prosperare, le aziende devono utilizzare i dati per fidelizzare i clienti, automatizzare i processi aziendali e innovare con soluzioni basate sull'AI.
Sblocca il valore dei dati aziendali con IBM Consulting e crea un'organizzazione basata su insight in grado di generare vantaggi aziendali.
Introduzione a Cognos Analytics 12.0, insight basati sull'AI per prendere decisioni migliori.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com