L'analisi esplorativa dei dati (EDA) viene utilizzata dai data scientist per analizzare e indagare i set di dati e riassumerne le caratteristiche principali, spesso impiegando metodi di visualizzazione dei dati.
L'EDA consente di determinare il modo migliore per manipolare le fonti di dati al fine di ottenere le risposte desiderate, facilitando ai data scientist la scoperta dei pattern, l'individuazione di anomalie, il test o la verifica di un'ipotesi.
L'EDA viene utilizzata principalmente per vedere cosa i dati possono rivelare, al di là della modellazione formale o dell'attività di test delle ipotesi e fornisce una migliore comprensione delle variabili del set di dati e delle relazioni tra di esse. Può anche aiutare a determinare se le tecniche statistiche che prendi in considerazione per l'analisi dei dati sono appropriate. Sviluppate originariamente dal matematico americano John Tukey negli anni '70, le tecniche EDA continuano a essere un metodo ampiamente utilizzato nel processo di data discovery ancora oggi.
Lo scopo principale dell’EDA è quello di esaminare i dati prima di fare qualsiasi ipotesi. Può aiutare a identificare errori evidenti, ma anche a comprendere meglio i pattern all'interno dei dati, a rilevare degli outlier o eventi anomali e a trovare relazioni interessanti tra le variabili.
I data scientist possono utilizzare l'analisi esplorativa per garantire che i risultati prodotti siano validi e applicabili a tutti gli esiti e agli obiettivi aziendali desiderati. Inoltre, l'EDA aiuta gli stakeholder confermando la correttezza delle domande che si stanno ponendo. L'EDA può aiutare a rispondere alle domande su deviazioni standard, variabili categoriche e intervalli di confidenza. Una volta che l'EDA è completa e gli insight estratti, è possibile utilizzarli per l'analytics o la modellazione dei dati più sofisticate, tra cui il machine learning.
Le funzioni e le tecniche statistiche specifiche che è possibile eseguire con gli strumenti EDA includono:
Esistono quattro tipi principali di EDA:
Questa è la forma più semplice di analisi dei dati, in cui i dati analizzati sono costituiti da una sola variabile. Poiché è una singola variabile, non si occupa di cause o relazioni. Lo scopo principale dell'analisi univariata è descrivere i dati e trovare pattern esistenti al loro interno.
I metodi non grafici non offrono un quadro completo dei dati. Sono quindi necessari metodi grafici. Le comuni tipologie di grafica univariata comprendono:
I dati multivariati provengono da più di una variabile. Le tecniche EDA multivariate non grafiche generalmente mostrano la relazione tra due o più variabili dei dati attraverso tabulazioni incrociate o statistiche.
I dati multivariati utilizzano i grafici per visualizzare le relazioni tra due o più serie di dati. Il grafico più usato è un diagramma a barre raggruppate o un grafico a barre con ogni gruppo che rappresenta un livello di una delle variabili e ogni barra all'interno di un gruppo che rappresenta i livelli dell'altra variabile.
Altri tipi comuni di grafica multivariata comprendono:
Alcuni dei linguaggi di programmazione per la data science più comunemente usati per creare un'analisi esplorativa dei dati (EDA, Exploratory Data Analysis) includono:
Per un'analisi approfondita delle differenze tra questi approcci, consulta "Confronto tra Python e R: qual è la differenza?"
Ottieni insight unici sul landscape in evoluzione delle soluzioni ABI, in particolare sui risultati, le ipotesi e le raccomandazioni chiave per i responsabili dei dati e dell’analytics.
Esplora la guida per i leader dei dati che desiderano creare un’organizzazione basata sui dati e ottenere un vantaggio aziendale.
Semplifica l’accesso ai dati e automatizza la governance dei dati. Scopri la potenza dell’integrazione di una strategia di data lakehouse nella tua architettura di dati, con ottimizzazione dei costi dei workload e scalabilità dell’AI e dell’analytics, con tutti i tuoi dati, ovunque.
Scopri come il North York General Hospital migliora l’assistenza sanitaria e ottiene finanziamenti utilizzando insight basati sui dati.
Scopri cosa è successo e perché, cosa potrebbe succedere e cosa fare per evitarlo. Con spiegazioni chiare e dettagliate del suo funzionamento, Project Ripasso fornisce a tutti gli utenti business degli insight utili per prendere decisioni sicure e veloci.
Al fine di prosperare, le aziende devono utilizzare i dati per fidelizzare i clienti, automatizzare i processi aziendali e innovare con soluzioni basate sull'AI.
Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com, openliberty.io