L'analisi esplorativa dei dati (EDA) viene utilizzata dai data scientist per analizzare e indagare i set di dati e riassumerne le caratteristiche principali, spesso impiegando metodi di visualizzazione dei dati.
L'EDA consente di determinare il modo migliore per manipolare le fonti di dati al fine di ottenere le risposte desiderate, facilitando ai data scientist la scoperta dei pattern, l'individuazione di anomalie, il test o la verifica di un'ipotesi.
L'EDA viene utilizzata principalmente per vedere cosa i dati possono rivelare, al di là della modellazione formale o dell'attività di test delle ipotesi e fornisce una migliore comprensione delle variabili del set di dati e delle relazioni tra di esse. Può anche aiutare a determinare se le tecniche statistiche che prendi in considerazione per l'analisi dei dati sono appropriate. Sviluppate originariamente dal matematico americano John Tukey negli anni '70, le tecniche EDA continuano a essere un metodo ampiamente utilizzato nel processo di data discovery ancora oggi.
Scopri come utilizzare i database giusti per le applicazioni, l'analytics e l'AI generativa.
Registrati per l'ebook sull'AI generativa
Lo scopo principale dell’EDA è quello di esaminare i dati prima di fare qualsiasi ipotesi. Può aiutare a identificare errori evidenti, ma anche a comprendere meglio i pattern all'interno dei dati, a rilevare degli outlier o eventi anomali e a trovare relazioni interessanti tra le variabili.
I data scientist possono utilizzare l'analisi esplorativa per garantire che i risultati prodotti siano validi e applicabili a tutti gli esiti e agli obiettivi aziendali desiderati. Inoltre, l'EDA aiuta gli stakeholder confermando la correttezza delle domande che si stanno ponendo. L'EDA può aiutare a rispondere alle domande su deviazioni standard, variabili categoriche e intervalli di confidenza. Una volta che l'EDA è completa e gli insight estratti, è possibile utilizzarli per l'analytics o la modellazione dei dati più sofisticate, tra cui il machine learning.
Le funzioni e le tecniche statistiche specifiche che è possibile eseguire con gli strumenti EDA includono:
Esistono quattro tipi principali di EDA:
Altri tipi comuni di grafica multivariata comprendono:
Alcuni degli strumenti di data science più comuni utilizzati per creare un'EDA includono:
Per un'analisi approfondita delle differenze tra questi approcci, consulta "Confronto tra Python e R: qual è la differenza?"
Utilizza IBM Watson Studio per determinare se le tecniche statistiche che stai prendendo in considerazione per l'analisi dei dati sono appropriate.
Scopri l'importanza e il ruolo dell'EDA e delle tecniche di visualizzazione dei dati per trovare problemi di qualità dei dati e per la data preparation, rilevanti per la creazione di pipeline di apprendimento automatico (ML).
Scopri le tecniche più comuni per recuperare i dati, pulirli, applicare l'ingegneria delle funzionalità e tenerli pronti per l'analisi preliminare e la verifica delle ipotesi.