Cos'è l'analisi esplorativa dei dati?

Cos'è l'EDA?

L'analisi esplorativa dei dati (EDA) viene utilizzata dai data scientist per analizzare e indagare i set di dati e riassumerne le caratteristiche principali, spesso impiegando metodi di visualizzazione dei dati.

L'EDA consente di determinare il modo migliore per manipolare le fonti di dati al fine di ottenere le risposte desiderate, facilitando ai data scientist la scoperta dei pattern, l'individuazione di anomalie, il test o la verifica di un'ipotesi.

L'EDA viene utilizzata principalmente per vedere cosa i dati possono rivelare, al di là della modellazione formale o dell'attività di test delle ipotesi e fornisce una migliore comprensione delle variabili del set di dati e delle relazioni tra di esse. Può anche aiutare a determinare se le tecniche statistiche che prendi in considerazione per l'analisi dei dati sono appropriate. Sviluppate originariamente dal matematico americano John Tukey negli anni '70, le tecniche EDA continuano a essere un metodo ampiamente utilizzato nel processo di data discovery ancora oggi.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI 

Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think.

Perché l'EDA è importante nella data science?

Lo scopo principale dell’EDA è quello di esaminare i dati prima di fare qualsiasi ipotesi. Può aiutare a identificare errori evidenti, ma anche a comprendere meglio i pattern all'interno dei dati, a rilevare degli outlier o eventi anomali e a trovare relazioni interessanti tra le variabili.

I data scientist possono utilizzare l'analisi esplorativa per garantire che i risultati prodotti siano validi e applicabili a tutti gli esiti e agli obiettivi aziendali desiderati. Inoltre, l'EDA aiuta gli stakeholder confermando la correttezza delle domande che si stanno ponendo. L'EDA può aiutare a rispondere alle domande su deviazioni standard, variabili categoriche e intervalli di confidenza. Una volta che l'EDA è completa e gli insight estratti, è possibile utilizzarli per l'analytics o la modellazione dei dati più sofisticate, tra cui il machine learning.

Mixture of Experts | 12 dicembre, episodio 85

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Guarda tutti gli episodi di Mixture of Experts

strumenti EDA

Le funzioni e le tecniche statistiche specifiche che è possibile eseguire con gli strumenti EDA includono:

Tecniche di clustering e riduzione delle dimensioni, che consentono di creare visualizzazioni grafiche di dati ad alta dimensionalità contenenti molte variabili.
Visualizzazione univariata di ciascun campo nel set di dati grezzi, con statistiche riepilogative.
Visualizzazioni bivariate e statistiche di riepilogo che consentono di valutare la relazione tra ciascuna variabile nel set di dati e la variabile di destinazione che stai osservando.
Visualizzazioni multivariate, per mappare e comprendere le interazioni tra i diversi campi dei dati.
K-means Clustering, che è un metodo di clustering in apprendimento non supervisionato, in cui i punti dati vengono assegnati a gruppi K, ovvero al numero di cluster, in base alla distanza dal baricentro di ciascun gruppo. I punti dati più vicini a un particolare baricentro verranno raggruppati nella stessa categoria. Il clustering K-means è comunemente utilizzato nella segmentazione del mercato, nel riconoscimento dei pattern e nella compressione delle immagini.
Modelli predittivi, come la regressione lineare, utilizzano statistiche e dati per prevedere i risultati.

Tipi di EDA

Esistono quattro tipi principali di EDA:

Univariata non grafica
Univariata grafica
Multivariato non grafico
Grafico multivariato

Univariata non grafica

Questa è la forma più semplice di analisi dei dati, in cui i dati analizzati sono costituiti da una sola variabile. Poiché è una singola variabile, non si occupa di cause o relazioni. Lo scopo principale dell'analisi univariata è descrivere i dati e trovare pattern esistenti al loro interno.

Univariata grafica

I metodi non grafici non offrono un quadro completo dei dati. Sono quindi necessari metodi grafici. Le comuni tipologie di grafica univariata comprendono:

Diagrammi a ramo e foglia, che mostrano tutti i valori dei dati e la forma della distribuzione.
Istogrammi, un grafico a barre in cui ogni barra rappresenta la frequenza (conteggio) o proporzione (conteggio/conteggio totale) di casi per un intervallo di valori.
Diagrammi a scatola, che rappresentano graficamente il riepilogo di cinque numeri: minimo, primo quartile, mediana, terzo quartile e massimo.

Multivariato non grafico

I dati multivariati provengono da più di una variabile. Le tecniche EDA multivariate non grafiche generalmente mostrano la relazione tra due o più variabili dei dati attraverso tabulazioni incrociate o statistiche.

Grafico multivariato

I dati multivariati utilizzano i grafici per visualizzare le relazioni tra due o più serie di dati. Il grafico più usato è un diagramma a barre raggruppate o un grafico a barre con ogni gruppo che rappresenta un livello di una delle variabili e ogni barra all'interno di un gruppo che rappresenta i livelli dell'altra variabile.

Altri tipi comuni di grafica multivariata comprendono:

Grafico a dispersione, utilizzato per tracciare punti dati su un asse orizzontale e uno verticale per mostrare quanto una variabile è influenzata da un'altra.
Grafico multivariato, che è una rappresentazione grafica delle relazioni tra fattori e una risposta.
Grafico di esecuzione, che è un grafico a linee di dati tracciati nel tempo.
Grafico a bolle, che è una visualizzazione dei dati che mostra più cerchi (bolle) in un grafico bidimensionale.
Mappa di calore, che è una rappresentazione grafica dei dati in cui i valori sono rappresentati da un colore.

Linguaggi di analisi esplorativa dei dati

Alcuni dei linguaggi di programmazione per la data science più comunemente usati per creare un'analisi esplorativa dei dati (EDA, Exploratory Data Analysis) includono:

Python: un linguaggio di programmazione interpretato e orientato agli oggetti con semantica dinamica. Le sue strutture dati integrate di alto livello, combinate con la digitazione dinamica e l'associazione dinamica, lo rendono molto interessante per lo sviluppo rapido di applicazioni, nonché per l'uso come linguaggio di scripting o "collante" per connettere insieme componenti esistenti. Python ed EDA possono essere utilizzati insieme per identificare i valori mancanti in un set di dati, un aspetto importante per poter decidere come gestire i valori mancanti per il machine learning.
R: un linguaggio di programmazione open-source e un ambiente software gratuito per il calcolo statistico e i grafici supportato da R Foundation for Statistical Computing. Il linguaggio R è ampiamente utilizzato dagli statistici nella data science per sviluppare osservazioni statistiche e analisi dei dati.

Per un'analisi approfondita delle differenze tra questi approcci, consulta "Confronto tra Python e R: qual è la differenza?"

Le quattro fasi per migliorare le previsioni aziendali con l'analisi dei dati

Usa il potere dell'analisi e della business intelligence per pianificare, prevedere e modellare i risultati futuri a beneficio della tua azienda e dei tuoi clienti.

Cos'è l'analisi esplorativa dei dati (EDA)?