Analisi esplorativa dei dati

menu icon

Analisi esplorativa dei dati

Scopri tutto quello che hai bisogno di sapere sull'analisi esplorativa dei dati, un metodo utilizzato per analizzare e riepilogare i dataset.

Cos'è l'analisi esplorativa dei dati?

L'analisi esplorativa dei dati (o EDA, exploratory data analysis) viene utilizzata dai data scientist per analizzare i dataset e riepilogarne le caratteristiche principali, spesso adottando dei metodi di visualizzazione dei dati. Aiuta a determinare il modo ottimale per manipolare le origini dati per ottenere le risposte di cui hai bisogno, consentendo ai data scientist di rilevare i modelli, individuare le anomalie, testare un'ipotesi e verificare delle supposizioni più facilmente.

L'analisi esplorativa dei dati viene utilizzata principalmente per vedere cosa possono rivelare i dati oltre l'attività di modellazione formale o di test di un'ipotesi e fornisce una migliore comprensione delle variabili di dataset e delle loro interrelazioni. Può anche aiutare a determinare se le tecniche statistiche che stai prendendo in considerazione per l'analisi dei dati sono appropriate. Originariamente sviluppate dal matematico americano John Tukey negli anni 1970, le tecniche EDA continuano ancora oggi a essere un metodo ampiamente utilizzato nel processo di rilevamento dei dati.

Perché l'analisi esplorativa dei dati è importante nella data science?

Lo scopo principale dell'analisi esplorativa dei dati è quello di aiutare a guardare ai dati prima di fare qualsiasi supposizione. Può aiutare a identificare gli errori ovvi e a comprendere meglio i modelli all'interno dei dati, rilevare i valori e gli eventi anomali e a trovare interessanti relazioni tra le variabili.

I data scientist possono utilizzare l'analisi esplorativa per assicurarsi che i risultati che producono siano validi e applicabili a qualsiasi risultato e obiettivo di business desiderato. L'analisi esplorativa dei dati aiuta anche le parti interessate ad avere la conferma che stanno facendo le domande giuste. L'analisi esplorativa dei dati può aiutare a rispondere alle domande sulle deviazioni standard, le variabili categoriali e gli intervalli di confidenza. Dopo che l'analisi esplorativa dei dati è stata completata e dopo che sono stati estratti gli insight, le sue funzioni possono essere utilizzate per un'analisi o una modellazione dei dati più sofisticata, compreso il machine learning.

Strumenti di analisi esplorativa dei dati

Le specifiche funzioni e tecniche statistiche che puoi eseguire con gli strumenti di analisi esplorativa dei dati includono:

  • Tecniche di clustering e di riduzione delle dimensioni, che aiutano a creare visualizzazioni grafiche dei dati ad alta dimensione che contengono molte variabili.
  • Visualizzazione univariata di ogni campo nel dataset non elaborato, con delle statistiche di riepilogo.
  • Visualizzazioni bivariate e statistiche di riepilogo che ti consentono di valutare la relazione tra ogni variabile nel dataset e la variabile obiettivo che stai guardando.
  • Visualizzazioni multivariate, per la mappatura e la comprensione delle interazioni tra i diversi campi nei dati.
  • Il clustering K-means è un metodo di clustering nell'apprendimento non supervisionato in cui i punti dati vengono assegnati in gruppi K, ossia il numero di cluster, in base alla distanza dal centroide di ciascun gruppo. I punti dati più vicini a uno specifico centroide verranno raggruppati in cluster sotto la stessa categoria. Il clustering K-means viene comunemente utilizzato nella segmentazione del mercato, nel riconoscimento di modelli e nella compressione delle immagini.
  • I modelli predittivi, come la regressione lineare, utilizzano statistiche e dati per prevedere i risultati.

Tipi di analisi esplorativa dei dati

Esistono quattro tipi primari di analisi esplorativa dei dati:

  • Univariata non grafica. Questa è la forma più semplice di analisi dei dati, in cui i dati analizzati consistono in una sola variabile. Poiché si tratta di una singola variabile, non ha a che fare con cause e relazioni. Lo scopo principale dell'analisi univariata è quello di descrivere i dati e trovare i modelli che esistono al loro interno.
  • Univariata grafica. I metodi non grafici non forniscono un quadro completo dei dati. Sono pertanto necessari i metodi grafici. I tipi comuni di grafica univariata includono:
    • Grafici a stelo e foglie, che mostrano tutti i valori di dati e la forma della distribuzione.
    • Istogrammi, una grafico a barre in cui ciascuna barra rappresenta la frequenza (conteggio) o la proporzione (conteggio/conteggio totale) di casi per un intervallo di valori.
    • Box-plot, che graficamente rappresentano il riepilogo di cinque numeri di minimo, primo quartile, medio, terzo quartile e massimo.
  • Multivariata non grafica: i dati multivariati derivano da più di una variabile. Le tecniche di analisi esplorativa dei dati multivariata non grafica di norma mostrano la relazione tra due o più variabili dei dati mediante tabulazione incrociata o statistiche.
  • Grafica multivariata: i dati multivariati utilizzano i grafici per visualizzare le relazioni tra due o più dataset. Il grafico più utilizzato è un grafico a barre raggruppate o un grafico a barre dove ciascun gruppo rappresenta un livello di una delle variabili e ciascuna barra all'interno del gruppo rappresenta i livelli dell'altra variabile.

Altri tipi comuni di grafici multivariati includono:

  • Grafico a dispersione, che viene utilizzato per tracciare i punti dati su un asse orizzontale e uno verticale per mostrare in che misura una variabile è influenzata da un'altra.
  • Grafico multivariato, che è una rappresentazione grafica delle relazioni tra i fattori e una risposta.
  • Grafico di esecuzione, che è un grafico a linee di dati tracciati nel tempo.
  • Grafico a bolle, che è una visualizzazione dei dati che visualizza più cerchi (bolle) in un grafico bidimensionale.
  • Mappa termica, che è una rappresentazione grafica dei dati in cui i valori sono raffigurati mediante i colori.

Strumenti di analisi esplorativa dei dati

Alcuni degli strumenti di data science più comuni utilizzati per creare un'analisi esplorativa dei dati includono:

  • Python: un linguaggio di programmazione interpretato e orientato a oggetti con una semantica dinamica. Le sue strutture di dati integrate e di alto livello, combinate con la tipizzazione dinamica e l'associazione dinamica, lo rendono particolarmente interessante per un rapido sviluppo delle applicazioni e per un utilizzo come un linguaggio di scripting o "colla" per connettere tra loro i componenti esistenti. Python e l'analisi esplorativa dei dati possono essere utilizzati insieme per identificare i valori mancanti in un dataset, cosa importante perché ti consente di decidere come gestire i valori mancanti per il machine learning.
  • R: un linguaggio di programmazione open-source e ambiente software gratuito per il calcolo statistico e i grafici supportato da R Foundation for Statistical computing. Il linguaggio R è ampiamente utilizzato dagli statistici nella data science nello sviluppo di osservazioni statistiche e analisi dei dati.

Per un approfondimento delle differenze tra questi approcci, consulta "Python vs. R: What's the Difference?"

IBM e l'analisi esplorativa dei dati

La procedura Explore di IBM fornisce una gamma di riepiloghi visivi e numerici dei dati, per tutti i casi oppure separatamente per gruppi di casi. La variabile dipendente deve essere una variabile di scala, mentre le variabili di raggruppamento possono essere ordinali o nominali.

Utilizzando la procedura Explore di IBM, puoi:

  • Eseguire lo screening dei dati
  • Identificare i valori anomali
  • Controllare le supposizioni
  • Caratterizzare le differenze tra i gruppi di casi

Scopri di più sulla procedura Explore di IBM qui. Per ulteriori informazioni sull'analisi esplorativa dei dati, registrati per l'IBMid e crea il tuo account IBM Cloud