Analisi esplorativa dei dati
Scopri tutto quello che hai bisogno di sapere sull'analisi esplorativa dei dati, un metodo utilizzato per analizzare e riepilogare i set di dati
Sfondo nero e blu
Cos'è l'analisi esplorativa dei dati?

Scopri tutto quello che hai bisogno di sapere sull'analisi esplorativa dei dati, un metodo utilizzato per analizzare e riepilogare i set di dati. 

L'analisi esplorativa dei dati è utilizzata dai data scientist per analizzare e investigare i set di dati e riassumere le loro caratteristiche principali, spesso utilizzando metodi di visualizzazione dei dati. Aiuta a determinare il modo migliore per utilizzare le origini dati per ottenere le risposte di cui hai bisogno, rendendo più facile per i data scientist scoprire modelli, individuare anomalie, testare un'ipotesi o controllare i presupposti.

L'analisi esplorativa dei dati viene utilizzata principalmente per vedere cosa i dati possono rivelare al di là delle attività di modellazione formale o di test delle ipotesi e fornisce una migliore comprensione delle variabili dei set di dati e delle relazioni tra loro. Può anche aiutare a determinare se le tecniche statistiche che stai prendendo in considerazione per l'analisi dei dati sono appropriate. Originariamente sviluppato dal matematico americano John Tukey negli anni '70, le tecniche di analisi esplorativa dei dati continuano ad essere un metodo ampiamente utilizzato nel processo di rilevamento oggi.

Perché l'analisi esplorativa dei dati è importante nella data science?

Lo scopo principale dell'analisi esplorativa dei dati è quello di aiutare a guardare i dati prima di fare qualsiasi ipotesi. Può aiutare a identificare errori evidenti, nonché a comprendere meglio i modelli all'interno dei dati, rilevare valori o eventi anomali e trovare relazioni interessanti tra le variabili.

I data scientist possono usare l'analisi esplorativa per assicurarsi che i risultati che producono siano validi e applicabili a qualsiasi risultato e obiettivo aziendale desiderato. L'analisi esplorativa dei dati aiuta anche le parti interessate dando loro la conferma che stanno facendo le domande giuste. L'analisi esplorativa dei dati può aiutare a rispondere alle domande sulle deviazioni standard, le variabili categoriali e gli intervalli di confidenza. Dopo che l'analisi esplorativa dei dati è stata completata e gli insight sono stati ricavati, le sue funzioni possono essere utilizzate per analisi dei dati più sofisticate o per la modellazione, compreso il machine learning.

Strumenti di analisi esplorativa dei dati

Le funzioni e le tecniche statistiche specifiche che si possono eseguire con gli strumenti di analisi esplorativa dei dati includono:

  • Tecniche di clustering e di riduzione delle dimensioni, che consentono di creare visualizzazioni grafiche di dati ad alta dimensione contenenti molte variabili.
  • Visualizzazione univariata di ogni campo nel set di dati non elaborato, con statistiche riassuntive.
  • Visualizzazioni bivariate e statistiche riassuntive che ti permettono di valutare la relazione tra ogni variabile nel set di dati e la variabile obiettivo che stai esaminando.
  • Visualizzazioni multivariate, per mappare e comprendere le interazioni tra diversi campi nei dati.
  • Il clustering K-means è un metodo di clustering nell'apprendimento non supervisionato dove i punti dati sono assegnati in gruppi K, ad esempio, il numero di cluster, in base alla distanza dal baricentro di ciascun gruppo. I punti dati più vicini a uno specifico centroide verranno raggruppati in cluster sotto la stessa categoria. Il clustering K-means è comunemente usato nella segmentazione del mercato, nel riconoscimento di modelli e nella compressione delle immagini.
  • Modelli predittivi, come la regressione lineare, utilizzano statistiche e dati per prevedere i risultati.
Tipi di analisi esplorativa dei dati

Esistono quattro tipi primari di analisi esplorativa dei dati:

  • Univariata non grafica. Questa è la forma più semplice di analisi dei dati, in cui i dati analizzati consistono in una sola variabile. Poiché si tratta di una singola variabile, non ha a che fare con cause o relazioni. Lo scopo principale dell'analisi univariata è descrivere i dati e trovare i modelli che esistono al suo interno.
  • Univariata grafica. I metodi non grafici non forniscono un quadro completo dei dati. Sono pertanto necessari i metodi grafici. I tipi comuni di grafici univariati includono:
    • Grafici a stelo e a foglia, che mostrano tutti i valori dei dati e la forma della distribuzione.
    • Istogrammi, un grafico a barre in cui ogni barra rappresenta la frequenza (conteggio) o la proporzione (conteggio/conteggio totale) dei casi per una gamma di valori.
    • Grafici a scatola, che rappresentano graficamente il riassunto di cinque numeri di minimo, primo quartile, mediana, terzo quartile e massimo.
  • Multivariata non grafica: i dati multivariati derivano da più di una variabile. Le tecniche di analisi esplorativa dei dati multivariate non grafiche mostrano generalmente la relazione tra due o più variabili dei dati attraverso tabulazioni incrociate o statistiche.
  • Multivariata grafica: i dati multivariati utilizzano i grafici per visualizzare le relazioni tra due o più set di dati. Il grafico più usato è un diagramma a barre raggruppate o un grafico a barre con ogni gruppo che rappresenta un livello di una delle variabili e ogni barra all'interno di un gruppo che rappresenta i livelli dell'altra variabile.

Altri tipi comuni di grafici multivariati includono:

  • Grafico a dispersione, utilizzato per tracciare punti di dati su un asse orizzontale e uno verticale per mostrare quanto una variabile è influenzata da un'altra.
  • Grafico multivariato, che è una rappresentazione grafica delle relazioni tra fattori e una risposta.
  • Grafico di esecuzione, che è un grafico a linee di dati tracciati nel tempo.
  • Grafico a bolle, che è una visualizzazione di dati che mostra più cerchi (bolle) in un grafico bidimensionale.
  • Mappa di calore, che è una rappresentazione grafica dei dati in cui i valori sono rappresentati da un colore.
Strumenti di analisi esplorativa dei dati

Alcuni degli strumenti di data science più comuni utilizzati per creare un'analisi esplorativa dei dati includono:

  • Python: un linguaggio di programmazione interpretato e orientato agli oggetti con semantica dinamica. Le sue strutture di dati integrate e di alto livello, combinate con la tipizzazione dinamica e l'associazione dinamica, lo rendono particolarmente interessante per un rapido sviluppo delle applicazioni e per un utilizzo come un linguaggio di scripting o "colla" per connettere tra loro i componenti esistenti. Python e l'analisi esplorativa dei dati possono essere utilizzati insieme per identificare i valori mancanti in un set di dati, il che è importante per poter decidere come gestire i valori mancanti per il machine learning.
  • R: un linguaggio di programmazione open-source e un ambiente software gratuito per il calcolo statistico e i grafici supportato da R Foundation for Statistical Computing. Il linguaggio R è ampiamente utilizzato dagli statistici nella data science per sviluppare osservazioni statistiche e analisi dei dati.

Per un'analisi approfondita delle differenze tra questi approcci, consulta "Confronto tra Python e R: qual è la differenza?"

Soluzioni correlate
IBM® Watson Studio

Utilizza IBM® Watson Studio per determinare se le tecniche statistiche che stai prendendo in considerazione per l'analisi dei dati sono appropriate.

Esplora IBM® Watson Studio oggi stesso
Passa alla fase successiva

IBM® Watson Studio fornisce un'interfaccia per analisti e data scientist per effettuare analisi più approfondite dei loro set di dati. Ciò consente loro di fornire insight riassuntivi alle parti interessate e anche di valutare se i set di dati sono sufficientemente bilanciati per costruire modelli significativi.

Esplora IBM® Watson Studio oggi stesso