Diverse fasi del processo di data mining utilizzano grafici e grafici per esplorare i dati inseriti in IBM® SPSS® Modeler. Per esempio, è possibile connettere un nodo grafico o distribuzione a una sorgente dati per ottenere informazioni su distribuzioni e tipi di dati ed eseguire quindi manipolazioni su record e campi per preparare i dati per operazioni di creazione di modelli a valle. I grafici vengono comunemente utilizzati anche per controllare la distribuzione e le relazioni tra i nuovi campi derivati.
La palette Grafici contiene i seguenti nodi:
|
|
Il nodo Lavagna grafica offre numerosi tipi di grafici diversi in un unico nodo. Con questo nodo è possibile scegliere i campi di dati da esplorare e selezionare quindi un grafico fra quelli disponibili per i dati selezionati. Il nodo esclude automaticamente tutti i tipi di grafici non adatti ai campi selezionati. |
|
|
Il nodo Plot mostra la relazione tra campi numerici. È possibile creare un grafico utilizzando punti (un grafico a dispersione) oppure linee. |
|
|
Il nodo distribuzione mostra l'occorrenza di valori simbolici (categoriali), per esempio tipo o genere di ipoteca. In genere è possibile utilizzare un nodo distribuzione per mostrare squilibri nei dati, che possono essere successivamente corretti con un nodo bilanciamento prima di creare un modello. |
|
|
Il nodo Istogramma mostra l'occorrenza dei valori per i campi numerici. Viene spesso utilizzato per analizzare i dati prima delle manipolazioni e della creazione del modello. Come il nodo distribuzione, anche il nodo Istogramma viene frequentemente utilizzato per rivelare squilibri nei dati. |
|
|
Il nodo Raccolta mostra la distribuzione dei valori di un campo numerico in relazione ai valori di un altro, ovvero crea grafici simili a istogrammi. È utile per illustrare una variabile o un campo i cui valori vengono modificati nel tempo. La grafica 3-D consente inoltre di includere un asse simbolico che visualizza le distribuzioni per categoria. |
|
|
Un nodo Multiplot crea un grafico che consente di visualizzare più campi Y in un singolo campo X. I campi Y sono rappresentati come linee colorate e ognuno di essi equivale a un nodo Plot con lo Stile impostato su Linea e la Modalità X impostata su Ordina. I multiplot sono utili quando si desidera esplorare la fluttuazione di numerose variabili nel tempo. |
|
|
Il nodo Web illustra l'intensità della relazione tra valori di due o più campi simbolici (categoriali). Il grafico utilizza linee di spessore diverso per indicare l'intensità della connessione. Un nodo Web può essere utilizzato, per esempio, per analizzare la relazione tra l'acquisto di vari oggetti in un sito di e-commerce. |
|
|
Il nodo del grafico temporale visualizza uno o più insiemi di dati di serie temporali. In genere, si utilizza prima un nodo Intervalli di tempo per creare un campo EtichettaTempo, che viene utilizzato per attribuire un'etichetta all'asse x. |
|
|
Il nodo Valutazione facilita la valutazione e il confronto di modelli predittivi. Il grafico di valutazione mostra il comportamento dei modelli nella previsione di particolari risultati. Ordina i record in base al valore previsto e alla confidenza della previsione, quindi li suddivide in gruppi di uguale dimensione (quantili) e infine rappresenta il valore del criterio di business per ciascun quantile, dal più alto al più basso. I modelli multipli sono mostrati nel grafico come linee separate. |
|
|
Il nodo Visualizzazione della mappa può accettare più connessioni di
input e visualizzare i dati geospaziali su una mappa come una serie di livelli. Ciascun livello è un singolo campo geospaziale; ad esempio, il livello di
base potrebbe essere la mappa di un paese, al di sopra della quale potrebbero
essere presenti un livello per le strade, uno per i fiumi ed uno per le
città. |
|
|
Il nodo E-Plot (Beta) mostra la relazione tra campi numerici. È simile al nodo Plot, ma le relative opzioni sono differenti e l'output utilizza una nuova interfaccia grafica specifica per questo nodo. Utilizzare il nodo di livello beta per esercitarsi con le nuove funzioni grafiche. |
|
|
t-SNE (t-Distributed Stochastic Neighbor Embedding) è
uno strumento per la visualizzazione di dati altamente dimensionali. Converte
le affinità dei punti dati in probabilità. Questo nodo t-SNE in SPSS Modeler è implementato in Python e richiede la libreria scikit-learn© Python . |
Dopo aver aggiunto un nodo Grafico a un flusso, è possibile fare doppio clic su di esso per aprire una finestra di dialogo in cui specificare le opzioni. La maggior parte dei grafici contiene opzioni univoche, presentate in una o più schede. Esistono inoltre diverse opzioni comuni a tutti i grafici. I seguenti argomenti contengono ulteriori informazioni su queste opzioni comuni.
Dopo avere configurato le opzioni relative a un nodo Grafico, è possibile eseguirlo dall'interno della finestra di dialogo o come parte di un flusso. Nella finestra del grafico così generata, è possibile generare nodi Ricava (Insieme e Flag) e nodi Seleziona in base a una selezione o a un'area di dati, dividendo effettivamente i dati in "sottoinsiemi". Questa potente funzione può essere utilizzata, per esempio, per individuare ed escludere i valori anomali.