Raffinare i dati con Data Refinery
Per affinare i dati, li si prende da una posizione, li si pulisce e li si modella, quindi si scrive il risultato in un'altra posizione. È possibile ripulire e modellare i dati tabulari con uno strumento di editor di flusso grafico denominato Data Refinery.
Quando si ripuliscono i dati, si corregge o si rimuovono i dati non corretti, incompleti, formattati in modo non corretto o duplicati. Quando si modellano i dati, è possibile personalizzarli filtrando, ordinando, combinando o rimuovendo le colonne.
Creare un flusso Data Refinery come una serie di operazioni ordinate sui dati. Data Refinery include un'interfaccia grafica per creare il profilo dei dati per convalidarli e oltre 20 grafici personalizzabili che forniscono informazioni dettagliate sui dati.
- Piattaforme cloud
- Servizio richiesto
- watsonx.ai Studio o IBM watsonx.data intelligence
- Formato dati
- Avro, CSV, JSON, Microsoft Excel (formati xls e xlsx. Solo primo foglio, ad eccezione delle connessioni e degli asset di dati connessi.), Parquet, SAS con estensione "sas7bdat" (sola lettura), TSV (sola lettura) o asset di dati di testo delimitato
- Tabelle in origini dati relazionali
- Dimensione dati
- Qualsiasi. Data Refinery opera su un insieme di righe di esempio nel dataset. La dimensione del campione è di 1 MB o 10.000 righe, a seconda di quale di queste si verifica per prima. Tuttavia, quando si esegue un job per il flusso Data Refinery , viene elaborato tutto il dataset. Se il flusso Data Refinery ha esito negativo con un asset di dati di grandi dimensioni, consultare le soluzioni temporanee in Risoluzione dei problemi Data Refinery.
Per ulteriori informazioni sulla scelta dello strumento giusto per il tuo caso di utilizzo e i dati, vedi Scelta di uno strumento.
- Prerequisiti
- Limitazioni del file di origine
- Limitazioni file di destinazione
- Regole di protezione dei dati
- Anteprime dataset
- Perfezionare i dati
Prerequisiti
Prima di poter perfezionare i dati, devi creare un progetto che utilizza Cloud Object Storage.
Guarda questo video per vedere come creare un progetto
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Se i dati sono presenti in fonti di dati cloud o on-premise, è necessario aggiungere connessioni a tali fonti o aggiungere risorse di dati da ciascuna connessione. Se vuoi essere in grado di salvare i dati rifiniti nel cloud o nelle origini dati in loco, crea anche connessioni per questo scopo. In Data Refinery, le connessioni di origine possono essere usate solo per leggere i dati; le connessioni di destinazione possono essere usate solo per scrivere i dati. Quando si crea una connessione di destinazione, assicurarsi di utilizzare credenziali con autorizzazione di scrittura, altrimenti non sarà possibile salvare l'output del flusso di Data Refinery nella destinazione.
Guarda questo video per vedere come creare una connessione e aggiungere dati connessi a un progetto
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Limitazioni file di origine
File CSV
Assicurarsi che i file CSV siano formattati correttamente e rispettino le seguenti regole:
- Due virgole consecutive in una riga indicano una colonna vuota.
- Se una riga termina con una virgola, viene creata una colonna aggiuntiva.
Se il file CVS contiene un payload dannoso (ad esempio, formule) in un campo di input, questi elementi potrebbero essere eseguiti.
I caratteri spazio vuoto vengono considerati come parte dei dati
Se i dati includono colonne che contengono spazi vuoti, Data Refinery considera tali spazi vuoti come parte dei dati, anche se non è possibile visualizzarli nella griglia. Alcuni strumenti del database potrebbero riempire le stringhe di caratteri con caratteri spazio vuoto per rendere tutti i dati in una colonna della stessa lunghezza e questa modifica influisce sui risultati delle operazioni Data Refinery che confrontano i dati.
Nomi colonne
Assicurarsi che i nomi colonna rispettino le seguenti regole:
- I nomi colonna duplicati non sono consentiti. I nomi colonna devono essere univoci all'interno del dataset. I nomi colonna non sono sensibili al maiuscolo / minuscolo. Un dataset che include un nome colonna "Vendite" e un altro nome colonna "Vendite" non funzionerà.
- I nomi delle colonne non sono parole riservate nel linguaggio di programmazione R.
- I nomi colonna non sono numeri. Una soluzione temporanea è racchiudere i nomi colonna tra virgolette ("").
I dataset con colonne con il tipo di dati "Altro" non sono supportati nei flussi Data Refinery
Se il set di dati contiene colonne con tipi di dati identificati come "Altro" nell'anteprima di watsonx.ai Studio, le colonne verranno visualizzate come tipo di dati String in Data Refinery. Tuttavia, se si tenta di utilizzare i dati in un flusso Data Refinery , il lavoro per il flusso Data Refinery avrà esito negativo. Un esempio di tipo di dati visualizzato come "Altro" nell'anteprima è il tipo di dati Db2 DECFLOAT.
Limitazioni file di destinazione
La seguente limitazione si applica se si salva l'output del flusso Data Refinery (il dataset di destinazione) in un file:
- Non è possibile modificare il formato file se il file è un asset di dati esistente.
Regole di protezione dei dati
Data Refinery non supporta le regole di protezione dei dati per il filtraggio delle righe. I lavori di Data Refinery potrebbero avere esito negativo se l'asset è regolato dalle regole di protezione dei dati di filtro delle righe. Inoltre, se si aggiunge una risorsa da IBM watsonx.data intelligence a un progetto che è governato da regole di protezione dei dati di filtraggio delle righe, il mascheramento non sarà applicato in Data Refinery. Per informazioni, consultare Applicazione delle regole di protezione dati.
Anteprime dataset
Data Refinery fornisce il supporto per dataset di grandi dimensioni, che possono richiedere molto tempo e non essere maneggevoli da perfezionare. Per consentire all'utente di lavorare in modo rapido ed efficiente, opera su un sottoinsieme di righe nel dataset mentre si perfezionano i dati in modo interattivo. Quando si esegue un lavoro per il flusso Data Refinery , esso opera sull'intero dataset.
Perfezionare i dati
Il seguente video mostra come perfezionare i dati.
Questo video fornisce un metodo visivo per apprendere i concetti e le attività in questa documentazione.
Trascrizione del video Ora Trascrizione 00:00 Questo video mostra come modellare i dati grezzi utilizzando Data Refinery. 00:05 Per iniziare a perfezionare i dati da un progetto, visualizzare l'asset di dati e aprirlo in Data Refinery. 00:14 Il riquadro delle informazioni contiene il nome del flusso di dati e dell'output del flusso di dati, una volta terminata la raffinazione dei dati. 00:24 La scheda "Dati" mostra un insieme campione delle righe e delle colonne presenti nel set di dati. 00:29 Per migliorare le prestazioni, non vedrai tutte le righe nello shaper. 00:33 Ma state tranquilli: una volta terminata la raffinazione dei dati, il flusso di dati verrà eseguito sull'intero set di dati. 00:41 La scheda "Profilo" mostra le statistiche di frequenza e riepilogo per ciascuna delle colonne. 00:48 La scheda "Visualizzazioni" fornisce le visualizzazioni dei dati per le colonne a cui si è interessati. 00:57 I grafici suggeriti hanno un punto blu accanto alle loro icone. 01:03 Utilizzare le diverse prospettive disponibili nei diagrammi per identificare modelli, connessioni e relazioni all'interno dei dati. 01:12 Ora, facciamo qualche lite di dati. 01:15 Inizia con un'operazione semplice, come l'ordinamento in base a una colonna specifica; in questo caso, la colonna "Anno". 01:24 Supponiamo che tu voglia concentrarti sui ritardi di una compagnia aerea specifica, quindi puoi filtrare i dati per visualizzare solo le righe in cui l'unico vettore è United Airlines. 01:42 Sarebbe utile vedere il ritardo totale. 01:45 È possibile farlo creando una nuova colonna per combinare i ritardi di arrivo e partenza. 01:50 Notare che il tipo di colonna viene dedotto come numero intero. 01:54 Seleziona la colonna relativa al ritardo in partenza e utilizza l'operazione "Calcola". 02:03 In questo caso, aggiungerai la colonna "ritardo all'arrivo" alla colonna selezionata e creerai una nuova colonna denominata "TotalDelay". 02:13 È possibile posizionare la nuova colonna alla fine dell'elenco di colonne o accanto alla colonna originale. 02:21 Quando si applica l'operazione, la nuova colonna viene visualizzata accanto alla colonna del ritardo di partenza. 02:28 Se commetti un errore o semplicemente decidi di apportare una modifica, accedi al pannello "Passaggi" ed elimina quel passaggio. 02:36 Questa operazione annullerà quella particolare operazione. 02:40 È anche possibile utilizzare i pulsanti di ripristino e annullamento. 02:44 Successivamente, desideri concentrarti sulla "TotalDelay" colonna, quindi puoi utilizzare l'operazione "seleziona" per spostare la colonna all'inizio. 03:02 Questo comando dispone la colonna del ritardo totale come prima nella lista, e tutto il resto viene dopo. 03:12 Infine, si vuole trovare la media della colonna "TotalDelay". 03:16 Quando si espande il menu delle operazioni nella sezione "Organizza", si trova l'operazione "Aggrega", che include la funzione "Media". 03:33 Ora hai una nuova colonna chiamata "AverageDelay" che rappresenta la media del ritardo totale. 03:40 Ora, per eseguire il flusso di dati, salva e crea il lavoro. 03:47 Inserisci il nome del lavoro e passa alla schermata successiva. 03:52 Il passaggio "Configura" consente di rivedere quali saranno l'input e l'output dell'esecuzione del lavoro e di selezionare l'ambiente utilizzato per eseguire il lavoro. 04:03 La pianificazione di un'attività è facoltativa, ma è possibile impostare una data e ripetere l'attività se lo si desidera. 04:13 E si può scegliere di ricevere notifiche per questo lavoro. 04:19 Tutto sembra buono, quindi creare ed eseguire il lavoro. 04:22 Questa operazione potrebbe richiedere diversi minuti, poiché, come ricordato, il flusso di dati verrà eseguito sull'intero set di dati. 04:28 Nel frattempo, puoi visualizzare lo stato. 04:34 Una volta completata l'esecuzione, puoi tornare alla scheda "Risorse" nel progetto e aprire il Data Refinery flusso per perfezionare ulteriormente i dati. 04:50 Ad esempio, è possibile ordinare la colonna "AverageDelay" in ordine decrescente. 04:59 Ora, modificare le impostazioni del flusso. 05:02 Nel pannello "Generale", è possibile modificare il nome del flusso Data Refinery . 05:08 Nel pannello "Set di dati di origine" è possibile modificare il campione o il formato del set di dati di origine oppure sostituire l'origine dati. 05:18 Nel riquadro "Serie di dati di destinazione", è possibile specificare un'ubicazione alternativa, ad esempio un'origine dati esterna. 05:28 È inoltre possibile modificare le proprietà della destinazione, come la modalità di scrittura, il formato del file e il nome della risorsa del set di dati. 05:43 Ora, esegui nuovamente il flusso di dati, ma questa volta salva e visualizza i lavori. 05:51 Selezionare il lavoro che si desidera visualizzare dall'elenco ed eseguire il lavoro. 06:03 Al termine dell'esecuzione, tornare al progetto. 06:08 Nella scheda "Risorse" vedrai tutti e tre i file: l'originale, il primo set di dati perfezionato, che mostra i dati "AverageDelay" non ordinati, e il secondo set di dati, che mostra la "AverageDelay" colonna ordinata in ordine decrescente. 06:34 E di nuovo nella scheda "Asset", c'è il flusso Data Refinery . 06:42 Trova altri video nella documentazione.
1. Accedere a Data Refinery dall'interno di un progetto. Fare clic su Nuovo asset> Prepara e visualizza dati. Quindi selezionare i dati che si desidera utilizzare. In alternativa, dalla scheda Risorse di un progetto, fare clic su una risorsa dati per visualizzarne l'anteprima, quindi fare clic su Prepara dati.
2. Utilizzare la procedura per applicare operazioni che ripuliscono, modellano e arricchiscono i dati. Sfoglia le categorie di operazioni o cerca una specifica operazione, quindi lascia che l'IU ti guidi. È possibile immettere il codice R nella riga comandi e consentire il completamento automatico per ottenere la sintassi corretta. Quando si applicano operazioni a un dataset, Data Refinery ne tiene traccia e crea un flusso Data Refinery . Per ogni operazione applicata, Data Refinery aggiunge un passo.
Scheda Dati

Se i dati contengono tipi di dati non stringa, l'operazione della GUI Converti tipo di colonna viene applicata automaticamente come primo passo nel flusso Data Refinery quando si apre un file in Data Refinery. I tipi di dati vengono convertiti automaticamente in tipi di dati dedotti, come Integer, Date o Boolean. È possibile annullare o modificare questo passo.
3. Fare clic sulla scheda Profilo per convalidare i dati durante il processo di affinamento dei dati.
Scheda
Profilo 
4. Fare clic su Visualizzazioni per visualizzare i dati nei grafici. Scoprire modelli, tendenze e correlazioni all'interno dei dati.
Scheda Visualizzazioni

5. Restringere il dataset di esempio per adattarlo alle proprie esigenze.
6. Fare clic su Salva e crea un job o su Salva e visualizza job nella barra degli strumenti per eseguire il flusso Data Refinery sull'intero dataset. Selezionare il runtime e aggiungere una pianificazione singola o ripetuta. Per informazioni sui lavori, consultare Creazione di lavori in Data Refinery.
Per eseguire i lavori, è necessaria una chiave API utente. Di solito viene creato automaticamente quando si crea il primo lavoro. È anche possibile creare manualmente una chiave API dal proprio Profilo e dalle impostazioni.
Quando si esegue un lavoro per il flusso Data Refinery, viene elaborato l'intero set di dati. Pertanto, il lavoro potrebbe potenzialmente creare un set di dati di output (target) di grandi dimensioni, in base alle trasformazioni e alla quantità di dati elaborati nel flusso. Per impostazione predefinita, il risultato del flusso Data Refinery viene salvato come asset di dati nel progetto.
Per le azioni che è possibile eseguire quando si perfezionano i dati, consultare Gestione dei flussi di Data Refinery.