Tutorial sulla governance dei dati: Consumare i dati
Seguite questa esercitazione per lavorare con i vostri dati di alta qualità e protetti dopo aver completato l' esercitazione Curate i dati di alta qualità e Proteggete i vostri dati con il caso d'uso Data intelligence del processo Data Fabric. Il vostro obiettivo è valutare, condividere, modellare e analizzare i dati nel tessuto di dati.
La storia del tutorial è che la Golden Bank ha diversi dipartimenti che hanno bisogno di accedere ai dati ipotecari di alta qualità dei clienti. In qualità di analista di dati, dovrete cercare e trovare i dati giusti, comprendere e fidarvi del loro contenuto e quindi prepararli per l'utilizzo da parte di altri analisti di dati e data scientist.
Anteprima del tutorial
In questa esercitazione, completerete questi compiti:
- Impostare i prerequisiti.
- Compito 1: Comprendere le risorse di dati.
- Compito 2: arricchire le risorse e creare relazioni.
- Compito 3: Aggiungere dati arricchiti a un progetto.
- Compito 4: visualizzare i dati.
- Compito 5: preparare i dati per l'analisi e l'intelligenza artificiale.
- Pulizia (facoltativa)
Prova il tutorial
Espandi ogni sezione per completare l'attività.
Suggerimenti per completare questa esercitazione
Ecco alcuni suggerimenti per completare con successo questa esercitazione.
Impostare le finestre del browser
Per seguire al meglio questo tutorial, apri il tuo account in una finestra del browser e tieni aperta questa pagina del tutorial in un'altra finestra, in modo da poter passare facilmente da una all'altra. Prova a disporre le due finestre del browser una accanto all'altra per seguire più facilmente.

Impostare i prerequisiti
Completare le esercitazioni dei prerequisiti
Completate le esercitazioni Curate dati di alta qualità e Proteggete i vostri dati :
- Tutorial sui dati di alta qualità per importare e arricchire le risorse di dati e pubblicarle in un catalogo.
- Proteggere i dati esercitazione per creare regole di protezione dei dati e flussi di mascheramento per proteggere i dati.
Compito 1: Comprendere le risorse di dati
Le risorse di dati nei cataloghi sono molto più che puntatori ai dati. Contengono informazioni sul formato e sul significato dei dati e statistiche sui valori dei dati. Seguite questi passaggi per comprendere il valore delle risorse di dati:
Dal menu di navigazione
, seleziona Cataloghi > Tutti i cataloghi.
Aprire il catalogo di approvazione dei mutui.
La sezione delle risorse in evidenza mostra le risorse aggiunte di recente e le risorse altamente valutate che i collaboratori del catalogo hanno valutato e recensito.
Fare clic su Nascondi risorse in primo piano per chiudere la sezione.
Ricerca per
mortgage.Fare clic su MORTGAGE_APPLICANTS_TRUST per visualizzare la risorsa del catalogo. La scheda Panoramica e il pannello laterale forniscono informazioni di base sull'asset, come la descrizione, la valutazione, i tag, la posizione dell'asset, i termini aziendali, le classi di dati e gli elementi correlati.
Fare clic sulla scheda Profilo. Le informazioni sul profilo aiutano a comprendere il contenuto, la qualità e la fruibilità dei dati.
Scorrere a destra per individuare la colonna CAP_CODE.
La classe di dati assegnata automaticamente alla colonna ZIP_CODE è Commercial and Government Entity. Si noti che la classe di dati assegnata automaticamente può variare. Poiché i valori sono codici di avviamento postale, è possibile riclassificare facilmente questa colonna. Fare clic sull'elenco a discesa per visualizzare altre possibili classi di dati e i relativi livelli di confidenza. Selezionare il codice postale statunitense.
Fare clic sulla scheda Asset per visualizzare un'anteprima dei dati.
Tornare alla scheda Panoramica per visualizzare altri metadati sulle colonne. Nell'elenco delle colonne, cercare la colonna OCCUPAZIONE_STATO per visualizzare i metadati, compresi i termini aziendali assegnati.
Controlla i tuoi progressi
L'immagine seguente mostra l'attività MORTGAGE_APPLICANTS_TRUST nel catalogo. È stato esplorato il tipo di informazioni che IBM watsonx.data intelligence aggiunge automaticamente alle risorse di dati durante l'arricchimento dei metadati. Nel prossimo compito, arricchiremo manualmente questo asset di dati.

Compito 2: arricchire le risorse e creare relazioni
È possibile aumentare il valore delle risorse aggiungendovi informazioni. Ad esempio, è possibile aggiungere la propria opinione sulla risorsa, aggiornare le proprietà della risorsa e creare relazioni per collegare le risorse. Seguite questi passaggi per arricchire le risorse e creare relazioni:
Per l'asset del catalogo MORTGAGE_APPLICANTS_TRUST, fare clic sulla scheda Revisione. Valutate e commentate questa risorsa in modo che altri possano trovarla facilmente.
Selezionare 5 stelle per la valutazione.
Per la recensione, copiare e incollare il seguente testo:
This contains high quality customer data from the mortgage system.Fare clic su Invia.
Fare clic sulla scheda Panoramica.
Fai clic sull'icona Modifica
accanto al nome della risorsa per modificarne il nome.
Cambiare il nome in:
MORTGAGE_APPLICANTS_TRUST_PROTECTFare clic su Applica.
Nella sezione Descrizione nel pannello laterale destro, clicca sull'icona
Aggiungi.
Nota:Se questo elemento dispone già di una descrizione, vedrai l'icona Modifica
anziché l'icona Aggiungi.
Copiare e incollare la seguente descrizione:
Mortgage applicants from the Mortgage SystemFare clic su Applica.
Poiché questa voce si riferisce ai mutui ipotecari, accanto alla sezione "Condizioni commerciali", clicca sull'icona "Aggiungi"
o sull'icona "Modifica
".
Nel campo di ricerca, digitare
loan.Nota: non è necessario premere Invio dopo aver digitato il termine di ricerca. Subito dopo aver digitato il termine di ricerca, viene visualizzato un elenco di risultati.Selezionare il prestito.
Fare clic su Salva.
Poiché questo elemento contiene dati personali, clicca Aggiungi sull'icona
o Modifica sull'icona accanto
a Classificazioni.
Selezionare Informazioni di identificazione personale.
Fare clic su Salva.
Poiché questa attività è collegata ad altre attività ipotecarie, accanto a Voci correlate,
Selezionare È collegato a e fare clic su Avanti.
Selezionare gli asset CREDIT_SCORE e MORTGAGE_APPLICATION e fare clic su Aggiungi.
Fare clic su MORTGAGE_APPLICATION per visualizzare l'attività correlata.
Controlla i tuoi progressi
L'immagine seguente mostra la scheda Panoramica per l'asset MORTGAGE_APPLICANTS_TRUST_PROTECT nel catalogo. Avete reso queste risorse più preziose rivedendo, aggiornando le proprietà e aggiungendo relazioni alle risorse. Nell'attività successiva, si aggiungerà la risorsa arricchita a un progetto.

Attività 3: Aggiungere dati arricchiti a un progetto
Il team di analisti dei dati ha bisogno dei dati dei richiedenti di mutui ipotecari nel progetto di analisi dei mutui per perfezionare, visualizzare, analizzare e utilizzare come dati di addestramento per i modelli. Seguite questi passaggi per aggiungere i dati arricchiti a un progetto:
Clicca su "Catalogo delle approvazioni dei mutui" nel percorso di navigazione.

Alla fine della riga relativa alla risorsa del catalogo MORTGAGE_APPLICANTS_TRUST_PROTECT, clicca sul menu di espansione e seleziona
"Aggiungi al progetto ".
Nell'elenco a discesa Target, selezionare il progetto Data governance.
Fare clic su Aggiungi.
Quando viene visualizzata la notifica, fare clic su Vai al progetto. Se si perde la notifica, allora:
Fai clic sul menu di navigazione
, quindi seleziona Progetti > Tutti i progetti.
Fare clic sul progetto Data governance.
Nel progetto, fare clic sulla scheda Assets per visualizzare l'asset di dati MORTGAGE_APPLICANTS_TRUST_PROTECT.
Controlla i tuoi progressi
L'immagine seguente mostra la risorsa MORTGAGE_APPLICANTS_TRUST_PROTECT nel progetto. Ora si è pronti a visualizzare i dati.

Compito 4: visualizzare i dati
È necessario pulire e raffinare i dati dei richiedenti mutui per renderli pronti per gli strumenti e i modelli analitici. Un modo semplice e veloce per determinare come deve essere modellato è quello di visualizzare i dati in Data Refinery. La visualizzazione si basa sulle prime 5.000 righe dei dati. Seguite questi passaggi per visualizzare i dati:
Fare clic sulla risorsa dati MORTGAGE_APPLICANTS_TRUST_PROTECT per visualizzare l'anteprima dei dati.
Fare clic su Prepara dati per aprire l'asset di dati in Data Refinery e attendere che i dati vengano letti ed elaborati.
Nel pannello Informazioni su questa risorsa, fare clic sulla X per chiudere il pannello.
Nel pannello Passi, fare clic sulla X per chiudere il pannello.
Fare clic sulla scheda Visualizzazioni.
Per la colonna da visualizzare, selezionare OCCUPAZIONE_STATO.
Fare clic su Visualizza dati. Lo strumento seleziona un grafico a torta come tipo di grafico migliore per questa colonna, che mostra la distribuzione dei richiedenti in base allo stato di occupazione. Notate i tipi di grafico suggeriti, indicati da un punto blu accanto a barre, nuvole di parole e raggi di sole.
Per il tipo di grafico, selezionare il tipo di grafico a bolle. Il grafico a bolle è un modo semplice per visualizzare rapidamente la distribuzione dei valori in un particolare insieme di dati.
Dal menu a tendina Tipo di grafico, selezionare il tipo di grafico Relazione.
Questo tipo di grafico richiede due colonne. Selezionare queste colonne:
Per la prima colonna, selezionare OCCUPAZIONE_STATO.
Fare clic su Aggiungi un'altra colonna.
Per la seconda colonna, selezionare EDUCAZIONE.
Con il grafico delle relazioni, è possibile selezionare gli endpoint per visualizzare le relazioni. Ad esempio, è possibile vedere lo stato occupazionale dei candidati in base al livello di istruzione.
Controlla i tuoi progressi
L'immagine seguente mostra la risorsa MORTGAGE_APPLICANTS_TRUST_PROTECT visualizzata in Data Refinery. Ora si è pronti a ripulire i dati.

Compito 5: preparare i dati per l'analisi e l'IA
Non è possibile elaborare i richiedenti senza numero di previdenza sociale, quindi è necessario rivedere i dati e rimuovere i richiedenti senza numero di previdenza sociale. Per preparare i dati MORTGAGE_APPLICANTS_TRUST_PROTECT, occorre:
- Visualizzare la frequenza dei valori nella colonna Social_Security_Number.
- Filtrare i richiedenti con valori mancanti nella colonna Social_Security_Number.
Per preparare i dati, procedere come segue:
Nel sito Data Refinery, fare clic sulla scheda Profilo.
Scorrere a destra per individuare la colonna Social_Security_Number. Si notano diversi valori mancanti.
Fare clic sulla scheda Dati per filtrare questi record. Nella barra di stato in basso, Data Refinery indica che il SET DI DATI COMPLETO è di 1101 righe.
Se il pannello Passi non è visibile, fare clic su Passi per aprirlo.
Fare clic su Nuovo passo.
Nella sezione Pulizia, selezionare Filtro.
Nel campo Colonna, selezionare la colonna Numero_sicurezza_sociale.
Nel campo Operatore, selezionare Non è vuoto.
Fare clic su Applica. Nella barra di stato in fondo allo schermo, Data Refinery indica che il SET DI DATI COMPLETO è di 1000 righe perché le righe con numeri di previdenza sociale mancanti sono state filtrate. Notate che nel pannello Passi viene visualizzato un nuovo passo che mostra l'operazione di filtraggio.
Fare clic sulla scheda Profilo.
Scorrere a destra per individuare la colonna Social_Security_Number. Si noti che i valori mancanti sono scomparsi.
Dalla barra degli strumenti, clicca sull'icona
Salva.
Dalla barra degli strumenti, clicca sull'icona Esporta e seleziona Esporta i dati correnti su CSV.

Salvare il file MORTGAGE_APPLICANTS_TRUST_PROTECT_shaped.csv in una cartella locale.
Accedi a quella cartella e apri il file « CSV », che contiene 1000 righe e in cui nessun candidato è privo del numero di previdenza sociale.
Torna alla pagina Cloud Pak for Data e clicca sul progetto "Data governance" nel percorso di navigazione.

Fare clic su Tutte le attività e individuare la nuova attività del flusso Data Refinery con il nome MORTGAGE_APPLICANTS_TRUST_PROTECT_flow.
Controlla i tuoi progressi
L'immagine seguente mostra il file MORTGAGE_APPLICANTS_TRUST_PROTECT_shaped.csv che è stato perfezionato in Data Refinery. Questo set di dati contiene le informazioni relative ai richiedenti di mutui ipotecari che hanno fornito un numero di previdenza sociale.

Come analista di dati per Golden Bank, avete imparato a cercare e trovare i dati giusti, a comprenderne e a fidarvi del loro contenuto e a prepararli per l'utilizzo da parte di altri analisti di dati e data scientist.
Pulizia (facoltativa)
Se si desidera ripetere le esercitazioni nel caso d'uso della governance dei dati, eliminare i seguenti artefatti.
| Risorse utente | Come eliminare |
|---|---|
| Termini commerciali importati | Eliminare gli artefatti di governance |
| Categoria bancaria | Eliminare una categoria |
| Norme sulla protezione dei dati: Informazioni riservate e Riduzione del numero di previdenza sociale | Cancellare le norme sulla protezione dei dati |
| Catalogo di approvazione dei mutui | Eliminare un catalogo |
| Progetto campione di governance dei dati | Eliminare un progetto |