Tutorial sulla governance dei dati: Consumare i dati

Seguite questa esercitazione per lavorare con i vostri dati di alta qualità e protetti dopo aver completato l' esercitazione Curate i dati di alta qualità e Proteggete i vostri dati con il caso d'uso Data intelligence del processo Data Fabric. Il vostro obiettivo è valutare, condividere, modellare e analizzare i dati nel tessuto di dati.

La storia del tutorial è che la Golden Bank ha diversi dipartimenti che hanno bisogno di accedere ai dati ipotecari di alta qualità dei clienti. In qualità di analista di dati, dovrete cercare e trovare i dati giusti, comprendere e fidarvi del loro contenuto e quindi prepararli per l'utilizzo da parte di altri analisti di dati e data scientist.

Anteprima del tutorial

In questa esercitazione, completerete questi compiti:


Prova il tutorial

Espandi ogni sezione per completare l'attività.



Suggerimenti per completare questa esercitazione
Ecco alcuni suggerimenti per completare con successo questa esercitazione.

Impostare le finestre del browser

Per seguire al meglio questo tutorial, apri il tuo account in una finestra del browser e tieni aperta questa pagina del tutorial in un'altra finestra, in modo da poter passare facilmente da una all'altra. Prova a disporre le due finestre del browser una accanto all'altra per seguire più facilmente.

Tutorial e interfaccia utente affiancati

Suggerimento: se durante il completamento di questa esercitazione viene visualizzato un tour guidato nell'interfaccia utente, fare clic su Forse più tardi.



Impostare i prerequisiti

Completare le esercitazioni dei prerequisiti

Completate le esercitazioni Curate dati di alta qualità e Proteggete i vostri dati :

  • Tutorial sui dati di alta qualità per importare e arricchire le risorse di dati e pubblicarle in un catalogo.
  • Proteggere i dati esercitazione per creare regole di protezione dei dati e flussi di mascheramento per proteggere i dati.



Compito 1: Comprendere le risorse di dati

Le risorse di dati nei cataloghi sono molto più che puntatori ai dati. Contengono informazioni sul formato e sul significato dei dati e statistiche sui valori dei dati. Seguite questi passaggi per comprendere il valore delle risorse di dati:

  1. Dal menu di navigazione Menu di navigazione, seleziona Cataloghi > Tutti i cataloghi.

  2. Aprire il catalogo di approvazione dei mutui.

    La sezione delle risorse in evidenza mostra le risorse aggiunte di recente e le risorse altamente valutate che i collaboratori del catalogo hanno valutato e recensito.

  3. Fare clic su Nascondi risorse in primo piano per chiudere la sezione.

  4. Ricerca per mortgage.

  5. Fare clic su MORTGAGE_APPLICANTS_TRUST per visualizzare la risorsa del catalogo. La scheda Panoramica e il pannello laterale forniscono informazioni di base sull'asset, come la descrizione, la valutazione, i tag, la posizione dell'asset, i termini aziendali, le classi di dati e gli elementi correlati.

  6. Fare clic sulla scheda Profilo. Le informazioni sul profilo aiutano a comprendere il contenuto, la qualità e la fruibilità dei dati.

  7. Scorrere a destra per individuare la colonna CAP_CODE.

  8. La classe di dati assegnata automaticamente alla colonna ZIP_CODE è Commercial and Government Entity. Si noti che la classe di dati assegnata automaticamente può variare. Poiché i valori sono codici di avviamento postale, è possibile riclassificare facilmente questa colonna. Fare clic sull'elenco a discesa per visualizzare altre possibili classi di dati e i relativi livelli di confidenza. Selezionare il codice postale statunitense.

  9. Fare clic sulla scheda Asset per visualizzare un'anteprima dei dati.

  10. Tornare alla scheda Panoramica per visualizzare altri metadati sulle colonne. Nell'elenco delle colonne, cercare la colonna OCCUPAZIONE_STATO per visualizzare i metadati, compresi i termini aziendali assegnati.

Icona del punto di controllo Controlla i tuoi progressi

L'immagine seguente mostra l'attività MORTGAGE_APPLICANTS_TRUST nel catalogo. È stato esplorato il tipo di informazioni che IBM watsonx.data intelligence aggiunge automaticamente alle risorse di dati durante l'arricchimento dei metadati. Nel prossimo compito, arricchiremo manualmente questo asset di dati.

MORTGAGE_APPLICANTS_TRUST attività




Compito 2: arricchire le risorse e creare relazioni

È possibile aumentare il valore delle risorse aggiungendovi informazioni. Ad esempio, è possibile aggiungere la propria opinione sulla risorsa, aggiornare le proprietà della risorsa e creare relazioni per collegare le risorse. Seguite questi passaggi per arricchire le risorse e creare relazioni:

  1. Per l'asset del catalogo MORTGAGE_APPLICANTS_TRUST, fare clic sulla scheda Revisione. Valutate e commentate questa risorsa in modo che altri possano trovarla facilmente.

    1. Selezionare 5 stelle per la valutazione.

    2. Per la recensione, copiare e incollare il seguente testo:

      This contains high quality customer data from the mortgage system.
      
    3. Fare clic su Invia.

  2. Fare clic sulla scheda Panoramica.

  3. Fai clic sull'icona Modifica Modifica accanto al nome della risorsa per modificarne il nome.

    1. Cambiare il nome in:

      MORTGAGE_APPLICANTS_TRUST_PROTECT
      
    2. Fare clic su Applica.

  4. Nella sezione Descrizione nel pannello laterale destro, clicca sull'icona AggiungiAggiungi.

    Nota:

    Se questo elemento dispone già di una descrizione, vedrai l'icona Modifica Modifica anziché l'icona Aggiungi.

    1. Copiare e incollare la seguente descrizione:

      Mortgage applicants from the Mortgage System
      
    2. Fare clic su Applica.

  5. Poiché questa voce si riferisce ai mutui ipotecari, accanto alla sezione "Condizioni commerciali", clicca sull'icona "Aggiungi" Aggiungi o sull'icona "Modifica Modifica".

    1. Nel campo di ricerca, digitare loan.

      Nota: non è necessario premere Invio dopo aver digitato il termine di ricerca. Subito dopo aver digitato il termine di ricerca, viene visualizzato un elenco di risultati.
    2. Selezionare il prestito.

    3. Fare clic su Salva.

  6. Poiché questo elemento contiene dati personali, clicca Aggiungi sull'icona Aggiungi o Modifica sull'icona accanto Modifica a Classificazioni.

    1. Selezionare Informazioni di identificazione personale.

    2. Fare clic su Salva.

  7. Poiché questa attività è collegata ad altre attività ipotecarie, accanto a Voci correlate,

    1. Selezionare È collegato a e fare clic su Avanti.

    2. Selezionare gli asset CREDIT_SCORE e MORTGAGE_APPLICATION e fare clic su Aggiungi.

  8. Fare clic su MORTGAGE_APPLICATION per visualizzare l'attività correlata.

Icona del punto di controllo Controlla i tuoi progressi

L'immagine seguente mostra la scheda Panoramica per l'asset MORTGAGE_APPLICANTS_TRUST_PROTECT nel catalogo. Avete reso queste risorse più preziose rivedendo, aggiornando le proprietà e aggiungendo relazioni alle risorse. Nell'attività successiva, si aggiungerà la risorsa arricchita a un progetto.

MORTGAGE_APPLICANTS_TRUST con le attività correlate




Attività 3: Aggiungere dati arricchiti a un progetto

Il team di analisti dei dati ha bisogno dei dati dei richiedenti di mutui ipotecari nel progetto di analisi dei mutui per perfezionare, visualizzare, analizzare e utilizzare come dati di addestramento per i modelli. Seguite questi passaggi per aggiungere i dati arricchiti a un progetto:

  1. Clicca su "Catalogo delle approvazioni dei mutui" nel percorso di navigazione.
    Percorso di navigazione

  2. Alla fine della riga relativa alla risorsa del catalogo MORTGAGE_APPLICANTS_TRUST_PROTECT, clicca sul menu di espansione e seleziona Menu di overflow "Aggiungi al progetto ".

    1. Nell'elenco a discesa Target, selezionare il progetto Data governance.

    2. Fare clic su Aggiungi.

  3. Quando viene visualizzata la notifica, fare clic su Vai al progetto. Se si perde la notifica, allora:

    1. Fai clic sul menu di navigazione Menu di navigazione, quindi seleziona Progetti > Tutti i progetti.

    2. Fare clic sul progetto Data governance.

  4. Nel progetto, fare clic sulla scheda Assets per visualizzare l'asset di dati MORTGAGE_APPLICANTS_TRUST_PROTECT.

Icona del punto di controllo Controlla i tuoi progressi

L'immagine seguente mostra la risorsa MORTGAGE_APPLICANTS_TRUST_PROTECT nel progetto. Ora si è pronti a visualizzare i dati.

MORTGAGE_APPLICANTS_TRUST_PROTECT attività del progetto




Compito 4: visualizzare i dati

È necessario pulire e raffinare i dati dei richiedenti mutui per renderli pronti per gli strumenti e i modelli analitici. Un modo semplice e veloce per determinare come deve essere modellato è quello di visualizzare i dati in Data Refinery. La visualizzazione si basa sulle prime 5.000 righe dei dati. Seguite questi passaggi per visualizzare i dati:

  1. Fare clic sulla risorsa dati MORTGAGE_APPLICANTS_TRUST_PROTECT per visualizzare l'anteprima dei dati.

  2. Fare clic su Prepara dati per aprire l'asset di dati in Data Refinery e attendere che i dati vengano letti ed elaborati.

  3. Nel pannello Informazioni su questa risorsa, fare clic sulla X per chiudere il pannello.

  4. Nel pannello Passi, fare clic sulla X per chiudere il pannello.

  5. Fare clic sulla scheda Visualizzazioni.

  6. Per la colonna da visualizzare, selezionare OCCUPAZIONE_STATO.

  7. Fare clic su Visualizza dati. Lo strumento seleziona un grafico a torta come tipo di grafico migliore per questa colonna, che mostra la distribuzione dei richiedenti in base allo stato di occupazione. Notate i tipi di grafico suggeriti, indicati da un punto blu accanto a barre, nuvole di parole e raggi di sole.

  8. Per il tipo di grafico, selezionare il tipo di grafico a bolle. Il grafico a bolle è un modo semplice per visualizzare rapidamente la distribuzione dei valori in un particolare insieme di dati.

  9. Dal menu a tendina Tipo di grafico, selezionare il tipo di grafico Relazione.

  10. Questo tipo di grafico richiede due colonne. Selezionare queste colonne:

    1. Per la prima colonna, selezionare OCCUPAZIONE_STATO.

    2. Fare clic su Aggiungi un'altra colonna.

    3. Per la seconda colonna, selezionare EDUCAZIONE.

  11. Con il grafico delle relazioni, è possibile selezionare gli endpoint per visualizzare le relazioni. Ad esempio, è possibile vedere lo stato occupazionale dei candidati in base al livello di istruzione.

Icona del punto di controllo Controlla i tuoi progressi

L'immagine seguente mostra la risorsa MORTGAGE_APPLICANTS_TRUST_PROTECT visualizzata in Data Refinery. Ora si è pronti a ripulire i dati.

Visualizzazione delle relazioni




Compito 5: preparare i dati per l'analisi e l'IA

Non è possibile elaborare i richiedenti senza numero di previdenza sociale, quindi è necessario rivedere i dati e rimuovere i richiedenti senza numero di previdenza sociale. Per preparare i dati MORTGAGE_APPLICANTS_TRUST_PROTECT, occorre:

  • Visualizzare la frequenza dei valori nella colonna Social_Security_Number.
  • Filtrare i richiedenti con valori mancanti nella colonna Social_Security_Number.

Per preparare i dati, procedere come segue:

  1. Nel sito Data Refinery, fare clic sulla scheda Profilo.

  2. Scorrere a destra per individuare la colonna Social_Security_Number. Si notano diversi valori mancanti.

  3. Fare clic sulla scheda Dati per filtrare questi record. Nella barra di stato in basso, Data Refinery indica che il SET DI DATI COMPLETO è di 1101 righe.

  4. Se il pannello Passi non è visibile, fare clic su Passi per aprirlo.

  5. Fare clic su Nuovo passo.

    1. Nella sezione Pulizia, selezionare Filtro.

    2. Nel campo Colonna, selezionare la colonna Numero_sicurezza_sociale.

    3. Nel campo Operatore, selezionare Non è vuoto.

    4. Fare clic su Applica. Nella barra di stato in fondo allo schermo, Data Refinery indica che il SET DI DATI COMPLETO è di 1000 righe perché le righe con numeri di previdenza sociale mancanti sono state filtrate. Notate che nel pannello Passi viene visualizzato un nuovo passo che mostra l'operazione di filtraggio.

  6. Fare clic sulla scheda Profilo.

  7. Scorrere a destra per individuare la colonna Social_Security_Number. Si noti che i valori mancanti sono scomparsi.

  8. Dalla barra degli strumenti, clicca sull'icona SalvaSalva.

  9. Dalla barra degli strumenti, clicca sull'icona Esporta e seleziona Esporta i dati correnti su CSV.
    Esporta come csv

    1. Salvare il file MORTGAGE_APPLICANTS_TRUST_PROTECT_shaped.csv in una cartella locale.

    2. Accedi a quella cartella e apri il file « CSV », che contiene 1000 righe e in cui nessun candidato è privo del numero di previdenza sociale.

  10. Torna alla pagina Cloud Pak for Data e clicca sul progetto "Data governance" nel percorso di navigazione.
    Percorso di navigazione

  11. Fare clic su Tutte le attività e individuare la nuova attività del flusso Data Refinery con il nome MORTGAGE_APPLICANTS_TRUST_PROTECT_flow.

Suggerimento: È possibile salvare il set di dati raffinato nel progetto o in un'origine dati esterna, come l'istanza di Db2 Warehouse in cui sono memorizzati i set di dati originali. Per ulteriori informazioni, consultare la sezione Creazione di lavori in Data Refinery.

Icona del punto di controllo Controlla i tuoi progressi

L'immagine seguente mostra il file MORTGAGE_APPLICANTS_TRUST_PROTECT_shaped.csv che è stato perfezionato in Data Refinery. Questo set di dati contiene le informazioni relative ai richiedenti di mutui ipotecari che hanno fornito un numero di previdenza sociale.

Asset di dati raffinati



Come analista di dati per Golden Bank, avete imparato a cercare e trovare i dati giusti, a comprenderne e a fidarvi del loro contenuto e a prepararli per l'utilizzo da parte di altri analisti di dati e data scientist.

Pulizia (facoltativa)

Se si desidera ripetere le esercitazioni nel caso d'uso della governance dei dati, eliminare i seguenti artefatti.

Risorse utente Come eliminare
Termini commerciali importati Eliminare gli artefatti di governance
Categoria bancaria Eliminare una categoria
Norme sulla protezione dei dati: Informazioni riservate e Riduzione del numero di previdenza sociale Cancellare le norme sulla protezione dei dati
Catalogo di approvazione dei mutui Eliminare un catalogo
Progetto campione di governance dei dati Eliminare un progetto

Ulteriori informazioni