Mascherare i dati con le regole di protezione dei dati ( IBM Knowledge Catalog )

Per mascherare i dati, questi devono soddisfare i seguenti requisiti:

  • I dati sono strutturati. I dati devono essere contenuti in tabelle relazionali o in file di tipo CSV, Avro, dati partizionati o Parquet.
  • Le intestazioni delle colonne contengono solo caratteri alfanumerici (a-z, A-Z, 0-9). Le intestazioni delle colonne non possono contenere caratteri non supportati, come caratteri multibyte o caratteri speciali.

Quando si sceglie l'azione di mascheramento, è necessario specificare i criteri e il metodo di mascheramento.

Criteri di mascheramento

I criteri di mascheramento identificano le colonne da mascherare. Selezionare il tipo di proprietà della colonna e specificare uno o più valori specifici della proprietà, che vengono combinati logicamente con l'operatore OR.

Tipo di proprietà della colonna Descrizione Valori specifici
Termine di business Un termine commerciale assegnato alla colonna. Cerca e seleziona uno o più termini commerciali pubblicati.
Classe dati La classe di dati assegnata alla colonna. Cerca e seleziona una o più classi di dati pubblicate.
Tag Un tag assegnato a una colonna nell'asset. Inserisci uno o più tag, separati da virgole.
Nome colonna Il nome di una colonna. Inserisci uno o più nomi di colonne, separati da virgole.

Ad esempio, supponiamo che si scelga la proprietà colonna della classe Data e i valori specifici California State Driver's License e Nevada State Driver's License. I valori vengono quindi mascherati nelle colonne assegnate alla classe di dati della patente di guida dello Stato della California o dello Stato del Nevada.

Panoramica dei metodi di mascheramento

Le principali differenze tra i metodi di mascheramento riguardano la quantità di caratteristiche originali dei dati che rimane. Più caratteristiche originali dei dati vengono conservate, più i dati mascherati diventano utili, ma meno sicuri. Quando scegli un metodo di mascheramento, considera questi fattori:

  • Integrità dei dati: se ripetere lo stesso valore mascherato per un valore originale ripetuto al fine di mantenere l'integrità referenziale tra le tabelle.

  • Formato dei dati: se mantenere il formato dei dati originali. Mantenere il formato significa che le lettere vengono sostituite da lettere con lo stesso tipo di maiuscola/minuscola, le cifre vengono sostituite da cifre e il numero di caratteri rimane invariato.

La tabella seguente descrive come ciascun metodo di mascheramento influisce su queste caratteristiche.

Metodo Descrizione Preserva l'integrità? Conserva il formato dei dati?
Altera Per impostazione predefinita, sostituisce i valori con dieci caratteri X. Il metodo più sicuro.
È anche possibile oscurare i dati utilizzando opzioni di mascheramento avanzate. È possibile personalizzare il carattere sostitutivo e il numero di caratteri sostitutivi. Per le colonne a cui sono state assegnate alcune classi di dati, è possibile scegliere la sostituzione parziale.
No No: se non si utilizzano opzioni di mascheramento avanzate.
Sì: se si utilizzano opzioni di mascheramento avanzate.
Sostituisci Sostituisci i valori con valori generati casualmente che preservano l'integrità referenziale. No
Offusca Sostituire i valori con valori che preservino l'integrità referenziale e il formato dei dati originali. Il metodo meno sicuro.

Per i dati virtuali, il comportamento di mascheramento è leggermente diverso, in base alla definizione del campo dati. Vedi Mascheramento dei dati virtuali.

Altera

È possibile oscurare i dati utilizzando due metodi diversi.

  • Il metodo di redazione di base sostituisce ogni valore di dati con una stringa composta esattamente da dieci lettere X. Con i dati oscurati, il formato dei dati e l'integrità dei dati non vengono preservati. La redazione è il metodo di mascheramento più sicuro, ma produce dati mascherati meno utili.

    Ad esempio, il numero di telefono 510-555-1234 viene sostituito con XXXXXXXXXX. Tutti gli altri numeri di telefono vengono sostituiti con lo stesso valore.

  • È possibile specificare opzioni di redazione avanzate per criteri basati su classi di dati con opzioni di mascheramento avanzate. A differenza del metodo di oscuramento predefinito, i caratteri sostitutivi utilizzati per mascherare i dati dipendono dai caratteri specifici configurati per oscurare i dati. È anche possibile specificare il numero di caratteri da mascherare nei dati. Con i dati redatti avanzati, il formato dei dati non viene conservato, ma l'integrità dei dati viene preservata.

    Ad esempio, se un tipo di colonna è un numero intero e 0 è configurato per la censura dei numeri interi, i dati vengono censurati con 0000000000. Se un tipo di colonna è una stringa e X è configurato per la censura delle stringhe, i dati vengono censurati con XXXXXXXXXX. Se un tipo di colonna è configurato per la data e 2022-06-30 è configurato per la redazione delle date, i dati vengono redatti con 2022-06-30.

    Tuttavia, le opzioni di mascheramento avanzate non vengono applicate automaticamente. È necessario applicarlo alle risorse dati selezionate in un progetto e quindi pubblicare le risorse mascherate in un catalogo.

Sostituisci

Il metodo sostitutivo sostituisce i dati con valori che non corrispondono al formato originale. Tuttavia, preserva l'integrità referenziale per i valori ripetuti per tutte le risorse nel catalogo. I valori sostituiti sono privi di significato e non è possibile determinare il formato originale dei valori. Substitute garantisce sicurezza e utilità dei dati tra i metodi Redact e Obfuscate.

Ad esempio, il numero di telefono 510-555-1234 viene sempre sostituito con 500ddcc98133703531re3456.

Offusca

Il metodo di offuscamento sostituisce i valori dei dati con valori formattati in modo simile che corrispondono al formato originale e preserva l'integrità referenziale per i valori ripetuti. Poiché i valori offuscati hanno un formato simile, possono essere valori validi. L'offuscamento è il metodo di mascheramento meno sicuro, ma produce i dati mascherati più utili.

Ad esempio, il numero di telefono 510-555-1234 viene sempre sostituito con 415-987-6543.

Tuttavia, il metodo di offuscamento è limitato ai valori dei dati nelle colonne a cui sono state assegnate classi di dati con i seguenti tipi di informazioni:

  • Informazioni personali, ad esempio attributi fondamentali di un individuo, quali suffissi onorifici o nomi.
  • Dettagli di contatto, ad esempio indirizzi e-mail, numeri di telefono, stato, indirizzi postali, latitudine o longitudine.
  • Conti finanziari, ad esempio carte di credito, conti bancari o altri numeri di conti finanziari.
  • Identità governative, ad esempio numeri di identificazione personale rilasciati dai governi, come SSN (numeri di previdenza sociale statunitensi) e CCN (numeri di carte di credito).
  • Informazioni demografiche personali, ad esempio religione, etnia, stato civile, hobby o status lavorativo.
  • Dati di connettività, ad esempio indirizzo IP o indirizzo MAC.

Se si crea una regola per offuscare i dati e tale regola viene applicata a dati a cui non è assegnata una classe di dati che supporta l'offuscamento, viene utilizzato invece il metodo sostitutivo.

È possibile specificare opzioni di offuscamento avanzate per i criteri di mascheramento basati su classi di dati con mascheramento avanzato dei dati. Tuttavia, il mascheramento avanzato dei dati non viene applicato automaticamente. È necessario applicarlo alle risorse dati selezionate in un progetto e quindi pubblicare le risorse mascherate in un catalogo.

Guarda il video icona Guarda questo video per scoprire come mascherare i dati.

Questo video offre un metodo visivo per apprendere i concetti e le attività descritti in questa documentazione.

Ulteriori informazioni