Mascherare i dati con le regole di protezione dei dati ( IBM Knowledge Catalog )
Per mascherare i dati, questi devono soddisfare i seguenti requisiti:
- I dati sono strutturati. I dati devono essere contenuti in tabelle relazionali o in file di tipo CSV, Avro, dati partizionati o Parquet.
- Le intestazioni delle colonne contengono solo caratteri alfanumerici (a-z, A-Z, 0-9). Le intestazioni delle colonne non possono contenere caratteri non supportati, come caratteri multibyte o caratteri speciali.
Quando si sceglie l'azione di mascheramento, è necessario specificare i criteri e il metodo di mascheramento.
Criteri di mascheramento
I criteri di mascheramento identificano le colonne da mascherare. Selezionare il tipo di proprietà della colonna e specificare uno o più valori specifici della proprietà, che vengono combinati logicamente con l'operatore OR.
| Tipo di proprietà della colonna | Descrizione | Valori specifici |
|---|---|---|
| Termine di business | Un termine commerciale assegnato alla colonna. | Cerca e seleziona uno o più termini commerciali pubblicati. |
| Classe dati | La classe di dati assegnata alla colonna. | Cerca e seleziona una o più classi di dati pubblicate. |
| Tag | Un tag assegnato a una colonna nell'asset. | Inserisci uno o più tag, separati da virgole. |
| Nome colonna | Il nome di una colonna. | Inserisci uno o più nomi di colonne, separati da virgole. |
Ad esempio, supponiamo che si scelga la proprietà colonna della classe Data e i valori specifici California State Driver's License e Nevada State Driver's License. I valori vengono quindi mascherati nelle colonne assegnate alla classe di dati della patente di guida dello Stato della California o dello Stato del Nevada.
Panoramica dei metodi di mascheramento
Le principali differenze tra i metodi di mascheramento riguardano la quantità di caratteristiche originali dei dati che rimane. Più caratteristiche originali dei dati vengono conservate, più i dati mascherati diventano utili, ma meno sicuri. Quando scegli un metodo di mascheramento, considera questi fattori:
Integrità dei dati: se ripetere lo stesso valore mascherato per un valore originale ripetuto al fine di mantenere l'integrità referenziale tra le tabelle.
Formato dei dati: se mantenere il formato dei dati originali. Mantenere il formato significa che le lettere vengono sostituite da lettere con lo stesso tipo di maiuscola/minuscola, le cifre vengono sostituite da cifre e il numero di caratteri rimane invariato.
La tabella seguente descrive come ciascun metodo di mascheramento influisce su queste caratteristiche.
| Metodo | Descrizione | Preserva l'integrità? | Conserva il formato dei dati? |
|---|---|---|---|
| Altera | Per impostazione predefinita, sostituisce i valori con dieci caratteri X. Il metodo più sicuro. È anche possibile oscurare i dati utilizzando opzioni di mascheramento avanzate. È possibile personalizzare il carattere sostitutivo e il numero di caratteri sostitutivi. Per le colonne a cui sono state assegnate alcune classi di dati, è possibile scegliere la sostituzione parziale. |
No | No: se non si utilizzano opzioni di mascheramento avanzate. Sì: se si utilizzano opzioni di mascheramento avanzate. |
| Sostituisci | Sostituisci i valori con valori generati casualmente che preservano l'integrità referenziale. | Sì | No |
| Offusca | Sostituire i valori con valori che preservino l'integrità referenziale e il formato dei dati originali. Il metodo meno sicuro. | Sì | Sì |
Per i dati virtuali, il comportamento di mascheramento è leggermente diverso, in base alla definizione del campo dati. Vedi Mascheramento dei dati virtuali.
Altera
È possibile oscurare i dati utilizzando due metodi diversi.
Il metodo di redazione di base sostituisce ogni valore di dati con una stringa composta esattamente da dieci lettere X. Con i dati oscurati, il formato dei dati e l'integrità dei dati non vengono preservati. La redazione è il metodo di mascheramento più sicuro, ma produce dati mascherati meno utili.
Ad esempio, il numero di telefono 510-555-1234 viene sostituito con XXXXXXXXXX. Tutti gli altri numeri di telefono vengono sostituiti con lo stesso valore.
È possibile specificare opzioni di redazione avanzate per criteri basati su classi di dati con opzioni di mascheramento avanzate. A differenza del metodo di oscuramento predefinito, i caratteri sostitutivi utilizzati per mascherare i dati dipendono dai caratteri specifici configurati per oscurare i dati. È anche possibile specificare il numero di caratteri da mascherare nei dati. Con i dati redatti avanzati, il formato dei dati non viene conservato, ma l'integrità dei dati viene preservata.
Ad esempio, se un tipo di colonna è un numero intero e 0 è configurato per la censura dei numeri interi, i dati vengono censurati con 0000000000. Se un tipo di colonna è una stringa e X è configurato per la censura delle stringhe, i dati vengono censurati con XXXXXXXXXX. Se un tipo di colonna è configurato per la data e 2022-06-30 è configurato per la redazione delle date, i dati vengono redatti con 2022-06-30.
Tuttavia, le opzioni di mascheramento avanzate non vengono applicate automaticamente. È necessario applicarlo alle risorse dati selezionate in un progetto e quindi pubblicare le risorse mascherate in un catalogo.
Sostituisci
Il metodo sostitutivo sostituisce i dati con valori che non corrispondono al formato originale. Tuttavia, preserva l'integrità referenziale per i valori ripetuti per tutte le risorse nel catalogo. I valori sostituiti sono privi di significato e non è possibile determinare il formato originale dei valori. Substitute garantisce sicurezza e utilità dei dati tra i metodi Redact e Obfuscate.
Ad esempio, il numero di telefono 510-555-1234 viene sempre sostituito con 500ddcc98133703531re3456.
Offusca
Il metodo di offuscamento sostituisce i valori dei dati con valori formattati in modo simile che corrispondono al formato originale e preserva l'integrità referenziale per i valori ripetuti. Poiché i valori offuscati hanno un formato simile, possono essere valori validi. L'offuscamento è il metodo di mascheramento meno sicuro, ma produce i dati mascherati più utili.
Ad esempio, il numero di telefono 510-555-1234 viene sempre sostituito con 415-987-6543.
Tuttavia, il metodo di offuscamento è limitato ai valori dei dati nelle colonne a cui sono state assegnate classi di dati con i seguenti tipi di informazioni:
- Informazioni personali, ad esempio attributi fondamentali di un individuo, quali suffissi onorifici o nomi.
- Dettagli di contatto, ad esempio indirizzi e-mail, numeri di telefono, stato, indirizzi postali, latitudine o longitudine.
- Conti finanziari, ad esempio carte di credito, conti bancari o altri numeri di conti finanziari.
- Identità governative, ad esempio numeri di identificazione personale rilasciati dai governi, come SSN (numeri di previdenza sociale statunitensi) e CCN (numeri di carte di credito).
- Informazioni demografiche personali, ad esempio religione, etnia, stato civile, hobby o status lavorativo.
- Dati di connettività, ad esempio indirizzo IP o indirizzo MAC.
Se si crea una regola per offuscare i dati e tale regola viene applicata a dati a cui non è assegnata una classe di dati che supporta l'offuscamento, viene utilizzato invece il metodo sostitutivo.
È possibile specificare opzioni di offuscamento avanzate per i criteri di mascheramento basati su classi di dati con mascheramento avanzato dei dati. Tuttavia, il mascheramento avanzato dei dati non viene applicato automaticamente. È necessario applicarlo alle risorse dati selezionate in un progetto e quindi pubblicare le risorse mascherate in un catalogo.
Guarda questo video per scoprire come mascherare i dati.
Questo video offre un metodo visivo per apprendere i concetti e le attività descritti in questa documentazione.