Mascarando dados com Fluxo de Mperguntando

O fluxo de masking permite que os administradores de dados produzam cópias mascaradas de dados para cientistas de dados, analistas de negócios e testadores de aplicativos. Os dados são protegidos por regras de proteção de dados que se aplicam automaticamente a todos os dados importados no catálogo.

O fluxo de mascaramento também apresenta opções avançadas de mascaramento para regras de proteção de dados, como preservação aprimorada do formato, tokenização de hash unidirecional, capacidade de manter relacionamentos e aumentar a utilidade dos dados mascarados. As regras de proteção de dados com mascaramento avançado funcionam apenas em projetos

Serviços necessários
IBM watsonx.data intelligence
Data Privacy (fluxo de Mas")
Formato de dados
Relacional: tabelas em origens de dados relacionais
Tamanho dos dados
Qualquer tamanho

Antes de criar fluxos de mascaramento, o administrador de dados deve completar estas tarefas de pré-requisito.

Após a conclusão das tarefas de pré-requisito, tanto administradores de dados quanto usuários de dados poderão executar as tarefas a seguir:

  • Criar um novo projeto e incluir ativos de dados para serem mascarados no projeto.
  • Escolher um projeto existente com ativos de dados.

Após concluir uma das tarefas, clique em Novo ativo > Copiar e mascarar dados.

Funções do usuário no fluxo Mperguntando

Como administrador de dados (ou engenheiro de dados), você tem conhecimentos sólidos dos ativos e requisitos de dados dos usuários de dados. Você é responsável por preparar dados para mascarar e configurar o acesso de usuário a dados mascarados.. Veja as tarefas que os administradores de dados devem concluir.

Como usuário de dados, como cientistas de dados, analistas de negócios, testadores e desenvolvedores, você conta com o administrador de dados para curar e fornecer dados protegidos com os quais precisa trabalhar. Veja as tarefas que os usuários de dados podem fazer.

Origens de dados suportadas

O fluxo de masking suporta as seguintes fontes de dados relacionais e não relacionais:

  • Apache Hive
  • Db2 LUW
  • Db2 Warehouse
  • MySQL
  • Netezza
  • Oracle
  • PostgreSQL
  • SQL Server
  • Teradata

Tarefas de pré-requisito para administradores de dados

Permissões necessárias
Deve-se ser um administrador de conta do IBM Cloud

No momento em que o fluxo de Mpedindo é instalado, há pelo menos uma conta admin configurada em sua organização. Esse administrador pode conceder acesso de administrador a outros usuários.

Prepare-se para privatizar dados, concluindo as seguintes tarefas:

  1. Criando catálogos.

  2. Inclua ativos de dados em catálogos, importando automaticamente ativos de dados com metadados. Crie conexões com os dados no catálogo de metadados. Ao importar os ativos de dados, selecione o catálogo criado na etapa anterior como o destino de importação.  Consulte Publicando ativos de um projeto em um catálogo.

  3. Confirmando as classes de dados estão corretamente designadas.

  4. Configurando regras de proteção de dados. As regras de proteção de dados aplicam-se a todos os catálogos governados e são impostas pelo fluxo Mperguntando quando você cria cópias mascaradas de dados usando fluxos de mascaramento. Opções de mascaramento de dados avançados são ativados apenas para classes de dados.

  5. Gerenciando o acesso do usuário , adicionando os usuários em uma Conta IBM Cloud e configurando o Cloud Pak for Data as a Service para sua organização.

  6. Inclusão de usuários de dados em catálogos por gerenciando o acesso a um catálogo.

Evitando o vazamento acidental de dados

Movimentando ativos de catálogos para projetos

Por padrão, as regras de proteção de dados não são impostas para o proprietário do ativo, que é o usuário que incluiu o ativo no catálogo. Para o proprietário do ativo, isso significa que as visualizações do catálogo não são protegidas para os ativos de dados que pertencem a ele. 

  • Quando um ativo é movido de um catálogo para um projeto, o ativo no projeto é uma cópia do ativo de catálogo. Os ativos de projeto não são vinculados às regras de proteção de dados.
    • Se a pessoa movendo o ativo for proprietário dele, a visualização do ativo será desmascarada para todos os usuários no projeto.
    • Se a pessoa movendo o ativo não for proprietário dele, a visualização do ativo será mascarada para todos os usuários no projeto.

Como as regras de proteção de dados não são aplicadas aos proprietários de ativos, quando os proprietários de ativos executam um fluxo de mascaramento, a cópia de dados carregada em um banco de dados de destino não é mascarada. Os dados só são mascarados quando os usuários de dados executam o fluxo de mascaramento.

Melhor prática para evitar vazamento de dados não intencional

Considere as melhores práticas a seguir para evitar vazamento acidental de dados:

  • O projeto usado pelo administrador para importar metadados no catálogo não deve ser usado para fluxos de mascaramento. Para usar o mesmo projeto para importações de metadados e fluxos de mascaramento, assegure-se de que todos os usuários no projeto tenham permissões para ver dados não mascarados.

  • Os administradores de dados não devem mover dados de catálogos para projetos para criar fluxos de mascaramento. Os administradores de dados devem incluir usuários de dados como visualizadores no catálogo e, portanto, somente os usuários de dados podem mover dados do catálogo para o projeto. Eles têm a opção de incluir outros usuários no projeto.

Evitando erros de falta de memória

Durante uma tarefa de fluxo de mascaramento, o Spark pode tentar ler tudo de uma origem de dados na memória. Erros podem ocorrer quando não há memória suficiente para suportar a tarefa.. O maior volume de dados que pode se ajustar ao maior nó de processamento do Spark implementado é de aproximadamente 12 GBs.

Para as tarefas de fluxo de mascaramento que têm alto uso de memória, para evitar erros de saída de memória:

  • Limite o número de executores e o tamanho de executores para a tarefa
  • Configure as colunas na tabela de origem para particionar os dados.
  • Quando as tarefas de fluxo de mascaramento envolvem a movimentação de grande quantidade de dados, assegure-se de selecionar as colunas pelas quais os dados podem ser particionados durante a tarefa de fluxo de mascaramento.

Saída truncada para acomodar restrições de comprimento de coluna

O comprimento da coluna é o comprimento máximo definido para uma coluna em um banco de dados para os dados de tipo de sequência.

Anteriormente, a saída de mascaramento gerada não considerava o comprimento da coluna e a tarefa de fluxo de mascaramento falharia se algum dos valores de saída ultrapassasse o comprimento da coluna.

Agora, a saída gerada é truncada para assegurar que não exceda as restrições de comprimento da coluna.

Tarefas de pré-requisito para usuários de dados

Os usuários de dados já devem ser membros da plataforma ou ter o nível de permissão para a função de cientista de dados.

Permissões necessárias
Você deve ter uma conta IBM Cloud e ter direito ao plano IBM watsonx.data intelligence Lite.

Permissões opcionais

  • Administradores de dados podem conceder acesso de Editor ou Visualizador aos catálogos.
  • Administradores de dados ou outros usuários de dados também podem conceder acesso aos projetos individuais que eles criarem.

Prepare cópias de dados mascarados, concluindo as seguintes tarefas:

  1. Criando projetos.
  2. Criar um ativo de fluxo de masking.
  3. Executar tarefas de fluxo de mascaramento.

Saiba Mais