Compare as Soluções de Mascaramento de Dados da IBM: InfoSphere Optim e DataStage

Opções para remover informações pessoais de dados de produção para uso em ambientes de teste

Muitas organizações usam dados de produção para preencher seus ambientes de teste. O problema é que, se houver dados sensíveis no ambiente de produção, eles serão expostos aos desenvolvedores e testadores de software. A IBM® oferece duas soluções para esse problema: a opção InfoSphere® Optim® Data Masking para Gerenciamento de Dados de Teste e InfoSphere DataStage Pack para Mascaramento de Dados. Ambas mascaram e removem dados mantendo o realismo. Este artigo explora as funções comuns que ambas as soluções têm e que são requisitos para um mascaramento de dados efetivo e, em seguida, as diferenças entre os produtos. Após ler este artigo, você poderá escolher a melhor solução IBM de mascaramento de dados para você.

John Haldeman, Information Management Consultant, Information Insights LLC

photo of author John HaldemanJohn Haldeman trabalha como consultor para a Information Insights LLC. Ele presta serviços técnicos para IBM InfoSphere Optim e Guardium. Antes de fazer parte da Information Insights, John trabalhou no Toronto Lab da IBM treinando, auxiliando e aconselhando Parceiros de Negócios IBM em relação aos produtos. John também escreve um blog do developerWorks sobre o assunto.



07/Dez/2012

Introdução às soluções de mascaramento de dados

Os sistemas das empresas que desenvolvem software evoluíram para seguir um conjunto de melhores práticas para o desenvolvimento. Isso inclui o seguinte.

  1. Separar ambientes de teste e de desenvolvimento para testar alterações antes que elas afetem os usuários.
  2. Usar dados de produção para preencher os bancos de dados desses ambientes de teste e de desenvolvimento para melhorar sua qualidade e reduzir os custos do ambiente.
  3. Limitar o acesso a dados pessoais sensíveis ao menor número de pessoas possível.

A segunda e a terceira melhor prática estão em conflito uma com a outra. Ao usar dados de produção em ambientes de desenvolvimento e teste, as empresas estão expondo dados sensíveis aos desenvolvedores e testadores de software. Apesar disso, a capacidade de usar dados de produção em ambientes de teste é tão atrativa que a terceira melhor prática geralmente perde espaço para a segunda. Por isso, muitas empresas estão sob pressão para evitar a exposição de dados sensíveis aos testadores e desenvolvedores. Essa pressão geralmente vem de legislação sobre privacidade do governo ou de organizações regulamentares do segmento de mercado, como o Security Standards Council da Payment Card Industry (PCI).

A IBM oferece duas soluções para eliminar o conflito inerente entre essas melhores práticas. As soluções extraem e removem dados de produção, mas ainda mantêm o realismo para testes de alta qualidade. Os produtos IBM chamam esse processo de mascaramento de dados. Os IDs nacionais parecem com IDs nacionais, os nomes parecem com nomes, os endereços são válidos, mas nenhum dos dados é sensível, pois as personally identifiable information (PII) são agora fictícias. As duas soluções que fazem isso são as seguintes.

  1. Solução InfoSphere Optim para Gerenciamento de Teste de Dados - opção Data Masking (agora também vendida como InfoSphere Optim Data Privacy Enterprise e Workgroup Editions).
  2. InfoSphere DataStage Pack para Data Masking.

Os primeiros produtos, chamados coletivamente de produtos InfoSphere Optim neste artigo, são licenciados de formas diferentes, mas a tecnologia subjacente é a mesma. Se as duas soluções resolvem o mesmo problema, a pergunta natural é "qual é a diferença?". Este artigo tenta responder essa pergunta analisando primeiro as funções principais que os produtos têm em comum e, em seguida, as diferenças entre eles. De natureza técnica, o objetivo deste artigo é ser um guia para os usuários que precisam decidir qual produto comprar e quais recursos dos produtos usar após terem identificado a necessidade de mascarar os dados.


Fundamentos do mascaramento de dados de teste - os aspectos em comum

Antes de examinar as diferenças entre as soluções, vamos examinar as funções fundamentais que cada uma oferece. Essas funções são comuns às duas soluções porque são necessárias para preencher o ambiente de teste com dados realistas, porém fictícios, que possam ser usados para teste. A maioria desses pontos em comum é resultado do fato de que as soluções usam conjuntos quase idênticos de algoritmos de mascaramento de dados.

Algoritmos de mascaramento

Alguns dados de PII seguem um formato e um padrão rígidos. Esses campos incluem números de cartão de crédito, números de Seguridade Social nos EUA, números de Seguro Social no Canadá ou Cadastro de Pessoas Físicas no Brasil. Como os valores seguem um conjunto de regras que determinam sua validade, eles podem ser gerados usando um algoritmo. Ambas as soluções permitem mascarar números de cartão de crédito de todos os principais emissores e IDs nacionais de diversos países.

Há também outro conjunto de campos de PII que segue um formato rígido, mas com os valores permitidos mais flexíveis. Um exemplo são endereços de email, cada um contendo um nome de usuário, um nome de domínio e o símbolo "@". Ambas as soluções oferecem funções para gerar endereços de email novos e válidos. Além disso, está disponível um algoritmo nas duas soluções para detectar o formato dos dados e substituir o valor por outro no mesmo formato. Por exemplo, ela detectaria a posição do espaço e dos caracteres numéricos e alfabéticos no código postal canadense L6G 1C7 e substituiria pelo valor gerado L3R 9Z7, sem que o usuário precisasse especificar o formato de antemão.

Mascarando funções de consulta

Há alguns campos de PII que não podem ser facilmente gerados por um algoritmo. Alguns deles são, por exemplo, nome, sobrenome ou endereços postais. Para esses campos, as duas soluções têm funções para consultar valores em tabelas preenchidas antecipadamente, contendo itens como nomes e endereços. O índice do valor consultado para substituir o original é escolhido aleatoriamente ou através de hashing de um valor de entrada. O hashing de um valor de entrada é realizado para manter a consistência no mascaramento.

Algumas dessas funções de mascaramento de dados são mostradas na Figura 1.

Figura 1. Uma amostragem dos algoritmos de mascaramento de dados Optim para a solução de mascaramento de dados
Uma amostragem dos algoritmos de mascaramento de dados Optim para a solução de mascaramento de dados

Consistência

As duas soluções têm algoritmos de mascaramento projetados para serem consistentes. Independentemente de quando o processo de mascaramento for executado, os valores do resultado serão os mesmos se os valores de entrada forem os mesmos. Isso é muito útil para preencher novamente ou ajustar os conjuntos de dados de teste sem quebrar os testes de regressão existentes, que podem exigir a presença de certos valores nos ambientes de teste.

Integridade referencial

Alguns valores que são mascarados são localizados em mais de uma tabela, e os aplicativos em teste exigem que os valores das tabelas sejam iguais. Ambas as soluções permitem mascarar valores e propagar os resultados para outras tabelas.

Customização

As duas soluções permitem que os clientes desenvolvam funções de transformação customizadas para estender aquelas que vêm com os produtos. A opção InfoSphere Optim Data Masking para Gerenciamento de Dados de Teste permite desenvolver funções de privacidade de dados usando saídas de mapa da coluna em C/C++ ou através de scripts na linguagem Lua. DataStage pode ser estendido com C/C++ ou BASIC em Estágios Transformer ou com operadores customizados em C/C++.

Movimentação de dados

Ambas as soluções extraem e mascaram os dados e colocam-nos em um ambiente de destino. No entanto, a maneira como movimentam os dados é muito diferente. As diferenças na movimentação de dados são o foco da próxima seção.


Diferenças entre as soluções

Este artigo discutiu como, em termos de funcionalidade de mascaramento de dados, ambas as soluções oferecem um conjunto semelhante de funções. Ambas podem mascarar os dados de modo que não sejam mais sensíveis, mas ainda sejam realistas. Ambas permitem, ao fazer isso, manter a consistência entre os processos de mascaramento de dados e a integridade referencial entre as tabelas. Ambas movem dados da produção, mascaram-nos e colocam-nos no destino. A seção a seguir examinará o que torna cada uma delas especial.

Os produtos InfoSphere Optim

Os produtos InfoSphere Optim possuem uma versão para System z e outra para sistemas distribuídos. Como a versão do System z serviu de modelo para a de sistemas distribuídos, ambas são semelhantes, exceto pela maneira de lidar com IMS e dados de arquivo simples.

Os produtos Infosphere Optim para System z e distribuído mascaram dados colocados em arquivos. O processo de extração resulta em um arquivo de extração. Em seguida, os dados são mascarados usando um processo de conversão. Nesse momento, o arquivo de extração mascarado é enviado para os ambientes de destino. Se uma solicitação de carregamento for desenvolvida, os arquivos de carregamento são gerados a partir do arquivo extraído mascarado e enviados ao utilitário loader do banco de dados em questão. A Figura 2 mostra esse processo.

Figura 2. O processo de mascaramento de Optim Masking para produtos TDM
O processo de mascaramento de Optim Masking para produtos TDM

Os produtos InfoSphere Optim funcionam melhor quando são incorporados a uma iniciativa de Gerenciamento de Dados de Teste maior em vez de quando realizam o mascaramento sozinhos. As soluções operam no que é chamado, entre os profissionais do InfoSphere Optim, de objeto de negócios completo, que é uma lista de tabelas e relacionamentos entre essas tabelas que definem um processo de negócios de ponta a ponta. Ambas as soluções Optim foram projetadas especificamente para extrair dados suficientes para os ambientes de teste e não mais do que isso. Para isso, elas atravessam os relacionamentos nos dados e capturam elementos de dados. A seção Recursos tem um artigo que explica o objeto de negócios completo em mais detalhes.

Um desenvolvimento recente nos produtos InfoSphere Optim é que o conjunto de ferramentas de tempo de design foi completamente atualizado e recolocado em um componente baseado em Eclipse, chamado InfoSphere Optim Designer, mostrado na Figura 3. Ao mesmo tempo, foi desenvolvida uma estrutura de gerenciamento baseada na web. Uma interface da web separada da interface de design facilita que os usuários de dados de teste controlem quando e como seus dados são atualizados.

Figura 3. Aplicar políticas de mascaramento de dados usando o Optim Designer
Aplicar políticas de mascaramento de dados usando o Optim Designer

Em resumo, em termos de seleção de dados para movimentação, os produtos InfoSphere Optim são semelhantes a ferramentas cirúrgicas que dissecam os casos de teste da produção. Isso não quer dizer que as soluções Optim não possam lidar com grandes volumes de dados (elas podem e já o fizeram), mas sim que elas têm extensos recursos de sub-setting e que não foram desenvolvidas com a capacidade de movimentação de dados em massa das ferramentas Extrair, Transformar e Carregar (ETL).

InfoSphere DataStage Pack para mascaramento de dados

O InfoSphere DataStage Pack para mascaramento de dados é um pacote de complementos para InfoSphere DataStage que, por sua vez, é parte do conjunto IBM Information Server. InfoSphere DataStage é uma ferramenta ETL criada para movimentar grandes volumes de dados de um sistema para outro.

Se você quer mover todos os seus dados de produção, mascará-los e carregá-los e deseja fazer isso rapidamente, em um sistema com ajuste de escala para volumes de dados muito, muito grandes, o InfoSphere DataStage, com a adição do pacote para mascaramento de dados, pode fazer isso muito bem. Isso porque foi desenvolvido com base em arquitetura corporativa de movimentação de dados ETL. Embora exista certo paralelismo no Optim, ele é muito mais extenso no DataStage, o que permite a utilização total de multiprocessamento simétrico (SMP), armazenamento em cluster, implementações em rede e processamento paralelo massivo (MPP). DataStage é excelente em dividir cargas de trabalho em diversos processos e computadores simultâneos. A seção Recursos contém uma visão geral dos recursos do DataStage para ajuste de escala.

Outra diferença importante entre os produtos InfoSphere Optim e os DataStage Packs para mascaramento de dados é que o DataStage não precisa criar arquivos de extração intermediários. Os dados extraídos podem ser mascarados e enviados a um banco de dados de destino sem serem gravados em armazenamento persistente. Por isso, tarefas que são executadas com DataStage podem ser menos limitadas por E/S em relação aos produtos InfoSphere Optim. A redução dos requisitos da E/S de disco é útil para ambientes que possuem limitações nesse recurso, como, por exemplo, um ambiente virtualizado que compartilha seus recursos de discos com muitas outras máquinas virtuais.

Como DataStage não exige a gravação de dados em armazenamento persistente, também permite que seus processos passem por pipeline, o que significa que a extração, mascaramento e inserção ocorrem simultaneamente, em vez de serem processos separados, ajudando a reduzir o período total de execução do processo. Isso é chamado às vezes de pipelining de dados. Veja a demonstração na Figura 4 e pense em como isso difere da Figura 2, que mostra o processo do Produto InfoSphere Optim. Se o usuário desejar, o DataStage também pode produzir arquivos intermediários, mas isso não é obrigatório.

Figura 4. O processo de mascaramento do InfoSphere DataStage Pack para mascaramento de dados
O processo de mascaramento do InfoSphere DataStage Pack para mascaramento de dados

Ainda assim, a flexibilidade para selecionar um subconjunto específico dos dados para mascaramento é bem menor no InfoSphere DataStage Pack em relação aos produtos InfoSphere Optim. O DataStage é operado por meio de instruções SQL fornecidas, enquanto o InfoSphere Optim é operado por meio de travessia do modelo de banco de dados, capturando os elementos de dados relacionados a partir de um ponto de partida. Portanto, embora o DataStage tenha sido desenvolvido para a máxima escalabilidade e possa mover grandes conjuntos de dados muito mais rapidamente, o Optim é melhor para movimentar apenas o necessário para os ambientes de teste. O DataStage é a serra elétrica, enquanto o Optim é o bisturi.

Também é importante lembrar que o DataStage, incluindo InfoSphere DataStage Pack para mascaramento de dados, tem muito mais funções do que apenas mascarar dados. É uma estrutura de ETL completa, que pode ajudar a desenvolver sistemas, como armazéns de dados, por meio da reestruturação e movimentação de dados vindos de bancos de dados transacionais. Lembre-se também que o DataStage é parte de uma plataforma de dados maior, chamada InfoSphere Information Server. Além dos recursos de ETL do DataStage, o Information Server contém ferramentas para ajudar a gerenciar os metadados, melhorar a qualidade dos dados, desenvolver um vocabulário de sistema comum e automatizar tarefas de integração de dados. É possível comprar o DataStage sem o conjunto Information Server, mas é uma grande vantagem para o produto ser parte de uma plataforma de dados tão extensa e bem integrada.

A Figura 5 mostra uma das tarefas de mascaramento de dados mais simples e possível de ser criada no DataStage.

Figura 5. Uma tarefa de mascaramento de dados no DataStage
Uma tarefa de mascaramento de dados no DataStage

A Figura 6 mostra o mascaramento de um endereço usando uma função de consulta na interface do DataStage.

Figura 6. Mascarando um endereço no DataStage usando uma tabela de consulta
Mascarando um endereço no DataStage usando uma tabela de consulta

Mascaramento sob demanda para flexibilidade

Outros nomes para o mascaramento de dados sob demanda

Desde o release, tem havido certa confusão sobre o nome dessa nova API. Alguns nomes comuns são Optim Data Privacy Procedures ou Providers (ODPP), Optim Data Privacy Services ou Optim Data Masking on Demand. Todos os termos referem-se à mesma coisa.

Se o aspecto em comum dos produtos de mascaramento é o uso das mesmas funções de mascaramento de dados, você pode estar se perguntando se é possível usar essas funções sem usar um dos mecanismos de movimentação de dados discutidos anteriormente neste artigo. A boa notícia é que os produtos InfoSphere Optim agora incluem essas funções em uma API com acesso externo. Essas funções são as mesmas usadas para os produtos InfoSphere Optim para System z e Distribuído, bem como os pacotes de mascaramento de dados do Data Stage.

Um caso de uso da nova API é a criação de procedimentos armazenados de mascaramento de dados dentro do banco de dados. Como não é necessário realizar movimentação de dados para dentro e para fora do banco de dados, esses procedimentos armazenados podem mascarar dados de forma extremamente rápida em relação a outros métodos. Muitos clientes preferem mascaramento no local, como esse, pois já investiram muito na infraestrutura necessária para atualizar rapidamente os ambientes de teste.

Outra solução que mascara no local

O mascaramento no local, sem criar procedimentos armazenados que acessem a API do Optim, pode ser realizado com outra solução, chamada de Optim Data Privacy Solution (não confundir com a solução InfoSphere Optim que é o tema deste artigo). Essa solução não grava dados em arquivos intermediários. Em vez disso, ela extrai, mascara e insere dados como um único processo de pipeline. Com essa solução, todo o mascaramento é realizado no banco de dados, em um mecanismo baseado em Java.

Algo que precisa ser lembrado ao usar essas APIs, especialmente no caso de uso de procedimento armazenado, é que dados não mascarados podem entrar em contato com um ambiente que não é de produção. Mesmo que esse contato ocorra em um período curto de tempo, é um problema de segurança para o qual deve haver planejamento. Em comparação, os processos para criar uma separação limpa entre dados não mascarados e ambientes que não são de produção são bem conhecidos ao usar os produtos InfoSphere Optim e InfoSphere DataStage.

Também vale a pena mencionar que ter uma API com acesso externo para mascaramento de dados abre outras possibilidades para ajudar a gerenciar dados de teste. Por exemplo, a API pode ser usada para ajudar a facilitar a criação de stubs e serviços de teste, ou pode ser usada para mascarar fontes de dados que não sejam diretamente suportadas pelo InfoSphere DataStage ou pelos produtos InfoSphere Optim.


Tabela de comparação

A Tabela 1 mostra a comparação das três soluções de mascaramento de dados da IBM.

Tablela 1. Uma comparação das três soluções de mascaramento de dados da IBM
RecursoOpção de mascaramento de dados do InfoSphere Optim para gerenciamento de dados de teste (Distribuído e IBM para z/OS)InfoSphere DataStage Pack para mineração de dados
Algoritmos de mascaramento realistasSIMSIM
Mascaramento consistente entre sistemas e períodos de tempoSIMSIM
Manter integridade referencialSIMSIM
Pode ser customizadoSIM (C, C++ ou Lua para Distribuído. Assembler, VS COBOL II, PL/I, C ou Lua para z/OS).SIM (C/C++/BASIC)
Vem com funções de privacidade de dados que podem ser chamadas externamenteSIMNÃO
Funciona com utilitários de carregamento de banco de dadosSIMSIM
Processos de pipeline (E/S do servidor de mascaramento reduzida)NÃOSIM
Opera com o conceito de um objeto de negócios completo (permite a criação de subconjunto eficiente)SIMNÃO
Desenvolvido para multiprocessamento simétrico (SMP), armazenamento em cluster, implementações em grade e processamento paralelo massivo (MPP)NÃO (mas existe suporte parcial a SMP).SIM
Suporte à fonte de dados heterogênea (consulte as listas de plataformas da seção Recursos)SIMSIM

Conclusão

Este artigo explorou as funções primárias necessárias a uma solução de mascaramento de dados. Elas incluem algoritmos de mascaramento de dados que não apenas os mascaram, mas o fazem de forma realística, mantendo a integridade referencial dos dados e a consistência ao longo do tempo e entre bancos de dados. Também discutiu como ambas as funções estão presentes nas soluções da IBM para mascaramento de dados: a opção InfoSphere Optim Data Masking para Gerenciamento de Dados de Teste e InfoSphere DataStage Pack para Mascaramento de Dados.

Em seguida, o artigo discutiu as diferenças entre as soluções. Os produtos InfoSphere Optim são excelentes na remoção precisa de pequenos volumes de dados para mascaramento. InfoSphere DataStage Pack para Mascaramento de Dados foi desenvolvido com base no DataStage, uma ferramenta ETL corporativa que é excelente em paralelismo e escalabilidade. Por fim, o artigo discutiu o uso da API de mascaramento de dados fornecida pelos produtos InfoSphere Optim. O seu uso permite que o usuário forneça seu próprio mecanismo de movimentação de dados e pode proporcionar maior flexibilidade para mascaramento de dados em ambientes que não são de produção.


Agradecimentos

  • Obrigado à minha esposa, Erin Haldeman, por seu apoio constante e pela ajuda em transformar meus fragmentos em frases.
  • Obrigado a Polly Lau, Martin Dizon e Alan Fischer e Silva, da equipe InfoSphere Optim Technology Ecosystem do IBM Canada Lab, por ler o artigo e fazer valiosos comentários sobre o conteúdo.
  • Obrigado a Aarti Borkar e Jim Lee, da equipe IBM InfoSphere Optim Product Management, por responder minhas perguntas sobre como os produtos são licenciados.
  • Obrigado a meus colegas: Greg Marshall, David Slater, Doug Mogck e DuQuay Allen, da Information Insights, por seu feedback sobre o artigo.
  • Um obrigado especial ao meu colega Matt Simons, por seu auxílio em me manter atualizado com os desenvolvimentos em mascaramento nos produtos InfoSphere Optim.

Recursos

Aprender

Obter produtos e tecnologias

  • Desenvolva seu próximo projeto de desenvolvimento com o software de teste IBM, disponível para download diretamente do developerWorks.
  • Avalie os produtos IBM da maneira que for melhor para você: faça download da versão de teste de um produto, avalie um produto on-line, use-o em um ambiente de nuvem ou passe algumas horas na Sandbox da SOA aprendendo a implementar Arquitetura Orientada a Serviços de modo eficiente.

Discutir

  • Participe da comunidade do My developerWorks. Entre em contato com outros usuários do developerWorks e explore os blogs, fóruns, grupos e wikis voltados para desenvolvedores.

Comentários

developerWorks: Conecte-se

Los campos obligatorios están marcados con un asterisco (*).


Precisa de um ID IBM?
Esqueceu seu ID IBM?


Esqueceu sua senha?
Alterar sua senha

Ao clicar em Enviar, você concorda com os termos e condições do developerWorks.

 


A primeira vez que você entrar no developerWorks, um perfil é criado para você. Informações no seu perfil (seu nome, país / região, e nome da empresa) é apresentado ao público e vai acompanhar qualquer conteúdo que você postar, a menos que você opte por esconder o nome da empresa. Você pode atualizar sua conta IBM a qualquer momento.

Todas as informações enviadas são seguras.

Elija su nombre para mostrar



Ao se conectar ao developerWorks pela primeira vez, é criado um perfil para você e é necessário selecionar um nome de exibição. O nome de exibição acompanhará o conteúdo que você postar no developerWorks.

Escolha um nome de exibição de 3 - 31 caracteres. Seu nome de exibição deve ser exclusivo na comunidade do developerWorks e não deve ser o seu endereço de email por motivo de privacidade.

Los campos obligatorios están marcados con un asterisco (*).

(Escolha um nome de exibição de 3 - 31 caracteres.)

Ao clicar em Enviar, você concorda com os termos e condições do developerWorks.

 


Todas as informações enviadas são seguras.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=80
Zone=Information Management
ArticleID=848559
ArticleTitle=Compare as Soluções de Mascaramento de Dados da IBM: InfoSphere Optim e DataStage
publish-date=12072012