Compare las soluciones de enmascaramiento de datos de IBM: InfoSphere Optim y DataStage

Opciones para despersonalizar los datos de producción sensibles para el uso en sus entornos de prueba

Muchas organizaciones utilizan los datos de producción para completar sus entornos de prueba. El problema con esto es que si hay datos sensibles en su ambiente de producción, expondrá esos datos a los desarrolladores de software y a las personas encargadas de realizar las pruebas. IBM® ofrece las dos soluciones siguientes para solucionar este problema: La opción de enmascaramiento de datos InfoSphere® Optim® para la Gestión de datos de prueba y el Paquete InfoSphere DataStage para el enmascaramiento de datos. Ambos ocultan los datos y los despersonalizan mientras mantienen su realismo. Este artículo explora las funciones comunes que tienen ambas soluciones y que son requisitos para el enmascaramiento de datos efectivo, y luego explora las diferencias entre los productos. Después de leer este artículo deberá poder elegir la solución de enmascaramiento de datos de IBM adecuada para satisfacer mejor sus requisitos.

John Haldeman, Information Management Consultant, Information Insights LLC

John HaldemanJohn Haldeman trabaja como consultor para Information Insights LLC. Brinda servicios técnicos para InfoSphere Optim y Guardium de IBM. Antes de sumarse a Information Insights, John trabajó en el Laboratorio de IBM en Toronto, capacitando, asistiendo y guiando a los Socios comerciales de IBM con respecto a los productos. John también escribe en el blog de developerWorks acerca del tema.



04-02-2012

Introducción a las soluciones de enmascaramiento de datos

Para las compañías que desarrollan software, sus sistemas han evolucionado para seguir un conjunto de buenas prácticas para el desarrollo. Estas generalmente incluyen lo siguiente.

  1. Separar los entornos de prueba y desarrollo para probar los cambios antes de que afecten a sus usuarios.
  2. Utilizar datos de producción para completar las bases de datos para estos entornos de prueba y desarrollo con el objetivo de mejorar la calidad de la prueba y reducir los costos del entorno.
  3. Limitar el acceso a datos personales sensibles a la menor cantidad de personas que sea necesario.

Las buenas prácticas presentadas en segundo y tercer lugar están en conflicto la una con la otra. Al utilizar datos de producción en los entornos de prueba y desarrollo, expone datos sensibles a los desarrolladores de software y a las personas encargadas de realizar las pruebas. Pero, habiendo dicho esto, la posibilidad de utilizar datos de producción en los entornos de prueba resulta tan atractiva que la tercera buena práctica con frecuencia queda postergada ante la segunda. Por este motivo, muchas compañías ahora están siendo presionadas para evitar la exposición de datos sensibles a sus desarrolladores y a las personas encargadas de realizar las pruebas. Esto con frecuencia se presenta en la forma de legislación sobre la privacidad proveniente de los distintos gobiernos, o mediante organizaciones de reglamentación industrial como el Concejo de estándares de seguridad de la Industria de las tarjetas de pago (PCI).

IBM ofrece dos soluciones para eliminar el conflicto inherente entre estas buenas prácticas. Las soluciones extraen datos de producción y los despersonalizan mientras mantienen su realismo para realizar pruebas de alta calidad. Los productos de IBM se refieren a este proceso como enmascaramiento de datos. Las ID nacionales parecen ID nacionales, los nombres parecen nombres, las direcciones son direcciones válidas, pero todos los datos ya no son sensibles porque toda la información de identificación personal (PII) ahora es ficticia. Las dos soluciones que hacen esto son las siguientes.

  1. Solución de gestión de datos de prueba InfoSphere Optim - Opción de enmascaramiento de datos (ahora también vendida como la Edición empresarial para la privacidad de datos de InfoSphere Optim y la Edición del grupo de trabajo para la privacidad de datos de InfoSphere Optim).
  2. El paquete para enmascaramiento de datos InfoSphere DataStage.

Los primeros productos referidos colectivamente como los productos InfoSphere Optim en el resto de este artículo, tienen licencias diferentes, pero la tecnología fundamental es la misma. Entonces, si las dos soluciones resuelven el mismo problema, la pregunta natural es: "¿Cuál es la diferencia?" Este artículo intenta responder a esa pregunta observando primero las funciones centrales comunes que comparten los productos y luego examinando las diferencias entre ellos. De naturaleza técnica, el objetivo de este artículo es proporcionar una guía para los clientes que enfrentan la decisión de qué producto adquirir, y qué característica de los productos deben utilizar después de haber identificado la necesidad de ocultar sus datos.


Cuestiones esenciales del enmascaramiento de datos para las pruebas – Las similitudes

Antes de examinar las diferencias entre las soluciones, observemos las funciones fundamentales que ambas proporcionan. Estas funciones son comunes entre las soluciones porque todas son necesarias para completar entornos de prueba con datos realistas, pero ficticios, datos que puedan utilizarse para las pruebas. Muchas de estas similitudes surgen del hecho de que ambas soluciones utilizan algoritmos de enmascaramiento para los conjuntos de datos casi idénticos.

Algoritmos de enmascaramiento

Algunos datos de PII siguen un formato y un patrón estricto. Estos campos incluyen elementos como números de tarjetas de crédito, números del Seguro Social de los EE. UU., números del Seguro Social canadiense o del Censo de personas físicas de Brasil. Como los valores respetan un conjunto de reglas que determinan su validez, pueden ser generados mediante un algoritmo. Ambas soluciones proporcionan funciones para ocultar números de tarjetas de crédito de todos los emisores principales e ID nacionales de una variedad de países.

Existe otro conjunto de campos de PII que también respeta un formato estricto pero donde los valores permitidos son más flexibles. Un ejemplo son las direcciones de email, donde cada dirección tiene un nombre de usuario, un nombre de dominio y un símbolo '@'. Ambas solucione brindan funciones para generar direcciones de email nuevas y válidas. Además, en ambas soluciones hay disponible un algoritmo para detectar el formato de los datos o reemplazar el valor con un valor nuevo del mismo formato. Por ejemplo, detectaría la posición del espacio, los caracteres numéricos y los alfanuméricos en un código postal canadiense L6G 1C7, y reemplazaría los valores con valores generados L3R 9Z7, todo sin que especifique el formato con antelación.

Enmascaramiento de funciones de búsqueda

Existen algunos campos de PII que no pueden generarse fácilmente mediante un algoritmo. Se trata de cuestiones como nombres o apellidos, o direcciones postales. En estos casos, ambas soluciones tienen funciones de búsqueda para buscar valores en tablas completadas previamente que contienen cosas como nombres y direcciones. El índice del valor buscado para reemplazar al original es elegido de manera aleatoria o al generar un valor de ingreso. La generación de un valor de ingreso se realiza para mantener la coherencia cuando se realiza el enmascaramiento.

Algunas de estas funciones de enmascaramiento de datos se muestran en la Figura 1.

Figura 1. Un muestreo de los algoritmos de enmascaramiento de datos de Optim para la solución de enmascaramiento de datos
The Optim Data Masking Algorithms for the Data Masking Solution

Coherencia

Ambas soluciones tienen algoritmos de enmascaramiento que están diseñados con fines de coherencia. No importa cuándo deba ejecutarse el proceso de enmascaramiento, se generarán los mismos valores si los valores de ingreso son iguales. Esto resulta muy útil al volver a completar o ajustar sus conjuntos de datos de prueba sin interrumpir pruebas de regresión existentes que pueden confiar en la presencia de determinados valores en los entornos de prueba.

Integridad referencial

Algunos valores que están ocultos se ubican en tablas múltiples, y las aplicaciones que se prueban confían en que los valores entre esas tablas son los mismos. Ambas soluciones están diseñadas para permitirle ocultar valores y luego propagar los resultados a las otras tablas.

Personalización

Ambas soluciones permiten a los clientes desarrollar funciones de transformación personalizada para extender las que ya vienen con los productos. La opción de enmascaramiento de datos de InfoSphere Optim para la Gestión de datos de prueba le permite desarrollar nuevas funciones de privacidad de datos utilizando las salidas del mapa de la columna en C/C++, o al crear guiones en el lenguaje Lua. DataStage puede extenderse mediante C/C++ o BASIC en las Etapas de transformador, o al crear operadores personalizados en C/C++.

Movimiento de Datos

Las dos soluciones extraen datos, los ocultan y luego los colocan en un entorno de destino. Incluso de esta manera, la forma en que mueven los datos es muy diferente. Las diferencias en el movimiento de los datos son el punto focal de la siguiente sección.


Diferencias de la solución

Este artículo ha discutido cómo, en términos de funcionalidad de enmascaramiento de datos, ambas soluciones ofrecen un conjunto de funciones similares. Ambas ocultan los datos para que ya no sean sensibles pero sigan siendo realistas. Ambas le permiten hacer esto mientras mantienen la coherencia entre los procesos de enmascaramiento de datos y la integridad referencial entre las tablas. Ambas mueven los datos desde la producción, los ocultan y los colocan en un destino objetivo. La siguiente sección examinará lo que hace que cada una de ellas sea especial.

Los productos InfoSphere Optim

Con los productos InfoSphere Optim, existe una versión para el Sistema z y una versión para los sistemas distribuidos. Como la versión distribuida fue modelada sobre la versión del Sistema z, aparte de cómo tratan con IMS y realizan el archivo plano de los datos, tienen un aspecto bastante similar.

Tanto los productos de Sistema z y Distribuidos de Infosphere Optim ocultan datos que fueron colocados en archivos. El proceso de extracción tiene como resultado un archivo de extracción. Los datos luego se ocultan mediante un proceso de conversión. En ese momento, el archivo de extracción oculto se envía a los entornos de destino. Si se desarrolla una solicitud de carga, los archivos de carga son generados desde el archivo de extracción oculto y enviado a la utilidad cargadora de la base de datos en cuestión. La Figura 2 le muestra este proceso.

Figura 2. El proceso de enmascaramiento para el enmascaramiento Optim del producto TDM
The Masking process for the Optim Masking for TDM Product

Los productos InfoSphere Optim funcionan a su mejor nivel cuando se incorporan a una iniciativa de Gestión de datos de prueba más grande en lugar de realizar el enmascaramiento de datos solos. Las soluciones operan en lo que es conocido entre los practicantes de InfoSphere Optim como el objeto comercial completo, que es una lista de tablas y relaciones entre esas tablas que definen un proceso comercial de extremo a extremo. Ambas soluciones de Optim fueron diseñadas específicamente para extraer suficientes datos para sus entornos de prueba, y no más. Hacen esto al atravesar las relaciones en los datos y recoger elementos de datos relacionados. La sección Recursos posee un artículo que explica el objeto comercial completo de manera más exhaustiva.

Un desarrollo reciente para los productos InfoSphere Optim es que la herramienta de tiempo de diseño fue completamente actualizada y remodelada para convertirse en un componente basado en Eclipse denominado Diseñador de InfoSphere Optim, que se muestra en la Figura 3. Al mismo tiempo, se desarrolló un marco de gestión basado en la Web. Tener una interfaz basada en web separada de la interfaz de diseño le permite brindar control con mayor facilidad a los usuarios de los datos de prueba sobre cuándo y cómo se actualizan sus datos de prueba.

Figura 3. Aplicación de políticas de enmascaramiento de datos mediante el diseñador de Optim
The Optim Data Masking Algorithms for the Data Masking Solution

En resumen, en términos de selección de datos para el movimiento de datos, los productos InfoSphere Optim son similares a las herramientas quirúrgicas que disecan casos de prueba de la producción. Esto no quiere decir que las soluciones Optim no puedan manejar grandes cantidades de datos (pueden hacerlo y lo han hecho en el pasado), pero tienen extensas capacidades de subconfiguración que no estaban incluidas con las mismas habilidades de movimiento de datos masivos de las herramientas de Extracción, Transformación y Carga (ETL).

Paquete InfoSphere DataStage para enmascaramiento de datos

El Paquete InfoSphere DataStage para enmascaramiento de datos es un paquete suplementario para InfoSphere DataStage que, a su vez, forma parte de la suite de IBM Information Server. InfoSphere DataStage es una herramienta de ETL desarrollada para mover grandes cantidades de datos de un sistema a otro.

Ahora bien, si desea mover, ocultar y cargar todos sus datos de producción y desea hacerlo muy rápido en un sistema que escala a cantidades de datos muy grandes, InfoSphere DataStage con la adición del paquete para ocultar datos puede hacerlo muy bien. Puede hacerlo al estar desarrollada sobre una arquitectura de movimiento de datos de ETL de grado empresarial. Aunque existe algún grado de paralelismo en Optim, es mucho más extenso en DataStage, permitiendo la utilización completa del multiprocesamiento simétrico (SMP), la agrupación en clústers, los despliegues de cuadrícula y el procesamiento masivamente paralelo (MPP). DataStage se destaca a la hora de dividir cargas de trabajo en procesos concurrentes y computadoras múltiples. Consulte la sección Recursos para obtener una descripción general de las capacidades de DataStage en lo que respecta al escalamiento.

Otra diferencia importante entre los productos InfoSphere Optim y los Paquetes DataStage para enmascaramiento de datos es que DataStage no necesita crear archivos de extracción intermediarios. Los datos extraídos pueden ocultarse y enviarse a una base de datos de destino sin escribir los datos en un almacenamiento persistente. Así pues, los trabajos que se ejecutan con DataStage pueden ser menos vinculados a la E/S cuando se comparan con los productos InfoSphere Optim. Reducir los requisitos de E/S del disco resulta útil para los entornos que tienen recursos de E/S limitaos, por ejemplo, un entorno virtualizado que comparte sus recursos en disco con muchas otras máquinas virtuales.

Como DataStage no requiere la escritura de datos en un almacenamiento persistente, también permite que sus procesos sean segmentados, lo que significa que la extracción, el enmascaramiento y la inserción ocurren de manera concurrente en lugar de ser procesos separados, ayudando a reducir la cantidad total de tiempo para la ejecución del proceso. Esto en ocasiones se denomina segmentación. Consulte la Figura 4 para obtener una ilustración y considere cómo se compara esto con la Figura 2 que muestra el proceso de los productos InfoSphere Optim. Si así lo desea, DataStage también puede producir archivos intermediarios, pero esto no es un requisito.

Figura 4. El proceso de enmascaramiento para el Paquete InfoSphere DataStage para enmascaramiento de datos
The Masking process for the Optim Masking for TDM Product

Incluso así, hay mucha menos flexibilidad en el Paquete InfoSphere DataStage en comparación con los productos InfoSphere Optim porque se debe seleccionar un subconjunto específico de datos para ocultarlos. DataStage es impulsado por declaraciones SQL suministradas, mientras que InfoSphere Optim es impulsado por el modelo de base de datos atravesada, recogiendo elementos de datos relacionados desde un punto de partida. Entonces, mientras DataStage está desarrollado para la máxima escalabilidad y puede mover mayores conjuntos de datos mucho más rápido, Optim es mejor a la hora de mover sólo lo que es necesario para los entornos de prueba. DataStage es la motosierra para el bisturí de Optim.

También vale la pena recordar que DataStage, completo con el Paquete InfoSphere DataStage para enmascaramiento de datos, puede hacer mucho más que ocultar datos. Se trata de un marco de ETL completo que puede ayudarlo a desarrollar sistemas como depósitos de datos al reestructurar y mover datos desde las bases de datos transaccionales. Tenga en mente también que DataStage forma parte de una plataforma más grande denominada Servidor de información InfoSphere. Aparte de las capacidades de ETL de DataStage, el Servidor de información contiene herramientas para ayudarlo a gestionar sus metadatos, mejorar la calidad de los datos, desarrollar un vocabulario de sistema en común y automatizar las tareas de integración de datos. Puede adquirir DataStage sin la suite del Servidor de información, pero es una ventaja principal que el producto forme parte de semejante plataforma de datos extensa y bien integrada.

La Figura 5 muestra uno de los trabajos de enmascaramiento de datos más sencillos que puede crear en DataStage.

Figura 5. Un trabajo de enmascaramiento de datos en DataStage
A data masking Job in DataStage

La Figura 6 muestra el enmascaramiento de una dirección mediante una función de búsqueda en la interfaz de DataStage.

Figura 6. Enmascaramiento de una dirección en DataStage mediante una tabla de búsqueda
A data masking Job in DataStage

Enmascaramiento a pedido con fines de flexibilidad

Otros nombres para el enmascaramiento de datos a pedido

Desde su presentación, ha existido algo de confusión sobre el nombre de este API con nuevo acceso. Algunos nombres comunes utilizados son Procedimientos o Proveedores de privacidad de datos de Optim (ODPP), Servicios de privacidad de datos de Optim u Enmascaramiento de datos de Optim a pedido. Todos los términos hacen referencia efectivamente a lo mismo.

Si el punto en común de los productos de enmascaramiento es su uso de las mismas funciones de enmascaramiento de datos, puede estar preguntándose si puede utilizar esas funciones de enmascaramiento sin utilizar uno de los motores de movimiento de datos discutidos anteriormente en este artículo. La buena noticia es que los productos InfoSphere Optim ahora incluyen estas funciones en un API con acceso externo. Estas funciones son las mismas utilizadas por los productos InfoSphere Optim tanto para Sistema z y Distribuidos, como también para los paquetes de enmascaramiento de datos para Data Stage.

Un caso de uso del nuevo API es la creación de procedimientos de enmascaramiento de datos almacenados dentro de la base de datos. Como no tiene que ocurrir ningún movimiento dentro ni fuera de la base de datos, estos procedimientos pueden ocultar los datos extremadamente rápido en comparación con otros métodos. Muchos clientes prefieren el enmascaramiento en el lugar como este porque es posible que ya hayan invertido mucho en la infraestructura necesaria para actualizar rápidamente sus entornos de prueba.

Otra solución que oculta en el lugar

El enmascaramiento en el lugar sin crear procedimientos almacenados que accedan al API de Optim puede realizarse con otra solución conocida como la Solución de privacidad de datos InfoSphere Optim (que no debe confundirse con la solución InfoSphere Optim que es el tema de este artículo). Esta solución no escribe datos en archivos intermedios. En lugar de eso, extrae, oculta e inserta datos como un solo proceso segmentado. Todo el enmascaramiento ocurre fuera de la base de datos en un motor basado en Java con esta solución.

Una cosa que se debe tener en mente al utilizar estos API, especialmente en el caso de uso del procedimiento almacenado, es que los datos no ocultos pueden entrar en contacto con un ambiente ajeno a la producción. Incluso si este contacto ocurre durante un periodo de tiempo breve, resulta una inquietud de seguridad y debe planificarse con anticipación. En comparación, los procesos para crear una separación ordenada entre sus datos no ocultos y los entornos ajenos a la producción son bien conocidos cuando se utilizan los productos InfoSphere Optim e InfoSphere DataStage.

También vale la pena mencionar aquí que tener un API externamente disponible para el enmascaramiento de datos abre otras posibilidades para ayudar con la gestión de los datos de prueba. Por ejemplo, el API puede utilizarse para ayudar a facilitar la creación de talones y servicios de prueba, o puede utilizarse para ocultar fuentes de datos que no están admitidas directamente por InfoSphere DataStage o los productos InfoSphere Optim.


Tabla de comparación

La Tabla 1 muestra la comparación de las tres soluciones de enmascaramiento de datos de IBM.

Tabla 1. Una comparación de las tres soluciones de enmascaramiento de datos de IBM
RecursoOpción de enmascaramiento de datos InfoSphere Optim para la gestión de los datos de prueba (Distribuidos y IBM para z/OS)Paquete InfoSphere DataStage para enmascaramiento de datos
Algoritmos de enmascaramiento realísticos
Enmascaramiento coherente entre sistemas y períodos de tiempo
Mantenimiento de la integridad referencial
Posibilidad de personalizaciónSÍ (C, C++ o Lua para Distribuidos. Ensamblador, frente a COBOL II, PL/I, C, o Lua para z/OS).SÍ (C/C++/BASIC)
Viene con funciones de privacidad de datos redimibles externamenteNO
Funciona con utilidades de carga de base de datos nativas
Procesos segmentados (E/S del servidor de enmascaramiento reducidas)NO
Funciona sobre el concepto de un objeto comercial completo (permite la creación de un subconjunto eficiente)NO
Desarrollado para el multiprocesamiento simétrico (SMP), la agrupación en clústers, los despliegues de cuadrícula y el procesamiento masivamente paralelo (MPP)NO (pero existe algo de respaldo de SMP).
Respaldo del origen de datos heterogéneo (consulte la sección Recursos para conocer las listas de plataformas)

Conclusión

Este artículo exploró las funciones primarias que son necesarias para una solución de enmascaramiento de datos. Estas incluyen algoritmos de enmascaramiento de datos extensos que no solo ocultan los datos, sino que lo hacen de manera realista mientras mantienen la integridad referencial en los datos y la coherencia a lo largo del tiempo y entre las bases de datos. También discutió de qué maneras estas funciones están presentes en ambas soluciones de IBM para el enmascaramiento de datos: La opción de enmascaramiento de datos InfoSphere Optim para la Gestión de datos de prueba y el Paquete InfoSphere DataStage para el enmascaramiento de datos.

El artículo luego discutió las diferencias entre las soluciones. Los productos InfoSphere Optim se destacan a la hora de extraer quirúrgicamente pequeñas cantidades de datos para enmascaramiento. El paquete InfoSphere DataStage para enmascaramiento de datos fue desarrollado sobre DataStage, una herramienta de ETL de clase empresarial que se destaca en lo que respecta a paralelismo y escalabilidad. Finalmente, en el artículo se discutió el uso del API de enmascaramiento de datos brindado por los productos InfoSphere Optim. El uso de estas opciones le permite brindar su propio motor de movimiento de datos, y puede brindar flexibilidad adicional para ocultar sus datos en entornos ajenos a la producción.


Reconocimientos

  • Agradezco a mi esposa, Erin Haldeman, por su aliento constante y por su ayuda para convertir mis frases en oraciones.
  • Agradezco a Polly Lau, Martin Dizon y Alan Fischer e Silva del equipo de InfoSphere Optim Technology Ecosystem del Laboratorio de IBM en Canadá por revisar el artículo y proporcionar sus valiosos comentarios sobre su contenido.
  • Agradezco a Aarti Borkar y Jim Lee del equipo de Gestión de productos de InfoSphere Optim de IBM por responder mis preguntas sobre la obtención de licencias de los productos.
  • Agradezco a mis colegas: Greg Marshall, David Slater, Doug Mogck y DuQuay Allen de Information Insights por sus comentarios sobre el artículo.
  • Un agradecimiento especial a mi colega, Matt Simons, por su asistencia manteniéndome actualizado con los desarrollos acerca de enmascaramiento en lo que respecta a los productos InfoSphere Optim.

Recursos

Aprender

Obtener los productos y tecnologías

  • Desarrolle su próximo proyecto de desarrollo con el software de prueba de IBM, disponible para su descarga directamente desde developerWorks.
  • Evalúe los productos de IBM de la forma en que más le convenga: Descargue pruebas de productos, pruebe un producto online, utilice un producto en el entorno de la nube o pase algunas horas en SOA Sandbox aprender a implementar eficientemente arquitectura orientada al servicio.

Comentar

  • Participe en la comunidad My developerWorks. Conéctese con otros usuarios de developerWorks mientras explora los blogs, foros, grupos y wikis dirigidos al desarrollador.

Comentarios

developerWorks: Ingrese

Los campos obligatorios están marcados con un asterisco (*).


¿Necesita un IBM ID?
¿Olvidó su IBM ID?


¿Olvidó su Password?
Cambie su Password

Al hacer clic en Enviar, usted está de acuerdo con los términos y condiciones de developerWorks.

 


La primera vez que inicie sesión en developerWorks, se creará un perfil para usted. La información en su propio perfil (nombre, país/región y nombre de la empresa) se muestra al público y acompañará a cualquier contenido que publique, a menos que opte por la opción de ocultar el nombre de su empresa. Puede actualizar su cuenta de IBM en cualquier momento.

Toda la información enviada es segura.

Elija su nombre para mostrar



La primera vez que inicia sesión en developerWorks se crea un perfil para usted, teniendo que elegir un nombre para mostrar en el mismo. Este nombre acompañará el contenido que usted publique en developerWorks.

Por favor elija un nombre de 3 - 31 caracteres. Su nombre de usuario debe ser único en la comunidad developerWorks y debe ser distinto a su dirección de email por motivos de privacidad.

Los campos obligatorios están marcados con un asterisco (*).

(Por favor elija un nombre de 3 - 31 caracteres.)

Al hacer clic en Enviar, usted está de acuerdo con los términos y condiciones de developerWorks.

 


Toda la información enviada es segura.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=90
Zone=Information mgmt
ArticleID=857163
ArticleTitle=Compare las soluciones de enmascaramiento de datos de IBM: InfoSphere Optim y DataStage
publish-date=02042012