Establecer datos coherentes mediante estandarización

La estandarización de datos facilita que los datos de origen sean internamente coherentes; es decir, que cada tipo de datos tenga el mismo tipo de contenido y de formato.

La etapa Standardize parte de la interpretación de los datos durante la etapa Investigate. La etapa Standardize vuelve a formatear datos y crea una presentación de datos coherente con columnas fijas y diferenciadas, de acuerdo con los requisitos de la empresa.

La etapa Standardize utiliza la colocación y el contenido de datos dentro del contexto del registro para determinar el significado de cada elemento de datos. Ejemplos habituales de elementos de datos que identificarse son nombre, dirección, ciudad, estado y código postal.

Para analizar e identificar correctamente cada elemento o valor (anteriormente llamado señal) y colocarlos en la columna adecuada del archivo de salida, la etapa Standardize utiliza conjuntos de reglas que están diseñadas para ajustarse a los estándares o los convenios. Por ejemplo, puede estandarizar los nombres de datos (individuos y empresas) y las direcciones para que se ajusten a los convenios de un país determinado. Los conjuntos de reglas que se utilizan en la etapa Standardize pueden asimilar los datos y anexar información adicional de los datos de entrada, como el sexo. Estos conjuntos de reglas son las mismas que las que utiliza la etapa Investigate.

Los datos estandarizados son importantes por los siguientes motivos:

La etapa Standardize analiza columnas de formato libre y de formato fijo separándolas en columnas de un solo dominio para crear una representación coherente de los datos de entrada.

La etapa Standardize toma una única entrada, que puede ser un enlace desde un conector de base de datos soportado por InfoSphere DataStage, un archivo sin formato o conjunto de datos o cualquier etapa de proceso. No es necesario restringir los datos en columnas de longitud fija.

La etapa Standardize sólo tiene un enlace de salida. Este enlace puede enviar la salida estandarizada y la entrada sin formato a cualquier otra etapa.