¿Qué es una línea de trabajo de datos?
Las líneas de trabajo de datos recopilan, transforman y almacenan datos para mostrarlos a los stakeholders para distintos proyectos de datos.
vista aérea desde arriba de una refinería de petróleo por la noche, Tailandia.
¿Qué es una línea de trabajo de datos?

Una línea de trabajo de datos es un método en el que se obtienen datos sin procesar de varias fuentes de datos y luego se transfieren a un almacén de datos, como un data lake o un almacén de datos, para su análisis. Antes de que los datos fluyan a un depósito de datos, generalmente se someten a algún procesamiento de datos. Esto incluye transformaciones de datos como, por ejemplo, filtrado, enmascaramiento y agregaciones, que garantizan la integración y la estandarización adecuadas de los datos. Esto es particularmente importante cuando el destino del conjunto de datos es una base de datos relacional. Este tipo de repositorio de datos tiene un esquema definido que requiere alineación, es decir, coincidencia de columnas y tipos de datos, para actualizar los datos existentes con datos nuevos. 

Como sugiere el nombre, las líneas de trabajo de datos actúan como "tuberías" para proyectos de ciencia de datos o paneles de inteligencia empresarial. Los datos se pueden obtener desde distintos lugares: API, bases datos SQL y NoSQL, archivos, etcétera, pero desafortunadamente, esos datos generalmente no están listos para su uso inmediato. Las tareas de preparación de datos generalmente recaen sobre los hombros de los científicos o ingenieros de datos, quienes estructuran los datos para satisfacer las necesidades del caso de uso comercial. El tipo de procesamiento de datos que requiere una línea de trabajo de datos generalmente se determina por medio de una combinación de análisis de datos exploratorios y requisitos comerciales definidos. Una vez que los datos se han filtrado, combinado y resumido adecuadamente, se pueden almacenar y poner a disposición para su uso. Las líneas de trabajo de datos bien organizadas proporcionan la base para una variedad de proyectos de datos. Esto puede incluir análisis de datos exploratorios, visualizaciones de datos y tareas de machine learning.

Tipos de líneas de trabajo de datos

Hay dos tipos principales de líneas de trabajo de datos, que son el procesamiento por lotes y la transmisión de datos.

Procesamiento por lotes

El desarrollo del procesamiento por lotes fue un paso crítico en la creación de infraestructuras de datos que fueran confiables y escalables. En 2004, MapReduce, un algoritmo de procesamiento por lotes, fue patentado y posteriormente integrado en sistemas de código abierto, como Hadoop, CouchDB y MongoDB.

Como su nombre lo indica, el procesamiento por lotes carga "lotes" de datos en un repositorio durante intervalos de tiempo establecidos, que normalmente se programan fuera del horario comercial. De esta forma, otras cargas de trabajo no se ven afectadas, ya que los trabajos de procesamiento por lotes tienden a trabajar con grandes volúmenes de datos, lo que puede afectar al sistema en general. El procesamiento por lotes suele ser la línea de trabajo de datos óptima cuando no hay una necesidad inmediata de analizar un conjunto de datos específico (por ejemplo, contabilidad mensual) y está más asociado con el proceso de integración de datos ETL, que significa "extraer, transformar y cargar".

Los trabajos de procesamiento por lotes forman un flujo de trabajo de comandos secuenciados, donde la salida de un comando se convierte en la entrada del siguiente comando. Por ejemplo, un comando puede iniciar la ingestión de datos, el siguiente comando puede desencadenar el filtrado de columnas específicas y el siguiente comando puede manejar la agregación. Esta serie de comandos continuará hasta que los datos se transformen por completo y se escriban en el repositorio de datos.

Transmisión de datos

A diferencia del procesamiento por lotes, la transmisión de datos se aprovecha cuando se requiere que los datos se actualicen continuamente. Por ejemplo, las aplicaciones o los sistemas de punto de venta necesitan datos en tiempo real para actualizar el inventario y el historial de ventas de sus productos. De esa manera, los vendedores pueden informar a los consumidores si un producto está disponible o no. Una sola acción, como la venta de un producto, se considera un "evento", y los eventos relacionados, como agregar un artículo a la caja, generalmente se agrupan como un "tema" o "flujo". Luego, estos eventos se transportan a través de sistemas de mensajería o Message Brokers, como la solución de código abierto, Apache Kafka. 

Dado que los eventos de datos se procesan poco después de ocurrir, los sistemas de procesamiento de transmisión tienen una latencia más baja que los sistemas por lotes, pero no se consideran tan confiables como los sistemas de procesamiento por lotes, ya que los mensajes pueden perderse involuntariamente o pasar mucho tiempo en la cola. Los Message Brokers ayudan a solucionar este problema mediante confirmaciones, en las que un consumidor confirma el procesamiento del mensaje al broker para eliminarlo de la cola. 

Descubra cómo crear una aplicación de streaming de Kafka con IBM Streams

Arquitectura de la línea de trabajo de datos

Tres pasos básicos conforman la arquitectura de una línea de trabajo de datos. 

1. Ingestión de datos: los datos se recopilan de distintas fuentes de datos, que incluyen varias estructuras de datos (es decir, datos estructurados y no estructurados). Dentro de los datos de transmisión, estas fuentes de datos sin procesar generalmente se conocen como productores, editores o remitentes. Si bien las empresas pueden optar por extraer datos solo cuando están listas para procesarlos, es una mejor práctica colocar primero los datos sin procesar en un proveedor de almacenamiento de datos en la nube. De esta forma, la empresa puede actualizar cualquier dato histórico si necesita realizar ajustes en los trabajos de procesamiento de datos. 

2. Transformación de datos: durante este paso, se ejecuta una serie de trabajos para procesar los datos en el formato requerido por el repositorio de datos de destino. Estos trabajos integran automatización y gestión para flujos de trabajo repetitivos, como informes comerciales, lo que garantiza que los datos se limpien y transformen de manera consistente.  Por ejemplo, un flujo de datos puede venir en formato JSON anidado, y la etapa de transformación de datos tendrá como objetivo desenrollar ese JSON para extraer los campos clave para el análisis.

3. Almacenamiento de datos: luego, los datos transformados se almacenan en un repositorio de datos, donde pueden exponerse a varios stakeholders. Dentro de la transmisión de datos, estos datos transformados generalmente se conocen como consumidores, suscriptores o destinatarios.  

Línea de trabajo de datos frente a línea de trabajo ETL

Es posible que encuentre que algunos términos, como línea de trabajo de datos y línea de trabajo ETL, se usan indistintamente en una conversación. Sin embargo, debe pensar en una línea de trabajo ETL como una subcategoría de líneas de trabajo de datos. Los dos tipos de líneas de trabajo se distinguen por tres características principales:

• Las líneas de trabajo ETL siguen una secuencia específica. Como implica la abreviatura, extraen datos, transforman datos y luego cargan y almacenan datos en un repositorio de datos. No es necesario que todas las líneas de trabajo de datos sigan esta secuencia. De hecho, las líneas de trabajo de ELT se han vuelto más populares con la llegada de las herramientas nativas en la nube. Si bien la ingesta de datos aún ocurre primero con este tipo de línea de trabajo, cualquier transformación se aplica después de que los datos se hayan cargado en el almacenamiento de datos en la nube.  

• Las líneas de trabajo de ETL también tienden a implicar el uso de procesamiento por lotes, pero como señalamos anteriormente, el alcance de las líneas de trabajo de datos es más amplio. También pueden incluir el procesamiento de flujos. 

• Finalmente, aunque es poco probable, las líneas de trabajo de datos en su conjunto no necesariamente deben sufrir transformaciones de datos, como las líneas de trabajo de ETL. Es raro ver una línea de trabajo de datos que no utilice transformaciones para facilitar el análisis de datos. 

Casos de uso de líneas de trabajo de datos

A medida que el big data sigue creciendo, la gestión de datos se convierte en una prioridad cada vez mayor. Si bien las líneas de trabajo de datos cumplen varias funciones, las siguientes son tres aplicaciones generales de ellas dentro de los negocios: 

• Análisis exploratorio de datos: los científicos de datos utilizan el análisis exploratorio de datos (EDA) para analizar e investigar conjuntos de datos y resumir sus características principales, a menudo empleando métodos de visualización de datos. Ayuda a determinar la mejor manera de manipular los orígenes de datos para obtener las respuestas que usted necesita, lo que facilita que los científicos de datos descubran patrones, detecten anomalías, prueben una hipótesis o verifiquen suposiciones.

• Visualizaciones de datos: las visualizaciones de datos representan datos por medio de gráficos comunes, como tablas, diagramas, infografías e incluso animaciones. Estas representaciones visuales de información comunican relaciones complejas de datos y conocimientos basados en datos de una manera fácil de entender.

• Machine learning: machine learning es una rama de la inteligencia artificial (IA) y la ciencia de la computación que se centra en el uso de datos y algoritmos para imitar la forma en que los humanos aprenden, mejorando gradualmente su precisión. Mediante el uso de métodos estadísticos, los algoritmos se capacitan para hacer clasificaciones o predicciones, descubriendo insights clave dentro de los proyectos de minería de datos.

Soluciones de IBM
Recursos Cree una línea de trabajo de datos completa con IBM Cloud Pak for Data y Datameer

Lea el blog sobre cómo la asociación entre IBM Cloud Pak for Data y Datameer puede ayudarle a crear una línea de trabajo de datos sólida.

Cree una base de datos sólida para la IA

Lea el documento inteligente acerca de cómo crear una base de datos sólida para la IA centrándose en tres áreas clave de gestión de datos: acceso, gestión, privacidad y conformidad

Líneas de trabajo de datos e IBM

IBM Cloud Pak® for Data aprovecha los microservicios y sus principales capacidades de datos e inteligencia artificial para permitir la integración inteligente de datos en sistemas distribuidos, proporcionando a las empresas una visión integral del rendimiento empresarial. Esto facilita una recopilación, organización e insights más rápidos de los datos empresariales, lo que permite a las empresas tomar decisiones a escala. Los equipos de gestión de datos también pueden confiar en que sus datos están seguros con los marcos de seguridad competitivos de IBM, lo que garantiza el cumplimiento de las políticas regulatorias y reduce los riesgos de conformidad. Descubra cómo IBM Cloud Pak® for Data e IBM Streams pueden mejorar la arquitectura de la línea de trabajo de datos de su empresa en varios entornos.

IBM Cloud Pak® for Data