¿Qué es la transmisión de datos?

¿Qué es la transmisión de datos?

La transmisión de datos es el flujo continuo de datos en tiempo real desde diversas fuentes. A diferencia del procesamiento por lotes, que gestiona conjuntos de datos a intervalos programados, los datos de transmisión se procesan a medida que llegan para obtener perspectivas inmediatas y en tiempo real.

Hoy en día, las organizaciones generan grandes volúmenes de datos de todo tipo, desde dispositivos del Internet de las cosas (IoT) hasta transacciones de comercio electrónico. La transmisión de datos, también conocida como "transmisión de datos" o "transmisión de datos en tiempo real", ayuda a las organizaciones a procesar estos flujos continuos de datos a medida que llegan.

Estos son algunos ejemplos de transmisión de datos:

  • Datos del mercado financiero que rastrean los precios de las acciones y la actividad comercial
  • Lecturas de sensores IoT que monitorizan el rendimiento del equipo
  • Flujos de actividad en redes sociales que capturan la participación del usuario
  • Datos del flujo de clics del sitio web que muestran los patrones de comportamiento de los visitantes

Las organizaciones suelen utilizar la transmisión de datos para respaldar iniciativas empresariales que dependen de los datos en tiempo real para una toma de decisiones rápida y basada en datos, como el análisis de datos y la inteligencia empresarial (BI).

La transmisión de datos suele formar parte de los esfuerzos de recopilación y procesamiento de big data. Por ejemplo, las organizaciones pueden analizar flujos de datos continuos mediante el análisis de big data para obtener perspectivas sobre la eficiencia operativa, las tendencias de los consumidores y la dinámica cambiante del mercado.

Como fluye continuamente, la transmisión de datos requiere métodos de procesamiento diferentes a los del procesamiento por lotes tradicional. Estos a menudo incluyen arquitecturas de transmisión escalables y procesadores de transmisión que administran la ingesta, el procesamiento y el análisis de datos mientras mantienen un rendimiento óptimo.

En los últimos años, el auge de la inteligencia artificial (IA) y el machine learning ha aumentado aún más el enfoque en las capacidades de transmisión de datos. Estas tecnologías se basan a menudo en el proceso de datos para generar perspectivas y predicciones en tiempo real.

Según Gartner, el 61 % de las organizaciones afirman tener que evolucionar o replantearse su modelo operativo de datos y análisis debido al impacto de las tecnologías de IA1

WealthAPI, una fintech, construyó su plataforma de análisis financiero en torno a una arquitectura de transmisión basada en eventos para gestionar flujos continuos de datos bancarios y de transacciones inconsistentes en tiempo real. Los datos entrantes se almacenan en búfer y se distribuyen a través de Google Publish/Subscribe, un servicio de mensajería que desacopla a los productores de datos de los sistemas downstream y permite que múltiples servicios consuman el mismo flujo simultáneamente. A continuación, IBM® watsonx.data gestiona la recuperación de datos estructurados de alto rendimiento, proporcionando perspectivas financieras hasta un 80 % más rápido, atendiendo a decenas de miles de usuarios y escalando a millones sin cambios en la arquitectura.

Transmisión de datos frente a procesamiento por lotes

Las organizaciones pueden procesar datos de dos formas principales: procesamiento por lotes o transmisión de datos.

Aunque ambos métodos manejan grandes volúmenes de datos, sirven para casos de uso diferentes y requieren arquitecturas distintas.

Las diferencias clave incluyen:

  • Modelo de procesamiento: el proceso de datos por lotes agrega y analiza conjuntos de datos en lotes a intervalos fijos, mientras que la transmisión de datos utiliza herramientas de proceso de datos en tiempo real para procesar los datos a medida que llegan. Esto significa que los sistemas de transmisión pueden proporcionar perspectivas y actuar de inmediato, mientras que los sistemas por lotes funcionan con una programación periódica.

  • Necesidades de infraestructura: los sistemas por lotes a menudo utilizan herramientas tradicionales de almacenamiento y análisis de datos, como almacenes de datos, mientras que la transmisión de datos requiere marcos y plataformas de transmisión de datos creadas para manejar flujos de datos en tiempo real.

  • Requisitos de rendimiento: los sistemas por lotes pueden optimizar el uso de recursos durante las ejecuciones programadas, mientras que el procesamiento de flujos necesita sistemas tolerantes a fallos con baja latencia. En otras palabras, los sistemas de transmisión deben procesar los datos en tiempo real sin retrasos, incluso cuando los volúmenes de datos son altos o se producen problemas.

Las organizaciones suelen elegir entre el procesamiento por lotes y por flujos en función de los volúmenes de datos, las necesidades de latencia y los objetivos empresariales. Muchas utilizan ambos enfoques dentro de un data fabric unificado para gestionar distintos tipos de tareas de datos.

Por ejemplo, una organización de comercio electrónico puede utilizar el procesamiento por lotes para generar informes de ventas diarios y, al mismo tiempo, utilizar datos de la transmisión de datos y sistemas de análisis en tiempo real para monitorizar las principales métricas del sitio web.  

AI Academy

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso satisfactorio de la IA generativa.

Cómo funciona la transmisión de datos

A alto nivel, la transmisión de datos funciona mediante la captura, el procesamiento y el análisis continuos de flujos de datos en tiempo real procedentes de diversas fuentes. Este proceso consta de cuatro etapas clave:

  • Ingesta de datos
  • Procesamiento de flujos
  • Análisis de datos
  • Almacenamiento de datos

Ingesta de datos

La primera etapa consiste en capturar los flujos de datos entrantes de diversas fuentes. Las herramientas modernas de ingesta de datos, como Apache Kafka, almacenan en búfer y estandarizan estas transmisiones a medida que llegan, lo que ayuda a garantizar tanto la escalabilidad como la coherencia de los datos.

Las organizaciones suelen integrar herramientas de ingesta de datos con otros componentes para crear flujos de trabajo unificados. Las herramientas de integración de datos también pueden alinear aún más tipos de datos dispares en un formato estandarizado para su procesamiento, a fin de garantizar que los datos de múltiples fuentes puedan combinarse y analizarse de manera efectiva.

Procesamiento de flujos

En la etapa de procesamiento, los marcos de procesamiento de flujos como Apache Flink analizan y transforman los datos mientras están en movimiento. Estos marcos permiten a las organizaciones:

  • Procesar eventos complejos en tiempo real

  • Realizar agregaciones de datos a escala, como el cálculo de medias, el recuento de eventos o la suma de valores de transacciones

  • Aplicar transformaciones, como filtrar, enriquecer o formatear datos, a medida que los datos fluyen a través del pipeline de datos

Visualización y análisis de datos

En esta etapa, las organizaciones obtienen perspectivas empresariales que se pueden ejecutar a partir de la transmisión de flujos de datos a través de la visualización de datos y otras herramientas analíticas.

Las aplicaciones clave incluyen:

  • Paneles de control en tiempo real que entregan métricas y KPI críticos

  • Aplicaciones operativas que automatizan flujos de trabajo y optimizan procesos

  • Modelos de machine learning que analizan patrones para predecir resultados

Almacenamiento de datos

Cuando se almacena datos en flujo, las organizaciones deben equilibrar la necesidad de acceder rápidamente a los datos para su uso en tiempo real con el almacenamiento de datos a largo plazo, la rentabilidad y las preocupaciones de cumplimiento de datos.

Muchas organizaciones utilizan data lakes y almacenes de datos para almacenar los datos de streaming, ya que estas soluciones ofrecen entornos de almacenamiento flexibles y de bajo coste para grandes cantidades de datos. Una vez capturados los datos del streaming, pueden enviarse a un almacén de datos, donde se pueden limpiar y preparar para su uso.  

Las organizaciones suelen implementar múltiples soluciones de almacenamiento de datos juntas en un data fabric unificado. Por ejemplo, las instituciones financieras podrían utilizar data lakes para almacenar flujos de transacciones sin procesar mientras utilizan almacenes para el análisis y la elaboración de informes.

Tipos de transmisión de datos

Las organizaciones pueden utilizar muchos tipos de datos de transmisión para respaldar el análisis en tiempo real y la toma de decisiones. Algunos de los flujos de datos más habituales son:

Event Streams

Los flujos de eventos capturan las acciones o cambios del sistema a medida que se producen, como las llamadas a la interfaz de programación de aplicaciones (API), los clics en el sitio web o las entradas de registro de la aplicación. Los flujos de eventos se utilizan comúnmente para realizar un seguimiento de las actividades en tiempo real en todos los sistemas, lo que permite respuestas instantáneas a las interacciones de los usuarios o a los eventos del sistema.

Datos de transacciones en tiempo real

Los datos de transacciones en tiempo real capturan flujos continuos de transacciones comerciales, como pagos digitales o compras de comercio electrónico. Los datos de transacciones en tiempo real respaldan aplicaciones como la detección del fraude y la toma de decisiones instantánea.

IoT y datos de sensores

Los datos de IoT y sensores incluyen información sobre las condiciones ambientales, el rendimiento del equipo y los procesos físicos. Estos flujos de datos a menudo admiten la monitorización de equipos en tiempo real y la automatización de procesos.

Casos de uso de transmisión de datos

La transmisión de datos permite a las organizaciones procesar grandes volúmenes de información en tiempo real para obtener perspectivas y tomar medidas inmediatas.

Las aplicaciones comunes incluyen:

Servicios financieros

Las entidades financieras utilizan con frecuencia el análisis en tiempo real para procesar datos de mercado, transacciones e interacciones con los clientes.

Por ejemplo, las compañías de tarjetas de crédito confían en la transmisión de datos para la detección del fraude. Las plataformas de transmisión de datos permiten a estas empresas analizar miles de transacciones por segundo para detectar actividades inusuales y marcar o bloquear las transacciones sospechosas.

Fabricación

Las instalaciones de fabricación modernas suelen utilizar sensores de dispositivos IoT y proceso de datos en tiempo real para mejorar la eficiencia operativa. 

Por ejemplo, una planta de automoción podría monitorizar miles de sensores de la línea de montaje, rastreando métricas como la temperatura, la vibración y el rendimiento. Estos datos pueden ayudar a los operadores a detectar ineficiencias a tiempo y programar el mantenimiento preventivo para evitar tiempos de inactividad.

Sanidad

Los proveedores de asistencia sanitaria confían en las aplicaciones de transmisión para procesar datos de dispositivos médicos y sistemas de monitorización de pacientes.

En las unidades de cuidados intensivos, por ejemplo, los monitores de cabecera transmiten los signos vitales a través de los pipelines de datos hasta los procesadores centrales. Estos procesadores pueden entonces identificar los patrones preocupantes y alertar automáticamente al personal médico cuando es necesaria una intervención.

Venta al por menor y comercio electrónico

Los minoristas y las empresas de comercio electrónico utilizan datos de transmisión de sistemas de punto de venta, sensores de inventario y plataformas en línea para optimizar las operaciones.

Por ejemplo, una gran plataforma de comercio electrónico puede utilizar Apache Kafka para procesar flujos de clics de millones de compradores para medir la demanda y personalizar las experiencias de los clientes.

Transporte y logística

Las empresas de transporte suelen utilizar análisis en tiempo real para procesar datos GPS y lecturas de sensores IoT para la optimización de flotas.

Por ejemplo, un proveedor de logística puede integrar datos en tiempo real de miles de vehículos con conjuntos de datos meteorológicos y de tráfico. Los procesadores de flujo pueden permitir la optimización automatizada de rutas con una latencia mínima para ayudar a los conductores a evitar retrasos. 

Ciberseguridad

La transmisión de datos ayuda a respaldar las medidas de ciberseguridad como la detección automatizada de anomalías. Los sistemas de IA y machine learning pueden analizar los flujos de datos de las herramientas de monitorización en todo el sistema para identificar patrones inusuales o comportamientos sospechosos, permitiendo respuestas inmediatas a posibles problemas. 

La IA y el machine learning

Los datos en transmisión también juegan un papel vital en la IA y el machine learning. Por ejemplo, los marcos de procesamiento de flujos pueden admitir el entrenamiento continuo de modelos de IA para que los algoritmos de machine learning puedan adaptarse a patrones cambiantes casi en tiempo real.

Los sistemas de machine learning también pueden aprender de forma incremental a partir de fuentes de datos de transmisión a través de un proceso llamado aprendizaje en línea, mediante el uso de algoritmos especializados para mejorar la precisión sin requerir un reentrenamiento completo del modelo.

Herramientas y tecnologías de transmisión de datos

Con la ayuda de soluciones de transmisión de datos de código abierto y comerciales, las organizaciones pueden crear pipelines de datos escalables que sean tolerantes a fallos, lo que significa que pueden recuperarse de fallos sin pérdida de datos ni tiempo de inactividad.

Dos tipos clave de tecnologías sustentan la mayoría de las implementaciones de datos de transmisión: marcos de procesamiento de flujos y plataformas de datos de transmisión.

Marcos de procesamiento de flujos

Los marcos de procesamiento de flujos proporcionan la base para gestionar flujos de datos continuos. Estos marcos ayudan a las organizaciones a crear pipelines de datos de alto rendimiento que procesan sistemáticamente grandes volúmenes de datos de forma rápida y fiable.

Tres marcos de código abierto dominan el panorama del streaming:

  • Apache Kafka
  • Apache Flink
  • Apache Spark

Apache Kafka

Kafka, una plataforma de transmisión líder, puede gestionar volúmenes de datos masivos con una latencia de milisegundos. Las organizaciones suelen utilizar Kafka para crear pipelines para el seguimiento de actividades, la monitorización operativa y la agregación de registros. 

Apache Flink

Apache Flink se especializa en el procesamiento de eventos complejos y en los cálculos de estado. Es valioso para el análisis en tiempo real, la detección del fraude y el mantenimiento predictivo, donde es crítico entender el contexto de los acontecimientos a lo largo del tiempo.

Apache Spark

Conocido por sus capacidades analíticas unificadas, Spark puede gestionar datos por lotes y de streaming simultáneamente. Esta capacidad lo hace útil en escenarios en los que las organizaciones necesitan analizar datos históricos junto con datos en vivo.

Plataformas y servicios de transmisión de datos

Las plataformas de transmisión de datos ofrecen diversas herramientas y funciones para ayudar a respaldar todo el ciclo de vida de los datos de transmisión, desde la ingesta y el procesamiento hasta el almacenamiento y la integración.

Muchos de los principales proveedores de servicios en la nube ofrecen soluciones de transmisión de datos gestionadas que facilitan a las organizaciones la configuración de aplicaciones de transmisión de datos de gran volumen. Servicios como Amazon Kinesis de Amazon Web Services (AWS), Microsoft Azure Stream analytics, Dataflow de Google Cloud e IBM Event Streams proporcionan herramientas listas para usar. Las empresas no tienen que crear infraestructuras complejas desde cero.

Estos servicios también pueden integrarse con herramientas de transmisión en las instalaciones para crear arquitecturas híbridas que pueden ayudar a equilibrar las necesidades de rendimiento con los requisitos de protección de datos

Las organizaciones también pueden utilizar herramientas como IBM StreamSets y Confluent para crear pipelines de datos de transmisión adaptadas a sus ecosistemas de TI únicos.

Desafíos de la transmisión de datos

Aunque la transmisión de datos puede ofrecer muchos beneficios, las organizaciones pueden enfrentarse a retos a la hora de construir las arquitecturas de datos necesarias para soportar las aplicaciones de transmisión.

Algunos desafíos comunes incluyen:

  • Escalado de la arquitectura de datos: El procesamiento de datos en tiempo real a menudo implica manejar grandes cantidades de datos provenientes de múltiples fuentes. Las organizaciones pueden tener dificultades si sus arquitecturas de transmisión no pueden escalar de manera eficiente para procesar grandes volúmenes de datos.

  • Mantenimiento de la tolerancia a fallos: Los sistemas de transmisión deben ser tolerantes a fallos mientras procesan potencialmente millones de eventos por segundo. De lo contrario, las organizaciones corren el riesgo de perder datos por fallos y comportamientos indebidos del sistema.

  • Monitorización del rendimiento: Las aplicaciones en tiempo real requieren una monitorización constante de métricas como la latencia, el rendimiento y el uso de recursos para mantener un rendimiento óptimo, una demanda que puede romper sistemas de procesamiento ya sobrecargados.

  • Implementación del gobierno de datos: las organizaciones deben considerar cómo almacenan y procesan los datos de transmisión que contienen información de identificación personal (PII) o otra información confidencial que cae bajo la jurisdicción del Reglamento General de Protección de Datos (RGPD), la California Consumer Privacy Act (CCPA) o otros requisitos de gobierno de datos.

Autores

Annie Badman

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

Soluciones relacionadas
Soluciones de plataforma DataOps

Organice sus datos con las soluciones de plataforma IBM DataOps para garantizar su fiabilidad y prepararlos para la IA a nivel empresarial.

Explore las soluciones DataOps
IBM StreamSets

Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.

Explore StreamSets
Servicios de asesoramiento sobre datos y análisis

Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por conocimientos que ofrezca ventajas empresariales.

Descubra los servicios de análisis
De el siguiente paso

Diseñe una estrategia de datos que elimine los silos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

  1. Explore las soluciones de gestión de datos
  2. Descubra watsonx.data