¿Qué es la transmisión de datos?

Fotografía aérea de varios ríos en un paisaje

Autores

Annie Badman

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

¿Qué es la transmisión de datos?

La transmisión de datos es el flujo continuo de datos en tiempo real desde varias fuentes. A diferencia del procesamiento por lotes, que maneja conjuntos de datos a intervalos programados, los datos de transmisión se procesan a medida que llegan para obtener insights inmediatos y en tiempo real.

Hoy en día, las organizaciones generan grandes volúmenes de datos en todo, desde dispositivos de Internet de las cosas (IoT) hasta transacciones de comercio electrónico. La transmisión de datos, también conocida como "transmisión de datos" o "transmisión de datos en tiempo real", ayuda a las organizaciones a procesar estos flujos continuos de datos a medida que llegan.

Algunos ejemplos de transmisión de datos incluyen:

  • Datos de los mercados financieros que rastrean las cotizaciones bursátiles y la actividad comercial
  • Lecturas de sensores de IoT que monitorean el rendimiento del equipamiento
  • Flujos de actividad de redes sociales que capturan la participación de los usuarios
  • Datos del flujo de clics del sitio web que muestran los patrones de comportamiento de los visitantes

Las organizaciones suelen utilizar la transmisión de datos para respaldar iniciativas empresariales que dependen de datos en tiempo real para una toma de decisiones rápida basada en datos, como el análisis de datos y la business intelligence (BI).

La transmisión de datos suele formar parte de los esfuerzos de recopilación y procesamiento de big data. Por ejemplo, las organizaciones pueden analizar flujos continuos de datos mediante los analytics de big data para obtener insights sobre la eficiencia operativa, las tendencias de los consumidores y la dinámica cambiante del mercado.

Debido a que fluye continuamente, la transmisión de datos requiere métodos de procesamiento diferentes a los del procesamiento por lotes tradicional. Estos a menudo incluyen arquitecturas de transmisión escalables y procesadores de flujo que gestionan la ingesta, el procesamiento y el análisis de datos mientras mantienen un rendimiento óptimo.

En los últimos años, el auge de la inteligencia artificial (IA) y el machine learning ha aumentado aún más el enfoque en las capacidades de datos de transmisión. Estas tecnologías a menudo se basan en el procesamiento de datos de transmisión para generar insights y predicciones en tiempo real.

Según Gartner, el 61 % de las organizaciones informan que tienen que evolucionar o repensar su modelo operativo de datos y analytics debido al impacto de las tecnologías de IA.1

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

Transmisión de datos frente a procesamiento por lotes

Las organizaciones pueden procesar datos de dos maneras principales: procesamiento por lotes o transmisión de datos.

Si bien ambos métodos manejan grandes volúmenes de datos, sirven para diferentes casos de uso y requieren diferentes arquitecturas.

Las diferencias clave incluyen:

  • Modelo de procesamiento: el procesamiento por lotes agrega y analiza conjuntos de datos en lotes a intervalos fijos, mientras que la transmisión de datos utiliza herramientas de procesamiento de datos en tiempo real para procesar los datos a medida que llegan. Esto significa que los sistemas de transmisión pueden generar insights y tomar medidas de inmediato, mientras que los sistemas por lotes operan en un horario periódico.

  • Necesidades de infraestructura: los sistemas por lotes a menudo utilizan herramientas tradicionales de almacenamiento de datos y análisis de datos, como almacenes de datos, mientras que la transmisión requiere infraestructura especializada y plataformas de transmisión de datos creadas para manejar flujos de datos en tiempo real.

  • Requisitos de rendimiento: los sistemas por lotes pueden optimizar el uso de recursos durante las ejecuciones programadas, mientras que el procesamiento de flujos necesita sistemas tolerantes a fallas con baja latencia. En otras palabras, los sistemas de transmisión deben procesar los datos en tiempo real sin demoras, incluso cuando los volúmenes de datos son altos o se producen problemas.

Las organizaciones suelen elegir entre el procesamiento por lotes y por flujos en función de los volúmenes de datos, las necesidades de latencia y los objetivos empresariales. Muchas emplean ambos enfoques dentro de un tejido de datos unificado para gestionar distintos tipos de tareas de datos.

Por ejemplo, una organización de comercio electrónico podría usar el procesamiento por lotes para generar informes de ventas diarios mientras usa datos de transmisión y sistemas de análisis en tiempo real para monitorear métricas clave del sitio web.  

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Cómo funciona la transmisión de datos

A un alto nivel, la transmisión de datos funciona capturando, procesando y analizando continuamente flujos de datos en tiempo real de diversas fuentes. Este proceso consta de cuatro etapas clave:

  • Ingesta de datos
  • Procesamiento de flujos
  • Análisis de datos
  • Almacenamiento de datos

Ingesta de datos

La primera etapa consiste en capturar flujos de datos entrantes de diversas fuentes. Las herramientas modernas de ingesta de datos, como el búfer Apache Kafka, estandarizan estos flujos a medida que llegan, lo que ayuda a garantizar tanto la escalabilidad como la coherencia de los datos.

Las organizaciones suelen realizar la Integración de herramientas de ingesta de datos con otros componentes para crear flujos de trabajo unificados. Las herramientas de integración de datos también pueden alinear aún más los tipos de datos dispar en un formato estandarizado para el procesamiento para ayudar a garantizar que los datos de múltiples fuentes se puedan combinar y analizar de manera efectiva.

Procesamiento de flujos

En la etapa de procesamiento, las infraestructuras de procesamiento de transmisión como Apache Flink analizan y transforman los datos mientras están en movimiento. Estas infraestructuras permiten a las organizaciones:

  • Procese eventos complejos en tiempo real

  • Realice agregaciones de datos a escala, como calcular promedios, contar eventos o sumar valores de transacciones

  • Aplicar transformaciones, como filtrar, enriquecer o formatear datos, a medida que los datos fluyen a través del pipeline de datos

Análisis y visualización de datos

En esta etapa, las organizaciones obtienen insights empresariales procesables a partir de la transmisión de flujos de datos a través de la visualización de datos y otras herramientas analíticas.

Las aplicaciones clave incluyen:

  • Paneles de control en tiempo real que ofrecen métricas y KPI críticos

  • Aplicaciones operativas que automatizan los flujos de trabajo y optimizan los procesos

  • Modelos de machine learning que analizan patrones para predecir resultados

Almacenamiento de datos

Al almacenar datos de transmisión, las organizaciones deben equilibrar la necesidad de acceder rápidamente a los datos para su uso en tiempo real con el almacenamiento de datos a largo plazo , la rentabilidad y las preocupaciones de cumplimiento de datos.

Muchas organizaciones utilizan lagos de datos y lakehouses de datos para almacenar datos de transmisión porque estas soluciones ofrecen entornos de almacenamiento flexibles y de bajo costo para grandes cantidades de datos. Después de capturar los datos de transmisión, se pueden enviar a un almacén de datos, donde se pueden limpiar y preparar para su uso.  

Las organizaciones suelen implementar varias soluciones de almacenamiento de datos juntas en un tejido de datos unificado. Por ejemplo, las instituciones financieras pueden usar lagos de datos para almacenar flujos de transacciones sin procesar mientras usan almacenes para analytics e informes.

Tipos de transmisión de datos

Las organizaciones pueden utilizar muchos tipos de datos de transmisión para respaldar el análisis en tiempo real y la toma de decisiones. Algunos de los flujos de datos de transmisión más comunes incluyen:

Event Streams

Los flujos de eventos capturan las acciones o cambios del sistema a medida que se producen, como las llamadas a la interfaz de programación de aplicaciones (API) o las entradas de registro de aplicaciones. Los flujos de eventos se suelen utilizar para realizar un seguimiento de las actividades en tiempo real en todos los sistemas, lo que permite respuestas instantáneas a las interacciones de los usuarios o a los eventos del sistema.

Datos de transacciones en tiempo real

Los datos de transacciones en tiempo real capturan flujos continuos de transacciones comerciales, como pagos digitales o compras de comercio electrónico. Los datos de transacciones en tiempo real respaldan aplicaciones como la detección de fraudes y la toma de decisiones instantánea.

IoT y datos de sensores

Los datos de IoT y sensores incluyen información sobre las condiciones ambientales, el rendimiento de los equipos y los procesos físicos. Estos flujos de datos a menudo admiten el monitoreo de equipos en tiempo real y la automatización de procesos.

Casos de uso de transmisión de datos

La transmisión de datos permite a las organizaciones procesar grandes volúmenes de información en tiempo real para obtener insights y acciones inmediatas.

Las aplicaciones comunes incluyen:

Servicios financieros

Las instituciones financieras utilizan con frecuencia streaming analytics para procesar datos de mercado, transacciones e interacciones con los clientes.

Por ejemplo, las empresas de tarjetas de crédito confían en la transmisión de datos para la detección de fraudes . Las plataformas de transmisión de datos permiten a estas empresas analizar miles de transacciones por segundo para detectar actividades inusuales y marcar o bloquear transacciones sospechosas.

Manufactura

Las instalaciones modernas de fabricación a menudo utilizan sensores de dispositivos IoT y procesamiento de datos en tiempo real para mejorar la eficiencia operativa. 

Por ejemplo, una planta automotriz podría monitorear miles de sensores de línea de ensamblaje, rastreando métricas como temperatura, vibración y rendimiento. Estos datos pueden ayudar a los operadores a detectar ineficiencias de manera temprana y programar el mantenimiento preventivo para evitar el tiempo de inactividad.

Atención médica

Los proveedores de atención médica confían en las aplicaciones de transmisión para procesar datos de dispositivos médicos y sistemas de monitoreo de pacientes.

En las unidades de cuidados intensivos, por ejemplo, los monitores de cabecera transmiten los signos vitales a través de canales de datos a procesadores centrales, que pueden identificar patrones preocupantes y alertar automáticamente al personal médico cuando es necesaria una intervención.

Venta minorista y comercio electrónico

Los minoristas y las empresas de comercio electrónico utilizan datos de transmisión de los sistemas de punto de venta, sensores de inventario y plataformas en línea para optimizar las operaciones.

Por ejemplo, una gran plataforma de comercio electrónico puede usar Apache Kafka para procesar flujos de clics de millones de compradores para medir la demanda y personalizar las experiencias del cliente.

Transporte y logística

Las empresas de transporte a menudo utilizan streaming analytics para procesar datos GPS y lecturas de sensores IoT para optimizar la flota.

Por ejemplo, un proveedor de logística puede integrar datos en tiempo real de miles de vehículos con conjuntos de datos meteorológicos y de tráfico. Los procesadores de flujo pueden habilitar la optimización automatizada de rutas con una latencia mínima para ayudar a los conductores a evitar retrasos. 

Ciberseguridad

La transmisión de datos ayuda a respaldar las medidas de ciberseguridad como la detección automatizada de anomalías. Los sistemas de IA y machine learning pueden analizar los flujos de datos de las herramientas de monitoreo en todo el sistema para identificar patrones inusuales o comportamientos sospechosos, lo que permite respuestas inmediatas a posibles problemas. 

IA y machine learning

La transmisión de datos también desempeña un papel vital en la IA y el machine learning. Por ejemplo, los marcos de procesamiento de flujos pueden admitir el entrenamiento continuo de modelos de IA para que los algoritmos de machine learning puedan adaptar a los patrones cambiantes casi en tiempo real.

Los sistemas de machine learning también pueden aprender de forma incremental a partir de fuentes de datos de transmisión a través de un proceso llamado aprendizaje en línea, mediante el uso de algoritmos especializados para mejorar la precisión sin requerir un reentrenamiento completo del modelo.

Herramientas y tecnologías de transmisión de datos

Con la ayuda de soluciones de transmisión de datos comerciales y de código abierto, las organizaciones pueden crear pipelines de datos escalables que sean tolerantes a fallas, lo que significa que pueden recuperarse de fallas sin pérdida de datos ni tiempo de inactividad.

Dos tipos clave de tecnologías sustentan la mayoría de las implementaciones de datos de streaming: las infraestructuras de procesamiento de transmisión y las plataformas de datos de transmisión.

Marcos de procesamiento de flujos

Los marcos de procesamiento de flujos proporcionan la base para gestionar flujos de datos continuos. Estos marcos ayudan a las organizaciones a crear pipelines de alto rendimiento que procesan grandes volúmenes de datos de forma coherente, rápida y fiable.

Tres marcos de código abierto dominan el panorama del streaming:

  • apache kafka
  • Apache Flink
  • Supervisión de Apache Spark

apache kafka

Kafka, una plataforma líder de transmisión, puede manejar volúmenes masivos de datos con latencia de milisegundos. Las organizaciones suelen utilizar Kafka para crear pipelines para el seguimiento de actividades, la supervisión operativa y la agregación de registros. 

Apache Flink

Apache Flink se especializa en el procesamiento de eventos complejos y cálculos con estado. Es valioso para el análisis en tiempo real, la detección de fraude y el mantenimiento predictivo, donde es crítico comprender el contexto de los eventos a lo largo del tiempo.

Supervisión de Apache Spark

Conocido por sus capacidades de analytics unificadas, Spark puede manejar datos por lotes y de transmisión simultáneamente. Esta capacidad lo hace útil en escenarios en los que las organizaciones necesitan analizar datos históricos junto con datos en vivo.

Plataformas y servicios de transmisión de datos

Las plataformas de transmisión de datos ofrecen diversas herramientas y funciones para ayudar a soportar todo el ciclo de vida de los datos de streaming, desde la ingestión y el procesamiento hasta el almacenamiento de información y la integración.

Muchos de los principales proveedores de la nube ofrecen soluciones de transmisión de datos gestionadas que facilitan a las organizaciones la configuración de aplicaciones de transmisión de datos de gran volumen. Servicios como Amazon Kinesis de Amazon Web Services (AWS), Microsoft Azure Stream analytics, Dataflow de Google Cloud e IBM Event Streams proporcionan herramientas listas para usar. Las empresas no tienen que crear infraestructuras complejas desde cero.

Estos servicios también pueden integrarse con herramientas de transmisión on premises para crear arquitecturas híbridas que pueden ayudar a equilibrar las necesidades de rendimiento con los requisitos de privacidad de datos. 

Las organizaciones también pueden utilizar herramientas como IBM StreamSets y Confluent para crear canales de transmisión de datos adaptados a sus ecosistemas de TI únicos.

Desafíos de la transmisión de datos

Si bien la transmisión de datos puede ofrecer muchos beneficios, las organizaciones pueden enfrentar desafíos al crear las arquitecturas de datos necesarias para admitir aplicaciones de transmisión.

Algunos desafíos comunes incluyen:

  • Escalado de la arquitectura de datos: el procesamiento de datos de streaming a menudo implica manejar cantidades masivas de datos de muchas fuentes. Las organizaciones pueden tener dificultades si sus arquitecturas de transmisión no pueden escalar de manera eficiente para procesar grandes volúmenes de datos.

  • Mantener la tolerancia a fallas: los sistemas de transmisión deben ser tolerantes a fallas mientras procesan potencialmente millones de eventos por segundo. De lo contrario, las organizaciones corren el riesgo de perder datos debido al mal funcionamiento y el mal comportamiento del sistema.

  • Monitoreo del rendimiento: las aplicaciones en tiempo real requieren un monitoreo constante de métricas como la latencia, el rendimiento y la utilización de recursos para mantener un rendimiento óptimo, una demanda que puede romper los sistemas de procesamiento ya sobrecargados.

  • Implementar la gobernanza de datos: Las organizaciones deben considerar cómo almacenar y procesar los datos de transmisión que contienen información de identificación personal (PII) o otra información confidencial que cae bajo la jurisdicción del Reglamento General de Protección de Datos (GDPR), la California Consumer Privacy Act (CCPA) o otros requisitos de gobernanza de datos.
Soluciones relacionadas
Soluciones de plataforma DataOps

Organice sus datos con las soluciones de plataforma IBM DataOps para garantizar su fiabilidad y prepararlos para la IA a nivel empresarial.

Explorar las soluciones DataOps
IBM Databand

Descubra IBM Databand, el software de observabilidad para canalizaciones de datos. Recopila metadatos automáticamente para crear líneas de base históricas, detectar anomalías y crear flujos de trabajo para solucionar problemas relacionados con la calidad de los datos.

Explore Databand
Servicios de consultoría en datos y analytics

Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por insights que ofrezca ventajas empresariales.

Descubra los servicios de analytics
Dé el siguiente paso

Organice sus datos con las soluciones de plataforma IBM DataOps para garantizar su fiabilidad y prepararlos para la IA a nivel empresarial.

Explorar las soluciones DataOps Explorar los servicios de analytics