Este enfoque de baja latencia es distinto del procesamiento por lotes tradicional, en el que las tareas se agrupan y se ejecutan durante los tiempos programados. Por el contrario, a través de la transmisión de datos en tiempo real, el procesamiento inmediato de “datos en movimiento” significa que las empresas pueden acceder a información fresca y actualizada. Las fuentes de datos en tiempo real incluyen:
El análisis de esa información produce perspectivas que pueden impulsar la toma de decisiones oportunas y aplicaciones en tiempo real, incluida la inteligencia artificial agéntica (IA). Los beneficios adicionales de la transmisión de datos en tiempo real incluyen una mejor eficiencia operativa, retención de datos, gestión de riesgos y personalización del cliente.
La transmisión de datos en tiempo real es posible gracias a una infraestructura compuesta por una capa de ingesta, un motor de procesamiento en tiempo real y una capa de almacenamiento y servicio. Soluciones como los marcos de código abierto y las plataformas de transmisión de datos soportan infraestructura de streaming en tiempo real y ayudan a las empresas a gestionar eficientemente millones de registros a lo largo de miles de pipelines de datos.
Manténgase al día sobre las tendencias más importantes e intrigantes del sector en materia de IA, automatización, datos y mucho más con el boletín Think. Consulte la Declaración de privacidad de IBM.
Imagine una fuente de agua que brota. Un transeúnte sediento se detiene e intenta tomar un trago, pero el agua fluye con tanta furia que apenas puede tragar nada. La mayor parte del líquido sale disparado de su boca, dejando charcos a sus pies. Para saciar su sed, tendrán que quedarse ahí un rato, tanto tiempo, de hecho, que podrían decidir que el esfuerzo no vale la pena desde el principio.
Este es el dilema al que se enfrentan las empresas cuando intentan aprovechar el poder de los flujos de información en rápido movimiento, una de las fuentes más valiosas de inteligencia empresarial en la actualidad.
Intentar capturar y procesar esos datos usando métodos tradicionales es similar al desafío al que se enfrenta el viajero sediento en la fuente fuera de control: alcanzar su objetivo, ya sea con perspectivas que se pueden ejecutar o con una hidratación adecuada, puede ser un proceso complicado que lleva un tiempo prohibitivo.
La transmisión de datos en tiempo real ofrece a las empresas una forma de aprovechar los datos en tiempo real rápido, sin complicaciones.
Gracias a la ingesta y el procesamiento de datos en tiempo real, las empresas pueden tomar datos continuos y de flujo rápido e introducirlos en sistemas de análisis de datos en tiempo real, que a su vez generan perspectivas útiles y oportunas. Estas perspectivas en tiempo real proporcionan una ventaja competitiva en una variedad de sectores y disciplinas.
Los minoristas pueden ajustar dinámicamente los precios en función de la inteligencia inmediata sobre la demanda de los consumidores. Los bancos pueden analizar los datos de las transacciones y realizar la detección del fraude en tiempo real. Los fabricantes pueden detectar fallos en las máquinas y abordarlos antes de que se produzca un tiempo de inactividad significativo.
La agilidad que permiten los datos en tiempo real se amplifica cuando se combina con la IA agéntica. La IA agéntica aprovecha datos en tiempo real para apoyar la toma de decisiones rápida y autónoma en el mundo real, como identificar y responder a amenazas de ciberseguridad o ajustar rutas de envío durante retrasos de tráfico.
Sin la transmisión de datos en tiempo real, las empresas no podrían aprovechar estos beneficios. En su lugar, recurrirían a formas tradicionales y más lentas de ingesta de datos y procesamiento.
Como solución moderna de procesamiento de datos, la transmisión de datos en tiempo real, y la gestión general de los datos en streaming, contrasta con el enfoque tradicional de procesamiento de datos: procesamiento por lotes.
En la transmisión de datos en tiempo real, cada punto de datos individual entrante se procesa a medida que entra en el sistema de destino. En el procesamiento por lotes, las organizaciones agregan y analizan conjuntos de datos en lotes (datos por lotes) a intervalos fijos.
El procesamiento por lotes puede automatizar cargas de trabajo repetitivas, como la generación de informes rutinarios. También permite a las organizaciones optimizar el uso de recursos al programar trabajos por lotes durante periodos convenientes, como durante la noche, cuando los sistemas no se están usando intensamente de otro modo.
Pero el procesamiento por lotes resulta insuficiente cuando se trata de necesidades comerciales que no pueden esperar hasta la siguiente ejecución programada. Para acelerar los tiempos de entrega, las empresas recurren a procesos más rápidos, incluida la transmisión de datos en tiempo real.
Las empresas que utilizan transmisión de datos en tiempo real disfrutan de muchos beneficios, entre ellos:
La información reciente puede proporcionar perspectivas más precisas, especialmente en situaciones en las que incluso los datos de hace horas podrían considerarse obsoletos, ya se trate de la sanidad o del comercio de acciones. Con los datos entrantes en tiempo real, las empresas también están facultadas para tomar decisiones en aras de la eficiencia operativa, como identificar y abordar los cuellos de botella en la producción.
Con demasiada frecuencia, las empresas consumen y almacenan grandes cantidades de datos que, en realidad, no necesitan. Este tipo de “acaparamiento de datos” puede significar la acumulación de registros duplicados que consumen costoso espacio de almacenamiento, socavan los proyectos de análisis de datos y se convierten en un lastre general para el rendimiento del sistema.
Pero el filtrado temprano habilitado por la transmisión de datos en tiempo real puede ayudar a las organizaciones a evitar almacenar datos redundantes, reduciendo la probabilidad de acaparamiento de datos y sus consecuencias.
Las empresas pueden combinar datos de transmisión en tiempo real con datos históricos para facilitar el análisis predictivo. Esta forma holística de análisis de datos puede respaldar casos de uso, como prácticas agrícolas inteligentes y experiencias del cliente personalizadas.
El análisis predictivo impulsado por datos en tiempo real también puede mejorar la gestión de riesgos: el acceso a datos sensibles al tiempo sobre condiciones meteorológicas peligrosas y transacciones financieras sospechosas puede ayudar a las empresas a detectar y mitigar amenazas a sus operaciones y a sus resultados.
La transmisión de datos en tiempo real a menudo se utiliza indistintamente con el término “transmisión de eventos” por una buena razón: la diferencia entre ambos es sutil.
La transmisión de eventos captura el flujo de registros denominados “eventos” (ocurrencias o cambios en el sistema o entorno) de diversas fuentes de datos, como aplicaciones y dispositivos IoT, y luego los transporta para su procesamiento inmediato y, a continuación, para su análisis o almacenamiento. La transmisión de eventos suele consistir en datos en tiempo real.
Sin embargo, durante la transmisión de eventos, el filtrado de los datos se produce antes de su movimiento, lo que reduce significativamente las exigencias sobre el sistema de destino. Aunque esto puede resultar un beneficio clave para algunas organizaciones, la transmisión de eventos también puede tener un inconveniente: análisis de series temporales y procesamiento de señales (la manipulación de datos de sensores y otra información para desbloquear valor) son más difíciles para la transmisión de eventos que la transmisión de datos en tiempo real.
A pesar de esta distinción, las soluciones para la transmisión de datos en tiempo real y la transmisión de eventos son las mismas. Las plataformas de transmisión de datos dominantes, como Apache Kafka, Amazon Kinesis de Amazon Web Services (AWS) y Redpanda, también se conocen como plataformas de transmisión de eventos.
La arquitectura de datos que admite la transmisión de datos en tiempo real es la arquitectura de streaming, con componentes de ingeniería de datos diseñados para mantener los datos en movimiento y evitar el estancamiento. Los tres componentes básicos son:
Diversas fuentes producen y emiten continuamente puntos de datos. Estos datos entrantes suelen ser ilimitados, lo que significa que se generan y continúan fluyendo sin un endpoint fijo. Esa información es capturada por herramientas de ingesta de datos con conectores de streaming y, a continuación, la entregan a un procesador. Las interfaces de programación de aplicaciones (API) también pueden ayudar a automatizar la transmisión de datos en tiempo real desde diversas fuentes.
En el procesamiento de flujo (a veces denominado proceso de datos en tiempo real), los datos se filtran, enriquecen, transforman o analizan a medida que llegan. La IA y el machine learning se pueden implementar para impulsar el análisis de datos y discernir patrones y otras perspectivas clave.
Los datos procesados se entregan a un destino para su uso inmediato (en una aplicación o panel de control, por ejemplo) o para su almacenamiento. Las organizaciones suelen confiar en data lakes y lakehouses de datos para el almacenamiento de los datos de streaming, ya que pueden alojar grandes volúmenes de datos a un coste relativamente bajo. Los datos en streaming también se pueden almacenar en almacenes de datos, que utilizan procesos ETL (extracción, transformación, carga) para la transformación de datos, la organización y visualización.
Las herramientas de transmisión y las capacidades de procesamiento adecuadas son críticas para crear pipelines de transmisión de datos en tiempo real. Estos incluyen marcos de transmisión de datos de código abierto, plataformas y herramientas de transmisión de datos basadas en la nube y soluciones de integración de datos.
Apache Kafka, Apache Flink y Apache Spark Streaming son marcos y herramientas de código abierto clave para la transmisión de datos en tiempo real.
Las soluciones de código abierto pueden proporcionar la base para la transmisión de datos en tiempo real. Sin embargo, las empresas suelen confiar en los proveedores de servicios en la nube y en plataformas basadas en la nube para obtener un apoyo adicional que les permita gestionar los datos de streaming, construir aplicaciones y garantizar la escalabilidad.
Las herramientas y plataformas populares incluyen Amazon Kinesis, Confluent, Microsoft Azure Stream Analytics, Dataflow de Google Cloud e IBM® Event Streams.
Los diferentes tipos de proceso de datos requieren diferentes tipos de herramientas de integración de datos. Las plataformas de transmisión de datos incluyen características de integración, pero la llegada de un tipo más completo de solución de integración puede ayudar a las empresas a integrar flujos de trabajo de transmisión de datos en tiempo real y otros tipos de flujos de trabajo de procesamiento (por lotes y ETL, por ejemplo) dentro de la misma solución. Esta capacidad puede ayudar a reducir la proliferación de herramientas.
Para aprovechar con éxito la transmisión de datos en tiempo real, puede ser útil considerar y planificar los retos inherentes a su implementación.
La ingesta, el procesamiento y el análisis de datos bajo demanda, especialmente para volúmenes masivos y complejos de datos, también conocidos como big data, son tareas costosas y que requieren muchos recursos. A la hora de determinar si destinar fondos y recursos a la transmisión de datos en tiempo real, las empresas deben sopesar sus costes con los costes de los datos obsoletos y la lentitud de la toma de decisiones.
La tolerancia a fallos (la capacidad de un sistema para seguir funcionando a pesar del fallo de un componente) es fundamental para que la transmisión de datos en tiempo real se realice con éxito. Las interrupciones y los tiempos de inactividad en los sistemas de transmisión de datos en tiempo real podrían provocar pérdida de datos y minar la velocidad que distingue a la transmisión de datos de otros métodos de procesamiento.
Es necesario disponer de vistas exhaustivas de los pipelines de datos en streaming para evitar fallos en los pipelines y garantizar un rendimiento óptimo. Monitorizar métricas clave de calidad de datos e identificar rápidamente problemas, como cambios en el esquema y deriva de datos, puede ayudar a las empresas a garantizar la integridad de los datos y la fiabilidad del pipeline.
La transmisión de datos en tiempo real puede incluir el flujo continuo de datos confidenciales o información de identificación personal (PII), sujeto a la normativa de protección de datos. Las medidas para garantizar la seguridad de los pipelines, incluidos el cifrado de datos y los controles de acceso, pueden ayudar a las empresas a cumplir los regímenes normativos y evitar vulneraciones de datos.
Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.
Watsonx.data le permite escalar la analítica y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y gobernado.
Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por conocimientos que ofrezca ventajas empresariales.