Este enfoque de baja latencia se diferencia del procesamiento por lotes tradicional, en el que las tareas se agrupan y se ejecutan en momentos programados. Por el contrario, a través de la transmisión de datos en tiempo real, el procesamiento inmediato de “datos en movimiento” significa que las empresas pueden acceder a información renovada y actualizada al minuto. Las fuentes de datos en tiempo real incluyen:
El análisis de dicha información produce insights que pueden potenciar la toma de decisiones oportuna y aplicaciones en tiempo real, incluida la inteligencia artificial (IA) agéntica. Los beneficios adicionales de la transmisión de datos en tiempo real incluyen una mejor eficiencia operativa, retención de datos, gestión de riesgos y personalización del cliente.
La transmisión de datos en tiempo real es posible gracias a una infraestructura que consta de una capa de ingestión, un motor de procesamiento en tiempo real y una capa de almacenamiento y servicio. Soluciones como las infraestructuras de código abierto y las plataformas de transmisión de datos admiten infraestructura de streaming en tiempo real y ayudan a las empresas a gestionar eficientemente millones de registros a lo largo de miles de pipelines de datos.
Manténgase al día sobre las tendencias más importantes e intrigantes de la industria sobre IA, automatización, datos y más con el boletín Think. Consulte la Declaración de privacidad de IBM.
Imagine una fuente de agua que brota con fuerza. Un transeúnte sediento se detiene e intenta tomar unos cuantos tragos, pero el agua fluye con tanta furia que apenas puede tragar. La mayor parte del líquido sale disparado de su boca, dejando charcos a sus pies. Para saciar su sed, tendrá que quedarse allí un buen rato, tanto que, de hecho, podría decidir que el esfuerzo no vale la pena.
Tal es el dilema al que se enfrentan las empresas cuando intentan aprovechar el poder de los flujos de información en rápido movimiento, una de las fuentes más valiosas de business intelligence en la actualidad.
Intentar capturar y procesar esos datos utilizando métodos tradicionales es similar al desafío que enfrenta el viajero sediento en la fuente fuera de control: alcanzar su objetivo, ya sea insights aplicables en la práctica o una hidratación adecuada, puede ser un proceso complicado que lleva demasiado tiempo.
La transmisión de datos en tiempo real ofrece a las empresas una forma de aprovechar los datos en tiempo real rápidamente, sin complicaciones.
A través de la ingesta y el procesamiento de datos en tiempo real, las empresas pueden tomar datos continuos y de flujo rápido e introducirlos en sistemas de análisis en tiempo real que luego producen insights oportunos y aplicables en la práctica. Estos insights en tiempo real proporcionan una ventaja competitiva en una variedad de industrias y disciplinas.
Los minoristas pueden ajustar dinámicamente los precios en función de la inteligencia inmediata sobre la demanda de los consumidores. Los bancos pueden analizar los datos de las transacciones y realizar la detección de fraudes en tiempo real. Los fabricantes pueden detectar fallas en las máquinas y abordarlas antes de que se produzca un tiempo de inactividad significativo.
La agilidad que permiten los datos en tiempo real se amplifica cuando se combina con IA agéntica. La IA agéntica aprovecha los datos en tiempo real para respaldar una toma de decisiones rápida y autónoma en el mundo real, como identificar y responder a las amenazas de ciberseguridad o ajustar las rutas de envío durante los retrasos en el tráfico.
Sin la transmisión de datos en tiempo real, las empresas no podrían obtener estos beneficios. En su lugar, confiarían en formas tradicionales y más lentas de ingesta y procesamiento de datos.
Como solución moderna de procesamiento de datos, La transmisión de datos en tiempo real (y la gestión de la transmisión de datos en general) contrasta con el enfoque de procesamiento de datos tradicional: el procesamiento por lotes.
En la transmisión de datos en tiempo real, cada punto de datos individual entrante se procesa a medida que ingresa al sistema de destino. En el procesamiento por lotes, las organizaciones agregan y analizan conjuntos de datos en lotes (datos por lotes) a intervalos fijos.
El procesamiento por lotes puede automatizar las cargas de trabajo repetidas, como la generación de informes de rutina. También permite a las organizaciones optimizar el uso de recursos mediante la programación de trabajos por lotes durante periodos convenientes, como durante la noche, cuando los sistemas no se utilizan mucho.
Pero el procesamiento por lotes resulta insuficiente cuando se trata de necesidades de negocio que no pueden esperar hasta la siguiente ejecución programada. Para acelerar los tiempos de respuesta, las empresas recurren a procesos más rápidos, como la transmisión de datos en tiempo real.
Las empresas que utilizan la transmisión de datos en tiempo real experimentan muchos beneficios, entre ellos:
La información reciente puede generar insights más precisos, especialmente en situaciones en las que incluso los datos de hace horas podrían considerarse obsoletos, ya sea que se trate de atención médica o comercio de acciones. Con los datos entrantes en tiempo real, las empresas también están facultadas para tomar decisiones con respecto a la eficiencia operativa, como identificar y abordar los cuellos de botella en la producción.
Con demasiada frecuencia, las empresas ingieren y retienen grandes volúmenes de datos que en realidad no necesitan. Este tipo de “acaparamiento de datos” puede significar la acumulación de registros duplicados que consumen costoso espacio de almacenamiento, socavan los proyectos de análisis de datos y se convierten en un lastre general para el rendimiento del sistema.
Pero el filtrado temprano habilitado por la transmisión de datos en tiempo real puede ayudar a las organizaciones a evitar almacenar datos redundantes, reduciendo la probabilidad de acaparamiento de datos y sus consecuencias.
Las empresas pueden combinar datos de transmisión en tiempo real con datos históricos para admitir análisis predictivos. Esta forma holística de análisis de datos puede apoyar casos de uso como prácticas agrícolas inteligentes y experiencias personalizadas para el cliente.
Los análisis predictivos impulsados por datos en tiempo real también puede mejorar la gestión de riesgos: el acceso a datos urgentes sobre condiciones climáticas peligrosas y transacciones financieras sospechosas puede ayudar a las empresas a detectar y mitigar las amenazas a sus operaciones y resultados.
La transmisión de datos en tiempo real a menudo se usa indistintamente con el término “transmisión de eventos” por una buena razón: la diferencia entre los dos es sutil.
La transmisión de eventos captura el flujo de registros llamados “eventos” (ocurrencias o cambios en el sistema o entorno) de diversas fuentes de datos, como aplicaciones y dispositivos IoT, y luego lo transporta para su procesamiento inmediato y luego analytics o almacenamiento. La transmisión de eventos suele consistir en datos en tiempo real.
Sin embargo, durante la transmisión de eventos, el filtrado de datos ocurre antes de su movimiento, lo que reduce significativamente las demandas en el sistema de destino. Si bien esto puede resultar un beneficio clave para algunas organizaciones, la transmisión de eventos también puede tener un inconveniente: los análisis de series temporales y el procesamiento de señales (la manipulación de datos de sensores y otra información para desbloquear valor) son más desafiantes para la transmisión de eventos que la transmisión de datos en tiempo real.
A pesar de esta distinción, las soluciones para la transmisión de datos en tiempo real y la transmisión de eventos son las mismas. Las plataformas de transmisión de datos dominantes, como Apache Kafka, Amazon Kinesis de Amazon Web Services (AWS) y Redpanda, también se conocen como plataformas de transmisión de eventos.
La arquitectura de datos que admite la transmisión de datos en tiempo real es la arquitectura de transmisión, con componentes de ingeniería de datos diseñados para mantener los datos en movimiento y evitar el estancamiento. Los tres componentes básicos son:
Diversas fuentes producen y emiten continuamente puntos de datos. Estos datos entrantes a menudo no tienen límites, lo que significa que se generan y continúan fluyendo sin un endpoint fijo. Esa información es capturada por herramientas de ingesta de datos con conectores de transmisión y luego se entrega a un procesador. Las interfaces de programación de aplicaciones (API) también pueden ayudar a automatizar la transmisión de datos en tiempo real desde diversas fuentes.
En el procesamiento de flujos (a veces denominado procesamiento de datos en tiempo real), los datos se filtran, enriquecen, transforman o analizan a medida que llegan. La IA y el machine learning se pueden desplegar para potenciar el análisis de datos y discernir patrones y otros insights clave.
Los datos procesados se entregan a un destino para su uso inmediato (en una aplicación o panel, por ejemplo) o almacenamiento. Las organizaciones a menudo dependen de data lakes y data lakehouses para el almacenamiento de datos de trasmisión, ya que pueden albergar grandes volúmenes de datos a costos relativamente bajos. Los datos de transmisión también se pueden almacenar en data warehouses, que usan procesos ETL (extracción, transformación, carga) para la transformación, organización y visualización de datos.
Las herramientas y capacidades de procesamiento adecuadas para la transmisión son críticas para construir pipelines de transmisión de datos en tiempo real. Estos incluyen marcos de transmisión de código abierto, plataformas y herramientas de transmisión de datos basadas en la nube, y soluciones de integración de datos.
Apache Kafka, Apache Flink y Apache Spark Streaming son marcos y herramientas clave de código abierto para la transmisión de datos en tiempo real.
Las soluciones de código abierto pueden proporcionar la base para la transmisión de datos en tiempo real. Sin embargo, las empresas a menudo dependen de proveedores de la nube y plataformas especializadas basadas en la nube para obtener soporte adicional para gestionar datos de transmisión, crear aplicaciones de transmisión y garantizar la escalabilidad.
Las herramientas y plataformas populares incluyen Amazon Kinesis, Confluent, Microsoft Azure Stream Analytics, Dataflow de Google Cloud e IBM Event Streams.
Los diferentes tipos de procesamiento de datos requieren diferentes tipos de herramientas de integración de datos. Las plataformas de transmisión de datos incluyen características de integración, pero la llegada de un tipo más completo de solución de integración puede ayudar a las empresas a integrar flujos de trabajo de transmisión de datos en tiempo real y otros tipos de flujos de trabajo de procesamiento (por lotes y ETL, por ejemplo) dentro de la misma solución. Esta capacidad puede ayudar a reducir la proliferación de herramientas.
Para aprovechar con éxito la transmisión de datos en tiempo real, puede ser útil considerar y planear los retos inherentes a su implementación.
La ingesta, el procesamiento y los analytics de datos bajo demanda, especialmente para volúmenes masivos y complejos de datos, también conocidos como big data, son esfuerzos costosos y que requieren muchos recursos. Al determinar si destinar fondos y recursos a la transmisión de datos en tiempo real, las empresas deben equilibrar sus costos con los costos de datos obsoletos y una toma de decisiones más lenta.
La tolerancia a fallas (la capacidad de un sistema para continuar funcionando a pesar de la falla de un componente) es crucial para el éxito de la transmisión de datos en tiempo real. Las interrupciones y los tiempos de inactividad en los sistemas de transmisión de datos en tiempo real podrían provocar la pérdida de datos y minar la velocidad que distingue a la transmisión de otros métodos de procesamiento.
Las vistas integrales de los pipelines de datos de transmisión son necesarias para evitar fallas en los pipelines y garantizar un rendimiento óptimo. El monitoreo de métricas clave de calidad de datos y la identificación rápida de problemas, como cambios en el esquema y desviaciones de datos, pueden ayudar a las empresas a garantizar la integridad de los datos y la confiabilidad del pipeline.
La transmisión de datos en tiempo real puede incluir el flujo continuo de datos confidenciales o información de identificación personal (PII) sujeto a las regulaciones de privacidad de datos. Las medidas para garantizar pipelines seguros, como cifrado de datos y controles de acceso, pueden ayudar a las empresas a cumplir con los regímenes normativos y evitar filtraciones de datos.
Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.
watsonx.data le permite escalar los analytics y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y gestionado.
Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por insights que ofrezca ventajas empresariales.