Una plataforma de datos moderna es un conjunto de productos de software nativos de la nube que permiten la recopilación, limpieza, transformación y análisis de los datos de una organización para ayudar a mejorar la toma de decisiones.
Los pipelines de datos actuales se han vuelto cada vez más complejos e importantes para el análisis de datos y para la toma de decisiones basadas en datos. Una plataforma de datos moderna genera confianza en estos datos al ingerirlos, almacenarlos, procesarlos y transformarlos de una manera que garantice información precisa y oportuna, reduzca los silos de datos, permita el autoservicio y mejore la calidad de los datos.
Una plataforma de datos moderna, también conocida como pila de datos moderna, se compone de cinco capas fundamentales: almacenamiento y procesamiento de datos, ingesta de datos, transformación de datos, inteligencia empresarial (BI) y análisis y observabilidad de datos.
Los dos principios fundamentales que rigen las plataformas de datos modernas son:
Vea cómo la observabilidad proactiva de los datos puede ayudarle a detectar antes los incidentes de datos y a resolverlos más rápidamente.
Suscríbase al boletín de IBM
Las plataformas de datos modernas no solo se basan en la tecnología, sino también en los principios filosofía de DevOps, DataOps y Agile. Aunque sus objetivos son completamente diferentes, tanto DevOps como DataOps se acercan a la filosofía ágil, cuyo objetivo es acelerar los ciclos de trabajo de los proyectos.
DevOps se centra en el desarrollo de productos, mientras que DataOps se centra en crear y mantener un sistema de arquitectura de datos distribuidos que aporte valor empresarial a partir de los datos.
Agile es una filosofía para el desarrollo de software que promueve la velocidad y la eficiencia, pero sin eliminar el factor "humano". Pone énfasis en las conversaciones cara a cara como forma de maximizar las comunicaciones, al tiempo que hace hincapié en la automatización como medio para minimizar los errores.
La primera capa fundamental de una plataforma de datos moderna es el almacenamiento y el procesamiento.
Los sistemas modernos de almacenamiento de datos se centran en el uso eficiente de los datos, lo que incluye dónde almacenarlos y cómo procesarlos. Los dos formatos de almacenamiento más populares son los almacenes de datos y data lakes, aunque los lakehouses de datos y los data mesh están ganando popularidad.
El almacén de datos
Los almacenes de datos están diseñados para gestionar datos estructurados con casos prácticos claros y definidos.
El uso de almacenes de datos se remonta a los años 90, cuando se utilizaban bases de datos para su almacenamiento. Estos almacenes de datos eran locales y tenían una capacidad de almacenamiento muy limitada.
Alrededor de 2013, los almacenes de datos empezaron a trasladarse a la nube, donde la escalabilidad se hizo posible de forma repentina. Los almacenes de datos basados en la nube siguen siendo el sistema preferido de almacenamiento de datos porque optimizan la potencia de cálculo y la velocidad de procesamiento.
Para que un almacén de datos funcione correctamente, los datos deben recopilarse, reformatearse, limpiarse y transferirse al almacén. Cualquier dato que no pueda reformatearse es susceptible de perderse.
El data lake
En enero de 2008, Yahoo lanzó Hadoop (basado en NoSQL) como proyecto de código abierto a la Apache Software Foundation. Los data lakes se construyeron originalmente sobre Hadoop, eran escalables y estaban diseñados para uso local. Lamentablemente, el ecosistema Hadoop es extremadamente complejo y difícil de utilizar. Los data lakes comenzaron a trasladarse a la nube en torno a 2015, lo que los hizo mucho menos costosos y más fáciles de usar.
Los data lakes se diseñaron originalmente para recopilar datos en bruto y no estructurados sin aplicar esquemas (formatos), de modo que los investigadores pudieran obtener más información a partir de una amplia gama de datos. Debido a problemas con el análisis de información antigua, inexacta o inútil, los data lakes ("lagos de datos") pueden convertirse en "data swamps" ("pantanos de datos") menos efectivos.
Una arquitectura típica de data lake puede tener datos almacenados en un almacén de objetos como Amazon S3 de AWS, junto con una herramienta como Spark para procesar los datos.
El lakehouse de datos
Los lakehouses de datos combinan la flexibilidad, rentabilidad y capacidad de escalado de los lagos de datos con las características de gestión de datos y transacciones ACID (atomicidad, coherencia, aislamiento ["isolation"] y durabilidad) de los almacenes de datos. (ACID es un acrónimo para el conjunto de 4 propiedades clave que definen una transacción: atomicidad, consistencia, aislamiento y durabilidad).
Los lakehouses de datos son compatibles con la inteligencia empresarial (BI) y el machine learning, mientras que uno de sus principales puntos fuertes es el uso de capas de metadatos. Los lakehouses de datos también utilizan un nuevo motor de consulta, diseñado para búsquedas SQL de alto rendimiento.
Data mesh
A diferencia de los almacenes de datos, data lakes y lakehouses de datos, la data mesh descentraliza la propiedad de los datos. Con este modelo arquitectónico, un dominio específico (por ejemplo, un socio comercial o un departamento) no es propietario de sus datos, sino que los comparte libremente con otros dominios. Esto significa que todos los datos del sistema de malla de datos deben mantener un formato uniforme.
Los sistemas de malla de datos pueden ser útiles para las empresas que admiten varios dominios de datos. Dentro del diseño de la data mesh, hay una capa de gobierno de datos y una capa de observabilidad. También existe una capa de interoperabilidad universal.
La data mesh puede ser útil para organizaciones que se expanden con rapidez y necesitan escalabilidad para almacenar datos.
El proceso de introducir datos en un sistema de almacenamiento para su uso futuro se denomina ingesta de datos, que es la segunda capa de una plataforma de datos moderna.
En pocas palabras, la ingesta de datos consiste en trasladar datos de diversas fuentes a una ubicación central. A partir de ahí, los datos pueden utilizarse con fines de mantenimiento de registros o de procesamiento y análisis posteriores, ambos basados en datos accesibles, coherentes y precisos.
Las organizaciones toman decisiones empresariales utilizando los datos de su infraestructura analítica. El valor de estos datos depende de lo bien que se ingieran e integren. Si hay problemas durante el proceso de ingestión, como conjuntos de datos que faltan o que no están actualizados, todos los pasos del proceso analítico se verán afectados. Esto es especialmente cierto cuando se trata de big data.
Modelos de proceso de datos
La ingesta de datos puede realizarse de diferentes maneras, y la forma en que se diseña una capa de ingesta de datos concreta puede basarse en diferentes modelos de procesamiento. Los datos pueden proceder de distintas fuentes, como plataformas SaaS, dispositivos de Internet de las cosas (IoT) y dispositivos móviles. Un buen modelo de proceso de datos sirve de base para una estrategia de datos eficaz, por lo que las organizaciones deben determinar qué modelo se adapta mejor a sus circunstancias.
La siguiente capa, la transformación de datos, se ocupa de cambiar los valores, la estructura y el formato de los datos, lo que suele ser necesario para los proyectos de análisis de datos. Los datos pueden transformarse antes o después de llegar a su destino de almacenamiento cuando se utiliza una canalización de datos.
Hasta hace poco, los modelos modernos de ingesta de datos utilizaban un procedimiento ETL (extraer, transformar, cargar ["load"]) para tomar datos de su fuente, reformatearlos y transportarlos a su destino. Esto tenía sentido cuando las empresas tenían que utilizar costosos sistemas analíticos internos. Hacer el trabajo previo antes de entregarlo, incluidas las transformaciones, ayudó a reducir costes. Las organizaciones que aún utilizan almacenes de datos locales normalmente utilizarán un proceso ETL.
Hoy en día, muchas organizaciones prefieren los almacenes de datos basados en la nube (IBM, Snowflake, Google BigQuery, Microsoft Azure y otros) porque pueden escalar recursos informáticos y de almacenamiento según sea necesario. La escalabilidad de la nube permite prescindir de las transformaciones de precarga, por lo que los datos en bruto pueden enviarse al almacén de datos con mayor rapidez. Los datos se transforman después de llegar utilizando un modelo ELT (extraer, cargar, transformar), normalmente al responder a una consulta.
En este punto, los datos pueden traducirse a un formato SQL y ejecutarse en el almacén de datos durante la investigación.
La transformación de datos tiene varias ventajas:
La cuarta capa moderna de la plataforma de datos es la inteligencia empresarial (BI) y las herramientas analíticas.
En 1865, Richard Millar Devens presentó la expresión "inteligencia empresarial" en s "Cyclopædia of Commercial and Business Anecdotes". Utilizó el término para describir cómo el banquero Sir Henry Furnese se beneficiaba de la información recopilándola y utilizándola antes que su competencia.
En la actualidad, gran parte de la información empresarial se obtiene a partir de la analítica empresarial, así como de la analítica de datos. Las herramientas de BI y análisis pueden utilizarse para acceder a los datos, analizarlos y transformarlos en visualizaciones que ofrezcan conocimientos comprensibles. Proporcionar a los investigadores y científicos de datos información detallada puede ayudarles a tomar decisiones empresariales tácticas y estratégicas.
La última de las cinco capas fundamentales de una plataforma de datos moderna es la observabilidad de los datos.
La observabilidad de los datos describe la capacidad de ver y observar el estado de los datos y su salud. Abarca una serie de actividades y tecnologías que, cuando se combinan, permiten al usuario identificar y resolver dificultades de datos casi en tiempo real.
La observabilidad permite a los equipos de ingeniería de datos responder a preguntas específicas sobre lo que se está llevando a cabo entre bastidores en sistemas extremadamente distribuidos. Puede mostrar dónde se mueven con lentitud los datos y qué es lo que no funciona.
Los gestores, los equipos de datos y otras partes interesadas pueden recibir alertas sobre posibles problemas para que puedan resolverlos de forma proactiva. Aunque la característica de previsibilidad puede ser útil, no garantiza que detecte todos los problemas.
Para que la observabilidad de los datos sea útil, debe incluir estas características:
Para muchas organizaciones, la observabilidad está aislada, lo que significa que solo determinados departamentos pueden acceder a los datos. Desde el punto de vista filosófico, un sistema de data mesh resuelve este problema exigiendo que los datos se compartan, algo que generalmente se desaconseja en los sistemas tradicionales de almacenamiento y procesamiento.
Además de las cinco capas fundamentales anteriores, otras capas que son comunes en una pila de datos moderna incluyen:
Los datos inaccesibles son esencialmente datos inútiles. La detección de datos ayuda a garantizar que no se queden ahí. Se trata de recopilar, evaluar y explorar datos de distintas fuentes para ayudar a los directivos de las empresas a comprender las tendencias y pautas que se encuentran en los datos. Puede limpiar y preparar datos, y a veces se asocia con la inteligencia empresarial (BI) porque puede reunir datos aislados para su análisis.
Las plataformas de datos modernas hacen hincapié en el gobierno y la seguridad de los datos para proteger la información confidencial, garantizar el cumplimiento de la normativa y gestionar la calidad de los datos. Las herramientas que soportan esta capa ofrecen control de acceso a los datos, cifrado, auditoría y seguimiento del linaje de los datos.
La catalogación de datos y la gestión de metadatos son cruciales para descubrir y comprender los activos de datos disponibles. Esto ayuda a los usuarios a encontrar los datos adecuados para su análisis.
Algunas plataformas de datos modernas incorporan capacidades de machine learning e IA para el análisis predictivo, la detección de anomalías y la toma de decisiones automatizada.
IBM® Databand es un software de observabilidad para canalizaciones y almacenes de datos, que recopila automáticamente metadatos para crear líneas de base históricas, detectar anomalías y clasificar alertas para solucionar problemas de calidad de datos.
Al dar soporte a los patrones ETL y ELT, IBM® DataStage ofrece una integración de datos flexible y casi en tiempo real tanto en las instalaciones como en la nube.
IBM® Knowledge Catalog, un catálogo de datos inteligente en la era de la IA, le permite acceder, conservar, categorizar y compartir datos, activos de conocimiento y sus relaciones, independientemente de dónde se encuentren.
Descubra qué es la observabilidad de datos, por qué es importante, cómo ha evolucionado junto con los sistemas de datos modernos y las buenas prácticas para implementar un marco de observabilidad de datos.
Aprenda qué es ELT, cómo funciona el proceso, en qué se diferencia de ETL, sus retos y limitaciones y las mejores prácticas para implantar canalizaciones ELT.
Durante años, las cadenas de suministro de las empresas han descansado sobre los precarios cimientos de unos datos desconectados, no verificables e inoportunos. Los datos limpios y conectados son la base de las operaciones de la cadena de suministro de próxima generación.
Descubra cómo la ciencia de datos puede revelar información empresarial, acelerar la transformación digital y permitir la toma de decisiones basada en datos.