¿Qué es una plataforma de datos moderna?

Una plataforma de datos moderna es un conjunto de productos de software nativos de la nube que permiten la recopilación, limpieza, transformación y análisis de los datos de una organización para ayudar a mejorar la toma de decisiones.

Los pipelines de datos actuales se han vuelto cada vez más complejos e importantes para el análisis de datos y para la toma de decisiones basadas en datos. Una plataforma de datos moderna genera confianza en estos datos al ingerirlos, almacenarlos, procesarlos y transformarlos de una manera que garantice información precisa y oportuna, reduzca los silos de datos, permita el autoservicio y mejore la calidad de los datos.

Una plataforma de datos moderna, también conocida como pila de datos moderna, se compone de cinco capas fundamentales: almacenamiento y procesamiento de datos, ingesta de datos, transformación de datos, inteligencia empresarial (BI) y análisis y observabilidad de datos.

Los dos principios fundamentales que rigen las plataformas de datos modernas son:

Disponibilidad: los datos están fácilmente disponibles en un data lake o en almacenes de datos, que separan el almacenamiento y la computación. La división de estas funciones permite almacenar grandes cantidades de datos a un precio relativamente bajo.
Elasticidad: las funciones de computación están basadas en la nube, lo que permite la escalabilidad automática. Por ejemplo, si la mayoría de los datos y análisis se consumen en un día y hora determinados, el procesamiento puede ampliarse automáticamente para mejorar la experiencia del cliente y reducirse cuando disminuya la carga de trabajo.

Reserve una demostración de IBM Databand hoy mismo

Vea cómo la observabilidad proactiva de los datos puede ayudarle a detectar antes los incidentes de datos y a resolverlos más rápidamente.

Contenido relacionado

Suscríbase al boletín de IBM

Filosofías modernas de plataformas de datos

Las plataformas de datos modernas no solo se basan en la tecnología, sino también en los principios filosofía de DevOps, DataOps y Agile. Aunque sus objetivos son completamente diferentes, tanto DevOps como DataOps se acercan a la filosofía ágil, cuyo objetivo es acelerar los ciclos de trabajo de los proyectos.

DevOps se centra en el desarrollo de productos, mientras que DataOps se centra en crear y mantener un sistema de arquitectura de datos distribuidos que aporte valor empresarial a partir de los datos.

Agile es una filosofía para el desarrollo de software que promueve la velocidad y la eficiencia, pero sin eliminar el factor "humano". Pone énfasis en las conversaciones cara a cara como forma de maximizar las comunicaciones, al tiempo que hace hincapié en la automatización como medio para minimizar los errores.

Almacenamiento y procesamiento de datos

La primera capa fundamental de una plataforma de datos moderna es el almacenamiento y el procesamiento.

Los sistemas modernos de almacenamiento de datos se centran en el uso eficiente de los datos, lo que incluye dónde almacenarlos y cómo procesarlos. Los dos formatos de almacenamiento más populares son los almacenes de datos y data lakes, aunque los lakehouses de datos y los data mesh están ganando popularidad.

El almacén de datos

Los almacenes de datos están diseñados para gestionar datos estructurados con casos prácticos claros y definidos.

El uso de almacenes de datos se remonta a los años 90, cuando se utilizaban bases de datos para su almacenamiento. Estos almacenes de datos eran locales y tenían una capacidad de almacenamiento muy limitada.

Alrededor de 2013, los almacenes de datos empezaron a trasladarse a la nube, donde la escalabilidad se hizo posible de forma repentina. Los almacenes de datos basados en la nube siguen siendo el sistema preferido de almacenamiento de datos porque optimizan la potencia de cálculo y la velocidad de procesamiento.

Para que un almacén de datos funcione correctamente, los datos deben recopilarse, reformatearse, limpiarse y transferirse al almacén. Cualquier dato que no pueda reformatearse es susceptible de perderse.

El data lake

En enero de 2008, Yahoo lanzó Hadoop (basado en NoSQL) como proyecto de código abierto a la Apache Software Foundation. Los data lakes se construyeron originalmente sobre Hadoop, eran escalables y estaban diseñados para uso local. Lamentablemente, el ecosistema Hadoop es extremadamente complejo y difícil de utilizar. Los data lakes comenzaron a trasladarse a la nube en torno a 2015, lo que los hizo mucho menos costosos y más fáciles de usar.

Los data lakes se diseñaron originalmente para recopilar datos en bruto y no estructurados sin aplicar esquemas (formatos), de modo que los investigadores pudieran obtener más información a partir de una amplia gama de datos. Debido a problemas con el análisis de información antigua, inexacta o inútil, los data lakes ("lagos de datos") pueden convertirse en "data swamps" ("pantanos de datos") menos efectivos.

Una arquitectura típica de data lake puede tener datos almacenados en un almacén de objetos como Amazon S3 de AWS, junto con una herramienta como Spark para procesar los datos.

El lakehouse de datos

Los lakehouses de datos combinan la flexibilidad, rentabilidad y capacidad de escalado de los lagos de datos con las características de gestión de datos y transacciones ACID (atomicidad, coherencia, aislamiento ["isolation"] y durabilidad) de los almacenes de datos. (ACID es un acrónimo para el conjunto de 4 propiedades clave que definen una transacción: atomicidad, consistencia, aislamiento y durabilidad).

Los lakehouses de datos son compatibles con la inteligencia empresarial (BI) y el machine learning, mientras que uno de sus principales puntos fuertes es el uso de capas de metadatos. Los lakehouses de datos también utilizan un nuevo motor de consulta, diseñado para búsquedas SQL de alto rendimiento.

Data mesh

A diferencia de los almacenes de datos, data lakes y lakehouses de datos, la data mesh descentraliza la propiedad de los datos. Con este modelo arquitectónico, un dominio específico (por ejemplo, un socio comercial o un departamento) no es propietario de sus datos, sino que los comparte libremente con otros dominios. Esto significa que todos los datos del sistema de malla de datos deben mantener un formato uniforme.

Los sistemas de malla de datos pueden ser útiles para las empresas que admiten varios dominios de datos. Dentro del diseño de la data mesh, hay una capa de gobierno de datos y una capa de observabilidad. También existe una capa de interoperabilidad universal.

La data mesh puede ser útil para organizaciones que se expanden con rapidez y necesitan escalabilidad para almacenar datos.

Ingesta de datos

El proceso de introducir datos en un sistema de almacenamiento para su uso futuro se denomina ingesta de datos, que es la segunda capa de una plataforma de datos moderna.

En pocas palabras, la ingesta de datos consiste en trasladar datos de diversas fuentes a una ubicación central. A partir de ahí, los datos pueden utilizarse con fines de mantenimiento de registros o de procesamiento y análisis posteriores, ambos basados en datos accesibles, coherentes y precisos.

Las organizaciones toman decisiones empresariales utilizando los datos de su infraestructura analítica. El valor de estos datos depende de lo bien que se ingieran e integren. Si hay problemas durante el proceso de ingestión, como conjuntos de datos que faltan o que no están actualizados, todos los pasos del proceso analítico se verán afectados. Esto es especialmente cierto cuando se trata de big data.

Modelos de proceso de datos

La ingesta de datos puede realizarse de diferentes maneras, y la forma en que se diseña una capa de ingesta de datos concreta puede basarse en diferentes modelos de procesamiento. Los datos pueden proceder de distintas fuentes, como plataformas SaaS, dispositivos de Internet de las cosas (IoT) y dispositivos móviles. Un buen modelo de proceso de datos sirve de base para una estrategia de datos eficaz, por lo que las organizaciones deben determinar qué modelo se adapta mejor a sus circunstancias.

El procesamiento por lotes es la forma más común de ingesta de datos, aunque no está diseñado para el procesamiento en tiempo real. En su lugar, recopila y agrupa los datos de origen en lotes, que se envían al destino. El procesamiento por lotes puede iniciarse mediante una simple programación o activarse cuando se dan ciertas condiciones predeterminadas. Suele utilizarse cuando no se necesitan datos en tiempo real, porque requiere menos trabajo y es menos costoso que el tratamiento en tiempo real.
El procesamiento en tiempo real (también llamado procesamiento o proceso de flujos) no agrupa los datos. En su lugar, los datos se obtienen, transforman y cargan en cuanto se reconocen. El procesamiento en tiempo real es más costoso porque requiere una monitorización constante de las fuentes de datos y acepta nueva información automáticamente.

Transformación de datos

La siguiente capa, la transformación de datos, se ocupa de cambiar los valores, la estructura y el formato de los datos, lo que suele ser necesario para los proyectos de análisis de datos. Los datos pueden transformarse antes o después de llegar a su destino de almacenamiento cuando se utiliza una canalización de datos.

Hasta hace poco, los modelos modernos de ingesta de datos utilizaban un procedimiento ETL (extraer, transformar, cargar ["load"]) para tomar datos de su fuente, reformatearlos y transportarlos a su destino. Esto tenía sentido cuando las empresas tenían que utilizar costosos sistemas analíticos internos. Hacer el trabajo previo antes de entregarlo, incluidas las transformaciones, ayudó a reducir costes. Las organizaciones que aún utilizan almacenes de datos locales normalmente utilizarán un proceso ETL.

Hoy en día, muchas organizaciones prefieren los almacenes de datos basados en la nube (IBM, Snowflake, Google BigQuery, Microsoft Azure y otros) porque pueden escalar recursos informáticos y de almacenamiento según sea necesario. La escalabilidad de la nube permite prescindir de las transformaciones de precarga, por lo que los datos en bruto pueden enviarse al almacén de datos con mayor rapidez. Los datos se transforman después de llegar utilizando un modelo ELT (extraer, cargar, transformar), normalmente al responder a una consulta.

En este punto, los datos pueden traducirse a un formato SQL y ejecutarse en el almacén de datos durante la investigación.

La transformación de datos tiene varias ventajas:

Usabilidad: estandarizar los datos y estructurarlos correctamente permite a su equipo de ingeniería de datos generar valor empresarial a partir de lo que de otro modo serían datos inutilizables y sin analizar.

Calidad de los datos: la transformación de datos en bruto ayuda a identificar y rectificar errores, incoherencias y valores omitidos, lo que permite obtener datos más limpios y precisos..
Mejor organización: Los datos transformados son más fáciles de procesar, tanto para las personas como para los ordenadores.

Inteligencia empresarial y análisis

La cuarta capa moderna de la plataforma de datos es la inteligencia empresarial (BI) y las herramientas analíticas.

En 1865, Richard Millar Devens presentó la expresión "inteligencia empresarial" en s "Cyclopædia of Commercial and Business Anecdotes". Utilizó el término para describir cómo el banquero Sir Henry Furnese se beneficiaba de la información recopilándola y utilizándola antes que su competencia.

En la actualidad, gran parte de la información empresarial se obtiene a partir de la analítica empresarial, así como de la analítica de datos. Las herramientas de BI y análisis pueden utilizarse para acceder a los datos, analizarlos y transformarlos en visualizaciones que ofrezcan conocimientos comprensibles. Proporcionar a los investigadores y científicos de datos información detallada puede ayudarles a tomar decisiones empresariales tácticas y estratégicas.

Observabilidad de datos

La última de las cinco capas fundamentales de una plataforma de datos moderna es la observabilidad de los datos.

La observabilidad de los datos describe la capacidad de ver y observar el estado de los datos y su salud. Abarca una serie de actividades y tecnologías que, cuando se combinan, permiten al usuario identificar y resolver dificultades de datos casi en tiempo real.

La observabilidad permite a los equipos de ingeniería de datos responder a preguntas específicas sobre lo que se está llevando a cabo entre bastidores en sistemas extremadamente distribuidos. Puede mostrar dónde se mueven con lentitud los datos y qué es lo que no funciona.

Los gestores, los equipos de datos y otras partes interesadas pueden recibir alertas sobre posibles problemas para que puedan resolverlos de forma proactiva. Aunque la característica de previsibilidad puede ser útil, no garantiza que detecte todos los problemas.

Para que la observabilidad de los datos sea útil, debe incluir estas características:

Seguimiento de SLA: mide los metadatos de la canalización y la calidad de los datos con respecto a los estándares predefinidos.
Monitorización: un panel de control detallado que muestra las métricas operativas de un sistema o canalización.
Información de registro: se conservan registros históricos (seguimiento, comparaciones, análisis) de los acontecimientos para compararlos con las anomalías recién descubiertas..
Alertas: las alertas se envían tanto para las anomalías como para los eventos previstos.
Análisis: Un proceso de detección automatizado que se adapta a su sistema.
Seguimiento: Ofrece la posibilidad de realizar un seguimiento de métricas y eventos específicos.
Comparaciones: Proporciona antecedentes históricos y alertas de anomalías.

Para muchas organizaciones, la observabilidad está aislada, lo que significa que solo determinados departamentos pueden acceder a los datos. Desde el punto de vista filosófico, un sistema de data mesh resuelve este problema exigiendo que los datos se compartan, algo que generalmente se desaconseja en los sistemas tradicionales de almacenamiento y procesamiento.

Otras capas de plataformas de datos modernas

Además de las cinco capas fundamentales anteriores, otras capas que son comunes en una pila de datos moderna incluyen:

Detección de datos

Los datos inaccesibles son esencialmente datos inútiles. La detección de datos ayuda a garantizar que no se queden ahí. Se trata de recopilar, evaluar y explorar datos de distintas fuentes para ayudar a los directivos de las empresas a comprender las tendencias y pautas que se encuentran en los datos. Puede limpiar y preparar datos, y a veces se asocia con la inteligencia empresarial (BI) porque puede reunir datos aislados para su análisis.

Gobierno de datos

Las plataformas de datos modernas hacen hincapié en el gobierno y la seguridad de los datos para proteger la información confidencial, garantizar el cumplimiento de la normativa y gestionar la calidad de los datos. Las herramientas que soportan esta capa ofrecen control de acceso a los datos, cifrado, auditoría y seguimiento del linaje de los datos.

Catálogo de datos y gestión de metadatos

La catalogación de datos y la gestión de metadatos son cruciales para descubrir y comprender los activos de datos disponibles. Esto ayuda a los usuarios a encontrar los datos adecuados para su análisis.

Aprendizaje automático (ML) e IA

Algunas plataformas de datos modernas incorporan capacidades de machine learning e IA para el análisis predictivo, la detección de anomalías y la toma de decisiones automatizada.

Productos relacionados

IBM Databand

IBM^® Databand es un software de observabilidad para canalizaciones y almacenes de datos, que recopila automáticamente metadatos para crear líneas de base históricas, detectar anomalías y clasificar alertas para solucionar problemas de calidad de datos.

Explorar Databand

IBM DataStage

Al dar soporte a los patrones ETL y ELT, IBM^® DataStage ofrece una integración de datos flexible y casi en tiempo real tanto en las instalaciones como en la nube.

Explorar DataStage

IBM Knowledge Catalog

IBM^® Knowledge Catalog, un catálogo de datos inteligente en la era de la IA, le permite acceder, conservar, categorizar y compartir datos, activos de conocimiento y sus relaciones, independientemente de dónde se encuentren.

Explorar Knowledge Catalog

Recursos

¿Qué es la observabilidad de datos?

Descubra qué es la observabilidad de datos, por qué es importante, cómo ha evolucionado junto con los sistemas de datos modernos y las buenas prácticas para implementar un marco de observabilidad de datos.

¿Qué es ELT (extracción, carga, transformación)? Una guía para principiantes

Aprenda qué es ELT, cómo funciona el proceso, en qué se diferencia de ETL, sus retos y limitaciones y las mejores prácticas para implantar canalizaciones ELT.

Una moderna plataforma de datos en la nube es la base de toda cadena de suministro inteligente

Durante años, las cadenas de suministro de las empresas han descansado sobre los precarios cimientos de unos datos desconectados, no verificables e inoportunos. Los datos limpios y conectados son la base de las operaciones de la cadena de suministro de próxima generación.

¿Qué es la ciencia de datos?

Descubra cómo la ciencia de datos puede revelar información empresarial, acelerar la transformación digital y permitir la toma de decisiones basada en datos.

Dé el siguiente paso

Implemente hoy mismo la observabilidad proactiva de los datos con IBM Databand para saber cuándo surge un problema de salud de los datos antes de que lo sepan sus usuarios.

Explorar Databand