Mi IBM

Inicie sesión

Suscríbase

Almacenes de datos vs. data lakes vs. lakehouses de datos

20 de noviembre de 2024

Autores

Matthew Kosinski

Enterprise Technology Writer

Almacenes de datos vs. data lakes vs. lakehouses de datos

Los almacenes de datos, los data lakes y los lakehouses de datos son diferentes tipos de soluciones de gestión de datos con diferentes funciones:

Los almacenes de datos agregan, limpian y preparan los datos para que puedan utilizarse en los esfuerzos de business intelligence (BI) y análisis de datos.

Los data lakes almacenan grandes cantidades de datos sin procesar a bajo coste.

Los lakehouses de datos combinan el almacenamiento de datos flexible de un lake y las capacidades analíticas de alto rendimiento de un almacén en una sola solución.

Dado que estas soluciones tienen diferentes características y sirven para diferentes propósitos, muchas arquitecturas de datos empresariales utilizan dos o las tres en un tejido de datos holístico:

Una organización puede utilizar un data lake como solución de almacenamiento de propósito general para todos los datos entrantes en cualquier formato.

Los datos del data lake se pueden alimentar a almacenes de datos adaptados a unidades de negocio individuales, donde pueden informar la toma de decisiones.

Una arquitectura de lakehouse de datos puede ayudar a los científicos de datos y data engineers a trabajar más fácilmente con datos sin procesar en un data lake para proyectos de machine learning (ML), inteligencia artificial (IA) y ciencia de datos.

Los lakehouses de datos también son populares como vía de modernización para las arquitecturas de datos existentes. Las organizaciones pueden implementar nuevos lakehouses sin tener que desmontar y sustituir sus actuales lakes y almacenes, lo que agiliza la transición a una solución unificada de almacenamiento de datos y análisis.

Las últimas noticias + conocimientos de IA  

Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think.

Suscríbase hoy

Características clave de los almacenes de datos

Un almacén de datos agrega datos de fuentes de datos dispares, bases de datos, aplicaciones empresariales y fuentes de redes sociales, en un único almacén. La característica que define a una herramienta de almacenamiento de datos es que limpia y prepara los conjuntos de datos que consumir.

Los almacenes de datos utilizan un enfoque llamado "esquema en escritura", que aplica un esquema coherente a todos los datos a medida que se escriben en el almacenamiento. Esto ayuda a optimizar los datos para el business intelligence y el análisis.

Por ejemplo, un almacén para datos de venta minorista ayudaría a garantizar que detalles como la fecha, el importe y el número de transacción tengan el formato correcto y se asignen a las celdas correctas en una tabla relacional.

Un almacén de datos (data mart) es un tipo de almacén que contiene datos específicos de una línea de negocio o departamento en particular, no de toda la empresa. Por ejemplo, un equipo de marketing puede tener su propio almacén de datos, recursos humanos puede tener uno, etc.

Arquitectura de almacén de datos

Un almacén de datos típico tiene tres capas:

La capa inferior, donde los datos fluyen hacia el almacén desde varias fuentes a través de un proceso de extracción, transformación y carga (ETL). En muchos almacenes, los datos se almacenan en una base de datos relacional o un sistema similar.

La capa intermedia se basa en un analytics engine, como un sistema de procesamiento analítico en línea (OLAP) o un motor basado en SQL. Esta capa intermedia permite a los usuarios consultar conjuntos de datos y ejecutar análisis directamente en el almacén.

La capa superior incluye interfaces de usuario y herramientas de elaboración de informes que permiten a los usuarios realizar análisis de datos ad hoc sobre sus datos empresariales.

Los primeros almacenes de datos se alojaban en las instalaciones, pero muchos ahora están alojados en la nube o se entregan como servicios cloud. Los enfoques híbridos también son comunes.

Como los almacenes de datos tradicionales se basan en sistemas de bases de datos relacionales y esquemas estrictos, son más efectivos con datos estructurados. Algunos almacenes modernos han evolucionado para acomodar datos semiestructurados y no estructurados, pero muchas organizaciones prefieren data lakes y lakehouses para este tipo de datos.

Casos de uso de almacenes de datos

Los almacenes de datos son utilizados por analistas de negocios, científicos de datos e ingenieros de datos para llevar a cabo esfuerzos analíticos de autoservicio.

La aplicación de un esquema definido a todos los datos favorece su coherencia, lo que hace que los datos sean más fiables y más fáciles de trabajar. Dado que un almacén de datos almacena los datos en un esquema relacional estructurado, admite consultas de lenguaje de consulta estructurado (SQL) de alto rendimiento.

Las organizaciones pueden utilizar herramientas de análisis de datos y BI integradas o conectadas para analizar datos de transacción y datos históricos, generar visualizaciones de datos y crear paneles para respaldar la toma de decisiones basada en datos.

Retos del almacén de datos

El mantenimiento de los almacenes puede resultar costoso. Los datos deben transformarse antes de cargarse en un almacén, lo que requiere tiempo y recursos. Dado que el almacenamiento y la computación están estrechamente vinculados en los almacenes tradicionales, el escalado puede resultar costoso. Si los datos no se mantienen adecuadamente, el rendimiento de las consultas puede verse afectado.

Dado que pueden tener problemas con conjuntos de datos no estructurados y semiestructurados, los almacenes de datos no se adaptan bien a las cargas de trabajo de IA y ML.

Más información sobre almacenes de datos

AI Academy

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso satisfactorio de la IA generativa.

Ir al episodio

Características clave de data lakes

Los data lakes son soluciones de almacenamiento de datos de bajo coste diseñadas para gestionar volúmenes masivos de datos. Los data lakes utilizan un enfoque de esquema en lectura, lo que significa que no aplican un formato estándar a los datos entrantes. En su lugar, los esquemas se aplican cuando los usuarios acceden a los datos a través de una herramienta de análisis u otra interfaz.

Los data lakes almacenan datos en su formato nativo. Esto permite que un data lake almacene datos estructurados, datos no estructurados y datos semiestructurados, todo en la misma plataforma de datos.

Los data lakes surgieron para ayudar a las organizaciones a gestionar la avalancha de big data desatada por la Web 2.0 y el auge de la computación en la nube y móvil a finales de la década de 2000 y principios de la de 2010. Las organizaciones se encontraron con más datos que nunca, muchos de ellos en formatos no estructurados, como texto e imágenes de forma libre, que los almacenes tradicionales no pueden gestionar fácilmente.

Arquitectura de data lake

Los primeros data lakes a menudo se construían en el sistema de archivos distribuido Apache Hadoop (HDFS). Los data lakes modernos suelen utilizar un almacén de objetos en la nube, como Amazon Simple Storage Service (S3), Microsoft Azure Blob almacenamiento o IBM Cloud Object Storage.

Los data lakes separan el almacenamiento de datos de los recursos, lo que los hace más rentables y escalables que los almacenes de datos. Las organizaciones pueden agregar más almacenamiento sin escalar los recursos informáticos junto con él. El almacenamiento en la nube admite una mayor escalabilidad, ya que las organizaciones pueden crear más almacenamiento sin ampliar los recursos locales.

Para procesar datos en un data lake, los usuarios pueden conectar herramientas externas de proceso de datos como Apache Spark. A diferencia de un almacén de datos, estas herramientas de procesamiento no están integradas en el lake .

Casos de uso de data lakes

Los data lakes son una opción popular para almacenamiento de datos de uso general debido a su bajo coste, escalabilidad y capacidad para almacenar datos de cualquier formato.

Las organizaciones suelen utilizar data lakes para mantener copias de seguridad y archivar datos antiguos y no utilizados. Las organizaciones también pueden utilizar lakes para almacenar todos los datos nuevos entrantes, incluidos los datos sin un propósito definido. Los datos pueden permanecer en el lake hasta que la organización tenga un uso para ellos.

Las organizaciones también utilizan data lakes para almacenar conjuntos de datos para cargas de trabajo de ML, IA y análisis de big data, como proyectos de detección de datos, entrenamiento de modelos y análisis experimental.

Desafíos del data lake

Como no aplican un esquema estricto y carecen de herramientas de procesamiento integradas, los data lakes pueden tener dificultades con el gobierno y la calidad de los datos. También son menos adecuados para los esfuerzos diarios de BI y análisis de datos de los usuarios empresariales.

Las organizaciones a menudo necesitan herramientas separadas, como un catálogo de datos completo y un sistema de administración de metadatos, para mantener la precisión y la calidad. Sin estas herramientas, los data lakes pueden convertirse fácilmente en pantanos de datos.

Más información sobre los data lakes

Características clave de los lakehouses de datos

Un lakehouse de datos combina las funciones principales de los data lakes y los almacenes de datos en una sola solución de gestión de datos.

Al igual que un data lake, un lakehouse de datos puede almacenar datos en cualquier formato (estructurado, no estructurado o semiestructurado) a bajo coste.

Al igual que un almacén, un lakehouse de datos admite consultas rápidas y análisis optimizados.

Arquitectura de lakehouse de datos

Un lakehouse de datos combina tecnologías y herramientas que antes eran dispares en una solución holística. Una arquitectura típica de un lakehouse de datos incluye estas capas:

Capa de ingestión

La capa de ingesta recopila datos de streaming por lotes y en tiempo real de una variedad de orígenes. Mientras que los lakehouses pueden utilizar procesos ETL para capturar datos, muchos utilizan la extracción, carga y transformación (ELT). La lakehouse puede cargar datos sin procesar en el almacenamiento y transformarlos más tarde cuando se necesiten para el análisis.

Capa de almacenamiento

La capa de almacenamiento suele ser el almacenamiento de objetos en la nube, como en un data lake.

Capa de metadatos

La capa de metadatos proporciona un catálogo unificado de metadatos para cada objeto de la capa de almacenamiento. Esta capa de metadatos ayuda a los lakes a hacer muchas cosas que los lakes no pueden: indexar los datos para agilizar las consultas, reforzar los esquemas y aplicar controles de gobierno y calidad.

Capa de interfaz de programación de aplicaciones (API)

La capa API permite a los usuarios conectar herramientas para análisis avanzados.

Capa de consumo

La capa de consumo aloja aplicaciones y herramientas de cliente para BI, ML y otros proyectos de ciencia de datos y análisis.

Al igual que en un data lake, los recursos informáticos y de almacenamiento están separados, lo que permite la escalabilidad.

Los data lakes dependen en gran medida de las tecnologías de código abierto. Los formatos de datos como Apache Parquet y Apache Iceberg permiten a las organizaciones mover libremente las cargas de trabajo de un entorno a otro. Delta Lake, una capa de almacenamiento de código abierto, admite funciones que ayudan a los usuarios a ejecutar el análisis de los conjuntos de datos sin procesar, como el control de versiones y las transacciones ACID. "ACID" es la abreviatura de atomicidad, coherencia, aislamiento y durabilidad; propiedades clave que ayudan a garantizar la integridad de las transacciones de datos.

Las organizaciones pueden construir sus propios lakehouses a partir de componentes o utilizar ofertas prediseñadas como Databricks, Snowflake o IBM watsonx.data.

Casos de uso de un lakehouse de datos

Los lakehouses de datos pueden ayudar a las organizaciones a superar algunos de los límites y complejidades de los almacenes y lakes.

Dado que los almacenes de datos y los lakes tienen propósitos diferentes, muchas organizaciones implementan ambos en sus pilas de datos. Sin embargo, eso significa que los usuarios necesitan montar dos sistemas de datos dispares, especialmente para proyectos de análisis más avanzados. Esto puede dar lugar a flujos de trabajo ineficaces, datos duplicados, desafíos de gobierno del dato y otros problemas.

Los lakehouses puede ayudar a agilizar los esfuerzos de análisis al respaldar la integración de datos. Todos los datos, independientemente del tipo, se pueden almacenar en el mismo repositorio central, lo que reduce la necesidad de duplicación. Todos los tipos de usuarios empresariales pueden utilizar lakehouses para sus proyectos, incluyendo BI, análisis predictivo, IA y ML.

Los lakehouses de datos también pueden servir como vía de modernización para las arquitecturas de datos existentes. Dado que las arquitecturas abiertas de lakehouse encajan fácilmente junto con los lakes y almacenes existentes, las organizaciones pueden comenzar la transición a nuevas soluciones integradas sin tener que desmontar y reemplazar.

Desafíos del lakehouse de datos

Aunque los lakehouses pueden agilizar muchos flujos de trabajo de datos, puede ser complicado poner en marcha uno. Los usuarios también pueden tener una experiencia del cliente, ya que el uso de un lakehouse puede diferir de los almacenes a los que están acostumbrados. Los lakehouses también son una tecnología relativamente nueva y el marco sigue evolucionando.

Más información sobre los lakehouses de datos

Cómo trabajan juntos los almacenes de datos, los data lakes y los data lakehouses en una arquitectura de datos

Los almacenes de datos, data lakes y data lakehouses satisfacen diferentes necesidades empresariales y de datos. Muchas organizaciones utilizan dos o los tres sistemas en combinación para optimizar las canalizaciones de datos y dar soporte a la IA, el ML y análisis.

A modo de analogía, consideremos una cocina comercial. Todos los días, esta cocina recibe envíos de ingredientes (datos) que llegan en camiones (bases de datos transaccionales, aplicaciones empresariales, etc.)

Todos los ingredientes, independientemente del tipo, aterrizan en el muelle de carga (el data lake). Los ingredientes se procesan y clasifican en frigoríficos, despensas y otras áreas de almacenamiento (almacenes de datos). Allí, los ingredientes están listos para que los chefs los utilicen sin ningún procesamiento adicional.

Este proceso es bastante eficiente, pero expone algunos de los desafíos de los data lakes y almacenes de datos tradicionales. Al igual que los ingredientes en un muelle de carga, los datos de un data lake no se pueden utilizar sin un procesamiento posterior. Del mismo modo que los ingredientes en la cocina, los datos de un almacén de datos deben prepararse adecuadamente y entregarse en el lugar adecuado antes de poder utilizarse.

Un lakehouse de datos es un poco como combinar un muelle de carga, una despensa y un frigorífico en una sola ubicación. Por supuesto, esta combinación puede ser poco realista en el ámbito de las cocinas comerciales. Sin embargo, en el mundo de los datos empresariales, permite a las organizaciones obtener el mismo valor de los datos, al tiempo que reduce los costes de procesamiento, las redundancias y los silos de datos.

Comparaciones rápidas y diferencias clave

Almacenes de datos frente a data lakes

Los almacenes de datos almacenan datos depurados y procesados, mientras que los data lakes albergan datos sin procesar en su formato nativo.

Los almacenes de datos llevan incorporados motores de análisis y herramientas de elaboración de informes, mientras que los data lakes requieren herramientas externas para su procesamiento.

Los data lakes tienen un almacenamiento más barato, flexible y escalable. Los almacenes de datos ofrecen un rendimiento optimizado de las consultas.

Los almacenes son los más adecuados para respaldar los esfuerzos de business intelligence y análisis de los usuarios empresariales. Los data lakes son más adecuados para Operaciones que requieren grandes volúmenes de datos en varios formatos de datos, como inteligencia artificial, machine learning y ciencia de datos.

Los almacenes admiten transacciones ACID. Los data lakes no lo hacen.

Almacenes de datos frente a lakehouses de datos

Los lakehouses y los almacenes tienen capacidades de análisis y consulta similares, pero los lakehouses pueden soportar mejor las cargas de trabajo complejas de IA y ML que los almacenes.

Los lakehouses ofrecen un almacenamiento más barato, flexible y escalable para todo tipo de datos. Los almacenes admiten principalmente datos estructurados.

Los almacenes utilizan ETL, mientras que los lakehouses pueden utilizar ETL o ELT.

Los lakehouses pueden gestionar datos por lotes y en streaming. Los almacenes funcionan por lotes.

Data lakes vs. lakehouses de datos

Tanto los data lakes como los lakehouses pueden admitir grandes volúmenes de datos y diversas estructuras de datos. Ambos utilizan sistemas de almacenamiento de datos similares, normalmente almacenamiento de datos en la nube.

Los data lakes no aplican esquemas a los datos ingeridos. Los lakehouses de datos tienen la opción de aplicar esquemas.

Tanto los data lakes como los almacenes de lagos pueden soportar cargas de trabajo de IA y ML, pero los almacenes de lagos ofrecen mejor soporte para los esfuerzos de BI y análisis que los data lakes.

Los lakehouses tienen herramientas de análisis integradas o están estrechamente integrados con marcos. Los data lakes requieren herramientas externas para proceso de datos.

Los lakehouses tienen controles de gobierno del dato, integridad y calidad de datos más sólidos que los data lakes.

Los lakehouses admiten transacciones ACID; los data lake no.

Los data lakes suelen construirse para el procesamiento por lotes y es posible que no admitan la transmisión de datos. Los lakehouses pueden admitir datos por lotes y en streaming.

Gestión de datos para IA y análisis

Explore el valor de las arquitecturas de datos y descubra cómo la cartera de bases de datos de IBM puede ayudar a simplificar los datos para todas sus aplicaciones, análisis y flujos de trabajo de IA.

Recursos

Gestión de datos para IA y análisis a escala

Descubra cómo un enfoque de lakehouse de datos abierto puede proporcionar datos fiables y una ejecución más rápida de los proyectos de análisis e IA.

2024 Gartner Magic Quadrant for Data Integration Tools

IBM nombrada Líder por 19.º año consecutivo en el 2024 Gartner Magic Quadrant for Data Integration Tools.

El diferenciador de datos

Explore la guía del líder de datos para crear una organización basada en datos e impulsar la ventaja empresarial.

Incremente la adopción de la IA con datos preparados para ella

Descubra por qué la inteligencia de datos con IA y la integración de datos son críticos a la hora de impulsar la preparación de datos estructurados y no estructurados y acelerar los resultados de IA.

El lakehouse de datos híbrido y abierto para la IA

Simplifique el acceso a los datos y automatice su gobierno. Descubra el potencial de integrar una estrategia de lakehouse de datos en su arquitectura de datos, incluida la optimización de costes de sus cargas de trabajo y el escalado de IA y analítica, con todos sus datos, en cualquier lugar.

Publicaciones sobre gestión de datos de IBM Research

Explore cómo IBM Research se integra de forma regular en las nuevas características de IBM Cloud Pak for Data.

Gartner predicts 2024: How AI will impact analytics users

Obtenga una visión única del panorama en evolución de las soluciones ABI, en el que se destaquen las principales conclusiones, suposiciones y recomendaciones para los líderes de datos y análisis.

Soluciones relacionadas

Software y soluciones de gestión de datos

Diseñe una estrategia de datos que elimine los silos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

Explore las soluciones de gestión de datos

IBM watsonx.data

Watsonx.data le permite escalar el análisis y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y controlado.

Descubra watsonx.data

Servicios de asesoramiento sobre datos y análisis

Desbloquee el valor de los datos empresariales con IBM Consulting y construya una organización impulsada por conocimientos que ofrezca ventajas empresariales.

Descubra los servicios de análisis

De el siguiente paso

Diseñe una estrategia de datos que elimine los silos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

Explore las soluciones de gestión de datos

Descubra watsonx.data

Almacenes de datos vs. data lakes vs. lakehouses de datos

Etiquetas

20 de noviembre de 2024

Share

Autores

Matthew Kosinski

Almacenes de datos vs. data lakes vs. lakehouses de datos

Las últimas noticias + conocimientos de IA

Características clave de los almacenes de datos

Arquitectura de almacén de datos

Casos de uso de almacenes de datos

Retos del almacén de datos

¿Es la gestión de datos el secreto de la IA generativa?

Características clave de data lakes

Arquitectura de data lake

Casos de uso de data lakes

Desafíos del data lake

Características clave de los lakehouses de datos

Arquitectura de lakehouse de datos

Casos de uso de un lakehouse de datos

Desafíos del lakehouse de datos

Cómo trabajan juntos los almacenes de datos, los data lakes y los data lakehouses en una arquitectura de datos

Comparaciones rápidas y diferencias clave

Almacenes de datos frente a data lakes

Almacenes de datos frente a lakehouses de datos

Data lakes vs. lakehouses de datos

Recursos

Soluciones relacionadas

Las últimas noticias + conocimientos de IA