Los almacenes de datos, los data lakes y los lakehouses de datos son diferentes tipos de soluciones de gestión de datos con diferentes funciones:
Los almacenes de datos agregan, limpian y preparan los datos para que puedan utilizarse en los esfuerzos de business intelligence (BI) y análisis de datos.
Los data lakes almacenan grandes cantidades de datos sin procesar a bajo coste.
Los lakehouses de datos combinan el almacenamiento de datos flexible de un lake y las capacidades analíticas de alto rendimiento de un almacén en una sola solución.
Dado que estas soluciones tienen diferentes características y sirven para diferentes propósitos, muchas arquitecturas de datos empresariales utilizan dos o las tres en un tejido de datos holístico:
Una organización puede utilizar un data lake como solución de almacenamiento de propósito general para todos los datos entrantes en cualquier formato.
Los datos del data lake se pueden alimentar a almacenes de datos adaptados a unidades de negocio individuales, donde pueden informar la toma de decisiones.
Una arquitectura de lakehouse de datos puede ayudar a los científicos de datos y data engineers a trabajar más fácilmente con datos sin procesar en un data lake para proyectos de machine learning (ML), inteligencia artificial (IA) y ciencia de datos.
Los lakehouses de datos también son populares como vía de modernización para las arquitecturas de datos existentes. Las organizaciones pueden implementar nuevos lakehouses sin tener que desmontar y sustituir sus actuales lakes y almacenes, lo que agiliza la transición a una solución unificada de almacenamiento de datos y análisis.
Un almacén de datos agrega datos de fuentes de datos dispares, bases de datos, aplicaciones empresariales y fuentes de redes sociales, en un único almacén. La característica que define a una herramienta de almacenamiento de datos es que limpia y prepara los conjuntos de datos que consumir.
Los almacenes de datos utilizan un enfoque llamado "esquema en escritura", que aplica un esquema coherente a todos los datos a medida que se escriben en el almacenamiento. Esto ayuda a optimizar los datos para el business intelligence y el análisis.
Por ejemplo, un almacén para datos de venta minorista ayudaría a garantizar que detalles como la fecha, el importe y el número de transacción tengan el formato correcto y se asignen a las celdas correctas en una tabla relacional.
Un almacén de datos (data mart) es un tipo de almacén que contiene datos específicos de una línea de negocio o departamento en particular, no de toda la empresa. Por ejemplo, un equipo de marketing puede tener su propio almacén de datos, recursos humanos puede tener uno, etc.
Un almacén de datos típico tiene tres capas:
La capa inferior, donde los datos fluyen hacia el almacén desde varias fuentes a través de un proceso de extracción, transformación y carga (ETL). En muchos almacenes, los datos se almacenan en una base de datos relacional o un sistema similar.
La capa intermedia se basa en un analytics engine, como un sistema de procesamiento analítico en línea (OLAP) o un motor basado en SQL. Esta capa intermedia permite a los usuarios consultar conjuntos de datos y ejecutar análisis directamente en el almacén.
La capa superior incluye interfaces de usuario y herramientas de elaboración de informes que permiten a los usuarios realizar análisis de datos ad hoc sobre sus datos empresariales.
Los primeros almacenes de datos se alojaban en las instalaciones, pero muchos ahora están alojados en la nube o se entregan como servicios cloud. Los enfoques híbridos también son comunes.
Como los almacenes de datos tradicionales se basan en sistemas de bases de datos relacionales y esquemas estrictos, son más efectivos con datos estructurados. Algunos almacenes modernos han evolucionado para acomodar datos semiestructurados y no estructurados, pero muchas organizaciones prefieren data lakes y lakehouses para este tipo de datos.
Los almacenes de datos son utilizados por analistas de negocios, científicos de datos e ingenieros de datos para llevar a cabo esfuerzos analíticos de autoservicio.
La aplicación de un esquema definido a todos los datos favorece su coherencia, lo que hace que los datos sean más fiables y más fáciles de trabajar. Dado que un almacén de datos almacena los datos en un esquema relacional estructurado, admite consultas de lenguaje de consulta estructurado (SQL) de alto rendimiento.
Las organizaciones pueden utilizar herramientas de análisis de datos y BI integradas o conectadas para analizar datos de transacción y datos históricos, generar visualizaciones de datos y crear paneles para respaldar la toma de decisiones basada en datos.
El mantenimiento de los almacenes puede resultar costoso. Los datos deben transformarse antes de cargarse en un almacén, lo que requiere tiempo y recursos. Dado que el almacenamiento y la computación están estrechamente vinculados en los almacenes tradicionales, el escalado puede resultar costoso. Si los datos no se mantienen adecuadamente, el rendimiento de las consultas puede verse afectado.
Dado que pueden tener problemas con conjuntos de datos no estructurados y semiestructurados, los almacenes de datos no se adaptan bien a las cargas de trabajo de IA y ML.
Los data lakes son soluciones de almacenamiento de datos de bajo coste diseñadas para gestionar volúmenes masivos de datos. Los data lakes utilizan un enfoque de esquema en lectura, lo que significa que no aplican un formato estándar a los datos entrantes. En su lugar, los esquemas se aplican cuando los usuarios acceden a los datos a través de una herramienta de análisis u otra interfaz.
Los data lakes almacenan datos en su formato nativo. Esto permite que un data lake almacene datos estructurados, datos no estructurados y datos semiestructurados, todo en la misma plataforma de datos.
Los data lakes surgieron para ayudar a las organizaciones a gestionar la avalancha de big data desatada por la Web 2.0 y el auge de la computación en la nube y móvil a finales de la década de 2000 y principios de la de 2010. Las organizaciones se encontraron con más datos que nunca, muchos de ellos en formatos no estructurados, como texto e imágenes de forma libre, que los almacenes tradicionales no pueden gestionar fácilmente.
Los primeros data lakes a menudo se construían en el sistema de archivos distribuido Apache Hadoop (HDFS). Los data lakes modernos suelen utilizar un almacén de objetos en la nube, como Amazon Simple Storage Service (S3), Microsoft Azure Blob almacenamiento o IBM Cloud Object Storage.
Los data lakes separan el almacenamiento de datos de los recursos, lo que los hace más rentables y escalables que los almacenes de datos. Las organizaciones pueden agregar más almacenamiento sin escalar los recursos informáticos junto con él. El almacenamiento en la nube admite una mayor escalabilidad, ya que las organizaciones pueden crear más almacenamiento sin ampliar los recursos locales.
Para procesar datos en un data lake, los usuarios pueden conectar herramientas externas de proceso de datos como Apache Spark. A diferencia de un almacén de datos, estas herramientas de procesamiento no están integradas en el lake .
Los data lakes son una opción popular para almacenamiento de datos de uso general debido a su bajo coste, escalabilidad y capacidad para almacenar datos de cualquier formato.
Las organizaciones suelen utilizar data lakes para mantener copias de seguridad y archivar datos antiguos y no utilizados. Las organizaciones también pueden utilizar lakes para almacenar todos los datos nuevos entrantes, incluidos los datos sin un propósito definido. Los datos pueden permanecer en el lake hasta que la organización tenga un uso para ellos.
Las organizaciones también utilizan data lakes para almacenar conjuntos de datos para cargas de trabajo de ML, IA y análisis de big data, como proyectos de detección de datos, entrenamiento de modelos y análisis experimental.
Como no aplican un esquema estricto y carecen de herramientas de procesamiento integradas, los data lakes pueden tener dificultades con el gobierno y la calidad de los datos. También son menos adecuados para los esfuerzos diarios de BI y análisis de datos de los usuarios empresariales.
Las organizaciones a menudo necesitan herramientas separadas, como un catálogo de datos completo y un sistema de administración de metadatos, para mantener la precisión y la calidad. Sin estas herramientas, los data lakes pueden convertirse fácilmente en pantanos de datos.
Un lakehouse de datos combina las funciones principales de los data lakes y los almacenes de datos en una sola solución de gestión de datos.
Al igual que un data lake, un lakehouse de datos puede almacenar datos en cualquier formato (estructurado, no estructurado o semiestructurado) a bajo coste.
Al igual que un almacén, un lakehouse de datos admite consultas rápidas y análisis optimizados.
Un lakehouse de datos combina tecnologías y herramientas que antes eran dispares en una solución holística. Una arquitectura típica de un lakehouse de datos incluye estas capas:
La capa de ingesta recopila datos de streaming por lotes y en tiempo real de una variedad de orígenes. Mientras que los lakehouses pueden utilizar procesos ETL para capturar datos, muchos utilizan la extracción, carga y transformación (ELT). La lakehouse puede cargar datos sin procesar en el almacenamiento y transformarlos más tarde cuando se necesiten para el análisis.
La capa de almacenamiento suele ser el almacenamiento de objetos en la nube, como en un data lake.
La capa de metadatos proporciona un catálogo unificado de metadatos para cada objeto de la capa de almacenamiento. Esta capa de metadatos ayuda a los lakes a hacer muchas cosas que los lakes no pueden: indexar los datos para agilizar las consultas, reforzar los esquemas y aplicar controles de gobierno y calidad.
La capa API permite a los usuarios conectar herramientas para análisis avanzados.
La capa de consumo aloja aplicaciones y herramientas de cliente para BI, ML y otros proyectos de ciencia de datos y análisis.
Al igual que en un data lake, los recursos informáticos y de almacenamiento están separados, lo que permite la escalabilidad.
Los data lakes dependen en gran medida de las tecnologías de código abierto. Los formatos de datos como Apache Parquet y Apache Iceberg permiten a las organizaciones mover libremente las cargas de trabajo de un entorno a otro. Delta Lake, una capa de almacenamiento de código abierto, admite funciones que ayudan a los usuarios a ejecutar el análisis de los conjuntos de datos sin procesar, como el control de versiones y las transacciones ACID. "ACID" es la abreviatura de atomicidad, coherencia, aislamiento y durabilidad; propiedades clave que ayudan a garantizar la integridad de las transacciones de datos.
Las organizaciones pueden construir sus propios lakehouses a partir de componentes o utilizar ofertas prediseñadas como Databricks, Snowflake o IBM watsonx.data.
Los lakehouses de datos pueden ayudar a las organizaciones a superar algunos de los límites y complejidades de los almacenes y lakes.
Dado que los almacenes de datos y los lakes tienen propósitos diferentes, muchas organizaciones implementan ambos en sus pilas de datos. Sin embargo, eso significa que los usuarios necesitan montar dos sistemas de datos dispares, especialmente para proyectos de análisis más avanzados. Esto puede dar lugar a flujos de trabajo ineficaces, datos duplicados, desafíos de gobierno del dato y otros problemas.
Los lakehouses puede ayudar a agilizar los esfuerzos de análisis al respaldar la integración de datos. Todos los datos, independientemente del tipo, se pueden almacenar en el mismo repositorio central, lo que reduce la necesidad de duplicación. Todos los tipos de usuarios empresariales pueden utilizar lakehouses para sus proyectos, incluyendo BI, análisis predictivo, IA y ML.
Los lakehouses de datos también pueden servir como vía de modernización para las arquitecturas de datos existentes. Dado que las arquitecturas abiertas de lakehouse encajan fácilmente junto con los lakes y almacenes existentes, las organizaciones pueden comenzar la transición a nuevas soluciones integradas sin tener que desmontar y reemplazar.
Aunque los lakehouses pueden agilizar muchos flujos de trabajo de datos, puede ser complicado poner en marcha uno. Los usuarios también pueden tener una experiencia del cliente, ya que el uso de un lakehouse puede diferir de los almacenes a los que están acostumbrados. Los lakehouses también son una tecnología relativamente nueva y el marco sigue evolucionando.
Los almacenes de datos, data lakes y data lakehouses satisfacen diferentes necesidades empresariales y de datos. Muchas organizaciones utilizan dos o los tres sistemas en combinación para optimizar las canalizaciones de datos y dar soporte a la IA, el ML y análisis.
A modo de analogía, consideremos una cocina comercial. Todos los días, esta cocina recibe envíos de ingredientes (datos) que llegan en camiones (bases de datos transaccionales, aplicaciones empresariales, etc.)
Todos los ingredientes, independientemente del tipo, aterrizan en el muelle de carga (el data lake). Los ingredientes se procesan y clasifican en frigoríficos, despensas y otras áreas de almacenamiento (almacenes de datos). Allí, los ingredientes están listos para que los chefs los utilicen sin ningún procesamiento adicional.
Este proceso es bastante eficiente, pero expone algunos de los desafíos de los data lakes y almacenes de datos tradicionales. Al igual que los ingredientes en un muelle de carga, los datos de un data lake no se pueden utilizar sin un procesamiento posterior. Del mismo modo que los ingredientes en la cocina, los datos de un almacén de datos deben prepararse adecuadamente y entregarse en el lugar adecuado antes de poder utilizarse.
Un lakehouse de datos es un poco como combinar un muelle de carga, una despensa y un frigorífico en una sola ubicación. Por supuesto, esta combinación puede ser poco realista en el ámbito de las cocinas comerciales. Sin embargo, en el mundo de los datos empresariales, permite a las organizaciones obtener el mismo valor de los datos, al tiempo que reduce los costes de procesamiento, las redundancias y los silos de datos.
Los almacenes de datos almacenan datos depurados y procesados, mientras que los data lakes albergan datos sin procesar en su formato nativo.
Los almacenes de datos llevan incorporados motores de análisis y herramientas de elaboración de informes, mientras que los data lakes requieren herramientas externas para su procesamiento.
Los data lakes tienen un almacenamiento más barato, flexible y escalable. Los almacenes de datos ofrecen un rendimiento optimizado de las consultas.
Los almacenes son los más adecuados para respaldar los esfuerzos de business intelligence y análisis de los usuarios empresariales. Los data lakes son más adecuados para Operaciones que requieren grandes volúmenes de datos en varios formatos de datos, como inteligencia artificial, machine learning y ciencia de datos.
Los almacenes admiten transacciones ACID. Los data lakes no lo hacen.
Los lakehouses y los almacenes tienen capacidades de análisis y consulta similares, pero los lakehouses pueden soportar mejor las cargas de trabajo complejas de IA y ML que los almacenes.
Los lakehouses ofrecen un almacenamiento más barato, flexible y escalable para todo tipo de datos. Los almacenes admiten principalmente datos estructurados.
Los almacenes utilizan ETL, mientras que los lakehouses pueden utilizar ETL o ELT.
Los lakehouses pueden gestionar datos por lotes y en streaming. Los almacenes funcionan por lotes.
Tanto los data lakes como los lakehouses pueden admitir grandes volúmenes de datos y diversas estructuras de datos. Ambos utilizan sistemas de almacenamiento de datos similares, normalmente almacenamiento de datos en la nube.
Los data lakes no aplican esquemas a los datos ingeridos. Los lakehouses de datos tienen la opción de aplicar esquemas.
Tanto los data lakes como los almacenes de lagos pueden soportar cargas de trabajo de IA y ML, pero los almacenes de lagos ofrecen mejor soporte para los esfuerzos de BI y análisis que los data lakes.
Los lakehouses tienen herramientas de análisis integradas o están estrechamente integrados con marcos. Los data lakes requieren herramientas externas para proceso de datos.
Los lakehouses tienen controles de gobierno del dato, integridad y calidad de datos más sólidos que los data lakes.
Los lakehouses admiten transacciones ACID; los data lake no.
Los data lakes suelen construirse para el procesamiento por lotes y es posible que no admitan la transmisión de datos. Los lakehouses pueden admitir datos por lotes y en streaming.
Descubra cómo un enfoque de lakehouse de datos abierto puede proporcionar datos fiables y una ejecución más rápida de los proyectos de análisis e IA.
IBM nombrada Líder por 19.º año consecutivo en el 2024 Gartner Magic Quadrant for Data Integration Tools.
Explore la guía del líder de datos para crear una organización basada en datos e impulsar la ventaja empresarial.
Descubra por qué la inteligencia de datos con IA y la integración de datos son críticos a la hora de impulsar la preparación de datos estructurados y no estructurados y acelerar los resultados de IA.
Diseñe una estrategia de datos que elimine los silos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.
Watsonx.data le permite escalar el análisis y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y controlado.
Desbloquee el valor de los datos empresariales con IBM Consulting y construya una organización impulsada por conocimientos que ofrezca ventajas empresariales.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com, openliberty.io