La primera capa de muchas plataformas de datos es la capa de almacenamiento de datos. El tipo de almacenamiento de datos utilizado depende de las necesidades de la organización y puede incluir tanto el almacenamiento local como en la nube. Los almacenes de datos más comunes incluyen:
Almacenes de datos
Un almacén de datos, o almacén de datos empresariales (EDW), agrega datos de diferentes fuentes en un almacén de datos único, central y coherente para respaldar el análisis de datos, la minería de datos, la IA y el machine learning. Los almacenes de datos se utilizan con mayor frecuencia para gestionar datos estructurados con casos de uso analíticos claramente definidos.
Data lakes
Un data lake es un entorno de almacenamiento de menor coste, que normalmente alberga petabytes de datos sin procesar. Un data lake puede almacenar datos estructurados y datos no estructurados en varios formatos, lo que permite a los investigadores trabajar más fácilmente con una amplia gama de datos.
Los data lakes a menudo se creaban originalmente en el ecosistema Hadoop, un proyecto de código abierto basado en NoSQL. A partir de 2015, muchos data lakes empezaron a trasladarse a la nube. Una arquitectura típica de data lake ahora podría almacenar datos en una plataforma de almacenamiento de objetos, como Amazon S3 de Amazon Web Services (AWS) y utilizar una herramienta como Spark para procesar los datos.
Lakehouses de datos
Un lakehouse de datos combina las capacidades de los almacenes de datos y los data lakes en una única solución de gestión de datos.
Aunque los almacenes de datos ofrecen un mejor rendimiento que los data lakes, suelen ser más costosos y tienen una capacidad de escalar limitada. Los data lakes optimizan los costes de almacenamiento, pero carecen de la estructura necesaria para realizar análisis útiles.
Un lakehouse de datos está diseñado para hacer frente a estos retos mediante el uso de almacenamiento de objetos en la nube para almacenar una gama más amplia de tipos de datos, es decir, datos estructurados, datos no estructurados y datos semiestructurados. Una arquitectura de lakehouse de datos combina este almacenamiento con herramientas para respaldar los esfuerzos de análisis avanzados, como la inteligencia empresarial y el machine learning.