La primera capa en muchas plataformas de datos es la capa de almacenamiento de datos. El tipo de almacenamiento de datos utilizado depende de las necesidades de la organización y puede incluir almacenamiento de datos on premises y almacenamiento en la nube. Los almacenes de datos comunes incluyen:
Almacenes de datos
Un almacén de datos, o almacén de datos empresariales (EDW), agrega datos de diferentes fuentes en un almacén de datos único, central y coherente para respaldar el análisis de datos, la minería de datos, la IA y el machine learning. Los almacenes de datos se utilizan con mayor frecuencia para gestionar datos estructurados con casos de uso de analytics claramente definidos.
Data lakes
Un data lake es un entorno de almacenamiento de menor costo, que normalmente alberga petabytes de datos sin procesar. Un lago de datos puede almacenar datos estructurados y no estructurados en varios formatos, lo que permite a los investigadores trabajar más fácilmente con una amplia gama de datos.
Los lagos de datos a menudo se creaban originalmente en el ecosistema Hadoop, un proyecto de código abierto basado en NoSQL. A partir de 2015, muchos lagos de datos comenzaron a trasladarse a cloud. Una arquitectura típica de lago de datos ahora podría almacenar datos en una plataforma de object storage como Amazon S3 de Amazon Web Services (AWS) y utilizar una herramienta como Spark para procesar los datos.
Lakehouses de datos
Un data lakehouse combina las capacidades de los almacenes de datos y los lagos de datos en una única solución de gestión de datos.
Si bien los almacenes de datos ofrecen un mejor rendimiento que los lagos de datos, a menudo son más costosos y limitados en su capacidad a escala. Los lagos de datos se optimizan para los costos de almacenamiento, pero carecen de la estructura para analytics útiles.
Un lago de datos está diseñado para hacer frente a estos retos mediante el uso de cloud object storage para almacenar una gama más amplia de tipos de datos, es decir, datos estructurados, datos no estructurados y datos semiestructurados. Una arquitectura de lago de datos combina este almacenamiento con herramientas para respaldar los esfuerzos analíticos avanzados, como la business intelligence y el machine learning.