Actualizado: 11 de octubre de 2024
Colaboradores: Jim Holdsworth, Matthew Kosinski
Un almacén de datos es un sistema que agrega datos de varias fuentes en un único almacén de datos central y coherente. Los almacenes de datos ayudan a preparar los datos para las iniciativas de análisis de datos, inteligencia empresarial (BI), minería de datos, machine learning (ML) e inteligencia artificial (IA).
Un sistema de almacenamiento de datos empresarial permite a una organización ejecutar análisis potentes sobre grandes cantidades de datos (petabytes y más) de formas que una base de datos estándar no puede. Los datos pueden ser estructurados, semiestructurados o no estructurados. Los datos pueden introducirse en un almacén desde múltiples bases de datos, incluidos los sistemas de gestión de relaciones con los clientes (CRM), inventario, punto de venta (POS) y gestión de la cadena de suministro.
Los sistemas de almacenamiento de datos, a veces denominados sistemas de almacenamiento de datos empresariales (EDW), han respaldado los esfuerzos de inteligencia empresarial durante más de tres décadas. Sus funciones se centran en la extracción de datos de otras fuentes, la limpieza y preparación de los datos y la carga y el mantenimiento de los datos, a menudo en una base de datos relacional.
Tradicionalmente, un almacén de datos se alojaba en entornos locales, a menudo en un mainframe. Hoy en día, muchos almacenes de datos están alojados en la nube y se entregan como servicio en la nube.
Los almacenes de datos nacieron en la década de 1980 para optimizar el análisis de datos al hacer que los datos de transacción estuvieran disponibles en un formato coherente. A medida que crecía el poder de las aplicaciones empresariales y estallaban nuevas fuentes de datos, como la World Wide Web, las redes sociales y el Internet de las cosas (IoT), crecía la necesidad de un mayor almacenamiento y un análisis más rápido.
A medida que el almacén de datos evolucionó para admitir mayores volúmenes y datos más granulares, más equipos dentro de las organizaciones solicitaron acceso directo a los datos para funciones de análisis de autoservicio.
Muchas organizaciones se dieron cuenta de que sus almacenes de datos heredados no podían gestionar estas nuevas y enormes cargas de trabajo. Y como muchos almacenes de datos solo almacenaban datos estructurados, la riqueza del análisis podía ser limitada. En respuesta, evolucionaron alternativas más flexibles, incluidos los almacenes de datos nativos de la nube y los lakehouses de datos. (Consulte "lakehouse de datos vs. almacén de datos" para obtener más información).
Para procesar los datos de forma rápida y eficiente, los almacenes de datos suelen utilizar una arquitectura de tres niveles.
Este nivel es donde los datos fluyen desde fuentes de datos dispar hacia un servidor de almacén de datos, donde se almacenan. La mayoría de las veces, los datos se mueven a través de un proceso conocido como extraer, transformar, cargar (ETL) o, a veces, un proceso conocido como extraer, cargar, transformar (ELT). Estos procesos se ejecutan de formas distintas, pero ambos utilizan la automatización para trasladar los datos a un almacén y prepararlos para su uso en análisis.
Este nivel se construye tradicionalmente en torno a un motor de análisis, la mayoría de las veces un sistema de procesamiento analítico en línea (OLAP) diseñado para ofrecer análisis rápidos y velocidades de consulta. En este nivel se pueden utilizar tres tipos de modelos OLAP:
El tipo de modelo OLAP utilizado depende del tipo de sistema de bases de datos que se utilice.
Este nivel incluye una interfaz de usuario front-end o una herramienta de elaboración de informes, que permite a los usuarios realizar análisis de datos ad hoc sobre sus datos empresariales. La inteligencia empresarial de autoservicio tiene múltiples usos, como la generación de informes basados en datos históricos, la identificación de nuevas oportunidades o la identificación de cuellos de botella en los procesos.
La mayoría de los almacenes de datos utilizan sistemas OLAP para respaldar los análisis. El software OLAP realiza análisis multidimensionales a altas velocidades en grandes volúmenes de datos desde un almacén unificado y centralizado, como un almacén de datos.
Un dato comercial a menudo tiene múltiples dimensiones. Por ejemplo, las cifras de ventas podrían incluir varias dimensiones relacionadas con la ubicación (región, país y almacenar), el tiempo (año, mes, semana y día) o el producto (marca, tipo).
En una base de datos relacional tradicional, los datos se organizan en tablas de filas y columnas que solo pueden representar dos de estas dimensiones a la vez: una dimensión en la fila y una dimensión en la columna. Esto puede hacer que el análisis sea engorroso.
Sin embargo, los sistemas OLAP permiten a los usuarios analizar datos en múltiples dimensiones a la vez, lo que permite un procesamiento más rápido y un análisis más profundo. Los usos comunes de OLAP incluyen aplicaciones de minería de datos e inteligencia empresarial, cálculos analíticos complejos, escenarios predictivos, presupuestos y previsiones.
OLAP es distinto del procesamiento transaccional en línea u OLTP. Los sistemas OLTP rastrean un gran número de transacciones, por un gran número de usuarios, en tiempo real. La diferencia clave entre OLTP y OLAP es que los sistemas OLTP están diseñados principalmente para capturar datos, mientras que los sistemas OLAP analizan datos que ya han sido capturados.
Los sistemas OLTP suelen utilizar bases de datos relacionales para registrar transacciones como:
Aunque los almacenes de datos no suelen implicar sistemas OLTP, los datos registrados en las bases de datos por los sistemas OLTP suelen alimentarse al almacén, donde un sistema OLAP permite el análisis.
Los esquemas de bases de datos definen cómo se organizan los datos dentro de una base de datos o almacén de datos. Hay dos tipos principales de estructuras de esquema utilizadas en los almacenes de datos: el esquema en estrella y el esquema en copo de nieve.
El esquema de estrella y copo de nieve son modelos de datos dimensionales diseñados para optimizar las velocidades de recuperación de datos. Los modelos dimensionales aumentan la redundancia para facilitar la localización de la información para la elaboración de informes y la recuperación. Este modelado se utiliza normalmente en todos los sistemas OLAP.
Este esquema consta de una tabla de hechos (que contiene elementos medibles como los productos vendidos y los importes monetarios de las ventas) unida a tablas de dimensiones (es decir, información de referencia que muestra cómo se pueden agrupar y organizar los hechos, como las fechas de venta y el sector al que se vende).
En un diagrama, la tabla de hechos puede parecer estar en medio de un patrón de estrella. La estrella esquema se considera el tipo de esquema más simple y común, y sus usuarios se benefician de una velocidad más rápida al realizar consultas.
Aunque no se ha adoptado tan ampliamente, el esquema de copo de nieve es otra estructura organizativa que se utiliza en los almacenes de datos. En este caso, la tabla de hechos está conectada a varias tablas de dimensiones normalizadas que contienen datos descriptivos sobre los hechos de la tabla de hechos central. Estas tablas de dimensiones también tienen tablas secundarias.
Este patrón más complejo y ramificado puede parecerse a un copo de nieve. Los usuarios de un esquema en copo de nieve se benefician de sus bajos niveles de redundancia de datos, pero esto conlleva un coste en el rendimiento de las consultas más lento.
La mayoría de los almacenes de datos se construyen en torno a un sistema de base de datos relacional, ya sea local o en la nube, donde se almacenan y procesan los datos. Un almacén de datos típico tiene componentes como:
La capa de datos o base de datos central, es el corazón del almacén de datos y está respaldada por todos los demás componentes. Los datos pueden ser entrada desde aplicaciones comerciales, listas de correo electrónico, sitios web o cualquier otra base de datos relacional. Los datos se almacenan físicamente en un servidor o conjunto de servidores.
La capa de datos puede particionar segmentos de datos para que los usuarios solo puedan acceder a los datos que necesitan. Por ejemplo, el equipo de ventas normalmente no tendría acceso a los datos del equipo de RR. HH. y viceversa.
Por lo general, los almacenes de datos tienen incorporadas capacidades de seguridad y gobierno de datos, por lo que las organizaciones no necesitan hacer mucho trabajo de ingeniería de datos personalizado para incluir estas características. Es posible que las organizaciones necesiten actualizar los principios de gobierno de datos y las medidas de seguridad en el tiempo a medida que se añaden nuevos datos de diferentes fuentes al almacén.
Las herramientas de acceso se conectan a un almacén de datos para proporcionar un front-end fácil de usar para el usuario empresarial. Esto puede incluir paneles de control, informes y herramientas de visualización de datos que permitan a los analistas de datos y a los usuarios empresariales interactuar con los datos y extraer conocimientos. Algunas de estas herramientas son Tableau, Looker y Qlik.
Las herramientas ETL ayudan a mover datos de una fuente de datos al almacén de datos. Primero, los datos se "extraen" de su fuente, se mueven a un área de preparación donde se limpian y preparan (o "transforman") y, a continuación, se "cargan" en un almacén.
Las herramientas ETL convierten los datos a un formato consistente para que puedan analizarse y consultarse de manera eficiente cuando están dentro del almacén. Por ejemplo, se pueden extraer datos de múltiples bases de datos de clientes y luego transformarlos en un formato común para que todos los registros de clientes tengan los mismos campos.
Una herramienta de marco de proceso de datos, como Apache Spark, puede ayudar a gestionar la transformación de los datos.
Dado que un almacén de datos almacena principalmente datos estructurados, los datos suelen transformarse antes de moverse al almacén. Aunque algunos almacenes pueden utilizar en su lugar un proceso de extracción, carga y transformación (ELT), que carga los datos en el almacén antes de transformarlos, este proceso se utiliza más comúnmente para los data lakes, que no requieren formatos de datos estandarizados. (Consulte "data lake vs. almacén de datos" para obtener más información).
Los metadatos son datos sobre datos. Básicamente, describe los datos que se almacenan en un sistema para que se puedan buscar. Los metadatos incluyen características como autores, fechas o ubicaciones de artículos, fechas de creación y tamaños de archivo. Los metadatos y su sistema de gestión ayudan a organizar los datos y hacerlos utilizables para el análisis.
Algunos almacenes de datos ofrecen un entorno aislado de los datos en tiempo real. Podría utilizarse como entorno de pruebas, que contiene una copia de los datos de producción y herramientas de análisis y visualización pertinentes. Los analistas de datos y los científicos de datos pueden experimentar con nuevas técnicas analíticas en el entorno aislado sin afectar a las operaciones del almacén de datos para otros usuarios.
Una capa de conectividad para interfaz de programación de aplicaciones (API) puede ayudar al almacén a extraer datos de fuentes organizativas y proporcionar acceso a herramientas de visualización y análisis.
Los términos almacén de datos, base de datos, data lake, almacén de datos (data mart) y lakehouse de datos a veces se utilizan indistintamente. Aunque estos sistemas son similares, existen diferencias importantes.
Una base de datos es como un archivador creado principalmente para consultas rápidas y procesamiento de transacciones, pero no para el análisis. Normalmente, una base de datos sirve como almacén de datos centrado en una aplicación específica, mientras que un almacén de datos almacena datos de cualquier número de aplicaciones de una organización.
Una base de datos se centra en capturar datos en tiempo real, mientras que un almacén de datos tiene un alcance más amplio, capturando datos históricos, pero a veces datos actuales, para análisis predictivos, machine learning y otros análisis avanzados.
Un data lake es una solución de almacenamiento para cantidades masivas de datos sin procesar sin un esquema predefinido. Los data lakes suelen contener datos no estructurados y datos semiestructurados, como documentos, vídeos, registros del Internet de las cosas (IoT) y publicaciones en redes sociales. Suelen construirse sobre plataformas de big data como Apache Hadoop.
Los data lakes están diseñados principalmente para ofrecer almacenamiento de bajo coste para grandes cantidades de datos. Para mantener bajos los costes de almacenamiento, no suelen transformar los datos ni optimizarlos para el análisis, como hace un almacén.
Un data mart es un tipo de almacén de datos que contiene datos específicos de una línea de negocio o departamento en particular, no de toda la empresa.
Dado que los data marts contienen un subconjunto de datos más pequeño, permiten a un departamento o línea de negocio descubrir información más específica y rápidamente que cuando se trabaja con el conjunto de datos más amplio del almacén de datos.
Por ejemplo, un equipo de marketing podría utilizar un data mart para definir los datos demográficos objetivo ideales, mientras que un equipo de producto podría utilizar uno para analizar los patrones de inventario.
Un lakehouse de datos es una plataforma de datos que fusiona aspectos de los almacenes de datos y los data lakes (es decir, la flexibilidad de un lake y el alto rendimiento de un almacén) en una única solución de gestión de datos. Los lakehouses de datos también pueden añadir características como metadatos compartidos, motores de lenguaje de consulta estructurado (SQL) distribuido y controles de gobierno y seguridad integrados.
La llegada de las tecnologías de código abierto y el deseo de reducir la duplicación de datos y las complejas canalizaciones ETL han conducido al desarrollo de los lakehouses de datos. Al combinar las características clave de los lagos y los almacenes en una solución de datos, los lakehouses pueden ayudar a acelerar el proceso de datos y respaldar el machine learning, la ciencia de datos y las cargas de trabajo de IA.
Un almacén de datos basado en la nube está diseñado para ejecutarse en la nube. A menudo se ofrece a las organizaciones como un servicio gestionado de almacenamiento de datos en el que la infraestructura del almacén de datos es gestionada por la empresa de la nube. La organización no necesita realizar una inversión inicial en hardware o software, ni gestionar su propio sistema. Los servicios en la nube también suelen ofrecer precios flexibles.
Los almacenes de datos basados en la nube se han hecho más populares a medida que más organizaciones utilizan los servicios de cloud computing y tratan de reducir su huella en los centros de datos locales.
Una empresa puede comprar una licencia de almacén de datos y luego implementar el almacén como su propia infraestructura local. Aunque suele ser más caro que un servicio de almacenamiento de datos en la nube, podría ser una buena opción para entidades gubernamentales, instituciones financieras u otras organizaciones que desean tener más control sobre sus datos o necesitan cumplir con estrictas normas de seguridad o protección de datos.
Un dispositivo de almacén de datos es un paquete preintegrado de hardware y software, que suele incluir unidades centrales de procesamiento (CPU), almacenamiento, sistema operativo y software de almacén de datos, que una empresa puede conectar a su red y empezar a utilizar tal cual.
En términos de coste inicial, velocidad de implementación, facilidad de escalabilidad y control de gestión de datos, un dispositivo de almacén de datos suele situarse entre las implementaciones en la nube y en entornos locales.
Un almacén de datos puede poner información y conocimientos a disposición de los equipos de una organización mediante un autoservicio rápido, lo que permite múltiples casos de uso.
Los almacenes de datos pueden admitir diversas aplicaciones de IA y machine learning. Los científicos de datos pueden analizar datos históricos para desarrollar algoritmos predictivos. Pueden enseñar a las aplicaciones de machine learning a detectar patrones, como la actividad sospechosa de la cuenta que podría indicar un fraude. Pueden utilizar datos de almacén limpios y validados para crear modelos de IA patentados o afinar los modelos existentes para satisfacer mejor sus necesidades empresariales únicas.
Un almacén de datos de nivel empresarial puede permitir que miles de usuarios accedan y ejecuten herramientas de análisis simultáneamente. Dado que los datos se almacenan por separado de las bases de datos operativas y en un formato más eficiente, los usuarios pueden ejecutar sus propias consultas de inteligencia empresarial de autoservicio sin ralentizar otros sistemas clave.
Los almacenes de datos pueden ayudar a consolidar los datos aislados a través de canalizaciones ETL que automatizan la limpieza y la integración. Esto ayuda a acelerar las consultas y el procesamiento y permite que más usuarios accedan a los datos.
Un almacén de datos de nivel empresarial también podría incluir compatibilidad con formatos de código abierto, como Apache Iceberg, Parquet y CSV, lo que permitiría compartir más datos en toda la empresa.
Los almacenes de datos también pueden servir para usos específicos del sector, como:
Un almacén de datos combina flujos de datos de almacenes dispar, lo que facilita a las organizaciones el análisis de estos datos. Como resultado, las organizaciones pueden descubrir conocimientos valiosos, aumentar el rendimiento, mejorar las operaciones y, en última instancia, obtener una ventaja competitiva.
En concreto, los beneficios de un almacén de datos pueden incluir:
Un almacén de datos puede centralizar los datos de varias fuentes de datos, como sistemas transaccionales, bases de datos operativas y archivos planos. Luego limpia estos datos operativos, elimina los duplicados y los estandariza para crear una única fuente fiable que dé a la organización una visión completa y fiable delos datos empresariales.
Cuando los datos están bloqueados en fuentes dispar, puede limitar la capacidad de los tomadores de decisiones de obtener conocimiento y establecer estrategias comerciales con confianza. Un almacén de datos con un repositorio central permite a los usuarios empresariales extraer todos los datos pertinentes de una organización para la toma de decisiones empresariales.
Al ejecutar informes sobre datos históricos, un almacén de datos puede ayudar a determinar qué sistemas y procesos están funcionando y qué necesita mejoras.
Los almacenes de datos permiten descubrir e informar sobre temas, tendencias y agregaciones. Los profesionales de los datos y los líderes empresariales pueden utilizar estos conocimientos para tomar decisiones mejor informadas basándose en pruebas contundentes en prácticamente todas las áreas de la organización, desde los procesos empresariales hasta la gestión financiera y la gestión del inventario.
Al implementar soluciones de almacenamiento de datos, es posible que las organizaciones tengan que enfrentarse a ciertos desafíos para lograr un alto rendimiento. Entre los que se incluyen:
Ahora que los almacenes de datos de tamaño terabyte y petabyte son habituales, las operaciones de alto rendimiento requieren una carga excelente, un almacenamiento eficiente y potentes motores de bases de datos que satisfagan las demandas de hipereficiencia.
Se puede pedir a un almacén de datos que gestione enormes volúmenes de datos estructurados y no estructurados procedentes de muchas fuentes. Todos estos datos deben limpiarse y validarse antes de poder utilizarlos. Unas políticas y prácticas sólidas de gobierno de datos pueden ayudar a garantizar una única fuente fiable para todos los usuarios.
Con los datos empresariales almacenados en entornos dispares, ya sea por normativa o por necesidad empresarial, los almacenes de datos actuales suelen requerir un almacenamiento híbrido y multinube, con el flujo de datos, la ingesta y el análisis moviéndose a través de diferentes sistemas. Las organizaciones pueden necesitar miembros del equipo de TI altamente experimentados para ayudar a implementar y mantener estos sistemas complejos.
A medida que la IA y el machine learning se convierten en componentes críticos de la estrategia empresarial, las organizaciones necesitan almacenes de datos que puedan soportar estas cargas de trabajo.
Idealmente, un almacén de datos debería ser capaz de recopilar, limpiar, organizar y analizar los datos para que estén preparados para la IA, así como facilitar el flujo de datos a las aplicaciones de IA y machine learning. Sin embargo, no todos los almacenes de datos están diseñados para la IA, lo que puede dificultar el uso de datos organizativos para cargas de trabajo de IA.
Los almacenes de datos están configurados y optimizados para el análisis, lo que significa que no suelen ser ideales para almacenar cantidades masivas de datos. A medida que crece la cantidad de datos en un almacén, el coste y la complejidad del almacenamiento crecen con ella. También pueden surgir problemas de latencia.
Un lakehouse de datos puede ser una opción para algunas organizaciones, en función de sus arquitecturas de datos únicas, ya que puede proporcionar capacidades de análisis y almacenamiento más baratas y flexibles.
Las soluciones de almacenamiento de datos de IBM ofrecen rendimiento y flexibilidad para dar soporte a datos estructurados y no estructurados para cargas de trabajo analíticas, incluido el machine learning.
Almacenamiento de datos basado en la nube diseñado para potenciar sus análisis operativos, la BI y los conocimientos impulsados por la IA.
Ponga sus datos a trabajar, dondequiera que residan, con el lakehouse de datos abierto e híbrido para inteligencia artificial y análisis.
Conozca los criterios que las organizaciones deben tener en cuenta al elegir un almacén de datos empresarial.
Los lakehouses de datos tratan de resolver los principales retos que plantean tanto los almacenes de datos como los data lakes para ofrecer a las organizaciones una solución de gestión de datos más idónea.
Una guía del líder de datos para crear una organización basada en datos e impulsar la ventaja empresarial.