Un almacén de datos es un sistema que agrega datos de varias fuentes en un único almacén de datos central y coherente. Los almacenes de datos ayudan a preparar los datos para las iniciativas de análisis de datos, business intelligence (BI), minería de datos, machine learning (ML) e inteligencia artificial (IA).
Un sistema de almacén de datos de nivel empresarial permite a una organización ejecutar analytics poderosos sobre grandes cantidades de datos (petabytes y más) de formas que una base de datos estándar no puede. Los datos pueden ser estructurados, semiestructurados o no estructurados. Los datos pueden introducir en un almacén desde múltiples bases de datos, como las de gestión de relaciones con los clientes (CRM), inventario, puntos de venta (POS) y sistemas de gestión de la cadena de suministro.
Los sistemas de almacenamiento de datos, a veces denominados sistemas de almacén de datos empresariales (EDW), llevan más de tres décadas apoyando los esfuerzos de business intelligence. Sus funciones se centran en extraer datos de otras fuentes, depurar y preparar los datos y cargarlos y mantenerlos, a menudo en una base de datos relacional.
Tradicionalmente, un almacén de datos se alojaba on premises, a menudo en una computadora mainframe. Hoy en día, muchos almacenes de datos están alojados en la nube y se entregan como servicio en la nube.
Los almacenes de datos nacieron en la década de 1980 para optimizar analytics al hacer que los datos transaccionales integrados estén disponibles en un formato coherente. A medida que el poder de las aplicaciones comerciales creció y surgieron nuevas fuentes de datos (incluida la World Wide Web, las redes sociales y la Internet de las cosas (IoT))creció la necesidad de almacenamiento más rápido.
A medida que el almacén de datos evolucionó para admitir mayores volúmenes y datos más granulares, más equipos dentro de las organizaciones solicitaron acceso directo a los datos para funciones de analytics de autoservicio.
Muchas organizaciones se dieron cuenta de que sus almacenes de datos heredados no podían gestionar estas nuevas y enormes cargas de trabajo. Y como muchos almacenes de datos solo almacenaban datos estructurados, la riqueza del análisis podía ser limitada. En respuesta, evolucionaron alternativas más flexibles, incluidos los almacenes de datos nativos de la nube y los lakehouses de datos. (Consulte "lakehouse de datos vs. almacén de datos" para obtener más información).
Para procesar los datos de forma rápida y eficiente, los almacenes de datos suelen utilizar una arquitectura de tres niveles.
Este nivel es donde los datos fluyen desde fuentes de datos dispar hacia un servidor de almacén de datos, donde se almacenan. La mayoría de las veces, los datos se mueven a través de un proceso conocido como extraer, transformar, cargar (ETL) o, a veces, un proceso conocido como extraer, cargar, transformar (ELT). Estos procesos se ejecutan de formas distintas, pero ambos utilizan la automatización para trasladar los datos a un almacén y prepararlos para su uso en analytics.
Este nivel se construye tradicionalmente en torno a un motor de análisis, la mayoría de las veces un sistema de procesamiento analítico en línea (OLAP) diseñado para ofrecer analytics rápidos y velocidades de consulta. En este nivel se pueden utilizar tres tipos de modelos OLAP:
El tipo de modelo OLAP utilizado depende del tipo de sistema de base de datos que se utilice.
Este nivel incluye una interfaz de usuario de front-end o una herramienta de elaboración de informes, que permite a los usuarios realizar análisis de datos ad hoc en sus datos comerciales. La business intelligence de autoservicio tiene múltiples usos, como la generación de informes basados en datos históricos, la identificación de nuevas oportunidades o la identificación de cuellos de botella en los procesos.
La mayoría de los almacenes de datos utilizan sistemas OLAP para admitir analytics. El software OLAP realiza análisis multidimensionales a gran velocidad sobre grandes volúmenes de datos procedentes de un almacén unificado y centralizado, como un almacén de datos.
Un dato comercial a menudo tiene múltiples dimensiones. Por ejemplo, las cifras de ventas podrían incluir varias dimensiones relacionadas con la ubicación (región, país y almacenar), el tiempo (año, mes, semana y día) o el producto (marca, tipo).
En una base de datos relacional tradicional, los datos se organizan en tablas de filas y columnas que solo pueden representar dos de estas dimensiones a la vez: una dimensión en la fila y una dimensión en la columna. Esto puede hacer que el análisis sea engorroso.
Sin embargo, los sistemas OLAP permiten a los usuarios analizar datos en múltiples dimensiones a la vez, lo que permite un procesamiento más rápido y un análisis más profundo.Los usos comunes de OLAP incluyen minería de datos y aplicaciones de business intelligence, cálculos analíticos complejos, escenarios predictivos, elaboración de presupuestos y pronósticos.
OLAP es distinto del procesamiento transaccional en línea u OLTP. Los sistemas OLTP rastrean un gran número de transacciones, por un gran número de usuarios, en tiempo real. La diferencia clave entre OLTP y OLAP es que los sistemas OLTP están diseñados principalmente para capturar datos, mientras que los sistemas OLAP analizan datos que ya han sido capturados.
Los sistemas OLTP suelen utilizar bases de datos relacionales para registrar transacciones como:
Si bien los almacenes de datos generalmente no involucran sistemas OLTP, los datos registrados en las bases de datos por los sistemas OLTP generalmente se alimentan al almacén, donde un sistema OLAP permite el análisis.
Los esquemas de base de datos definen cómo se organizan los datos dentro de una base de datos o almacén de datos. Hay dos tipos principales de estructuras de esquema empleadas en los almacenes de datos: el esquema en estrella y el esquema en copo de nieve.
El esquema de estrella y copo de nieve son modelos de datos dimensionales diseñados para optimizar las velocidades de recuperación de datos. Los modelos dimensionales aumentan la redundancia para facilitar la localización de la información para la generación de informes y la recuperación. Este modelado se utiliza normalmente en todos los sistemas OLAP.
Este esquema consiste en una tabla de hechos (que contiene ítems medibles como productos vendidos y montos de ventas monetarias) unido a tablas de dimensiones (es decir, información de referencia que muestra cómo se pueden agrupar y organizar los hechos, como las fechas de venta y la industria vendida a).
En un diagrama, la tabla de hechos puede parecer estar en medio de un patrón de estrella. La esquema en estrella se considera el tipo de esquema más simple y frecuente y el beneficio para los usuarios es la mayor velocidad al realizar consultas.
Aunque no se ha adoptado tan ampliamente, el esquema de copo de nieve es otra estructura organizativa utilizada en los almacenes de datos. En este caso, la tabla de hechos está conectada a varias tablas de dimensiones normalizadas que contienen datos descriptivos sobre los hechos en la tabla de hechos central. Estas tablas de dimensiones también tienen tablas secundarias.
Este patrón más complejo y ramificado puede semejarse a un copo de nieve. Los usuarios de un esquema de copo de nieve se benefician de sus bajos niveles de redundancia de datos, pero esto conlleva el costo de ralentizar el rendimiento de las consultas.
La mayoría de los almacenes de datos se construyen en torno a un sistema de base de datos relacional, ya sea on premises o en la nube, donde se almacenan y procesan los datos. Un almacén de datos típico tiene componentes como:
La capa de datos o base de datos central, es el corazón del almacén de datos y se apoya en todos los demás componentes. Los datos pueden ser entrada desde aplicaciones empresariales, listas de correo electrónico, sitios web o cualquier otra base de datos relacional. Los datos se almacenan físicamente en un servidor o conjunto de servidores.
La capa de datos puede dividir segmentos de datos para que los usuarios solo puedan acceder a los datos que necesitan. Por ejemplo, el equipo de ventas normalmente no tendría acceso a los datos del equipo de RR. HH. y viceversa.
Por lo general, los almacenes de datos tienen incorporadas capacidades de seguridad y gobernanza de datos, por lo que las organizaciones no necesitan hacer mucho trabajo de ingeniería de datos personalizado para incluir estas características. Es posible que las organizaciones necesiten actualizar los principios de gobierno de datos y las medidas de seguridad en el tiempo a medida que se añaden nuevos datos de diferentes fuentes al almacén.
Las herramientas de acceso se conectan a un almacén de datos para proporcionar una interfaz fácil de usar para el usuario empresarial. Esto puede incluir paneles, informes y herramientas de visualización de datos que permiten a los analistas de datos y a los usuarios empresariales interactuar con los datos y extraer insights. Algunos ejemplos de estas herramientas son Tableau, Looker y Qlik.
Las herramientas ETL ayudan a mover datos de una fuente de datos al almacén de datos. Los datos primero se "extraen" de su fuente, se mueven a un área de preparación donde se limpian y preparan (o "transforman") y luego se "cargan" en un almacén.
Las herramientas ETL convierten los datos en un formato coherente para que puedan analizarse y consultarse de manera eficiente cuando están dentro del almacén. Por ejemplo, los datos pueden extraerse de varias bases de datos de clientes y luego transformarse en un formato común para que todos los registros de clientes tengan los mismos campos.
Una herramienta de marco de procesamiento de datos, como Apache Spark, puede ayudar a gestionar la transformación de los datos.
Dado que un almacén de datos almacena principalmente datos estructurados, los datos suelen transformarse antes de moverse al almacén. Aunque algunos almacenes pueden utilizar en su lugar un proceso de extracción, carga y transformación (ELT), que carga los datos en el almacén antes de transformarlos, este proceso se utiliza más comúnmente para los lagos de datos, que no requieren formatos de datos estandarizados. (Consulte "lago de datos vs. almacén de datos" para obtener más información).
Los metadatos son datos acerca de los datos. Básicamente, describe los datos almacenados en un sistema para que puedan ser buscados. Los metadatos incluyen características como autores, fechas o ubicaciones de artículos, fechas de creación y tamaños de archivo. Los metadatos y su sistema de gestión ayudan a organizar los datos y hacerlos utilizables para analytics.
Algunos almacenes de datos proporcionan un sandbox que está amurallado de los datos en vivo. Podría utilizarse como entorno de pruebas, que contiene una copia de los datos de producción y herramientas de análisis y visualización pertinentes. Los analistas y científicos de datos pueden experimentar con nuevas técnicas analíticas en el sandbox sin afectar a las operaciones del almacén de datos para otros usuarios.
Una capa de conectividad para interfaces de programación de aplicaciones (API) puede ayudar al almacén a extraer datos de fuentes organizacionales y proporcionar acceso a herramientas de visualización y analytics.
Los términos almacén de datos, base de datos, data lake, mercado de datos y lakehouse de datos a veces se utilizan indistintamente. Si bien estos sistemas son similares, existen diferencias importantes.
Una base de datos es como un archivador creado principalmente para consultas rápidas y procesamiento de transacciones, pero no para los analytics. Normalmente, una base de datos sirve como almacén de datos centrado en una aplicación específica, mientras que un almacén de datos almacena datos de cualquier número de aplicaciones de una organización.
Una base de datos se centra en capturar datos en tiempo real, mientras que un almacén de datos tiene un alcance más amplio, capturando datos históricos, pero a veces datos actuales, para análisis predictivos, machine learning y otros análisis avanzados.
Un lago de datos es una solución de almacenamiento de información para cantidades masivas de datos sin procesar sin un esquema predefinido. Los lagos de datos a menudo contienen datos no estructurados y datos semiestructurados, como documentos, videos, registros de Internet de las cosas (IoT) y publicaciones en redes sociales. Comúnmente se construyen en plataformas de big data como Apache Hadoop.
Los lagos de datos están diseñados principalmente para ofrecer almacenamiento de información de bajo costo para grandes cantidades de datos. Para mantener bajos los costos de almacenamiento, no suelen transformar los datos ni optimizarlos para analytics, como lo hace un almacén.
Un mercado de datos es un tipo de data warehouse que contiene datos específicos de una línea o departamento de negocio en particular en lugar de una empresa completa.
Dado que los mercados de datos contienen un subconjunto de datos más reducido, permiten a un departamento o línea de negocio descubrir insights más específicos con mayor rapidez que cuando se trabaja con el conjunto de datos más amplio del almacén de datos.
Por ejemplo, un equipo de marketing podría usar un mercado de datos para definir los datos demográficos objetivo ideales, mientras que un equipo de producto podría usar uno para analizar los patrones de inventario.
Un lakehouse de datos es una plataforma de datos que fusiona aspectos de almacenes de datos y lakehouse de datos, es decir, la flexibilidad de un lake y el alto rendimiento de un almacén, en una única solución de gestión de datos. Los lakehouses de datos también pueden agregar características como metadatos compartidos, motores de lenguaje de consulta estructurado distribuido (SQL) y controles de seguridad y gobernanza integrados.
La llegada de las tecnologías de código abierto y el deseo de reducir la duplicación de datos y los complejos pipelines ETL ha llevado al desarrollo del lakehouse de datos. Al combinar las características clave de los lagos y los almacenes en una sola solución de datos, los lakehouses pueden ayudar a acelerar el procesamiento de datos y respaldar el machine learning, la ciencia de datos y las cargas de trabajo de IA.
Un almacén de datos basado en la nube está diseñado para ejecutarse en esta. A menudo se ofrece a las organizaciones como un servicio de almacenamiento de datos administrado en el que la infraestructura de almacén de datos es administrada por la empresa en la nube. La organización no necesita realizar una inversión inicial en hardware o software, ni necesita administrar su propio sistema. Los servicios en la nube a menudo también ofrecen precios flexibles.
Los almacenes de datos basados en la nube se han hecho más populares a medida que más organizaciones utilizan los servicios de la computación en la nube y tratan de reducir su huella en los centros de datos on premises.
Una empresa puede comprar una licencia de almacén de datos y luego desplegar el almacén como su propia infraestructura on premises. Aunque suele ser más caro que un servicio de almacenamiento de datos en la nube, podría ser una buena opción para entidades gubernamentales, instituciones financieras u otras organizaciones que desean tener más control sobre sus datos o necesitan cumplir con estrictas normas de seguridad o privacidad de datos.
Un dispositivo de almacenamiento de datos es un paquete preintegrado de hardware y software, que suele incluir unidades centrales de procesamiento (CPU), almacenamiento, sistema operativo y software de almacenamiento de datos, que una compañía puede conectar a su red y empezar a emplear tal cual.
En términos de costo inicial, velocidad de despliegue, facilidad de escalabilidad y control de gestión de datos, un dispositivo de almacén de datos generalmente se encuentra entre la nube y las implementaciones on-premises.
Un almacén de datos puede poner información e insights a disposición de los equipos de una organización mediante un autoservicio rápido, lo que permite múltiples casos de uso.
Los almacenes de datos pueden admitir diversas aplicaciones de IA y machine learning. Los científicos de datos pueden analizar datos históricos para desarrollar algoritmos predictivos. Pueden enseñar a las aplicaciones de machine learning a detectar patrones, como la actividad sospechosa de la cuenta que podría indicar fraude. Pueden utilizar datos de almacén limpios y validados para crear modelos de IA generativa patentados o ajustar los modelos existentes para satisfacer mejor sus necesidades comerciales únicas.
Un almacén de datos de nivel empresarial puede permitir que miles de usuarios accedan y ejecuten herramientas de analytics simultáneamente. Debido a que los datos se almacenar por separado de las bases de datos operativas y en un formato más eficiente, los usuarios pueden ejecutar sus propias consultas de business intelligence de autoservicio sin ralentizar otros sistemas clave.
Los almacenes de datos pueden ayudar a consolidar los datos en silos a través de pipelines de ETL que automatizan la limpieza y la integración. Esto ayuda a acelerar las consultas y el procesamiento y permite que más usuarios accedan a los datos.
Un almacén de datos de nivel empresarial también podría incluir compatibilidad con formatos de código abierto, como Apache Iceberg, Parquet y CSV, lo que permitiría compartir más datos en toda la compañía.
Los almacenes de datos también pueden servir para usos específicos de la industria, como:
Un almacén de datos combina flujos de datos de almacenes de datos dispares, lo que facilita a las organizaciones el análisis de estos datos. Como resultado, las organizaciones pueden descubrir insights valiosos, aumentar el rendimiento, mejorar las operaciones y, en última instancia, obtener un beneficio competitivo.
Más específicamente, los beneficios de un almacén de datos pueden incluir:
Un almacén de datos puede centralizar datos de varias fuentes de datos, como sistemas transaccionales, bases de datos operativas y archivos planos. Luego limpia estos datos operativos, elimina los duplicados y los estandariza para crear una única fuente de información que brinda a una organización una visión integral y confiable de los datos empresariales.
Cuando los datos están bloqueados en fuentes dispares, pueden limitar la capacidad de los responsables de la toma de decisiones para obtener insights y establecer estrategias empresariales con confianza. Un almacén de datos con un repositorio central permite a los usuarios empresariales extraer todos los datos pertinentes de una organización para la toma de decisiones comerciales.
Al ejecutar informes sobre datos históricos, un almacén de datos puede ayudar a determinar qué sistemas y procesos están funcionando y qué necesita mejoras.
Los almacenes de datos permiten descubrir e informar sobre temas, tendencias y agregaciones. Los profesionales de datos y los líderes empresariales pueden emplear estos insights para tomar decisiones mejor informadas basadas en evidencia estable en prácticamente todas las áreas de la organización, desde los procesos comerciales hasta la gestión financiera y la gestión de inventario.
Al implementar soluciones de almacén de datos, es posible que las organizaciones deban enfrentar ciertos desafíos para lograr un alto rendimiento. Esto puede incluir:
Ahora que los almacenes de datos de tamaño terabyte y petabyte son habituales, las operaciones de alto rendimiento requieren una carga excelente, un almacenamiento eficiente y potentes motores de bases de datos que satisfagan las demandas de hipereficiencia.
A un almacén de datos se le puede pedir que gestione enormes volúmenes de datos estructurados y no estructurados procedentes de muchas fuentes. Todos estos datos deben limpiarse y validarse antes de que puedan utilizarse. Las políticas y prácticas sólidas de gobernanza de datos pueden ayudar a garantizar una única fuente de información precisa para todos los usuarios.
Con el almacén de datos empresariales en entornos dispares, ya sea por regulación o por necesidad comercial, los almacenes de datos de hoy en día a menudo requieren almacenamiento híbrido y multinube, con flujo de datos, ingesta y análisis que se mueven a través de diferentes sistemas. Las organizaciones pueden necesitar miembros del equipo de TI con gran experiencia para ayudar a implantar y mantener estos complejos sistemas.
A medida que la IA y machine learning se convierten en componentes críticos de la estrategia empresarial, las organizaciones necesitan almacenes de datos que puedan admitir estas cargas de trabajo.
Idealmente, un almacén de datos debería poder recopilar, limpiar, organizar y analizar datos para que estén preparados para la IA, así como facilitar el flujo de datos a las aplicaciones de IA y machine learning. Sin embargo, no todos los almacenes de datos están diseñados para IA, lo que puede dificultar el uso de datos organizacionales para cargas de trabajo de IA.
Los almacenes de datos están configurados y optimizados para analytics de datos, lo que significa que normalmente no son ideales para almacenar cantidades masivas de datos. A medida que crece la cantidad de datos en un almacén, el costo y la complejidad del almacenamiento crecen con ella. También pueden surgir problemas de latencia.
Un lakehouse de datos puede ser una opción para algunas organizaciones, dependiendo de sus arquitecturas de datos únicas, porque puede proporcionar capacidades de almacenamiento y analytics más baratos y flexibles.
watsonx.data le permite escalar los analytics y la IA con todos sus datos, sin importar donde residan, a través de un almacén de datos abierto, híbrido y gobernado.
Escale las cargas de trabajo de analytics e IA siempre activas y de alto rendimiento en datos gobernados en toda su organización
Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por insights que ofrezca ventajas empresariales.