Data lake en la nube vs. almacén de datos vs. data mart

Estelas de luz que fluyen abstractas

Esta publicación analiza los tres tipos distintos de repositorios de almacenamiento en la nube que existen hoy en día, explorando las diferencias y qué solución sería la mejor para su caso de uso.

El almacenamiento de datos basado en la nube para datos empresariales, especialmente big data, es lo más importante hoy en día, tanto si confía en él para llevar a cabo su actividad empresarial diaria como para realizar tareas específicas.

Los datos impulsan muchas funciones empresariales, desde la creación de programas específicos para clientes actuales y potenciales, hasta la optimización de los procesos de fabricación y operaciones, pasando por el desarrollo, las pruebas, la distribución y el seguimiento de las pruebas de virus y la vacunación. Las empresas modernas confían en la disponibilidad de los datos que necesitan, cuando los necesitan. Sin embargo, encontrar la mejor opción para satisfacer sus necesidades no es una tarea fácil y puede implicar varios tipos diferentes de repositorios para diferentes categorías de datos.

Empecemos por lo básico y profundicemos en algunos ejemplos de cómo puede ser necesario un repositorio de datos o muchos tipos de repositorios de datos para satisfacer las necesidades de su empresa.

 

Tres tipos de repositorios de almacenamiento en la nube

Hoy en día existen tres tipos distintos de repositorios de almacenamiento en la nube, cada uno con un propósito diferente para dirigirse a una necesidad específica:

Data lake

Un data lake es un gran repositorio de datos sin procesar, ya sea no estructurados o semiestructurados. Estos datos se agregan de varias fuentes y simplemente se almacenan. No se modifica para adaptarse a un propósito específico o encajar en un formato particular. Preparar estos datos para el análisis implica una preparación, limpieza y reformateo de datos que requieren mucho tiempo para lograr uniformidad. Los data lakes son recursos excelentes para los municipios u otras organizaciones que almacenan información relacionada con los apagones, el tráfico, la delincuencia o la demografía. Los datos podrían utilizarse en una fecha posterior para actualizar los presupuestos y recursos del DPW o de los servicios de emergencia.

Almacén de datos

Un almacén de datos es una agregación de datos de muchas fuentes en un único repositorio centralizado que unifica las cualidades y el formato de los datos, lo que lo hace útil para que los científicos de datos lo utilicen en minería de datosinteligencia artificial (IA),aprendizaje automático y, en última instancia, análisis e inteligencia empresarial. Una gran ciudad podría utilizar el almacenamiento de datos para agregar transacciones electrónicas de varios departamentos, incluidas multas por exceso de velocidad, licencias para perros, pagos de impuestos especiales y otras transacciones. La ciudad analizaría estos datos estructurados para emitir una facturación de seguimiento y actualizar los datos del censo y los registros policiales. También podría ser utilizado por un desarrollador para agregar terabytes de datos generados por sensores en automóviles para ayudar en el proceso de toma de decisiones para una solución de conducción autónoma.

mercado de datos

Un almacén de datos (data mart) es un subconjunto de un almacén de datos que beneficia a un conjunto específico de usuarios dentro de la empresa o unidad de negocio. El departamento de marketing de una empresa manufacturera podría utilizar un data mart para determinar el perfil demográfico o la persona objetivo ideal para ayudar en el desarrollo de planes de marketing. También podría ser utilizado por un departamento de fabricación para analizar el rendimiento y las tasas de error para permitir la mejora continua. Los conjuntos de datos dentro de un almacén de datos (data mart) a menudo se utilizan en tiempo real, para el análisis actual y los resultados que se pueden ejecutar.

Data lake vs. almacén de datos vs. data mart: diferencias clave

Aunque los tres tipos de repositorios de datos en la nube contienen datos, existen diferencias muy claras entre ellos. Por ejemplo, un almacén de datos y un data lake son grandes agregaciones de datos, pero un data lake suele ser más rentable de implementar y mantener porque en gran medida no está estructurado. 

La arquitectura de data lake ha evolucionado en los últimos años para admitir mayores volúmenes de datos y computación basada en la nube. Se reciben grandes cantidades de datos de varias fuentes de datos en una ubicación central. 

Un almacén de datos podría estructurarse de una de estas tres maneras:

  1. Como un servicio gestionado ofrecido por proveedores de servicios en la nube.
  2. Como solución de software que proporciona control interno y protocolos de seguridad estrictos, lo que puede ser útil cuando se trata del cumplimiento de la normativa.
  3. Como dispositivo, que suele ser una solución de software y hardware plug-and-play.

Los datos de un almacén de datos se pueden utilizar más fácilmente para diversos fines que los datos de un data lake. La razón es que un almacén de datos está estructurado y puede extraerse o analizarse más fácilmente.

Un almacén de datos (data mart), por otro lado, contiene una cantidad menor de datos en comparación con un data lake y un almacén de datos, y los datos se clasifican para un uso específico o por una unidad de negocio específica. Un almacén de datos (data mart) puede existir en muchos formatos diferentes (estrella, copo de nieve o vault) definidos por la estructura lógica de los datos, con una estructura de vault siendo más ágil, flexible y escalable que los otros formatos.

Hay tres tipos de data marts:

  1. Un almacén de datos (data mart) dependiente, que consta de particiones de almacén de datos. Es un subconjunto de datos primarios en un almacén.
  2. Un almacén de datos (data mart) independiente, que es un sistema independiente, aislado en una parte específica de la empresa.
  3. Un almacén de datos (data mart) híbrido, que consta de datos de un almacén y fuentes independientes. Este tipo suele proporcionar un acceso a datos más rápido y una interfaz fácil de usar.

El tipo de repositorio de datos que elija y su estructura dependen en gran medida de las necesidades y demandas de su negocio. Si tiene sentido para su negocio, benefíciense de las ventajas del almacenamiento basado en cloud híbrido para obtener escalabilidad, flexibilidad y un enfoque más amplio e informado para la resolución de problemas y la toma de decisiones.

Casos de uso sectoriales de soluciones de repositorio de datos basadas en la nube

Fabricación

Una gran empresa multinacional de fabricación genera grandes volúmenes de datos para diversos usos. Algunos de los datos son importantes, mientras que otros pueden tener o no un propósito en el futuro. La empresa utiliza un almacén de datos basado en la nube para el almacenamiento de datos, que es menos costoso que otras opciones de almacenamiento. Sin embargo, la empresa también cuenta con almacén de datos (data mart) dependientes para áreas específicas de la empresa, lo que proporciona valor a los usuarios empresariales en departamentos como finanzas, fabricación y marketing. Cada uno de estos mercados contiene datos destinados a un uso específico, formateados para facilitar su análisis. Por ejemplo:

  • El departamento financiero utiliza su almacén de datos (data mart) para preparar los extractos de cuenta de los clientes y mantener los balances.
  • El departamento de fabricación utiliza su almacén de datos (data mart) para analizar la eficiencia de la línea de montaje, procesar datos para introducirlos en soluciones de IA y mantener bases de datos de compras.
  • El departamento de marketing utiliza su almacén de datos (data mart) para determinar la eficacia de las campañas y la comunicación mientras analiza y recopila las respuestas a las encuestas.

Municipio grande

Un municipio grande necesita una solución asequible que proporcione datos de una manera asequible y algo utilizable. El municipio utiliza un data lake en la nube para mantener los datos de tráfico. No puede permitirse analizar y tomar medidas sobre esos datos en este momento, pero estará listo para cuando llegue la financiación. También utiliza un almacén de datos de software en las instalaciones para realizar un seguimiento del estado de las facturas de impuestos. Además, el municipio utiliza un almacén de datos para rastrear la propagación de un virus entre los residentes, agregando datos de varios hospitales y servicios de salud municipales en un único repositorio para ser analizados y utilizados por el departamento de estado.

Conceptos erróneos comunes sobre el almacenamiento de datos basado en la nube

Hay muchas ideas erróneas sobre los repositorios de datos basados en la nube. Algunos de los conceptos erróneos más comunes incluyen los siguientes:

  • Talla única: este no es el caso en absoluto cuando se consideran soluciones de almacenamiento de datos en la nube. Cada empresa tiene diferentes restricciones presupuestarias, objetivos, asignaciones de recursos y preferencias. Es importante evaluar las necesidades y el presupuesto de su empresa y dejar que eso dicte la solución que le ayudará a alcanzar sus objetivos.
  • Las islas de datos dejan sus datos varados en un repositorio: esto es falso. La naturaleza misma del almacenamiento basado en la nube es que permite el acceso a los datos desde cualquier lugar, con los permisos adecuados.
  • Las soluciones basadas en la nube son menos seguras: en la actualidad, los proveedores de servicios en la nube pueden ofrecer una seguridad más sólida, proporcionando actualizaciones periódicas y los protocolos más actuales disponibles. A menudo cuentan con equipos de expertos en seguridad con las certificaciones más actuales dedicados a garantizar que la solución de seguridad más estricta proteja sus datos. Muchos proveedores también tienen equipos que trabajan con organismos de cumplimiento normativo para optimizar su solución. Sin embargo, en algunos sectores (como el sanitario y el financiero), el cumplimiento normativo podría requerir la capacidad de acceder a los datos sin conexión a Internet, lo que requeriría equipo en las instalaciones.
  • Los repositorios de datos basados en la nube son costosos: el almacenamiento basado en la nube puede ser menos costoso que las soluciones en las instalaciones porque no se requieren grandes inversiones iniciales en infraestructura, costes de refrigeración o espacio, costes de mantenimiento continuos o equipos de expertos internos. Los costes mensuales varían según el proveedor o el proveedor de servicios en la nube.

 

Cómo determinar qué solución de almacenamiento basada en la nube es la mejor para su empresa

Su empresa es única, con recursos, objetivos y retos específicos. Evalúe sus opciones cuidadosamente para determinar qué solución se adaptará mejor a sus necesidades. Considere lo siguiente:

  • Sus objetivos empresariales y de tecnología
  • Su presupuesto
  • El volumen de datos que necesitan almacenamiento
  • Con qué frecuencia necesitará acceder a él
  • Tanto si tiene necesidades específicas hoy como a corto plazo

Estas consideraciones le ayudarán a determinar qué solución, o combinación de soluciones, le ayudará a alcanzar sus objetivos.

Repositorios de datos de IBM en la nube: soluciones y gestión

IBM ofrece varias soluciones para ayudarle con sus necesidades de almacenamiento en la nube y ciencia de datos.

  • IBM® Db2 Warehouse on Cloud es un almacén de datos en la nube elástico que ofrece escalado independiente de almacenamiento y computación. Los almacenes de datos (data mart) más pequeños pueden utilizar la característica Flex One, que es un almacén de datos creado para análisis de alto rendimiento. Este sistema se puede implementar en varios proveedores de servicios en la nube, a partir de 40 GB de almacenamiento.
  • Otra opción que vale la pena considerar es IBM® InfoSphere Master Data Management (MDM). Este sistema personalizable gestiona todos los aspectos de sus datos empresariales críticos, dando a los usuarios acceso en una vista única de confianza. A través de este panel de control, los usuarios pueden realizar análisis detallados, obtener conocimiento que se puede ejecutar y garantizar el cumplimiento total del gobierno de datos en toda la empresa.
  • Netezza Performance Server, la próxima evolución del dispositivo IBM Netezza Appliance, se basa en la arquitectura hiperconvergente de IBM® Cloud Pak for Data System para proporcionar un sistema de soporte de decisiones nativo de la nube para los análisis más complejos de su empresa. También está disponible ahora en AWS y Azure.
  • IBM® Watson Studio, una oferta de ciencia de datos y machine learning, permite a las organizaciones aprovechar los activos de datos e inyectar predicciones en los procesos empresariales y las aplicaciones modernas.

    Autor

    Tanmay Sinha

    Program Director, Db2 Portfolio