Lago de datos en la nube vs. almacén de datos vs. mercado de datos

Estelas de luz abstractas que fluyen

Esta publicación analiza los tres tipos distintos de repositorios de almacenamiento en la nube que existen hoy en día, explorando las diferencias y qué solución sería la mejor para su caso de uso.

El almacenamiento de datos basado en la nube para datos empresariales, especialmente big data, es lo más importante hoy en día, ya sea que dependa de él para realizar negocios diarios o para realizar tareas específicas.

Los datos impulsan muchas funciones empresariales , desde la creación de programas específicos para clientes y prospectos, hasta la optimización de los procesos de fabricación y operaciones, pasando por el desarrollo, las pruebas, la distribución y el seguimiento de las pruebas de virus y la vacunación. Las empresas modernas confían en la disponibilidad de los datos que necesitan, cuando los necesitan. Sin embargo, encontrar la mejor opción para satisfacer sus necesidades no es una tarea fácil y puede implicar varios tipos diferentes de repositorios para diferentes categories de datos.

Comencemos con lo básico y profundicemos en algunos ejemplos de cómo un repositorio de datos o muchos tipos de repositorios de datos pueden ser necesarios para satisfacer las necesidades de su negocio.

 

Tres tipos de repositorios de almacenamiento en la nube

Hoy en día existen tres tipos distintos de repositorios de almacenamiento en la nube, cada uno con un propósito diferente para abordar una necesidad específica:

Data lake

Un lago de datos es un gran repositorio de datos sin procesar, ya sea no estructurados o semiestructurados. Estos datos se agregan de varias fuentes y simplemente se almacenan. No se modifican para adaptarse a un propósito específico o encajar en un formato particular. Preparar estos datos para el análisis implica una preparación, limpieza y reformateo de datos que requieren mucho tiempo para lograr uniformidad. Los lagos de datos son excelentes recursos para los municipios u otras organizaciones que almacenan información relacionada con interrupciones del servicio, tráfico, delincuencia o datos demográficos. Los datos podrían utilizarse en una fecha posterior para actualizar los presupuestos y recursos del DPW o de los servicios de emergencia.

Data warehouse

Un almacén de datos es una agregación de datos de muchas fuentes en un único repositorio centralizado que unifica las cualidades y el formato de los datos, lo que lo hace útil para que los científicos de datos lo utilicen en minería de datosinteligencia artificial (IA)machine learning y, en última instancia, analytics y business intelligence. Una gran ciudad podría utilizar el almacenamiento de datos para agregar transacciones electrónicas de varios departamentos, incluidas multas por exceso de velocidad, licencias para perros, pagos de impuestos especiales y otras transacciones. La ciudad analizaría estos datos estructurados para emitir facturación de seguimiento y actualizar los datos del censo y los registros policiales. También podría ser utilizado por un desarrollador para agregar terabytes de datos generados por sensores en automóviles para ayudar en el proceso de toma de decisiones para una solución de conducción autónoma.

mercado de datos

Un mercado de datos es un subconjunto de un almacén de datos que beneficia a un conjunto específico de usuarios dentro de la unidad de negocio. El departamento de marketing de una empresa manufacturera podría utilizar un mercado de datos para determinar el perfil demográfico o persona objetivo ideal para ayudar en el desarrollo de planes de marketing. También podría ser utilizado por un departamento de fabricación para analizar el rendimiento y las tasas de error para permitir la mejora continua. Los conjuntos de datos dentro de un mercado de datos a menudo se utilizan en tiempo real, para análisis actuales y resultados aplicables en la práctica.

Lago de datos vs. almacén de datos vs. mercado de datos: diferencias clave

Si bien los tres tipos de repositorios de datos en la nube contienen datos, existen diferencias muy claras entre ellos. Por ejemplo, un almacén de datos y un lago de datos son grandes agregaciones de datos, pero un lago de datos suele ser más rentable de implementar y mantener porque en gran medida no está estructurado. 

La arquitectura del lago de datos ha evolucionado en los últimos años para admitir mayores volúmenes de datos y computación basada en la nube. Se reciben grandes cantidades de datos de varias fuentes de datos en una ubicación central. 

Un almacén de datos podría estructurarse de una de estas tres maneras:

  1. Como un servicio gestionado ofrecido por proveedores de la nube.
  2. Como una solución de software que proporciona control interno y estrictos protocolos de seguridad, lo que puede ser útil cuando se trata del cumplimiento de la normativa.
  3. Como dispositivo, que suele ser una solución de software y hardware plug-and-play.

Los datos dentro de un almacén de datos se pueden utilizar más fácilmente para diversos fines que los datos dentro de un lago de datos. La razón es que un almacén de datos está estructurado y se puede extraer o analizar más fácilmente.

Un mercado de datos, por otro lado, contiene una cantidad menor de datos en comparación con un lago de datos y un almacén de datos, y los datos se clasifican para un uso específico o por una unidad demográfica o de negocio específica. Un mercado de datos puede existir en muchos formatos diferentes (estrella, copo de nieve o bóveda) definidos por la estructura lógica de los datos, siendo una estructura de bóveda más ágil, flexible y escalable que los otros formatos.

Hay tres tipos de mercados de datos:

  1. Un mercado de datos dependiente, que consta de particiones de almacén de datos empresariales. Es un subconjunto de datos primarios en un almacén.
  2. Un mercado de datos independiente, que es un sistema independiente, aislado en una parte específica del negocio.
  3. Un mercado de datos híbrido, que consta de datos de un almacén y fuentes independientes. Este tipo suele proporcionar un acceso a los datos más rápido y una interfaz fácil de usar.

El tipo de repositorio de datos que elija y su estructura dependen en gran medida de las necesidades y demandas de su negocio. Si tiene sentido para su negocio, use el beneficio del almacenamiento basado en la nube híbrida para obtener flexibilidad, escalabilidad y un enfoque más amplio e informado para la resolución de problemas y la toma de decisiones.

Casos de uso de la industria de soluciones de repositorio de datos basadas en la nube

Manufactura

Una gran empresa multinacional de fabricación genera grandes volúmenes de datos para diversos usos. Algunos de los datos son importantes, mientras que otros datos pueden o no tener un propósito en el futuro. La empresa utiliza un almacén de datos basado en la nube para el almacenamiento de datos masivos, que es menos costoso que otras opciones de almacenamiento de datos. Sin embargo, la empresa también cuenta con mercados de datos dependientes para áreas específicas de la empresa, lo que proporciona valor a los usuarios empresariales en departamentos como finanzas, fabricación y marketing. Cada uno de estos mercados contiene datos destinados a un uso específico, formateados para facilitar su análisis. Por ejemplo:

  • El departamento de finanzas utiliza su mercado de datos para preparar estados de cuenta de los clientes y mantener balances.
  • El departamento de fabricación utiliza su mercado de datos para analizar la eficiencia de la línea de montaje, procesar datos para introducirlos en soluciones de IA y mantener bases de datos de adquisiciones.
  • El departamento de marketing utiliza su mercado de datos para determinar la eficacia de las campañas y la comunicación mientras analiza y recopila las respuestas de la encuesta.

Municipio grande

Un municipio grande necesita una solución asequible que proporcione datos de una manera asequible y algo utilizable. El municipio utiliza un lago de datos en la nube para mantener los datos de tráfico. No puede permitirse analizar y tomar medidas sobre esos datos en este momento, pero estará listo para cuando llegue la financiación. También utiliza un almacén de datos de software on premises para rastrear el estado de las facturas de impuestos. Además, el municipio utiliza un mercado de datos híbrido para rastrear la propagación de un virus entre los residentes, agregando datos de varios hospitales y servicios de salud municipales a un único repositorio para ser analizados y utilizados por el departamento de estado.

Conceptos erróneos comunes sobre el almacenamiento de datos basado en la nube

Hay muchos conceptos erróneos con respecto a los repositorios de datos basados en la nube. Algunos de los conceptos erróneos más comunes incluyen los siguientes:

  • Una solución para todo: este no es el caso en absoluto cuando se consideran soluciones de almacenamiento de datos en la nube. Cada empresa tiene diferentes restricciones presupuestarias, objetivos, asignaciones de recursos y preferencias. Es importante evaluar las necesidades y el presupuesto de su negocio y dejar que eso dicte la solución que le ayudará a alcanzar sus objetivos.
  • Las islas de datos dejan sus datos varados en un repositorio: esto es falso. La naturaleza misma del almacenamiento basado en la nube es que permite el acceso a los datos desde cualquier lugar, con los permisos adecuados.
  • Las soluciones basadas en la nube son menos seguras: en realidad, los proveedores de la nube pueden ofrecer una seguridad más sólida, proporcionando actualizaciones periódicas y los protocolos más actuales disponibles. A menudo cuentan con equipos de expertos en seguridad con las certificaciones más actuales dedicados a garantizar que la solución de seguridad más estricta proteja sus datos. Muchos proveedores también tienen equipos que trabajan con organismos de cumplimiento normativo para optimizar su solución. Sin embargo, en algunas industrias (como la de la atención médica y las finanzas), el cumplimiento normativo podría requerir la capacidad de acceder a los datos sin conexión a Internet, lo que requeriría equipamiento on premises.
  • Los repositorios de datos basados en la nube son costosos: el almacenamiento basado en la nube puede ser menos costoso que las soluciones on premises porque no hay grandes inversiones iniciales en infraestructura, costos de enfriamiento o espacio físico, costos de mantenimiento o equipos de expertos internos requeridos . Los costos mensuales varían según el distribuidor o proveedor de la nube.

 

Cómo determinar qué solución de almacenamiento basada en la nube es la mejor para su empresa

Su empresa es única, con recursos, objetivos y desafíos específicos. Evalúe sus opciones cuidadosamente para determinar qué solución se adaptará mejor a sus necesidades. Considere lo siguiente:

  • Sus objetivos empresariales y de tecnología
  • Su presupuesto
  • El volumen de datos que necesitan almacenamiento
  • Con qué frecuencia necesitará acceder a estos
  • Ya sea que tenga necesidades específicas hoy o a corto plazo

Estas consideraciones le ayudarán a determinar qué solución, o combinación de soluciones, le ayudará a alcanzar sus objetivos.

Repositorios de datos de IBM en la nube: soluciones y gestión

IBM ofrece varias soluciones para ayudarle con sus necesidades de almacenamiento en la nube y ciencia de datos.

  • IBM® Db2 Warehouse on Cloud es un almacén de datos elástico en la nube que ofrece escalado independiente de almacenamiento y computación. Los mercados de datos más pequeños pueden utilizar la función Flex One, que es un almacén de datos elástico creado para analytics de alto rendimiento. Este sistema se puede desplegar en múltiples proveedores de la nube, a partir de 40 GB de almacenamiento.
  • Otra opción que vale la pena considerar es IBM® InfoSphere Master Data Management (MDM). Este sistema personalizable gestiona todos los aspectos de sus datos empresariales críticos, brindando a los usuarios acceso en una vista única y confiable. A través de este panel, los usuarios pueden realizar análisis detallados, obtener insights aplicables en la práctica, y asegurar la gobernanza de datos en toda la empresa.
  • Netezza Performance Server, la próxima evolución de IBM® Netezza Appliance, se basa en la arquitectura hiperconvergente de IBM® Cloud Pak for Data System para proporcionar un sistema de soporte de decisiones nativo de la nube para los analytics más complejos de su empresa. También está disponible ahora en AWS y Azure.
  • IBM® watsonx Studio, una solución de ciencia de datos y machine learning, permite a las organizaciones aprovechar los activos de datos e inyectar predicciones en los procesos empresariales y las aplicaciones modernas.

    Autor

    Tanmay Sinha

    Program Director, Db2 Portfolio