El almacenamiento de datos basado en la nube para datos empresariales, especialmente big data, es lo más importante hoy en día, tanto si confía en él para llevar a cabo su actividad empresarial diaria como para realizar tareas específicas.
Los datos impulsan muchas funciones empresariales, desde la creación de programas específicos para clientes actuales y potenciales, hasta la optimización de los procesos de fabricación y operaciones, pasando por el desarrollo, las pruebas, la distribución y el seguimiento de las pruebas de virus y la vacunación. Las empresas modernas confían en la disponibilidad de los datos que necesitan, cuando los necesitan. Sin embargo, encontrar la mejor opción para satisfacer sus necesidades no es una tarea fácil y puede implicar varios tipos diferentes de repositorios para diferentes categorías de datos.
Empecemos por lo básico y profundicemos en algunos ejemplos de cómo puede ser necesario un repositorio de datos o muchos tipos de repositorios de datos para satisfacer las necesidades de su empresa.
Hoy en día existen tres tipos distintos de repositorios de almacenamiento en la nube, cada uno con un propósito diferente para dirigirse a una necesidad específica:
Un data lake es un gran repositorio de datos sin procesar, ya sea no estructurados o semiestructurados. Estos datos se agregan de varias fuentes y simplemente se almacenan. No se modifica para adaptarse a un propósito específico o encajar en un formato particular. Preparar estos datos para el análisis implica una preparación, limpieza y reformateo de datos que requieren mucho tiempo para lograr uniformidad. Los data lakes son recursos excelentes para los municipios u otras organizaciones que almacenan información relacionada con los apagones, el tráfico, la delincuencia o la demografía. Los datos podrían utilizarse en una fecha posterior para actualizar los presupuestos y recursos del DPW o de los servicios de emergencia.
Un almacén de datos es una agregación de datos de muchas fuentes en un único repositorio centralizado que unifica las cualidades y el formato de los datos, lo que lo hace útil para que los científicos de datos lo utilicen en minería de datos, inteligencia artificial (IA),aprendizaje automático y, en última instancia, análisis e inteligencia empresarial. Una gran ciudad podría utilizar el almacenamiento de datos para agregar transacciones electrónicas de varios departamentos, incluidas multas por exceso de velocidad, licencias para perros, pagos de impuestos especiales y otras transacciones. La ciudad analizaría estos datos estructurados para emitir una facturación de seguimiento y actualizar los datos del censo y los registros policiales. También podría ser utilizado por un desarrollador para agregar terabytes de datos generados por sensores en automóviles para ayudar en el proceso de toma de decisiones para una solución de conducción autónoma.
Un almacén de datos (data mart) es un subconjunto de un almacén de datos que beneficia a un conjunto específico de usuarios dentro de la empresa o unidad de negocio. El departamento de marketing de una empresa manufacturera podría utilizar un data mart para determinar el perfil demográfico o la persona objetivo ideal para ayudar en el desarrollo de planes de marketing. También podría ser utilizado por un departamento de fabricación para analizar el rendimiento y las tasas de error para permitir la mejora continua. Los conjuntos de datos dentro de un almacén de datos (data mart) a menudo se utilizan en tiempo real, para el análisis actual y los resultados que se pueden ejecutar.
Aunque los tres tipos de repositorios de datos en la nube contienen datos, existen diferencias muy claras entre ellos. Por ejemplo, un almacén de datos y un data lake son grandes agregaciones de datos, pero un data lake suele ser más rentable de implementar y mantener porque en gran medida no está estructurado.
La arquitectura de data lake ha evolucionado en los últimos años para admitir mayores volúmenes de datos y computación basada en la nube. Se reciben grandes cantidades de datos de varias fuentes de datos en una ubicación central.
Un almacén de datos podría estructurarse de una de estas tres maneras:
Los datos de un almacén de datos se pueden utilizar más fácilmente para diversos fines que los datos de un data lake. La razón es que un almacén de datos está estructurado y puede extraerse o analizarse más fácilmente.
Un almacén de datos (data mart), por otro lado, contiene una cantidad menor de datos en comparación con un data lake y un almacén de datos, y los datos se clasifican para un uso específico o por una unidad de negocio específica. Un almacén de datos (data mart) puede existir en muchos formatos diferentes (estrella, copo de nieve o vault) definidos por la estructura lógica de los datos, con una estructura de vault siendo más ágil, flexible y escalable que los otros formatos.
Hay tres tipos de data marts:
El tipo de repositorio de datos que elija y su estructura dependen en gran medida de las necesidades y demandas de su negocio. Si tiene sentido para su negocio, benefíciense de las ventajas del almacenamiento basado en cloud híbrido para obtener escalabilidad, flexibilidad y un enfoque más amplio e informado para la resolución de problemas y la toma de decisiones.
Una gran empresa multinacional de fabricación genera grandes volúmenes de datos para diversos usos. Algunos de los datos son importantes, mientras que otros pueden tener o no un propósito en el futuro. La empresa utiliza un almacén de datos basado en la nube para el almacenamiento de datos, que es menos costoso que otras opciones de almacenamiento. Sin embargo, la empresa también cuenta con almacén de datos (data mart) dependientes para áreas específicas de la empresa, lo que proporciona valor a los usuarios empresariales en departamentos como finanzas, fabricación y marketing. Cada uno de estos mercados contiene datos destinados a un uso específico, formateados para facilitar su análisis. Por ejemplo:
Un municipio grande necesita una solución asequible que proporcione datos de una manera asequible y algo utilizable. El municipio utiliza un data lake en la nube para mantener los datos de tráfico. No puede permitirse analizar y tomar medidas sobre esos datos en este momento, pero estará listo para cuando llegue la financiación. También utiliza un almacén de datos de software en las instalaciones para realizar un seguimiento del estado de las facturas de impuestos. Además, el municipio utiliza un almacén de datos para rastrear la propagación de un virus entre los residentes, agregando datos de varios hospitales y servicios de salud municipales en un único repositorio para ser analizados y utilizados por el departamento de estado.
Hay muchas ideas erróneas sobre los repositorios de datos basados en la nube. Algunos de los conceptos erróneos más comunes incluyen los siguientes:
Su empresa es única, con recursos, objetivos y retos específicos. Evalúe sus opciones cuidadosamente para determinar qué solución se adaptará mejor a sus necesidades. Considere lo siguiente:
Estas consideraciones le ayudarán a determinar qué solución, o combinación de soluciones, le ayudará a alcanzar sus objetivos.
IBM ofrece varias soluciones para ayudarle con sus necesidades de almacenamiento en la nube y ciencia de datos.