¿Qué es un data lake? I IBM

¿Qué es un data lake?

Un data lake es un entorno de almacenamiento de bajo costo que suele albergar petabytes de datos sin procesar. A diferencia de un almacén de datos, un data lake puede almacenar datos estructurados, no estructurados, y no requiere un esquema definido para almacenar los datos, una característica conocida como "esquema en lectura".

Esta flexibilidad en los requisitos de almacenamiento es especialmente útil para los científicos de datos, los ingenieros de datos y los desarrolladores, ya que les permite acceder a los datos para ejercicios de descubrimiento de datos y proyectos de machine learning.

Un informe reciente de Voice of the Enterprise (enlace externo a ibm.com) de 451 Research determinó que casi “tres cuartas partes (71 %) de las empresas actualmente están usando un entorno de lago de datos o haciendo pruebas piloto, o planean hacerlo dentro de los próximos 12 meses, y el 53 % de los encuestados ya están en el despliegue o POC”. Los encuestados en este informe destacan la agilidad del negocio como un beneficio clave de sus despliegues, que puede variar. También descubrieron que los lagos de datos suelen alojarse en la nube u "on premises" a través de los centros de datos de una organización.

Si bien los adoptantes encuentran valor en los lagos de datos, algunos pueden ser víctimas de convertirse en pantanos de datos o pozos de datos. Un pantano de datos es el resultado de un lago de datos mal gestionado; es decir, carece de prácticas adecuadas de calidad y gobernanza de datos para proporcionar aprendizajes reveladores. Sin la supervisión adecuada, los datos de estos repositorios serán inservibles. Los pozos de datos, por otro lado, son similares a los pantanos de datos en que proporcionan poco valor comercial, pero la fuente del problema de datos no está clara en estos casos. Del mismo modo, la participación de los equipos de gobernanza de datos y ciencia de datos puede ayudar a proteger contra estos obstáculos.

IBM es nombrada líder por IDC

Lea por qué IBM fue nombrada líder en el informe IDC MarketScape: Worldwide AI Governance Platforms 2023.

Contenido relacionado

Lea la guía para líderes de datos

Data lake vs almacén de datos

Aunque tanto los data lakes como los almacenes de datos almacenan datos, cada repositorio tiene sus propios requisitos de almacenamiento, lo que lo convierte en una opción ideal para distintos escenarios. Por ejemplo, los almacenes de datos requieren un esquema definido para adaptarse a los requisitos específicos de análisis de datos para la salida de datos, como paneles, visualizaciones de datos y otras tareas de business intelligence. Estos requisitos suelen ser especificados por los usuarios empresariales y otras partes interesadas, que utilizarán los resultados de los informes con regularidad. La estructura subyacente de un almacén de datos suele organizarse como un sistema relacional (es decir, en un formato de datos estructurados), que se abastece de datos procedentes de bases de datos transaccionales. Los data lakes, por su parte, incorporan datos de sistemas relacionales y no relacionales, lo que permite a los científicos de datos incorporar datos estructurados y no estructurados a más proyectos de ciencia de datos.

Cada sistema tiene sus propias ventajas e inconvenientes. Por ejemplo, los almacenes de datos suelen ser más eficaces, pero tienen un costo más elevado. Los data lakes pueden ser más lentos a la hora de devolver los resultados de las consultas, pero tienen menores costos de almacenamiento. Además, la capacidad de almacenamiento de los data lakes los hace ideales para los datos empresariales.

Data lake vs lakehouse de datos

Si bien la adopción de lagos de datos y almacenes de datos solo aumentará con el crecimiento de nuevas fuentes de datos, las limitaciones de ambos repositorios de datos están llevando a una convergencia en estas tecnologías. Un data lakehouse combina los beneficios de costos de un lago de datos con la estructura de datos y las capacidades de administración de datos de un almacén de datos. Según otro informe de encuesta (enlace externo a ibm.com) de 415 Research, “dos tercios de las empresas ya están empleando o probando un entorno de lakehouse de datos, o planean hacerlo dentro de 12 meses”. Además, descubrieron que el 93 % de las organizaciones que adoptaron lagos de datos también planean adoptar un data lakehouse en los próximos 12 meses.

Arquitectura de un data lake

Los lagos de datos también se asocian comúnmente con Apache Hadoop, un entorno de software de código abierto que proporciona procesamiento distribuido confiable y de bajo costo para el almacenamiento de big data. Tradicionalmente se desplegaban on premises, pero, como se indica en el informe de 451 Research, los adoptantes se están moviendo rápidamente a entornos en la nube a medida que brindan más flexibilidad a los usuarios finales. A diferencia de los despliegues on premises, los proveedores de espacio en la nube permiten a los usuarios poner en marcha grandes clústeres según sea necesario, y solo requieren el pago por el almacenamiento especificado. Esto significa que si necesita potencia de cómputo adicional para ejecutar un trabajo en unas pocas horas en lugar de unos pocos días, puede hacerlo fácilmente en una plataforma en la nube mediante la compra de nodos de cálculo adicionales. Forrester ibm.com Research (enlace externo a ibm.com) informa que las empresas que emplean lagos de datos en la nube en lugar de lagos de datos on premises obtienen ahorros de aproximadamente un 25 %.

Dentro de Hadoop, Hadoop Distributed File System (HDFS) almacena y replica los datos en varios servidores, mientras que Yet Another Resource Negotiator (YARN) determina cómo asignar los recursos entre esos servidores. A continuación, puede utilizar Apache Spark para crear un gran espacio de memoria para el procesamiento de datos, lo que permite a los usuarios más avanzados acceder a los datos a través de interfaces que utilizan Python, R y Spark SQL.

A medida que el volumen de datos crece a un ritmo exponencial, los data lakes son un componente esencial de la canalización de datos.

Casos de uso de un data lake

Dado que los data lakes se aprovechan principalmente por su capacidad para almacenar grandes cantidades de datos sin procesar, no es necesario definir desde el principio la finalidad empresarial de los datos. Dicho esto, a continuación se exponen dos casos de uso principales de los data lakes:

- Prueba de conceptos (POC): el almacenamiento en data lakes es ideal para proyectos de prueba de concepto. Su capacidad para almacenar distintos tipos de datos es especialmente beneficiosa para los modelos de aprendizaje automático, ya que brinda la oportunidad de incorporar tanto datos estructurados como no estructurados a los modelos predictivos. Esto puede ser útil para casos de uso, como la clasificación de textos, ya que los científicos de datos no pueden utilizar bases de datos relacionales para este fin (al menos no sin procesar previamente los datos para adaptarlos a los requisitos del esquema). Los data lakes también pueden servir de entorno aislado (sandbox) para otros proyectos de análisis de big data. Esto puede abarcar desde el desarrollo de paneles a gran escala hasta el soporte de aplicaciones IoT, que suelen requerir transmisión de datos en tiempo real. Una vez determinados la finalidad y el valor de los datos, pueden someterse a un procesamiento ETL o ELT para su almacenamiento en un almacén de datos de bajada.

- Copia de seguridad y recuperación de datos: la gran capacidad y los bajos costos de almacenamiento permiten a los data lakes actuar como alternativa de almacenamiento para incidentes de recuperación ante desastres. También pueden ser beneficiosos para que las auditorías de datos apliquen la garantía de calidad, ya que los datos se almacenan en su formato nativo (es decir, sin transformaciones). Esto puede ser especialmente útil si un almacén de datos carece de la documentación adecuada en torno a su procesamiento de datos, lo que permite a los equipos cotejar el trabajo de anteriores propietarios de datos.

Por último, dado que los datos en un data lake no requieren necesariamente una finalidad inmediata para su almacenamiento, también puede ser una forma de almacenar datos fríos o inactivos a un precio rentable, que pueden ser útiles más adelante para consultas normativas o nuevos análisis netos.

Beneficios de un data lake

Mayor flexibilidad: los data lakes pueden ingerir conjuntos de datos estructurados, semiestructurados y no estructurados, lo que los hace ideales para proyectos avanzados de análisis y aprendizaje automático.

Costo: dado que los data lakes no requieren tanta planificación previa para ingerir los datos (por ejemplo, definición de esquemas y transformaciones), es necesario invertir menos dinero en recursos humanos. Además, los costos reales de almacenamiento de los data lakes son inferiores a los de otros repositorios de almacenamiento, como los almacenes de datos. Esto permite a las empresas optimizar sus presupuestos y recursos de forma más eficaz en todas las iniciativas de gestión de datos.

Escalabilidad: los data lakes pueden ayudar a las empresas a escalar de dos maneras. La funcionalidad de autoservicio y la capacidad general de almacenamiento hacen que los data lakes sean más escalables en comparación con otros servicios de almacenamiento. Además, los data lakes ofrecen a los trabajadores un entorno aislado (sandbox) para desarrollar POC de éxito. Una vez que un proyecto ha demostrado su valor a menor escala, es más fácil ampliar ese flujo de trabajo a mayor escala utilizando la automatización.

Reducción de los silos de datos: desde la atención médica hasta la cadena de suministro, las empresas de diversas industrias experimentan silos de datos dentro de su organización. Dado que los data lakes ingieren datos sin procesar a través de distintas funciones, esas dependencias empiezan a eliminarse por sí solas, puesto que ya no hay un único propietario de un conjunto de datos determinado.

Experiencia del cliente mejorada: aunque este beneficio no se percibirá inmediatamente, una prueba de concepto satisfactoria puede mejorar la experiencia general del usuario, permitiendo a los equipos comprender y personalizar mejor el recorrido del cliente mediante análisis netos y perspicaces.

Desafíos de un data lake

Si bien los data lakes brindan una serie de beneficios, no están exentos de desafíos. Algunos de ellos incluyen:

- Rendimiento: a medida que aumenta el volumen de datos que se introducen en un data lake, el rendimiento se ve cada vez más afectado, que ya es más lento que el de otros sistemas alternativos de almacenamiento de datos.

- Gobernanza: si bien la capacidad de un data lake para ingerir diversas fuentes de datos proporciona a las empresas una ventaja en sus prácticas de gestión de datos, también requiere una sólida gobernanza para gestionarlos adecuadamente. Los datos deben etiquetarse y clasificarse con los metadatos pertinentes para evitar los pantanos de datos, y esta información debe ser fácilmente accesible a través de un catálogo de datos, lo que permite la funcionalidad de autoservicio para el personal menos técnico, como los analistas de negocio. Por último, también deben establecerse medidas de protección para cumplir las normas de privacidad y reglamentación, que pueden incluir controles de acceso, cifrado de datos, etc.

Soluciones relacionadas

Soluciones de lago de datos

Potencie sus aplicaciones, analytics e IA con cualquier dato en una nube de datos abierta.

Explore las soluciones de lago de datos

Recursos

IBM + Cloudera

Aprenda más sobre la asociación de IBM y Cloudera para ofrecer una plataforma de datos empresariales para la nube híbrida.

Gobernanza de datos y data lakes inteligentes

Conozca las mejores prácticas para garantizar la calidad, accesibilidad y seguridad de los datos como base para una arquitectura de datos centrada en IA.

State Bank of India

Descubra cómo el State Bank of India utilizó varias soluciones de IBM, junto con la metodología IBM Garage, para desarrollar una completa plataforma de banca en línea.

¿Qué es un data lake?

Conozca la próxima evolución de las soluciones de gestión de datos en el mercado.

Dé el siguiente paso

Escale cargas de trabajo de IA para todos sus datos, en cualquier lugar, con IBM watsonx.data, un almacén de datos adecuado para su propósito creado sobre una arquitectura de lakehouse de datos abierta.

Explore watsonx.data

Reserve una demostración en vivo