¿Qué es un data lake? I IBM

¿Qué es un data lake?

Un data lake es un entorno de almacenamiento de bajo coste que suele albergar petabytes de datos sin procesar. A diferencia de un almacén de datos, puede almacenar tanto datos estructurados como no estructurados. No requiere un esquema definido para almacenar los datos, característica conocida como "esquema en lectura".

A diferencia de un almacén de datos, un data lake puede almacenar tanto datos estructurados como no estructurados, y no requiere un esquema definido para almacenar los datos, una característica conocida como "esquema en lectura". Esta flexibilidad en los requisitos de almacenamiento es especialmente útil para científicos e ingenieros de datos y desarrolladores, ya que les permite acceder a los datos para ejercicios de detección de datos y proyectos de machine learning.

Un reciente informe Voice of the Enterprise (enlace externo a ibm.com) de 451 Research determinó que casi "tres cuartas partes (71 %) de las empresas están utilizando actualmente o probando un entorno de data lake o tienen previsto hacerlo en los próximos 12 meses, y el 53 % de los encuestados ya están en fase de implementación o POC". Los encuestados en este informe destacan la agilidad empresarial como un beneficio clave de sus implementaciones, que pueden variar. También descubrieron que los data lakes suelen alojarse en la nube o "en las instalaciones" a través de los centros de datos de una organización.

Aunque los que los adoptan están encontrando valor en los data lakes, algunos pueden ser víctimas de convertirse en pantanos o pozos de datos. Un pantano de datos es el resultado de un data lake mal gestionado, es decir, que carece de las prácticas de calidad y gobierno de datos adecuadas para proporcionar aprendizajes reveladores. Sin la supervisión adecuada, los datos de estos repositorios quedarán inutilizados. Por otro lado, los pozos de datos son similares a los pantanos de datos en el sentido de que aportan poco valor empresarial, pero en estos casos el origen del problema de los datos no está claro. Del mismo modo, la participación de los equipos de gobierno y ciencia de datos puede ayudar a protegerse de estos escollos.

IBM nombrada líder por IDC

Lea por qué IBM ha sido nombrada líder en el informe IDC MarketScape: Worldwide AI Governance Platforms 2023.

Contenido relacionado

Lea la guía para líderes de datos

Data lake frente a almacén de datos

Aunque tanto los data lakes como los almacenes de datos almacenan datos, cada repositorio tiene sus propios requisitos de almacenamiento, lo que lo convierte en una opción ideal para distintos escenarios. Por ejemplo, los almacenes de datos requieren un esquema definido para adaptarse a los requisitos específicos de análisis de datos para la salida de datos, como paneles de control, visualizaciones de datos y otras tareas de inteligencia empresarial. Estos requisitos suelen ser especificados por los usuarios empresariales y otras partes interesadas, que utilizarán los resultados de los informes con regularidad. La estructura subyacente de un almacén de datos suele organizarse como un sistema relacional (es decir, en un formato de datos estructurados), que se abastece de datos procedentes de bases de datos transaccionales. Los data lakes, por su parte, incorporan datos de sistemas relacionales y no relacionales, lo que permite a los científicos de datos incorporar datos estructurados y no estructurados a más proyectos de ciencia de datos.

Cada sistema tiene sus propias ventajas e inconvenientes. Por ejemplo, los almacenes de datos suelen ser más eficaces, pero tienen un coste más elevado. Los data lakes pueden ser más lentos a la hora de devolver los resultados de las consultas, pero tienen menores costes de almacenamiento. Además, la capacidad de almacenamiento de los data lakes los hace ideales para los datos empresariales.

Data lake frente a lakehouse de datos

Aunque la adopción tanto de los data lakes como de los almacenes de datos no hará sino aumentar con el crecimiento de nuevas fuentes de datos, las limitaciones de ambos repositorios de datos están conduciendo a una convergencia de estas tecnologías. Un lakehouse de datos combina las ventajas económicas de un data lake con la estructura de datos y las capacidades de gestión de datos de un almacén de datos. Según otro informe de la encuesta (enlace externo a ibm.com) de 415 Research, "dos tercios de las empresas ya están utilizando o probando un entorno lakehouse de datos, o tienen previsto hacerlo en un plazo de 12 meses". Además, descubrieron que el 93 % de las organizaciones que han adoptado data lakes también planean adoptar un lakehouse de datos en los próximos 12 meses.

Arquitectura de data lake

Los data lakes también suelen asociarse con Apache Hadoop, un marco de software de código abierto que proporciona un procesamiento distribuido fiable y de bajo coste para el almacenamiento de big data. Anteriormente se implementaban en local, pero como se indica en el informe de 451 Research, los usuarios se están pasando rápidamente a los entornos en nube, ya que ofrecen más flexibilidad a los usuarios finales. A diferencia de las implementaciones locales, los proveedores de almacenamiento en la nube permiten a los usuarios crear grandes clústeres según sus necesidades, y sólo exigen el pago por el almacenamiento especificado. Esto significa que si necesita potencia de cálculo adicional para ejecutar un trabajo en unas horas frente a unos días, puede hacerlo fácilmente en una plataforma en la nube adquiriendo nodos de cálculo adicionales. Según Forrester Research (enlace externo a ibm.com), las empresas que utilizan data lakes en la nube en lugar de data lakes en las instalaciones ahorran aproximadamente un 25 %.

Dentro de Hadoop, Hadoop Distributed File System (HDFS) almacena y replica los datos en varios servidores, mientras que Yet Another Resource Negotiator (YARN) determina cómo asignar los recursos entre esos servidores. A continuación, puede utilizar Apache Spark para crear un gran espacio de memoria para el proceso de datos, lo que permite a los usuarios más avanzados acceder a los datos a través de interfaces que utilizan Python, R y Spark SQL.

A medida que el volumen de datos crece a un ritmo exponencial, los data lakes son un componente esencial de la canalización de datos.

Casos prácticos de un data lake

Dado que los data lakes se aprovechan principalmente por su capacidad para almacenar grandes cantidades de datos sin procesar, no es necesario definir desde el principio la finalidad empresarial de los datos. Dicho esto, a continuación se exponen dos casos prácticos principales de los data lakes:

- Prueba de conceptos (POC): el almacenamiento en data lakes es ideal para proyectos de prueba de concepto. Su capacidad para almacenar distintos tipos de datos es especialmente beneficiosa para los modelos de machine learning, ya que brinda la oportunidad de incorporar tanto datos estructurados como no estructurados a los modelos predictivos. Esto puede ser útil para casos prácticos, como la clasificación de textos, ya que los científicos de datos no pueden utilizar bases de datos relacionales para este fin (al menos no sin preprocesar los datos para adaptarlos a los requisitos del esquema). Los data lakes también pueden servir de entorno aislado para otros proyectos de análisis de big data. Esto puede abarcar desde el desarrollo de paneles de control a gran escala hasta el soporte de aplicaciones IoT, que suelen requerir transmisión de datos en tiempo real. Una vez determinados la finalidad y el valor de los datos, pueden someterse a un tratamiento ETL o ELT para su almacenamiento en un almacén de datos de bajada.

- Recuperación y copia de seguridad de datos: la gran capacidad y los bajos costes de almacenamiento permiten a los data lakes actuar como alternativa de almacenamiento para incidentes de recuperación ante desastres. También pueden ser beneficiosos para que las auditorías de datos apliquen la garantía de calidad, ya que los datos se almacenan en su formato nativo (es decir, sin transformaciones). Esto puede ser especialmente útil si un almacén de datos carece de la documentación adecuada en torno a su procesamiento de datos, lo que permite a los equipos cotejar el trabajo de anteriores propietarios de datos.

Por último, dado que los datos de un data lake no requieren necesariamente una finalidad inmediata para su almacenamiento, también puede ser una forma de almacenar datos fríos o inactivos a un precio rentable, que pueden ser útiles más adelante para consultas normativas o nuevos análisis netos.

Beneficios de un data lake

Mayor flexibilidad: los data lakes pueden ingerir conjuntos de datos estructurados, semiestructurados y no estructurados, lo que los hace ideales para proyectos avanzados de análisis y machine learning.

Coste: dado que los data lakes no requieren tanta planificación previa para ingerir los datos (por ejemplo, definición de esquemas y transformaciones), es necesario invertir menos dinero en recursos humanos. Además, los costes reales de almacenamiento de los data lakes son inferiores a los de otros repositorios de almacenamiento, como los almacenes de datos. Esto permite a las empresas optimizar sus presupuestos y recursos de forma más eficaz en todas las iniciativas de gestión de datos.

Escalabilidad: los data lakes pueden ayudar a las empresas a escalar de dos maneras. La funcionalidad de autoservicio y la capacidad general de almacenamiento hacen que los data lakes sean más escalables en comparación con otros servicios de almacenamiento. Además, los data lakes ofrecen a los trabajadores un entorno aislado para desarrollar POC de éxito. Una vez que un proyecto ha demostrado su valor a menor escala, es más fácil ampliar ese flujo de trabajo a mayor escala utilizando la automatización.

Reducción de los silos de datos: desde la sanidad hasta la cadena de suministro, las empresas de diversos sectores experimentan silos de datos dentro de su organización. Dado que los data lakes ingieren datos sin procesar a través de distintas funciones, esas dependencias empiezan a eliminarse por sí solas, puesto que ya no hay un único propietario de un conjunto de datos determinado.

Experiencia del cliente mejorada: aunque este beneficio no se percibirá inmediatamente, una prueba de concepto satisfactoria puede mejorar la experiencia general del usuario, permitiendo a los equipos comprender y personalizar mejor el recorrido del cliente mediante análisis netos y perspicaces.

Desafíos de un data lake

Aunque los data lakes aportan numerosas ventajas, no están exentos de desafíos. Algunas de ellos incluyen:

- Rendimiento: a medida que aumenta el volumen de datos que se introducen en un data lake, el rendimiento se ve cada vez más afectado, que ya es más lento que el de otros sistemas alternativos de almacenamiento de datos.

- Gobierno: si bien la capacidad de un data lake para ingerir diversas fuentes de datos proporciona a las empresas una ventaja en sus prácticas de gestión de datos, también requiere un sólido gobierno para gestionarlos adecuadamente. Los datos deben etiquetarse y clasificarse con los metadatos pertinentes para evitar los pantanos de datos, y esta información debe ser fácilmente accesible a través de un catálogo de datos, lo que permite la funcionalidad de autoservicio para el personal menos técnico, como los analistas de negocio. Por último, también deben establecerse guardarraíles para cumplir las normas de privacidad y reglamentación, que pueden incluir controles de acceso, cifrado de datos, etc.

Soluciones relacionadas

Soluciones de lagos de datos

Potencie sus aplicaciones, análisis e IA con cualquier dato en una nube de datos abierta.

Explore las soluciones de Data Lake

Recursos

IBM + Cloudera

Obtenga más información sobre la asociación de IBM y Cloudera para ofrecer una plataforma de datos empresariales para la nube híbrida.

Gobierno de datos y data lakes inteligentes

Conozca las buenas prácticas para garantizar la calidad, accesibilidad y seguridad de los datos como base de una arquitectura de datos centrada en la IA.

Banco Estatal de India

Descubra cómo el State Bank of India utilizó varias soluciones de IBM, junto con la metodología IBM Garage, para desarrollar una completa plataforma de banca online.

¿Qué es un lakehouse de datos?

Conozca la próxima evolución de las soluciones de gestión de datos del mercado.

Dé el siguiente paso

Escale cargas de trabajo de IA, para todos sus datos, en cualquier lugar con IBM watsonx.data, un almacén de datos adaptado construido sobre una arquitectura de lakehouse de datos abierta.

Explore watsonx.data

Solicite una demostración en directo