¿Qué es un data lake?

Descubra cómo los data lakes pueden ayudar a estimular la innovación dentro de su empresa.

Técnico de raza mixta utilizando tablet digital en sala de servidores

¿Qué es un data lake?

Originalmente acuñado por el ex CTO de Pentaho, un data lake es un entorno de almacenamiento de bajo costo, que normalmente alberga petabytes de datos sin procesar. A diferencia de un almacén de datos, un data lake puede almacenar datos estructurados y no estructurados, y no requiere un esquema definido para almacenar datos, una característica conocida como "esquema en lectura". Esta flexibilidad en los requisitos de almacenamiento es especialmente útil para los científicos de datos, los ingenieros de datos y los desarrolladores, ya que les permite acceder a los datos para ejercicios de descubrimiento de datos y proyectos de machine learning.

El reciente Voice of the Enterprise  (enlace externo a ibm.com), un informe de 451 Research, determinó que casi "las tres cuartas partes (71 %) de las empresas están actualmente usando o probando un entorno de data lake o planean hacerlo en los próximos 12 meses, y el 53 % de los encuestados ya están en implementación o POC". Los encuestados en este informe destacan la agilidad comercial como un beneficio clave de sus implementaciones, que puede variar. También descubrieron que los data lakes generalmente se alojan en la nube o "en las instalaciones" a través de los centros de datos de una organización. 

Si bien los adoptantes están encontrando valor en los data lakes, algunos pueden ser víctimas de que se convertirse en pantanos de datos o pozos de datos. Un pantano de datos es el resultado de un data lake mal administrado, es decir, que carece de prácticas de gestión de datos y calidad de datos adecuadas para proporcionar aprendizajes perspicaces. Sin la supervisión adecuada, los datos en estos repositorios se volverán inútiles. Los pozos de datos, por otro lado, son similares a los pantanos de datos en el sentido de que brindan poco valor comercial, pero la fuente del problema de los datos no está clara en estos casos. Del mismo modo, la participación de los equipos de gestión de datos y ciencia de datos puede ayudar a protegerse contra estos problemas. 


Data lake versus almacén de datos

Si bien los data lakes y los almacenes de datos almacenan datos, cada repositorio tiene sus propios requisitos de almacenamiento, lo que lo convierte en una opción ideal para diferentes situaciones. Por ejemplo, los almacenes de datos requieren un esquema definido para adaptarse a requisitos específicos de análisis de datos para salidas de datos, como paneles, visualizaciones de datos y otras tareas de inteligencia comercial. Estos requisitos suelen ser especificados por los usuarios comerciales y otras partes interesadas relevantes, que utilizarán los resultados de los informes de forma regular. La estructura subyacente de un almacén de datos normalmente se organiza como un sistema relacional (es decir, en un formato de datos estructurados), que obtiene datos de bases de datos transaccionales. Los data lakes, por otro lado, incorporan datos de sistemas relacionales y no relacionales, lo que permite a los científicos de datos incorporar datos estructurados y no estructurados en más proyectos de ciencia de datos. 

Cada sistema también tiene su propio conjunto de ventajas y desventajas. Por ejemplo, los almacenes de datos tienden a tener un mayor rendimiento, pero tienen un costo mayor. Los data lakes pueden tardar más en devolver los resultados de las consultas, pero tienen costos de almacenamiento más bajos. Además, la capacidad de almacenamiento de los data lakes los hace ideales para datos empresariales. 


Data lake versus data lakehouse

Si bien la adopción de data lakes y almacenes de datos solo aumentará con el crecimiento de nuevas fuentes de datos, las limitaciones de ambos repositorios de datos están conduciendo a una convergencia en estas tecnologías. Un data lakehouse combina los beneficios de costos de un data lake con la estructura de datos y las capacidades de administración de datos de un almacén de datos. Según otroinforme de encuestas  (enlace externo a ibm.com) de 415 Research, "dos tercios de las empresas ya están usando o probando un entorno de data lakehouse, o planean hacerlo dentro de 12 meses". Además, descubrieron que el 93 % de las organizaciones que han adoptado los data lakes también planean adoptar un data lakehouse en los próximos 12 meses. 


Arquitectura del data lake

Los data lakes también se asocian comúnmente con Apache Hadoop®, un marco de software de código abierto que proporciona un procesamiento distribuido confiable y de bajo costo para el almacenamiento de big data. Tradicionalmente se implementaban localmente, pero como indica el informe de 451 Research, los adoptantes se están trasladando rápidamente a entornos en la nube, ya que brindan más flexibilidad a los usuarios finales. A diferencia de las implementaciones locales, los proveedores de almacenamiento en la nube permiten a los usuarios activar grandes clústeres según sea necesario, y solo requieren el pago del almacenamiento especificado. Esto significa que si necesita potencia de cómputo adicional para ejecutar un trabajo en unas pocas horas en lugar de unos pocos días, puede hacerlo fácilmente en una plataforma en la nube comprando nodos de cómputo adicionales. Forrester Research (enlace externo a ibm.com)  informa que las empresas que usan data lakes en la nube en lugar de data lakes locales obtienen ahorros de aproximadamente el 25 %.

Dentro de Hadoop, el Hadoop Distributed File System (HDFS) almacena y replica datos en varios servidores, mientras que Yet Another Resource Negotiator (YARN) determina cómo asignar recursos en esos servidores.  Luego puede usar Apache Spark para crear un gran espacio de memoria para el procesamiento de datos, lo que permite a los usuarios más avanzados acceder a los datos a través de interfaces que usan Python, R y Spark SQL. 

Mientras que el volumen de datos crece a un ritmo exponencial, los data lakes sirven como un componente esencial de la canalización de datos. 


Casos de uso de un data lake

Dado que los data lakes se aprovechan principalmente por su capacidad para almacenar grandes cantidades de datos sin procesar, el propósito comercial de los datos no necesariamente debe definirse desde el principio. Dicho esto, a continuación se pueden encontrar dos casos de uso principales para los data lakes:

- Proof of concepts (POC): El almacenamiento de data lake es ideal para proyectos de prueba de concepto. Su capacidad para almacenar diferentes tipos de datos es especialmente beneficiosa para los modelos de machine learning, ya que brinda la oportunidad de incorporar datos estructurados y no estructurados en modelos predictivos. Esto puede ser útil para casos de uso, como la clasificación de texto, ya que los científicos de datos no pueden utilizar bases de datos relacionales para esto (al menos no sin preprocesar los datos para que se ajusten a los requisitos del esquema). Los data lakes también pueden actuar como una sandbox para otros proyectos de análisis de big data. Esto puede ir desde el desarrollo de tableros a gran escala hasta el soporte de aplicaciones IoT, que generalmente requiere transmisión de datos en tiempo real. Una vez que se ha determinado el propósito y el valor de los datos, pueden someterse a un procesamiento ETL o ELT para su almacenamiento en un almacén de datos descendente. 

- Backup y recuperación de datos: La alta capacidad de almacenamiento y los bajos costos de almacenamiento permiten que los data lakes actúen como una alternativa de almacenamiento para incidentes de recuperación de desastres. También pueden ser beneficiosos para las auditorías de datos para hacer cumplir la garantía de calidad, ya que los datos se almacenan en su formato nativo (es decir, sin transformaciones). Esto puede ser particularmente útil si un almacén de datos carece de la documentación adecuada sobre su procesamiento de datos, lo que permite a los equipos verificar el trabajo de los propietarios anteriores de los datos. 

Finalmente, dado que los datos en un data lake no necesariamente requieren un propósito inmediato para el almacenamiento, también puede ser una forma de almacenar datos inactivos o fríos a un precio rentable, lo que puede ser útil en una fecha posterior para consultas regulatorias o nuevos análisis netos.


Beneficios de un data lake

Mas flexibles: Los data lakes pueden ingerir conjuntos de datos estructurados, semiestructurados y no estructurados, lo que los hace ideales para proyectos de análisis avanzado y machine learning. 

Costo: Dado que los data lakes no requieren tanta planificación inicial para ingerir los datos (por ejemplo, esquema y definición de transformación), se necesita invertir menos dinero en recursos humanos. Además, los costos de almacenamiento reales de los data lakes son más bajos en comparación con otros repositorios de almacenamiento, como los almacenes de datos. Esto permite a las empresas optimizar sus presupuestos y recursos de manera más eficaz en todas las iniciativas de gestión de datos. 

Escalabilidad: Los data lakes pueden ayudar a las empresas a escalar de varias maneras. La funcionalidad de autoservicio y la capacidad de almacenamiento general hacen que los data lakes sean más escalables en comparación con otros servicios de almacenamiento. Además, los data lakes proporcionan una sandbox para que los trabajadores desarrollen POC exitosos. Una vez que un proyecto ha demostrado valor a menor escala, es más fácil expandir ese flujo de trabajo a mayor escala por medio de la automatización.  

Silos de datos reducidos: Desde la atención médica hasta la cadena de suministro, las empresas de diversas industrias experimentan silos de datos dentro de su organización. Dado que los data lakes incorporan datos sin procesar a través de diferentes funciones, esas dependencias comienzan a eliminarse porque ya no hay un único propietario para un conjunto de datos determinado. 

Experiencia del cliente mejorada: Si bien este beneficio no se verá de inmediato, una prueba de concepto exitosa puede mejorar la experiencia general del usuario, lo que permite a los equipos comprender mejor y personalizar el proceso del cliente a través de análisis profundos y nuevos en la red.


Desafíos de un data lake

Si bien los data lakes brindan una serie de beneficios, no están exentos de desafíos. Algunos de ellos incluyen: 

- Rendimiento: Mientras que crece el volumen de datos que se introduce en un data lake, esto ocurre a expensas del rendimiento, que ya es más lento que otros sistemas de almacenamiento de datos alternativos. 

- Gestión: Si bien la capacidad de un lago de datos para ingerir varias fuentes de datos brinda a las empresas una ventaja en sus prácticas de administración de datos, también requiere una gestión sólida para administrar adecuadamente. Los datos deben etiquetarse y clasificarse con metadatos relevantes para evitar pantanos de datos, y esta información debe ser fácilmente accesible a través de un catálogo de datos, lo que permite la funcionalidad de autoservicio para personal menos técnico, como analistas de negocios. Finalmente, también se deben implementar guardrails para cumplir con los estándares regulatorios y de privacidad; esto puede incluir controles de acceso, encriptación de datos y más.  


Data Lakes e IBM

Si bien hay muchos proveedores en el mercado para elegir, IBM y Cloudera se han asociado para ofrecer soluciones de data lakes de clase empresarial para ayudarle a reemplazar los silos de datos con una plataforma ágil y escalable que puede recopilar, almacenar, gestionar y asegurar datos sin procesar de todas partes de su negocio, preparándolo para el análisis. Disponible localmente o en la nube, la plataforma de datos avanzada de Cloudera combinada con productos, servicios y soporte de múltiples proveedores de IBM lo posiciona para desbloquear el valor de la IA. Para obtener más información sobre los data lakes y los servicios de almacenamiento de IBM , regístrese para obtener un IBMid de IBM y cree su cuenta IBM Cloud.