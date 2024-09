Dado que los data lakes se aprovechan principalmente por su capacidad para almacenar grandes cantidades de datos sin procesar, no es necesario definir desde el principio la finalidad empresarial de los datos. Dicho esto, a continuación se exponen dos casos prácticos principales de los data lakes:

- Prueba de conceptos (POC): el almacenamiento en data lakes es ideal para proyectos de prueba de concepto. Su capacidad para almacenar distintos tipos de datos es especialmente beneficiosa para los modelos de machine learning, ya que brinda la oportunidad de incorporar tanto datos estructurados como no estructurados a los modelos predictivos. Esto puede ser útil para casos prácticos, como la clasificación de textos, ya que los científicos de datos no pueden utilizar bases de datos relacionales para este fin (al menos no sin preprocesar los datos para adaptarlos a los requisitos del esquema). Los data lakes también pueden servir de entorno aislado para otros proyectos de análisis de big data. Esto puede abarcar desde el desarrollo de paneles de control a gran escala hasta el soporte de aplicaciones IoT, que suelen requerir transmisión de datos en tiempo real. Una vez determinados la finalidad y el valor de los datos, pueden someterse a un tratamiento ETL o ELT para su almacenamiento en un almacén de datos de bajada.



- Recuperación y copia de seguridad de datos: la gran capacidad y los bajos costes de almacenamiento permiten a los data lakes actuar como alternativa de almacenamiento para incidentes de recuperación ante desastres. También pueden ser beneficiosos para que las auditorías de datos apliquen la garantía de calidad, ya que los datos se almacenan en su formato nativo (es decir, sin transformaciones). Esto puede ser especialmente útil si un almacén de datos carece de la documentación adecuada en torno a su procesamiento de datos, lo que permite a los equipos cotejar el trabajo de anteriores propietarios de datos.



Por último, dado que los datos de un data lake no requieren necesariamente una finalidad inmediata para su almacenamiento, también puede ser una forma de almacenar datos fríos o inactivos a un precio rentable, que pueden ser útiles más adelante para consultas normativas o nuevos análisis netos.