Esta flexibilidad en los requisitos de almacenamiento es especialmente útil para los científicos de datos, los ingenieros de datos y los desarrolladores, ya que les permite acceder a los datos para ejercicios de descubrimiento de datos y proyectos de machine learning.

Un informe reciente de Voice of the Enterprise (enlace externo a ibm.com) de 451 Research determinó que casi “tres cuartas partes (71 %) de las empresas actualmente están usando un entorno de lago de datos o haciendo pruebas piloto, o planean hacerlo dentro de los próximos 12 meses, y el 53 % de los encuestados ya están en el despliegue o POC”. Los encuestados en este informe destacan la agilidad del negocio como un beneficio clave de sus despliegues, que puede variar. También descubrieron que los lagos de datos suelen alojarse en la nube u "on premises" a través de los centros de datos de una organización.



Si bien los adoptantes encuentran valor en los lagos de datos, algunos pueden ser víctimas de convertirse en pantanos de datos o pozos de datos. Un pantano de datos es el resultado de un lago de datos mal gestionado; es decir, carece de prácticas adecuadas de calidad y gobernanza de datos para proporcionar aprendizajes reveladores. Sin la supervisión adecuada, los datos de estos repositorios serán inservibles. Los pozos de datos, por otro lado, son similares a los pantanos de datos en que proporcionan poco valor comercial, pero la fuente del problema de datos no está clara en estos casos. Del mismo modo, la participación de los equipos de gobernanza de datos y ciencia de datos puede ayudar a proteger contra estos obstáculos.