Les data lakes sont généralement créés sur des plateformes de big data comme Apache Hadoop. Ils sont connus pour leur faible coût et la flexibilité de leur stockage, car ils ne sont pas régis par les schémas prédéfinis des entrepôts de données traditionnels. Ils hébergent également différents types de données : audio, vidéo et texte. Et comme les producteurs de données génèrent en grande partie des données non structurées, il s’agit d’une distinction importante, car ces data lakes sont également adaptés à une plus grande diversité de projets de science des données et d’intelligence artificielle (IA). Ils permettent d’obtenir des informations plus novatrices et d’améliorer la prise de décision au sein des organisations. Cependant, les data lakes ont aussi leurs inconvénients. Leur taille et leur complexité peuvent nécessiter davantage de ressources techniques, par exemple des data scientists et des ingénieurs de données, pour gérer la quantité de données stockées. De plus, étant donné que la gouvernance des données est mise en œuvre plus en aval dans ces systèmes, les data lakes ont tendance à cloisonner davantage les données dans différents silos, qui risquent de se transformer en marécage de données. Dans ce cas de figure, le data lake peut devenir inutilisable.

Les data lakes et les entrepôts de données sont généralement utilisés en tandem. Les data lakes agissent comme un système fourre-tout pour les nouvelles données, et les entrepôts de données appliquent une structure en aval à des données spécifiques qui en proviennent. Mais coordonner ces systèmes pour fournir des données fiables peut s’avérer coûteux en temps et en ressources. Les longs délais de traitement contribuent à l’obsolescence des données et les couches supplémentaires d’ETL introduisent plus de risques en termes de qualité.