Les data lakes sont, à un niveau élevé, des référentiels uniques de données à l’échelle. Les données peuvent être stockées dans leur forme brute d’origine ou optimisées dans un format différent, adapté à la consommation par des moteurs spécialisés.

Dans le cas d’Hadoop, l’un des data lakes les plus populaires, la promesse de mettre en œuvre un tel référentiel à l’aide d’un logiciel open source et de l’exécuter sur du matériel de base permettait de stocker un grand nombre de données sur ces systèmes à un coût très faible. Les données pouvaient être conservées dans des formats de données ouverts, démocratisant leur utilisation, et être répliquées automatiquement, ce qui vous a permis de maintenir une haute disponibilité. Le framework par défaut offrait la possibilité de récupérer après des défaillances en cours. Il s’agit sans aucun doute d’une rupture importante par rapport aux environnements analytiques traditionnels, qui sont souvent synonymes d’enfermement propriétaire et d’incapacité à travailler avec des données à l’échelle.

Un autre défi inattendu a été l’introduction de Spark en tant que framework pour le big data. Il a rapidement gagné en popularité grâce à sa prise en charge des transformations des données, du streaming et du SQL. Mais il n’a jamais coexisté harmonieusement avec les environnements des data lakes existants. Cela a souvent conduit à des clusters de calcul dédiés supplémentaires simplement pour pouvoir exécuter Spark.

Près de 15 ans plus tard, la réalité s’est clairement imposée au regard des compromis que cette technologie impliquait. Leur adoption rapide a eu pour conséquence que les clients ont rapidement perdu la trace de ce qui finissait dans le data lake. Et, tout aussi difficile, ils n’arrivaient pas à savoir d’où venaient les données, comment elles avaient été ingérées ni comment elles avaient été transformées au cours du processus. La gouvernance des données reste une frontière inexplorée pour cette technologie. Un logiciel peut être ouvert, mais quelqu’un doit apprendre à l’utiliser, à le maintenir et à assurer le support. S’appuyer sur le soutien de la communauté ne permet pas toujours d’obtenir les délais d’exécution qu’imposent les opérations métier. La haute disponibilité via la réplication impliquait davantage de copies de données sur plus de disques, des coûts de stockage plus élevés et des pannes plus fréquentes. Un framework de traitement distribué hautement disponible impliquait de renoncer à la performance en faveur de la résilience (nous parlons d’une dégradation de performance de plusieurs ordres de grandeur pour les analyses interactives et la BI).