Comme indiqué précédemment, les data lakehouses combinent les meilleures fonctionnalités des entrepôts de données avec celles des data lakes. Ils tirent parti de structures de données similaires à celles des entrepôts de données et les associent à un stockage aussi économique et flexible que celui des data lakes, permettant aux organisations de stocker et d’accéder au big data plus rapidement et plus efficacement, tout en atténuant les problèmes potentiels de qualité des données. Ils prennent en charge divers jeux de données, structurées et non structurées, répondant ainsi aux besoins des workflows de Business Intelligence et de science des données. Ils sont également compatibles avec les langages de programmation comme Python, R et SQL haute performance.
Les data lakehouses prennent également en charge les transactions ACID sur des workloads de données plus importants. ACID est synonyme d’atomicité, de cohérence, d’isolement et de durabilité : autant de propriétés clés qui définissent les transactions pour garantir l’intégrité des données. L’atomicité, c’est comme si toutes les modifications apportées aux données étaient effectuées en une seule opération. On parle de cohérence lorsque les données sont dans un état cohérent au début et à la fin d’une transaction. L’isolement fait référence à l’état intermédiaire de la transaction, qui est invisible pour les autres transactions. De ce fait, les transactions qui s’exécutent simultanément semblent être sérialisées. La durabilité signifie qu’après l’exécution d’une transaction, les modifications apportées aux données persistent et ne sont pas annulées, même en cas de défaillance du système. Cette fonctionnalité est critique pour la cohérence des données, car plusieurs utilisateurs lisent et écrivent des données simultanément.