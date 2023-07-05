Les data lakes existent depuis plus d’une décennie et soutiennent les opérations analytiques de certaines des plus grandes entreprises mondiales. Certains prétendent cependant que la grande majorité de ces déploiements sont désormais devenus des « marécages » de données. Quel que soit votre point de vue sur cette controverse, la réalité est que ces systèmes contiennent encore beaucoup de données. De tels volumes de données ne sont pas faciles à déplacer, à migrer ou à moderniser.
Les data lakes sont, à un niveau élevé, des référentiels uniques de données à l’échelle. Les données peuvent être stockées dans leur forme brute d’origine ou optimisées dans un format différent, adapté à la consommation par des moteurs spécialisés.
Dans le cas d’Hadoop, l’un des data lakes les plus populaires, la promesse de mettre en œuvre un tel référentiel à l’aide d’un logiciel open source et de l’exécuter sur du matériel de base permettait de stocker un grand nombre de données sur ces systèmes à un coût très faible. Les données pouvaient être conservées dans des formats de données ouverts, démocratisant leur utilisation, et être répliquées automatiquement, ce qui vous a permis de maintenir une haute disponibilité. Le framework par défaut offrait la possibilité de récupérer après des défaillances en cours. Il s’agit sans aucun doute d’une rupture importante par rapport aux environnements analytiques traditionnels, qui sont souvent synonymes d’enfermement propriétaire et d’incapacité à travailler avec des données à l’échelle.
Un autre défi inattendu a été l’introduction de Spark en tant que framework pour le big data. Il a rapidement gagné en popularité grâce à sa prise en charge des transformations des données, du streaming et du SQL. Mais il n’a jamais coexisté harmonieusement avec les environnements des data lakes existants. Cela a souvent conduit à des clusters de calcul dédiés supplémentaires simplement pour pouvoir exécuter Spark.
Près de 15 ans plus tard, la réalité s’est clairement imposée au regard des compromis que cette technologie impliquait. Leur adoption rapide a eu pour conséquence que les clients ont rapidement perdu la trace de ce qui finissait dans le data lake. Et, tout aussi difficile, ils n’arrivaient pas à savoir d’où venaient les données, comment elles avaient été ingérées ni comment elles avaient été transformées au cours du processus. La gouvernance des données reste une frontière inexplorée pour cette technologie. Un logiciel peut être ouvert, mais quelqu’un doit apprendre à l’utiliser, à le maintenir et à assurer le support. S’appuyer sur le soutien de la communauté ne permet pas toujours d’obtenir les délais d’exécution qu’imposent les opérations métier. La haute disponibilité via la réplication impliquait davantage de copies de données sur plus de disques, des coûts de stockage plus élevés et des pannes plus fréquentes. Un framework de traitement distribué hautement disponible impliquait de renoncer à la performance en faveur de la résilience (nous parlons d’une dégradation de performance de plusieurs ordres de grandeur pour les analyses interactives et la BI).
Les data lakes s’avèrent efficaces dès lors que les entreprises se concentrent sur des scénarios d’usage particuliers. Ce qui est certain, c’est qu’il est urgent de moderniser ces déploiements et de protéger l’investissement dans l’infrastructure, les compétences et les données contenues dans ces systèmes.
Pour trouver des réponses, le secteur s'est penché sur les technologies de plateformes de données existantes et leurs points forts. Il est devenu évident qu'une approche efficace consistait à associer les fonctionnalités principales des entrepôts ou des datamarts traditionnels (héritage, si vous voulez) à ce qui fonctionnait le mieux grâce aux data lakes. Plusieurs questions ont rapidement été soulevées comme des enjeux de table :
Ce qui précède a conduit à l’avènement du data lakehouse. Un data lakehouse est une plateforme de données qui regroupe les meilleurs aspects des entrepôts de données et des data lakes en une solution de gestion des données unifiée et cohérente.
La réponse d’IBM au carrefour actuel de l’analytique est watsonx.data. Il s’agit d’un nouvel entrepôt de données pour la gestion des données à l’échelle qui permet aux entreprises d’agrandir, d’augmenter et de moderniser leurs data lakes et entrepôts de données existants sans avoir besoin de migrer. Sa nature hybride signifie que vous pouvez l’exécuter sur une infrastructure gérée par le client (sur site et/ou IaaS) et sur le cloud. Il s’appuie sur une architecture de type lakehouse et intègre un ensemble unique de solutions (et une pile logicielle commune) pour tous les facteurs de forme.
Contrairement aux offres concurrentes, l’approche d’IBM repose sur une pile et une architecture open source. Ce ne sont pas des composants nouveaux, mais bien établis dans ce secteur. IBM a veillé à leur interopérabilité, à leur coexistence et à leur échange de métadonnées. Les utilisateurs peuvent démarrer rapidement, réduisant ainsi considérablement les coûts d’entrée et d’adoption, grâce à une architecture de haut niveau et à des concepts fondamentaux conviviaux et intuitifs :
watsonx.data offre aux entreprises un moyen de protéger leurs investissements de plusieurs décennies dans les data lakes et les entrepôts. Il leur permet d’étendre immédiatement et de moderniser progressivement leurs installations en concentrant chaque composant sur les scénarios d’utilisation les plus importants pour eux.
La stratégie multimoteur qui permet aux utilisateurs de tirer parti de la bonne technologie au bon moment pour la bonne tâche, le tout via une plateforme de données unifiée, constitue un facteur de différenciation clé. watsonx.data permet aux clients de mettre en œuvre un stockage hiérarchisé entièrement dynamique (et les ressources de calcul associées). Cela peut conduire, au fil du temps, à des économies très importantes en matière de gestion et de traitement des données.
Et si, en fin de compte, votre objectif est de moderniser vos déploiements de lacs de données existants avec un data lakehouse moderne, watsonx.data facilite la tâche en minimisant la migration des données et des applications via le choix du mode de calcul.
Ces dernières années, les data lakes ont joué un rôle important dans la stratégie de gestion des données de la plupart des entreprises. Si votre objectif est de faire évoluer et de moderniser votre stratégie de gestion des données vers une architecture cloud analytique véritablement hybride, alors le nouveau magasin de données d'IBM construit sur une architecture Data Lakehouse, watsonx.data mérite votre attention.
