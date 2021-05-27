Les architectures respectives de Hadoop et Spark, la comparaison de ces cadres de big data dans différents contextes et les scénarios qui correspondent le mieux à chaque solution.
Hadoop et Spark, tous deux développés par l’Apache Software Foundation, sont des cadres open source couramment utilisés pour les architectures de big data. Chaque cadre contient un vaste écosystème de technologies open source qui préparent, traitent, gèrent et analysent les jeux de big data.
Apache Hadoop est un logiciel open source qui permet aux utilisateurs de gérer les jeux de big data (de gigaoctets à pétaoctets) en permettant à un réseau d’ordinateurs (ou « nœuds ») de résoudre d’immenses et complexes problèmes de données. Il s’agit d’une solution hautement évolutive et rentable qui stocke et traite les données structurées, semi-structurées et non structurées (par exemple, les enregistrements de flux de clics sur Internet, les journaux des serveurs Web, les données des capteurs IdO, etc.).
Les avantages du cadre Hadoop sont les suivants :
Apache Spark, qui est également open source, est un moteur de traitement de données pour les jeux de big data. Comme Hadoop, Spark répartit les grandes tâches entre différents nœuds. Il est généralement plus rapide que Hadoop et il utilise la mémoire vive (RAM), et non un système de fichiers, pour mettre en cache et traiter les données. Cela permet à Spark de gérer des cas d’utilisation que Hadoop ne peut pas prendre en charge.
Le cadre Spark présente les avantages suivants :
Hadoop permet une analyse avancée des données stockées : analyse prédictive, data mining, machine learning (ML), etc. Cela permet de diviser le traitement analytique des big data en tâches plus petites. Ces dernières sont exécutées en parallèle à l’aide d’un algorithme (par exemple, MapReduce), puis distribuées dans un cluster Hadoop (c’est-à-dire des nœuds qui effectuent des calculs en parallèle sur les jeux de big data).
L’écosystème Hadoop se compose de quatre modules principaux :
Apache Spark, le plus grand projet open source dans le domaine du traitement de données, est le seul cadre de traitement qui combine données et intelligence artificielle (IA). Il permet aux utilisateurs de transformer les données et de les analyser à grande échelle, puis d’exécuter des algorithmes de machine learning (ML) et d’IA de pointe.
L’écosystème Spark se compose de cinq modules principaux :
Spark est une amélioration de MapReduce pour Hadoop. La principale différence entre Spark et MapReduce réside dans le fait que Spark traite et conserve les données en mémoire pour les étapes ultérieures, tandis que MapReduce traite les données sur disque. Pour les petites workloads, le traitement de données avec Spark est jusqu’à 100 fois plus rapide qu’avec MapReduce (lien externe à ibm.com).
De plus, contrairement au processus d’exécution en deux étapes de MapReduce, Spark crée un graphique acyclique dirigé (DAG) pour planifier les tâches et l’orchestration des nœuds dans le cluster Hadoop. Ce processus de suivi des tâches permet la tolérance aux pannes, car il réapplique les opérations enregistrées aux données d’un état précédent.
Examinons de plus près les principales différences entre Hadoop et Spark dans six contextes critiques :
Sur la base des analyses comparatives et des informations factuelles fournies ci-dessus, les cas suivants illustrent le mieux l’utilisation globale de Hadoop par rapport à Spark.
Hadoop est particulièrement efficace pour les scénarios impliquant les éléments suivants :
Spark est particulièrement efficace pour les scénarios impliquant les éléments suivants :
IBM propose plusieurs produits pour vous aider à tirer parti des avantages de Hadoop et de Spark pour optimiser vos initiatives de gestion des données tout en atteignant vos objectifs métier globaux :