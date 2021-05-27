Balises
Hadoop et Spark : quelle est la différence ?

Les architectures respectives de Hadoop et Spark, la comparaison de ces cadres de big data dans différents contextes et les scénarios qui correspondent le mieux à chaque solution.

Hadoop et Spark, tous deux développés par l’Apache Software Foundation, sont des cadres open source couramment utilisés pour les architectures de big data. Chaque cadre contient un vaste écosystème de technologies open source qui préparent, traitent, gèrent et analysent les jeux de big data.

 

 

Qu’est-ce qu’Apache Hadoop ?

Apache Hadoop est un logiciel open source qui permet aux utilisateurs de gérer les jeux de big data (de gigaoctets à pétaoctets) en permettant à un réseau d’ordinateurs (ou « nœuds ») de résoudre d’immenses et complexes problèmes de données. Il s’agit d’une solution hautement évolutive et rentable qui stocke et traite les données structurées, semi-structurées et non structurées (par exemple, les enregistrements de flux de clics sur Internet, les journaux des serveurs Web, les données des capteurs IdO, etc.).

Les avantages du cadre Hadoop sont les suivants :

  • Protection des données en cas de panne matérielle
  • Une grande évolutivité, d’un seul serveur à des milliers de machines
  • Analytique en temps réel pour les analyses historiques et les processus de prise de décision

Qu’est-ce qu’Apache Spark ?

Apache Spark, qui est également open source, est un moteur de traitement de données pour les jeux de big data. Comme Hadoop, Spark répartit les grandes tâches entre différents nœuds. Il est généralement plus rapide que Hadoop et il utilise la mémoire vive (RAM), et non un système de fichiers, pour mettre en cache et traiter les données. Cela permet à Spark de gérer des cas d’utilisation que Hadoop ne peut pas prendre en charge.

Le cadre Spark présente les avantages suivants :

  • Un moteur unifié qui prend en charge les requêtes SQL, les données de streaming, le machine learning (ML) et le traitement graphique
  • Peut être 100 fois plus rapide que Hadoop pour les petites workloads (lien externe à ibm.com) grâce au traitement en mémoire, au stockage de données sur disque, etc.
  • API conçues pour faciliter la manipulation des données semi-structurées et la transformation des données

L’écosystème Hadoop

Hadoop permet une analyse avancée des données stockées : analyse prédictive, data mining, machine learning (ML), etc. Cela permet de diviser le traitement analytique des big data en tâches plus petites. Ces dernières sont exécutées en parallèle à l’aide d’un algorithme (par exemple, MapReduce), puis distribuées dans un cluster Hadoop (c’est-à-dire des nœuds qui effectuent des calculs en parallèle sur les jeux de big data).

L’écosystème Hadoop se compose de quatre modules principaux :

  1. Hadoop Distributed File System (HDFS) : système de stockage de données principal, qui gère de grands jeux de données fonctionnant sur du matériel standard. Il offre également un accès aux données à haut débit et une grande tolérance aux pannes.
  2. Yet Another Resource Negotiator (YARN) : gestionnaire de ressources de cluster qui planifie les tâches et alloue des ressources (par exemple, CPU et mémoire) aux applications.
  3. Hadoop MapReduce : divise les tâches de traitement des big data en tâches plus petites, distribue les petites tâches sur différents nœuds, puis exécute chaque tâche.
  4. Hadoop Common (Hadoop Core) : ensemble de bibliothèques et fonctionnalités communes dont dépendent les trois autres modules.

L’écosystème Spark

Apache Spark, le plus grand projet open source dans le domaine du traitement de données, est le seul cadre de traitement qui combine données et intelligence artificielle (IA). Il permet aux utilisateurs de transformer les données et de les analyser à grande échelle, puis d’exécuter des algorithmes de machine learning (ML) et d’IA de pointe.

L’écosystème Spark se compose de cinq modules principaux :

  1. Spark Core : moteur d’exécution sous-jacent qui planifie et répartit les tâches, et coordonne les opérations d’entrée et de sortie (E/S).
  2. Spark SQL : collecte des informations sur les données structurées afin de permettre aux utilisateurs d’optimiser le traitement des données.
  3. Spark Streaming et Structured Streaming : les deux ajoutent des capacités de traitement des flux. Spark Streaming extrait les données provenant de différentes sources de streaming et les divise en micro-lots pour un flux continu. Structures Streaming, basé sur Spark SQL, réduit la latence et simplifie la programmation.
  4. Machine Learning Library (MLlib) : un ensemble d’algorithmes de machine learning pour assurer l’évolutivité, ainsi que des outils pour sélectionner les caractéristiques et créer des pipelines de ML. L’API principale de MLlib, DataFrames, assure l’uniformité dans différents langages de programmation comme Java, Scala et Python.
  5. GraphX : moteur de calcul convivial permettant la création, la modification et l’analyse interactives des données structurées en graphes et évolutives.

Hadoop et Spark : comparatif

Spark est une amélioration de MapReduce pour Hadoop. La principale différence entre Spark et MapReduce réside dans le fait que Spark traite et conserve les données en mémoire pour les étapes ultérieures, tandis que MapReduce traite les données sur disque. Pour les petites workloads, le traitement de données avec Spark est jusqu’à 100 fois plus rapide qu’avec MapReduce (lien externe à ibm.com).

De plus, contrairement au processus d’exécution en deux étapes de MapReduce, Spark crée un graphique acyclique dirigé (DAG) pour planifier les tâches et l’orchestration des nœuds dans le cluster Hadoop. Ce processus de suivi des tâches permet la tolérance aux pannes, car il réapplique les opérations enregistrées aux données d’un état précédent.

Examinons de plus près les principales différences entre Hadoop et Spark dans six contextes critiques :

  1. Performance : Spark est plus rapide car il utilise la mémoire vive (RAM) au lieu de lire et d’écrire les données intermédiaires sur des disques. Hadoop stocke les données sur plusieurs sources et les traite par lots via MapReduce.
  2. Coût : Hadoop fonctionne à moindre coût puisqu’il accepte tout type de stockage sur disque pour traiter les données. Spark fonctionne à un coût plus élevé parce qu’il s’appuie sur des calculs en mémoire pour le traitement de données en temps réel, ce qui l’oblige à utiliser de grandes quantités de RAM pour faire tourner les nœuds.
  3. Traitement : si les deux plateformes traitent les données dans un environnement distribué, Hadoop est parfait pour le traitement par lots et le traitement de données linéaires. Spark est parfait pour le traitement en temps réel et le traitement de flux de données non structurées.
  4. Évolutivité : si le volume de données augmente rapidement, Hadoop s’adapte rapidement à la demande via Hadoop Distributed File System (HDFS). À son tour, Spark s’appuie sur le HDFS tolérant aux pannes pour les gros volumes de données.
  5. Sécurité : Spark renforce la sécurité grâce à l’authentification par secret partagé ou la journalisation d’événements, tandis que Hadoop utilise plusieurs méthodes d’authentification et de contrôle d’accès. Si Hadoop est globalement plus sûr, Spark peut s’y intégrer pour atteindre un niveau de sécurité plus élevé.
  6. Machine learning (ML) : Spark est la plateforme supérieure en la matière puisqu’il inclut MLlib, qui effectue des calculs ML itératifs en mémoire. Il comprend également des outils de régression, de classification, de persistance, de construction de pipeline, d’évaluation, etc.

Idées reçues sur Hadoop et Spark

Idées reçues à propos de Hadoop

  • Hadoop est bon marché : bien qu’il soit open source et facile à installer, l’exécution du serveur peut s’avérer coûteuse. En utilisant des fonctionnalités comme le calcul en mémoire et le stockage en réseau, la gestion des big data peut coûter jusqu’à 5 000 dollars USD.
  • Hadoop est une base de données : bien que Hadoop soit utilisé pour stocker, gérer et analyser les données distribuées, il n’y a pas de requête lors de l’extraction des données. Cela fait de Hadoop un entrepôt de données, et non une base de données.
  • Hadoop n’est pas utile aux PME : les « mégadonnées » ne sont pas réservées aux « grandes entreprises ». Hadoop propose des fonctionnalités simples, telles que les rapports Excel, qui permettent aux petites entreprises d’exploiter sa puissance. Avoir un ou deux clusters Hadoop peut grandement améliorer la performance d’une petite entreprise.
  • Hadoop est difficile à mettre en place : Bien que la gestion d'Hadoop soit difficile aux niveaux supérieurs, il existe de nombreuses interfaces utilisateur graphiques (GUI) qui simplifient la programmation pour MapReduce.

Idées reçues courantes à propos de Spark

  • Spark est une technologie en mémoire : Bien que Spark utilise effectivement l'algorithme LRU (utilisé le plus récemment), il ne s'agit pas d'une technologie basée sur la mémoire.
  • Spark est toujours 100 fois plus rapide que Hadoop : bien que Spark puisse être jusqu’à 100 fois plus rapide que Hadoop pour les Workloads, selon Apache, il n’est généralement que 3 fois plus rapide pour les Workloads (lien externe à ibm.com).
  • Spark introduit de nouvelles technologies dans le traitement des données : Bien que Spark utilise efficacement l'algorithme LRU et le traitement des données par pipeline, ces capacités existaient auparavant dans les bases de données de traitement massivement parallèle (MPP). Cependant, ce qui distingue Spark de MPP, c'est son orientation open source.

Cas d’utilisation de Hadoop et Spark

Sur la base des analyses comparatives et des informations factuelles fournies ci-dessus, les cas suivants illustrent le mieux l’utilisation globale de Hadoop par rapport à Spark.

Cas d’utilisation de Hadoop

Hadoop est particulièrement efficace pour les scénarios impliquant les éléments suivants :

  • Traitement de gros ensembles de données dans des environnements où la taille des données dépasse la mémoire disponible
  • Traitement par lots avec des tâches qui exploitent les opérations de lecture et d’écriture sur disque
  • Construire une infrastructure d’analyse de données avec un budget limité
  • Terminer les tâches qui ne sont pas urgentes
  • Analyse des données historiques et des archives

Cas d'utilisation de Spark

Spark est particulièrement efficace pour les scénarios impliquant les éléments suivants :

  • Gérer des chaînes d'opérations parallèles à l'aide d'algorithmes itératifs
  • Obtenir des résultats rapides grâce aux calculs en mémoire
  • Analyse des données de flux en temps réel
  • Traitement parallèle aux graphes pour modéliser les données
  • Toutes les applications ML

Hadoop, Spark et IBM

IBM propose plusieurs produits pour vous aider à tirer parti des avantages de Hadoop et de Spark pour optimiser vos initiatives de gestion des données tout en atteignant vos objectifs métier globaux :

  • IBM Spectrum Conductor est une plateforme multi-locataire qui déploie et gère Spark avec d’autres frameworks applicatifs sur un cluster commun et partagé de ressources. Spectrum Conductor propose des fonctionnalités de gestion de la charge de travail, de surveillance, d'alerte, de création de rapports et de diagnostics et peut exécuter plusieurs versions actuelles et différentes de Spark et d'autres frameworks simultanément.
  • IBM Db2 Big SQL est un moteur hybride SQL-on-Hadoop qui offre une connexion de base de données unique et fournit des requêtes de données avancées et riches en sécurité sur des sources de big data telles que Hadoop HDFS et WebHDFS, RDMS, bases de données NoSQL et magasins d’objets. Les utilisateurs bénéficient d'une faible latence, de hautes performances, de la sécurité des données, de la compatibilité SQL et de capacités de fédération pour effectuer des requêtes ad hoc et complexes.
  • IBM Big Replicate unifie les clusters Hadoop fonctionnant sur Cloudera data hub, Hortonworks Data Platform, IBM, Amazon S3 et EMR, Microsoft Azure, OpenStack Swift et Google Cloud stockage. Big Replicate fournit un seul espace de noms virtuels entre les clusters et le stockage d'objets dans le nuage, quelle que soit la distance qui les sépare.

