Qu’est-ce qu’Apache Hadoop ?

Un groupe diversifié de concepteurs travaillant sur des ordinateurs dans un bureau

Qu’est-ce qu’Apache Hadoop ?

Apache Hadoop est un framework logiciel open source développé par Douglas Cutting, alors chez Yahoo, qui permet le traitement distribué à haute fiabilité de grands ensembles de données à l’aide de modèles de programmation simples.

Hadoop a surmonté les limites d’évolutivité de Nutch et s’appuie sur des clusters d’ordinateurs basiques pour fournir une solution rentable capable de stocker et de traiter d’énormes quantités de données structurées, semi-structurées et non structurées, sans exigences de format.

Une architecture de data lake qui inclut Hadoop peut offrir une solution flexible de gestion des données pour vos projets d’analyse du big data . Comme Hadoop est un projet open source qui suit un modèle informatique distribué, il peut proposer des tarifs économiques pour un logiciel et une solution de stockage de big data.

Hadoop peut également être installé sur des serveurs cloud afin de mieux gérer les ressources de calcul et de stockage nécessaires au big data. Pour plus de commodité, l’agent Linux OS, l’agent UNIX OS et l’agent Windows OS sont préconfigurés et peuvent être démarrés automatiquement. Les principaux fournisseurs de cloud, tels qu’Amazon Web Services (AWS) et Microsoft Azure, proposent de telles solutions. Cloudera prend en charge les workloads Hadoop à la fois sur site et dans le cloud, y compris des options pour un ou plusieurs environnements de cloud public provenant de plusieurs fournisseurs. Utilisez les API de surveillance Hadoop pour ajouter, mettre à jour, supprimer et afficher les clusters et les services sur les clusters, et pour tous les autres types de surveillance sur Hadoop.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets. 

L’écosystème Hadoop

Le cadre Hadoop, développé par l’Apache Software Foundation, comprend les éléments suivants :

  • Hadoop Common : les utilitaires et bibliothèques communs qui prennent en charge les autres modules Hadoop. Également connu sous le nom de Hadoop Core.

  • Hadoop HDFS (Hadoop Distributed File System) : un système de fichiers distribués pour stocker des données d’application sur du matériel basique. HDFS a été conçu pour assurer une tolérance aux pannes pour Hadoop et fournit une bande passante de données agrégée élevée ainsi qu’un accès à haut débit aux données. Par défaut, les blocs de données sont répliqués sur plusieurs nœuds au moment du chargement ou de l’écriture. Le degré de réplication est configurable : le niveau de réplication par défaut est de trois. L’architecture HDFS fonctionne avec un NameNode pour gérer l’espace de noms du système de fichiers et l’accès aux fichiers, et avec plusieurs DataNodes pour gérer le stockage des données. En activant la haute disponibilité, un nœud secondaire peut être utilisé lorsqu’un nœud actif tombe en panne.

  • Hadoop YARN : Apache Hadoop YARN open source est un cadre de planification des tâches et de gestion des ressources en cluster qui peut être utilisé avec IBM Spectrum Symphony on Linux et Linux on POWER. YARN est l’abréviation de « Yet Another Resource Negotiator ». Il prend en charge davantage de workloads, comme le SQL interactif, la modélisation avancée et le streaming en temps réel.

  • Hadoop MapReduce : un système basé sur YARN qui stocke les données sur plusieurs sources et permet le traitement parallèle de grandes quantités de données. Plusieurs techniques d’optimisation sont disponibles pour MapReduce afin d’accélérer les tâches.

  • Hadoop Ozone : un magasin d’objets évolutif, redondant et distribué conçu pour les applications de big data.
AI Academy

La gestion des données est-elle le secret de l’IA générative ?

Découvrez pourquoi des données de haute qualité sont essentielles pour une utilisation réussie de l’IA générative.

Soutenir les projets Apache

Améliorez Hadoop grâce à d’autres projets logiciels open source.

Ambari

Un outil Web pour le provisionnement, la gestion et la surveillance des clusters Hadoop.

Avro

Un système de sérialisation des données.

Cassandra

Une base de données NoSQL évolutive, conçue pour n’avoir aucun point de défaillance.

Chukwa

Un système de collecte de données pour la surveillance de grands systèmes distribués ; basé sur HDFS et MapReduce.

Flume

Un service de collecte, d’agrégation et de transfert de grands volumes de flux de données en continu dans HDFS.

HBase

Une base de données distribuée évolutive et non relationnelle qui prend en charge le stockage de données structurées pour de très grandes tables.

Hive

Une infrastructure d’entrepôt de données pour l’interrogation des données, le stockage des métadonnées pour les tables et l’analyse dans une interface de type SQL.

Mahout

Une bibliothèque évolutive de machine learning et d’exploration de données.

Oozie

Un planificateur de charges de travail basé sur Java pour gérer les tâches Hadoop.

Pig

Un langage de flux de données et un cadre d’exécution de haut niveau pour le calcul parallèle.

Sqoop

Un outil permettant de transférer efficacement des données entre Hadoop et des magasins de données structurés tels que les bases de données relationnelles.

Submarine

Une plateforme d’IA unifiée pour l’exécution de charges de travail de machine learning et d’apprentissage en profondeur dans un cluster distribué.

Tez

Un cadre de programmation de flux de données généralisé, reposant sur YARN ; en cours d’adoption dans l’écosystème Hadoop pour remplacer MapReduce.

Zookeeper

Un service de coordination haute performance pour les applications distribuées.

Hadoop pour les développeurs

Apache Hadoop a été écrit en Java, mais selon le projet de big data, les développeurs peuvent programmer dans le langage de leur choix, comme Python, R ou Scala. L’utilitaire Hadoop Streaming inclus permet aux développeurs de créer et d’exécuter des tâches MapReduce avec n’importe quel script ou exécutable.

Spark ou Hadoop

Apache Spark est souvent comparé à Hadoop, car il s’agit également d’un cadre open source pour le traitement du big data. En réalité, Spark a été initialement conçu pour améliorer les performances de traitement et étendre les types de calculs possibles avec Hadoop MapReduce. Spark utilise le traitement en mémoire, ce qui signifie qu’il est beaucoup plus rapide que MapReduce avec ses capacités de lecture et d’écriture.

Alors que Hadoop est idéal pour le traitement par lots d’énormes volumes de données, Spark prend en charge à la fois le traitement de données par lots et en temps réel. Il est idéal pour le traitement de données en continu et l’analyse de graphe. Hadoop et Spark disposent tous deux de bibliothèques de machine learning, mais là encore, en raison du traitement en mémoire, le machine learning de Spark est beaucoup plus rapide.

Cas d’utilisation de Hadoop

De meilleures décisions basées sur les données : intégrez des données en temps réel (diffusion en continu de données audio, vidéo, de sentiment des médias sociaux et de parcours de navigation) et d’autres données semi-structurées et non structurées qui ne sont pas utilisées dans un entrepôt de données ou une base de données relationnelle. Des données plus complètes permettent de prendre des décisions plus précises.

Amélioration de l’accès aux données et de leur analyse : offrez un accès en libre-service et en temps réel à vos data scientists, aux responsables des secteurs d’activité et aux développeurs. Hadoop peut alimenter la science des données, un domaine interdisciplinaire qui utilise les données, les algorithmes, le machine learning et l’IA à des fins d’analyse avancée pour révéler des tendances et établir des prédictions.

Déchargement et regroupement des données : rationalisez les coûts de vos centres de données d’entreprise en transférant les données « froides » qui ne sont pas actuellement utilisées vers une distribution basée sur Hadoop pour le stockage. Vous pouvez aussi regrouper les données dans l’ensemble de l’organisation afin d’améliorer l’accessibilité et de réduire les coûts.

Solutions connexes
Logiciels et solutions de gestion des données

Élaborez une stratégie de gestion des données qui élimine les silos, réduit la complexité et améliore la qualité des données pour offrir une expérience client et collaborateur exceptionnelle.

Découvrir les solutions de gestion des données
IBM watsonx.data

Watsonx.data vous permet d’adapter le dimensionnement des analyses et de l’IA à toutes vos données, où qu’elles se trouvent, grâce à un entrepôt de données ouvert, hybride et gouverné.

Découvrir watsonx.data
Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique
Passez à l’étape suivante

Élaborez une stratégie de gestion des données qui élimine les silos, réduit la complexité et améliore la qualité des données pour offrir une expérience client et collaborateur exceptionnelle.

Découvrir les solutions de gestion des données Découvrir watsonx.data