Qu’est-ce qu’Hadoop ?

Apache Hadoop est un cadre logiciel open source qui permet un traitement distribué d’une grande fiabilité de grands ensembles de données à l’aide de modèles de programmation simples. Hadoop, connu pour son évolutivité, repose sur des clusters d’ordinateurs de base pour fournir une solution rentable permettant de stocker et de traiter d’énormes quantités de données structurées, semi-structurées et non structurées, sans exigences de format.

Une architecture de data lake incluant Hadoop peut offrir une solution flexible de gestion des données pour vos projets d’analyse du big data. Hadoop étant un projet logiciel open source et suivant un modèle d’informatique distribué, il peut offrir un coût total de possession inférieur pour un logiciel de big data et une solution de stockage.

Hadoop peut également être installé sur des serveurs cloud afin de mieux gérer les ressources de calcul et de stockage nécessaires au big data. Les principaux fournisseurs de cloud, tels qu’Amazon Web Services (AWS) et Microsoft Azure, proposent des solutions. Cloudera prend en charge les charges de travail Hadoop à la fois sur site et dans le cloud, y compris des options pour un ou plusieurs environnements cloud publics de plusieurs fournisseurs.

L’écosystème Hadoop

Le cadre Hadoop, développé par l’Apache Software Foundation, comprend les éléments suivants :

Hadoop Common : les utilitaires et bibliothèques communs qui prennent en charge les autres modules Hadoop. Également connu sous le nom de Hadoop Core.
Hadoop HDFS (Hadoop Distributed File System) : un système de fichiers distribués pour stocker des données d’application sur du matériel de base. Il offre un accès à haut débit aux données et une grande tolérance aux pannes. L’architecture HDFS fonctionne avec un NameNode pour gérer l’espace de noms du système de fichiers et l’accès aux fichiers, et avec plusieurs DataNodes pour gérer le stockage des données.
Hadoop YARN : un cadre pour la gestion des ressources des clusters et la programmation des tâches. YARN est l’abréviation de « Yet Another Resource Negotiator ». Il prend en charge davantage de charges de travail, comme le SQL interactif, la modélisation avancée et le streaming en temps réel.
Hadoop MapReduce : un système basé sur YARN pour le traitement parallèle de grands ensembles de données.
Hadoop Ozone : un magasin d’objets évolutif, redondant et distribué conçu pour les applications de big data.

Soutenir les projets Apache

Améliorez Hadoop grâce à d’autres projets logiciels open source.

Ambari

Un outil Web pour le provisionnement, la gestion et la surveillance des clusters Hadoop.

Avro

Un système de sérialisation des données.

En savoir plus sur Avro

Cassandra

Une base de données NoSQL évolutive, conçue pour n’avoir aucun point de défaillance.

Chukwa

Un système de collecte de données pour la surveillance de grands systèmes distribués ; basé sur HDFS et MapReduce.

Flume

Un service de collecte, d’agrégation et de transfert de grands volumes de flux de données en continu dans HDFS.

HBase

Une base de données distribuée évolutive et non relationnelle qui prend en charge le stockage de données structurées pour de très grandes tables.

En savoir plus sur HBase

Hive

Une infrastructure d’entrepôt de données pour les requêtes et l’analyse de données dans une interface de type SQL.

Mahout

Une bibliothèque évolutive de machine learning et d’exploration de données.

Oozie

Un planificateur de charges de travail basé sur Java pour gérer les tâches Hadoop.

Pig

Un langage de flux de données et un cadre d’exécution de haut niveau pour le calcul parallèle.

Sqoop

Un outil permettant de transférer efficacement des données entre Hadoop et des magasins de données structurés tels que les bases de données relationnelles.

Submarine

Une plateforme d’IA unifiée pour l’exécution de charges de travail de machine learning et d’apprentissage en profondeur dans un cluster distribué.

Tez

Un cadre de programmation de flux de données généralisé, reposant sur YARN ; en cours d’adoption dans l’écosystème Hadoop pour remplacer MapReduce.

Zookeeper

Un service de coordination haute performance pour les applications distribuées.

Hadoop pour les développeurs

Apache Hadoop a été écrit en Java, mais selon le projet de big data, les développeurs peuvent programmer dans le langage de leur choix, comme Python, R ou Scala. L’utilitaire Hadoop Streaming inclus permet aux développeurs de créer et d’exécuter des tâches MapReduce avec n’importe quel script ou exécutable comme mappeur ou réducteur.

Spark ou Hadoop

Apache Spark est souvent comparé à Hadoop, car il s’agit également d’un cadre open source pour le traitement du big data. En réalité, Spark a été initialement conçu pour améliorer les performances de traitement et étendre les types de calculs possibles avec Hadoop MapReduce. Spark utilise le traitement en mémoire, ce qui signifie qu’il est beaucoup plus rapide que MapReduce avec ses capacités de lecture et d’écriture.

Alors que Hadoop est idéal pour le traitement par lots d’énormes volumes de données, Spark prend en charge à la fois le traitement de données par lots et en temps réel. Il est idéal pour le traitement de données en continu et l’analyse de graphe. Hadoop et Spark disposent tous deux de bibliothèques de machine learning, mais là encore, en raison du traitement en mémoire, le machine learning de Spark est beaucoup plus rapide.

En savoir plus sur Apache Spark

Cas d’utilisation de Hadoop

De meilleures décisions basées sur les données : intégrez des données en temps réel (diffusion en continu de données audio, vidéo, de sentiment des médias sociaux et de parcours de navigation) et d’autres données semi-structurées et non structurées qui ne sont pas utilisées dans un entrepôt de données ou une base de données relationnelle. Des données plus complètes permettent de prendre des décisions plus précises.

Amélioration de l’accès aux données et de leur analyse : offrez un accès en libre-service et en temps réel à vos data scientists, aux responsables des secteurs d’activité et aux développeurs. Hadoop peut alimenter la science des données, un domaine interdisciplinaire qui utilise les données, les algorithmes, le machine learning et l’IA à des fins d’analyse avancée pour révéler des tendances et établir des prédictions.

Déchargement et consolidation des données : rationalisez les coûts de votre entrepôt de données d’entreprise en transférant les données « froides » qui ne sont actuellement pas utilisées vers une distribution basée sur Hadoop pour le stockage. Vous pouvez aussi consolider les données dans l’ensemble de l’organisation afin d’améliorer l’accessibilité et de réduire les coûts.

Solutions connexes

{Libellé de catégorie de produit générique}

IBM et Cloudera

Prenez en charge les analyses prédictive et prescriptive pour l’IA d’aujourd’hui. Associez la distribution Hadoop de niveau entreprise de Cloudera à un écosystème unique de produits et de services intégrés d’IBM et de Cloudera pour améliorer la découverte de données, les tests, les requêtes ad hoc et les requêtes en temps quasi réel. Profitez de la collaboration entre IBM et Cloudera pour proposer des solutions Hadoop d’entreprise.

Découvrir IBM et Cloudera

{Libellé de catégorie de produit générique}

IBM Db2 Big SQL

Utilisez un moteur SQL-on-Hadoop hybride conforme à la norme ANSI et destiné aux entreprises pour offrir un traitement massivement parallèle (MPP) et une interrogation avancée des données.

Découvrir Db2 Big SQL

{Libellé de catégorie de produit générique}

IBM Big Replicate

Répliquez les données à mesure qu’elles sont transférées, de sorte que les fichiers n’ont pas besoin d’être entièrement écrits ou fermés avant leur transfert.

Découvrir Big Replicate

Bases de données open source

Exploitez de manière plus rentable le big data grâce aux bases de données open source des principaux fournisseurs tels que MongoDB et EDB.

Découvrir les bases de données open source

Ressources

IBM + Cloudera

Découvrez comment ils développent une analytique avancée grâce à un data lake d’entreprise sécurisé, gouverné et open source.

Comment connecter plus de données

Ajoutez un data lake à votre stratégie de gestion des données afin d’intégrer davantage de données non structurées pour bénéficier de connaissances approfondies.

Un data lake robuste et gouverné pour l’IA

Découvrez les technologies de stockage et de gouvernance nécessaires à votre data lake pour fournir des données prêtes pour l’IA.

Gouvernance du data lake

Découvrez comment des solutions de gouvernance éprouvées peuvent améliorer l’intégration, la qualité et la sécurité des données pour vos data lakes.

Cours d’analytique du big data

Choisissez votre parcours d’apprentissage, en fonction de votre niveau de compétences, parmi des cours gratuits sur la science des données, l’IA, le big data et plus encore.

Communauté open source

Rejoignez la communauté IBM de gestion des données open source pour bénéficier de la collaboration, des ressources et de bien d’autres outils.

Passez à l’étape suivante

IBM et Cloudera se sont associés pour créer des services de données et d’IA d’entreprise à la pointe du secteur en utilisant un écosystème open source, le tout conçu pour accélérer les données et l’analytique à l’échelle. Développez de façon collaborative des modèles à appliquer aux flux et analyser des quantités massives de données en temps réel. Donnez un sens à vos données (texte non structuré, vidéo, audio, données géospatiales et de capteurs) afin d’identifier les opportunités et les risques à mesure qu’ils se présentent.

Découvrir les solutions IBM et Cloudera