HDFS
Faites évoluer un cluster Apache Hadoop vers des centaines de nœuds avec le système de fichiers distribué Hadoop (HDFS)
Prendre rendez-vous
carte de circuit imprimé abstraite
Qu'est-ce que HDFS ?

HDFS est un système de fichiers distribué qui gère de grands ensembles de données s'exécutant sur du matériel de base. Il est utilisé pour faire évoluer un seul cluster Apache Hadoop vers des centaines (voire des milliers) de nœuds. HDFS est l'un des principaux composants de Apache Hadoop, les autres étant MapReduce et YARN. HDFS ne doit pas être confondu avec ou remplacé par Apache HBase , qui est un système de gestion de base de données non relationnelle orienté colonnes qui repose sur HDFS et peut mieux prendre en charge les besoins des données en temps réel grâce à son moteur de traitement en mémoire.


Les objectifs de HDFS
Récupération rapide des pannes de matériel

Parce qu'un exemplaire HDFS peut comprendre des milliers de serveurs, la panne d'au moins un serveur est inévitable. HDFS a été conçu pour détecter les défauts et se restaurer automatiquement rapidement.

Accès aux flux de données en continu

HDFS est destiné à traiter plus de lots par rapport à l'utilisation interactive, donc l'accent dans la conception est mis sur de hauts taux de traitement de données taux, qui accueillent l'accès complet à des ensembles de données.

Hébergement de grands ensembles de données

HDFS prend en charge les applications qui ont des ensembles de données généralement de gigaoctets à téraoctets en taille. HDFS fournit une grande bande passante de données agrégées et peut mettre à l'échelle à des centaines de nœuds dans un cluster unique.

Portabilité

Pour faciliter l'adoption, HDFS est conçu pour être transférable sur de multiple plateformes de matériel et pour être compatible avec une variété de systèmes d'exploitation sous-jacents.


Un exemple de HDFS

Imaginez un fichier qui inclut les numéros de téléphone de tout le monde aux États-Unis ; les numéros des personnes dont le nom commence par A peuvent être enregistré sur le serveur 1, B sur le serveur 2, et ainsi de suite.

Avec Hadoop, des parties de ce répertoire seraient enregistrées dans le cluster, et pour reconstruire le répertoire complet, votre programme aurait besoin des blocs de chaque serveur du cluster.

Pour assurer la disponibilité si et quand un serveur tombe en panne, HDFS réplique ces petites parties sur deux serveurs supplémentaires par défaut. (La redondance peut être augmentée ou diminuée sur une base par fichier ou pour un environnement entier ; par exemple, un cluster Hadoop de développement Hadoop n'a généralement pas besoin de redondance de données.) Cette redondance offre de multiple avantages, le plus évident étant une disponibilité plus élevée.

La redondance permet également au cluster Hadoop de diviser le travail en petits morceaux et d'exécuter ces tâches sur tous les serveurs du cluster pour une meilleure extensibilité. Enfin, vous gagnez l'avantage de la localisation de données, ce qui est essentiel lorsque l'on travaille avec de grands ensembles de données.


Solutions connexes

Améliorez et accélérez l'analytique avec les solutions Hadoop d'IBM.

IBM et Cloudera se sont associés pour proposer une distribution Hadoop de niveau entreprise, leader du marché, comprenant un écosystème intégré de produits et de services pour accélérer l'analytique à grande échelle.



Restez connecté
Explorer Hadoop Classe cognitive Blogs