HDFS est un système de fichiers distribué qui gère de grands ensembles de données s'exécutant sur du matériel de base. Il est utilisé pour faire évoluer un seul cluster Apache Hadoop vers des centaines (voire des milliers) de nœuds. HDFS est l'un des principaux composants de Apache Hadoop, les autres étant MapReduce et YARN. HDFS ne doit pas être confondu avec ou remplacé par Apache HBase , qui est un système de gestion de base de données non relationnelle orienté colonnes qui repose sur HDFS et peut mieux prendre en charge les besoins des données en temps réel grâce à son moteur de traitement en mémoire.
Parce qu'un exemplaire HDFS peut comprendre des milliers de serveurs, la panne d'au moins un serveur est inévitable. HDFS a été conçu pour détecter les défauts et se restaurer automatiquement rapidement.
HDFS est destiné à traiter plus de lots par rapport à l'utilisation interactive, donc l'accent dans la conception est mis sur de hauts taux de traitement de données taux, qui accueillent l'accès complet à des ensembles de données.
HDFS prend en charge les applications qui ont des ensembles de données généralement de gigaoctets à téraoctets en taille. HDFS fournit une grande bande passante de données agrégées et peut mettre à l'échelle à des centaines de nœuds dans un cluster unique.
Pour faciliter l'adoption, HDFS est conçu pour être transférable sur de multiple plateformes de matériel et pour être compatible avec une variété de systèmes d'exploitation sous-jacents.
Imaginez un fichier qui inclut les numéros de téléphone de tout le monde aux États-Unis ; les numéros des personnes dont le nom commence par A peuvent être enregistré sur le serveur 1, B sur le serveur 2, et ainsi de suite.
Avec Hadoop, des parties de ce répertoire seraient enregistrées dans le cluster, et pour reconstruire le répertoire complet, votre programme aurait besoin des blocs de chaque serveur du cluster.
Pour assurer la disponibilité si et quand un serveur tombe en panne, HDFS réplique ces petites parties sur deux serveurs supplémentaires par défaut. (La redondance peut être augmentée ou diminuée sur une base par fichier ou pour un environnement entier ; par exemple, un cluster Hadoop de développement Hadoop n'a généralement pas besoin de redondance de données.) Cette redondance offre de multiple avantages, le plus évident étant une disponibilité plus élevée.
La redondance permet également au cluster Hadoop de diviser le travail en petits morceaux et d'exécuter ces tâches sur tous les serveurs du cluster pour une meilleure extensibilité. Enfin, vous gagnez l'avantage de la localisation de données, ce qui est essentiel lorsque l'on travaille avec de grands ensembles de données.
IBM et Cloudera se sont associés pour proposer une distribution Hadoop de niveau entreprise, leader du marché, comprenant un écosystème intégré de produits et de services pour accélérer l'analytique à grande échelle.
Découvrez la meilleure approche de gestion des données et comment les entreprises donnent la priorité aux technologies de données pour stimuler la croissance et l'efficacité.
Lisez cette introduction pratique à la prochaine génération d'architectures de données. Elle présente le rôle du cloud et des technologies NoSQL et aborde les aspects pratiques de la sécurité, de la confidentialité et de la gouvernance. (6,5 Mo)