Hadoop a surmonté les limites d’évolutivité de Nutch et s’appuie sur des clusters d’ordinateurs basiques pour fournir une solution rentable capable de stocker et de traiter d’énormes quantités de données structurées, semi-structurées et non structurées, sans exigences de format.
Une architecture de type data lake qui inclut Hadoop peut offrir une solution flexible de gestion des données pour vos projets d’analyse de big data . Comme Hadoop est un projet open source qui suit un modèle informatique distribué, il peut proposer des tarifs économiques pour un logiciel et une solution de stockage de big data.
Hadoop peut également être installé sur des serveurs cloud afin de mieux gérer les ressources de calcul et de stockage nécessaires au big data. Pour plus de commodité, l’agent Linux OS, l’agent UNIX OS et l’agent Windows OS sont préconfigurés et peuvent être démarrés automatiquement. Les principaux fournisseurs de cloud, tels qu’Amazon Web Services (AWS) et Microsoft Azure, proposent de telles solutions. Cloudera prend en charge les workloads Hadoop à la fois sur site et dans le cloud, y compris des options pour un ou plusieurs environnements de cloud public provenant de plusieurs fournisseurs. Utilisez les API de surveillance Hadoop pour ajouter, mettre à jour, supprimer et afficher les clusters et les services sur les clusters, et pour tous les autres types de surveillance sur Hadoop.