Hadoop superó las limitaciones de escalabilidad de Nutch y se basa en clústeres de computadoras básicas, lo que proporciona una solución rentable para almacenar y procesar cantidades masivas de datos estructurados, semiestructurados y no estructurados sin requisitos de formato.
Una arquitectura de lago de datos que incluya Hadoop puede ofrecer una solución de gestión de datos flexible para sus iniciativas de analytics de big data . Debido a que Hadoop es un proyecto de código abierto y sigue un modelo de computación distribuida, puede ofrecer precios que ahorran presupuesto para una solución de software y almacenamiento de big data.
Hadoop también se puede instalar en servidores en la nube para gestionar mejor los recursos informáticos y de almacenamiento necesarios para big data. Para mayor comodidad, los agentes de los sistemas operativos Linux, UNIX y Windows están preconfigurados y se pueden iniciar automáticamente. Los principales proveedores de nube, como Amazon Web Services (AWS) y Microsoft Azure, ofrecen soluciones. Cloudera admite cargas de trabajo de Hadoop tanto on-premises como en la nube, incluidas opciones para uno o más entornos de nube pública de múltiples proveedores. Use las API de monitoreo de Hadoop para agregar, actualizar, eliminar y ver los clústeres y servicios en los clústeres, y para todos los demás tipos de monitoreo en Hadoop.