HDFS es un sistema de archivos distribuido que maneja grandes conjuntos de datos que se ejecutan en hardware básico. Se utiliza para escalar un solo clúster de Apache Hadoop a cientos (e incluso miles) de nodos. HDFS es uno de los componentes principales de Apache Hadoop, siendo los otros MapReduce y YARN. HDFS no debe confundirse ni reemplazarse por Apache HBase , que es un sistema de administración de bases de datos no relacionales orientado a columnas que se encuentra en la parte superior de HDFS y puede soportar mejor las necesidades de datos en tiempo real con su motor de procesamiento en memoria.
Debido a que una instancia de HDFS puede constar de miles de servidores, la falla de al menos un servidor es inevitable. HDFS se ha creado para detectar fallos y recuperarse rápidamente de forma automática.
HDFS está pensado más para el procesamiento por lotes que para el uso interactivo, por lo que el énfasis en el diseño es para altas tasas de rendimiento de datos, que se adaptan al acceso de transmisión a conjuntos de datos.
HDFS es compatible con aplicaciones que tienen conjuntos de datos que suelen tener un tamaño de gigabytes a terabytes. HDFS proporciona un gran ancho de banda de datos agregados y puede escalar a cientos de nodos en un solo clúster.
Para facilitar la adopción, HDFS está diseñado para ser portátil en múltiples plataformas de hardware y para ser compatible con una variedad de sistemas operativos subyacentes.
Considere un archivo que incluya los números de teléfono de todas las personas en los Estados Unidos; los números de las personas con un apellido que comienza con A pueden almacenarse en el servidor 1, B en el servidor 2, y así sucesivamente.
Con Hadoop, partes de este directorio telefónico se almacenarían en todo el clúster y, para reconstruir el directorio telefónico completo, su programa necesitaría los bloques de todos los servidores del clúster.
Para garantizar la disponibilidad en caso de que un servidor falle, HDFS replica estas piezas más pequeñas en dos servidores adicionales de forma predeterminada. (La redundancia se puede aumentar o disminuir por archivo o para un entorno completo; por ejemplo, un clúster de Hadoop de desarrollo normalmente no necesita redundancia de datos). Esta redundancia ofrece múltiples beneficios, siendo el más obvio una mayor disponibilidad.
La redundancia también permite que el clúster de Hadoop divida el trabajo en partes más pequeñas y ejecute esos trabajos en todos los servidores del clúster para una mejor escalabilidad. Finalmente, obtiene el beneficio de la localidad de datos, que es fundamental cuando se trabaja con grandes conjuntos de datos.
IBM y Cloudera se han asociado para ofrecer una distribución de Hadoop de nivel empresarial líder en la industria, que incluye un ecosistema integrado de productos y servicios para respaldar análisis más rápidos a escala.
Explore el mejor enfoque de su clase para la gestión de datos y cómo las empresas están dando prioridad a las tecnologías de datos para impulsar el crecimiento y la eficiencia.
Lea esta introducción práctica a la última generación de arquitecturas de datos. Introduce el papel de la nube y las tecnologías NoSQL y analiza los aspectos prácticos de la seguridad, la privacidad y la gestión. (6.5 MB)