HDFS

Escale un clúster de Apache Hadoop a cientos de nodos con el Hadoop Distributed File System (HDFS)

tablero de pcb abstracto

¿Qué es HDFS?

HDFS es un sistema de archivos distribuido que maneja grandes conjuntos de datos que se ejecutan en hardware básico. Se utiliza para escalar un solo clúster de Apache Hadoop a cientos (e incluso miles) de nodos. HDFS es uno de los componentes principales de Apache Hadoop, siendo los otros MapReduce  y YARN. HDFS no debe confundirse ni reemplazarse por Apache HBase , que es un sistema de administración de bases de datos no relacionales orientado a columnas que se encuentra en la parte superior de HDFS y puede soportar mejor las necesidades de datos en tiempo real con su motor de procesamiento en memoria.


Los objetivos de HDFS

Recuperación rápida de fallas de hardware

Debido a que una instancia de HDFS puede constar de miles de servidores, la falla de al menos un servidor es inevitable. HDFS se ha creado para detectar fallos y recuperarse rápidamente de forma automática.

Acceso a la transmisión de datos

HDFS está pensado más para el procesamiento por lotes que para el uso interactivo, por lo que el énfasis en el diseño es para altas tasas de rendimiento de datos, que se adaptan al acceso de transmisión a conjuntos de datos.

Alojamiento de grandes conjuntos de datos

HDFS es compatible con aplicaciones que tienen conjuntos de datos que suelen tener un tamaño de gigabytes a terabytes. HDFS proporciona un gran ancho de banda de datos agregados y puede escalar a cientos de nodos en un solo clúster.

Portabilidad

Para facilitar la adopción, HDFS está diseñado para ser portátil en múltiples plataformas de hardware y para ser compatible con una variedad de sistemas operativos subyacentes.


Un ejemplo de HDFS

Considere un archivo que incluya los números de teléfono de todas las personas en los Estados Unidos; los números de las personas con un apellido que comienza con A pueden almacenarse en el servidor 1, B en el servidor 2, y así sucesivamente.

Con Hadoop, partes de este directorio telefónico se almacenarían en todo el clúster y, para reconstruir el directorio telefónico completo, su programa necesitaría los bloques de todos los servidores del clúster.

Para garantizar la disponibilidad en caso de que un servidor falle, HDFS replica estas piezas más pequeñas en dos servidores adicionales de forma predeterminada. (La redundancia se puede aumentar o disminuir por archivo o para un entorno completo; por ejemplo, un clúster de Hadoop de desarrollo normalmente no necesita redundancia de datos). Esta redundancia ofrece múltiples beneficios, siendo el más obvio una mayor disponibilidad.

La redundancia también permite que el clúster de Hadoop divida el trabajo en partes más pequeñas y ejecute esos trabajos en todos los servidores del clúster para una mejor escalabilidad. Finalmente, obtiene el beneficio de la localidad de datos, que es fundamental cuando se trabaja con grandes conjuntos de datos.


Soluciones relacionadas

Impulse una analítica mejor y más rápida con las soluciones de big data de IBM

IBM y Cloudera se han asociado para ofrecer una distribución de Hadoop de nivel empresarial líder en la industria, que incluye un ecosistema integrado de productos y servicios para respaldar análisis más rápidos a escala.



Conéctese

Conozca Hadoop Clase cognitiva Blogs