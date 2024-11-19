MapReduce ayuda a dividir los proyectos de procesamiento de datos en partes más pequeñas para que puedan ejecutar más rápido.

El uso de un procesador para analizar un archivo enorme con terabytes o petabytes de datos puede llevar, por ejemplo, 10 horas. Un trabajo de MapReduce puede dividir ese mismo archivo de datos en 10 tareas que se ejecutan en paralelo en 10 procesadores. Es posible que este trabajo solo tarde una hora o menos en ejecutar. Los datos se pueden agregar desde los nodos informáticos distribuidos para producir un resultado.

Si bien el mapeo y la reducción son las funciones esenciales del modelo MapReduce, el proceso general incluye algunos pasos más.

Entrada



Una aplicación MapReduce acepta datos de entrada, que pueden incluir datos estructurados o no estructurados. Las aplicaciones MapReduce suelen trabajar con archivos de entrada almacenados en el sistema de archivos distribuidos Hadoop (HDFS), pero el modelo también puede funcionar con otras fuentes de datos. (Para obtener más información, consulte “MapReduce dentro del ecosistema Hadoop”).

Para un trabajo específico, la infraestructura MapReduce ayuda a seleccionar servidores distribuidos, gestionar las comunicaciones y las transferencias de datos y soportar la tolerancia a fallos y la redundancia.

Dividir



Los datos de entrada se dividen en bloques más pequeños. Estos bloques se distribuyen a los mapeadores, las funciones que realizan el mapeo en el siguiente paso, ubicados en varios nodos informáticos. El marco MapReduce tiene como objetivo una asignación de datos aproximadamente uniforme entre mapeadores para lograr un equilibrio de carga eficiente.

Mapeo



En cada nodo, la función de mapa procesa los datos que recibe, convirtiendo los datos en pares clave/valor.

El número total de mapeadores se determina dentro de la infraestructura de Hadoop, en función del volumen total de datos y los bloques de memoria disponibles en cada mapeador. Los parámetros para los mapeadores, reductores y formatos de salida se pueden establecer dentro del clúster de Hadoop.



Barajar



El marco de Hadoop ordena los resultados del mapa y asigna todos los pares clave/valor con la misma "clave" (tema) al mismo reductor. Por ejemplo, en un conjunto de datos de ciudades y sus temperaturas máximas diarias, cualquier dato con la clave “Tokio” iría al mismo reductor.

El reducer, como su nombre indica, es la función que realiza el paso reduce.

Reducir



Las funciones de reducción procesan los pares clave/valor que emiten los mapeadores. Esto puede implicar fusionar, tabular o realizar otras operaciones en los datos, según el tipo de procesamiento requerido.

La asignación y la reducción se pueden realizar en el mismo conjunto de servidores, pero esto es opcional.

Resultado



Cada reductor da lugar a los resultados de su procesamiento al HDFS u otro almacén de datos.