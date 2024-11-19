MapReduce ayuda a dividir los proyectos de proceso de datos en partes más pequeñas para que puedan ejecutarse más rápido.

El uso de un procesador para analizar un archivo enorme con terabytes o petabytes de datos puede llevar, por ejemplo, diez horas. Un trabajo de MapReduce puede dividir ese mismo archivo de datos en diez tareas que se ejecutan en paralelo en diez procesadores. Es posible que este trabajo solo tarde una hora o menos en ejecutarse. Los datos se pueden agregar desde los nodos informáticos distribuidos para producir un resultado.

Aunque el mapeo y la reducción son las funciones esenciales del modelo MapReduce, el proceso general incluye algunos pasos más.

Entrada



Una aplicación MapReduce acepta datos de entrada, que pueden incluir datos no estructurados o estructurados. Las aplicaciones MapReduce suelen funcionar con archivos de entrada almacenados en el sistema de archivos distribuido Hadoop (HDFS), pero el modelo también puede funcionar con otras fuentes de datos. (Para obtener más información, consulte "MapReduce dentro del ecosistema Hadoop".)

Para un trabajo específico, el marco MapReduce ayuda a seleccionar servidores distribuidos, gestionar las comunicaciones y las transferencias de datos y admitir la tolerancia a fallos y la redundancia.

División



Los datos de entrada se dividen en bloques más pequeños. Estos bloques se distribuyen a los mapeadores, las funciones que realizan el mapeo en el próximo paso, ubicados en varios nodos. El marco MapReduce tiene como objetivo una asignación de datos más o menos uniforme entre los mapeadores para un equilibrio de carga eficiente.

Mapeo



En cada nodo, la función de mapa procesa los datos que recibe, convirtiéndolos en pares clave/valor.

El número total de mapeadores se determina dentro del marco de Hadoop, en función del volumen total de datos y los bloques de memoria disponibles en cada mapeador. Los parámetros para los mapeadores, reductores y output se pueden establecer dentro del clúster Hadoop.



Baraja



El marco Hadoop ordena las salidas del mapa y asigna todos los pares clave/valor con la misma "clave" (tema) al mismo reductor. Por ejemplo, en un conjunto de datos de ciudades y sus altas temperaturas diarias, cualquier dato con la clave "Tokio" iría al mismo reductor.

El reductor, como su nombre indica, es la función que realiza el paso reduce.

Reducción



Las funciones de reducción procesan los pares clave/valor que emiten los mapeadores. Esto puede implicar fusionar, tabular o realizar otras operaciones en los datos, dependiendo del tipo de procesamiento requerido.

La asignación y la reducción se pueden realizar en el mismo conjunto de servidores, pero esto es opcional.

Resultado



Cada reductor envía los resultados de su procesamiento al HDFS u otro almacén de datos.