O que é o MapReduce?

Autores

Staff Writer

IBM Think

Staff Editor

IBM Think

O que é o MapReduce?

O MapReduce é um modelo de programação que usa processamento paralelo para acelerar o processamento de dados em grande escala. O MapReduce permite escalabilidade maciça entre centenas ou milhares de servidores em um cluster Hadoop.

O nome "MapReduce" refere-se às duas tarefas que o modelo executa para ajudar a "fragmentar" uma grande tarefa de processamento de dados em muitas tarefas menores, que podem ser executadas mais rapidamente em paralelo.

A primeira é a "tarefa de mapear", que converte um conjunto de dados em outro conjunto de dados formatado como pares chave/valor, como cidades (chaves) e temperaturas máximas diárias (valores).
A segunda é a "tarefa de reduzir", que pega as saídas de uma tarefa de mapear, agrega todos os valores com a mesma chave e processa os dados para produzir um conjunto final de pares chave/valor.

O modelo de programação do MapReduce é um dos principais componentes de processamento no cerne do Apache Hadoop, uma framework de software de código aberto com suporte da Apache Software Foundation e desenvolvida com base na linguagem de programação Java.

O modelo MapReduce também pode ser usado fora do Hadoop.

As mais recentes notícias de tecnologia, corroboradas por insights de especialistas.

Mantenha-se atualizado sobre as tendências mais importantes (e intrigantes) do setor em IA, automação, dados e muito mais com o boletim informativo Think. Consulte a Declaração de privacidade da IBM.

Como funciona o MapReduce

O MapReduce ajuda a dividir projetos de processamento de dados em partes menores para que possam ser executados mais rapidamente.

Usar um processador para analisar um arquivo enorme com terabytes ou petabytes de dados pode, por exemplo, levar 10 horas. Um trabalho do MapReduce pode dividir esse mesmo arquivo de dados em 10 tarefas, que são executadas em paralelo em 10 processadores. Esse trabalho pode levar apenas uma hora ou menos para ser executado. Os dados podem ser agregados a partir dos nós de computação distribuídos para produzir um resultado.

Embora o mapeamento e a redução sejam as funções essenciais do modelo do MapReduce, o processo geral inclui mais algumas etapas.

AI Academy

O gerenciamento de dados é o segredo para a IA generativa?

Explore por que é essencial ter dados de alta qualidade para utilizar a IA generativa com qualidade.

Acessar o episódio

Entrada

Uma aplicação do MapReduce aceita dados de entrada, que podem incluir dados estruturados ou não estruturados. As aplicações do MapReduce geralmente funcionam com arquivos de entrada armazenados no sistema de arquivos distribuídos do Hadoop (HDFS), mas o modelo também pode funcionar com outras fontes de dados. (Para obter mais informações, consulte "MapReduce dentro do ecossistema do Hadoop".)

Para um trabalho específico, a framework do MapReduce ajuda a selecionar servidores distribuídos, gerenciar comunicações e transferências de dados e oferecer suporte a tolerância a falhas e redundância.

Divisão

Os dados de entrada são divididos em blocos menores. Esses blocos são distribuídos para os mapeadores (as funções que realizam o mapeamento na próxima etapa) localizados em vários nós de computação. A framework do MapReduce visa a uma atribuição aproximadamente uniforme de dados entre os mapeadores para um equilíbrio de carga eficiente.

Mapeamento

Em cada nó, a função de mapear processa os dados recebidos, convertendo os dados em pares de chave/valor.

O número total de mapeadores é determinado dentro do framework do Hadoop, com base no volume total de dados e nos blocos de memória disponíveis em cada mapeador. Parâmetros para mapeadores, redutores e formatos de saída podem ser definidos dentro do cluster Hadoop.

Embaralhamento

O framework do Hadoop classifica as saídas do mapa e atribui todos os pares de chave/valor com a mesma "chave" (tópico) ao mesmo redutor. Por exemplo, em um conjunto de dados de cidades e suas temperaturas máximas diárias, quaisquer dados com a chave "Tóquio" iria para o mesmo redutor.

O redutor, como o nome sugere, é a função que executa a etapa de redução.

Redução

As funções de reduzir processam os pares de chave/valor que os mapeadores emitem. Isso pode envolver a mesclagem, tabulação ou a realização de outras operações nos dados, dependendo do tipo de processamento necessário.

O mapeamento e a redução podem ser feitos no mesmo conjunto de servidores, mas isso é opcional.

Resultado

Cada redutor produz os resultados de seu processamento para o HDFS ou outro armazenamento de dados.

Um exemplo do MapReduce

Independentemente da quantidade de dados que uma organização deseja analisar, os princípios fundamentais permanecem os mesmos.

Para este exemplo, o conjunto de dados inclui cidades (as chaves) e as temperaturas diárias correspondentes (os valores) registradas para cada cidade. Um exemplo de par chave/valor pode ter esta aparência: <Toronto, 18>.

Os dados estão espalhados em vários arquivos. Cada arquivo pode incluir dados de um conjunto de cidades e pode incluir a mesma cidade várias vezes.

A partir desse conjunto de dados, o usuário deseja identificar a "temperatura máxima" de cada cidade no período rastreado.

Uma implementação do MapReduce para lidar com esse trabalho poderia ter a seguinte aparência:

Arquivos de dados contendo informações de temperatura alimentam a aplicação do MapReduce como entrada.
Os arquivos são divididos em tarefas de mapear, com cada tarefa atribuída a um dos mapeadores.
Os mapeadores convertem os dados em pares de chave/valor.
As saídas de mapear são embaralhadas e classificadas de modo que todos os valores com a mesma chave de cidade acabem com o mesmo redutor. Por exemplo, todos os valores de temperatura para Toronto vão para um redutor, enquanto outro redutor agrega todos os valores para Londres.
Cada redutor processa seus dados para determinar o valor de temperatura mais alto para cada cidade. Então, os dados são reduzidos para apenas o par de chave/valor mais alto de cada cidade.
Após a fase de reduzir, os valores mais altos podem ser coletados para produzir um resultado: <Tóquio, 38> < Londres, 27> < Nova York, 33> < Toronto, 32>.

Um diagrama simplificado usando o MapRduce para determinar temperaturas máximas por cidade

Um diagrama simplificado de como o framework do MapReduce ajuda a processar dados

MapReduce dentro do ecossistema do Hadoop

O ecossistema do Hadoop é um pacote de módulos de código aberto projetados para trabalhar juntos para promover a eficiência. Existem módulos que constituem a principal framework do Hadoop, incluindo o MapReduce e outros três:

Sistema de arquivos distribuídos Hadoop (HDFS)

O HDFS é um sistema de arquivos distribuídos para armazenar dados de aplicações em até milhares de servidores comuns.

O HDFS é projetado para fornecer tolerância a falhas para o Hadoop e acesso rápido aos dados. Por padrão, os blocos de dados são replicados em vários nós no momento da carga ou da gravação.

A arquitetura do HDFS conta com um NameNode responsável pelo gerenciamento de namespaces do sistema de arquivos e do acesso a arquivos, juntamente com vários DataNodes responsáveis pelo gerenciamento do armazenamento de dados.

Yet Another Resource Negotiator (YARN)

O Apache Hadoop de código aberto, YARN, é um framework para programação de trabalhos e gerenciamento de recursos de clusters. Ele é compatível com várias cargas de trabalho, como SQL queries, modelagem avançada e streaming em tempo real.

Hadoop Common

Este módulo é uma coleção de utilitários e bibliotecas de recursos compatíveis com outros módulos do Hadoop. Também conhecido como Hadoop Core, ele inclui vários recursos para recuperação automática de falhas, abstração no nível do sistema de arquivos e no nível do sistema operacional, arquivos e scripts Java Archive (JAR) e muito mais.

Outros módulos

Além da framework principal do Hadoop, o ecossistema do Hadoop também inclui:

HBase (um banco de dados NoSQL não relacional)
Mahout e Spark MLlib (bibliotecas de algoritmos para aprendizado de máquina)
Oozie (um agendador de trabalhos)
Apache Hive e Apache Pig (ferramentas de processamento de dados baseadas em consultas)
Solr e Lucene (para pesquisa e indexação)
Spark (mecanismo de processamento de dados na memória)
Zookeeper (coordenação de clusters)

Benefícios do MapReduce

A programação do MapReduce oferece vários benefícios que podem ajudar as organizações a obter insights valiosos da análise de big data, como:

Escalabilidade: o MapReduce permite que as organizações processem petabytes de dados armazenados no HDFS em vários servidores ou nós.
Processamento mais rápido: com processamento paralelo e movimentação mínima de dados, o MapReduce oferece otimização do processamento de big data para volumes maciços de dados.
Simplicidade: os desenvolvedores podem escrever aplicações MapReduce na linguagem de programação de sua preferência, incluindo Java, C++ e Python.
Economia de custos: como um programa de código aberto, o MapReduce pode economizar algum orçamento de uma organização em despesas de software. Dito isso, ainda haverá custos associados à infraestrutura e à equipe de engenharia de dados.

Casos de uso do MapReduce

O MapReduce pode lidar com eficiência com muitos casos de uso simples, embora tarefas complexas de processamento de dados possam ser executadas mais rapidamente em outras aplicações. Aqui estão algumas aplicações adequadas à abordagem de processamento paralelo do MapReduce:

Integração de dados, onde a framework do MapReduce é usada para executar o processo de extrair, transformar e carregar (ETL) para preparar os dados para análise e armazenamento.
Processamento de imagens, onde tarefas como classificação de imagens podem ser divididas em conjuntos de dados menores e processadas em paralelo.
Log Analysis, como identificar tendências por meio da revisão de arquivos de log de servidores da web ou de aplicações.
Aprendizado de máquina (ML), onde o MapReduce pode ajudar com tarefas de treinamento de ML, como filtragem colaborativa, clustering k-means e regressão linear.
Análise de sentimento, onde o MapReduce pode ajudar a somar pontuações de clientes em um site ou identificar clusters de resposta, por exemplo.
Tabulação, como contar quantos clientes renovaram suas contas, por país, no ano passado.
Mineração de texto, como tarefas de contagem de palavras que rastreiam o número de vezes que uma palavra ocorre em um determinado conjunto de entradas, como um quadro de comentários.

História do MapReduce

O paradigma de programação do MapReduce foi criado em 2004 pelos cientistas da computação do Google Jeffery Dean e Sanjay Ghemawat. O objetivo do modelo MapReduce é simplificar a transformação e a análise de grandes conjuntos de dados por meio de processamento paralelo maciço em grandes clusters de hardware comum. Ele também permite que os programadores se concentrem em algoritmos em vez de gerenciamento de dados.

Embora o Google tenha introduzido a primeira framework do MapReduce, o Apache Hadoop MapReduce talvez seja a mais popular.

O MapReduce desempenhou um papel fundamental no avanço da análise de big data, mas tem suas desvantagens. Por exemplo, os dados geralmente não são retidos na memória pelo MapReduce, e a lógica iterativa só é possível encadeando aplicativos MapReduce. Esses fatores aumentam a complexidade e podem levar a tempos de processamento mais longos.

Embora o MapReduce continue sendo amplamente utilizado, especialmente em sistemas legados, muitas organizações estão migrando para frameworks mais rápidas ou especializadas, como o Apache Spark, para aplicações de big data.

Renderização 3D de uma espiral de vários ícones alinhados, como uma câmera, um botão de volume e uma prancheta

Leia o guia do líder de dados para saber como tornar os dados de sua organização preparados para IA.

Recursos

Renderização 3D de vários ícones alinhados, como um microfone e uma câmera

Agentes de IA baseados em dados. O seu já está pronto?

Seus dados são sua vantagem competitiva. Saiba como liberá-los de forma segura e gerar ROI mensurável com base na IA neste breve webinar.

Gerenciamento de dados explicado

O Techsplainers da IBM detalha os fundamentos dos dados para IA, desde os conceitos-chave até os casos de uso do mundo real. Episódios claros e rápidos ajudam você a aprender os fundamentos com agilidade.

Renderização 3D de vários ícones alinhados, como um botão de volume e uma área de transferência

Unifique e acesse seus dados para ajudar a escalar sua IA

Aprenda por que o caminho para dados preparados para IA geralmente começa com o acesso efetivo a dados estruturados e não estruturados, e os desafios que podem impedir os líderes de dados.

Custos indiretos jurídicos transformados em insights estratégicos

Saiba como um agente jurídico impulsionado por IA ajuda a acelerar a tomada de decisão, reduzir o trabalho manual e melhorar a conformidade.

AI Academy: Construindo uma estratégia de dados para IA corporativa

Neste episódio, Cathy Reese explica como as organizações de hoje precisam de uma estratégia de dados preparada para a IA avançada e que exigirá que elas aproveitem seus ativos de dados de maior qualidade.

Renderização 3D de vários ícones alinhados, como uma câmera e aviões de papel

O data lakehouse híbrido e aberto para IA

Simplifique o acesso aos dados e automatize sua gestão. Conheça o poder da integração de uma estratégia de data lakehouse à sua arquitetura de dados, incluindo a otimização dos custos das suas cargas de trabalho e a escalabilidade da IA e da análise, com todos os seus dados, em qualquer lugar.

Relatório do custo das violações de dados 2025

Os custos das violações de dados atingiram novo patamar. Receba insights atualizados sobre ameaças à cibersegurança e seus impactos financeiros nas organizações.

Representação 3D de duas linhas de vários ícones, como uma câmera, um botão de volume e uma área de transferência

O guia do líder de dados para preparar dados para IA

Entenda as etapas praticáveis que os líderes de dados podem seguir para superar os desafios dos dados, estabelecer a base para uma estrutura de dados confiável e preparar os dados da organização para a IA.

Representação 3D de vários ícones alinhados, como uma câmera, botão de volume e uma área de transferência

Como a diretoria executiva está transformando informações em impacto

Explore insights de 1.700 CDOs neste relatório de setores para líderes de dados.

Soluções relacionadas

IBM StreamSets

Crie e gerencie pipelines de dados de streaming inteligentes por meio de uma interface gráfica intuitiva, facilitando a integração sem dificuldades dos dados em ambientes híbridos e de multinuvem.

Explore o StreamSets

IBM watsonx.data™

O watsonx.data permite escalar a análise de dados e a IA com todos os seus dados, onde quer que estejam, por meio de um armazenamento de dados aberto, híbrido e governado.

Conheça o watsonx.data

Serviços de consultoria de dados e análise de dados

Libere o valor dos dados empresariais com a IBM Consulting, construindo uma organização baseada em insights, que traz vantagem para os negócios.

Conheça os serviços de análise de dados

Dê o próximo passo

Crie uma estratégia de dados que elimine silos de dados, reduza a complexidade e melhore a qualidade de dados para proporcionar experiências excepcionais para clientes e funcionários.

O que é o MapReduce?

O que é o MapReduce?

As mais recentes notícias de tecnologia, corroboradas por insights de especialistas.

Agradecemos sua inscrição!

Como funciona o MapReduce

O gerenciamento de dados é o segredo para a IA generativa?

Entrada

Divisão

Mapeamento

Embaralhamento

Redução

Resultado

Um exemplo do MapReduce

MapReduce dentro do ecossistema do Hadoop

Sistema de arquivos distribuídos Hadoop (HDFS)

Yet Another Resource Negotiator (YARN)

Hadoop Common

Outros módulos

Benefícios do MapReduce

Casos de uso do MapReduce

História do MapReduce

Recursos