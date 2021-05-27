Tags
Hadoop versus Spark: qual é a diferença?

As respectivas arquiteturas do Hadoop e do Spark, como esses frameworks de big data se comparam em vários contextos e cenários que se encaixam melhor com cada solução.

O Hadoop e o Spark, ambos desenvolvidos pela Apache Software Foundation, são frameworks de código aberto amplamente utilizados para arquiteturas de big data. Cada framework contém um extenso ecossistema de tecnologias de código aberto que preparam, processam, gerenciam e analisam conjuntos de big data.

 

 

O que é o Apache Hadoop?

O Apache Hadoop é um utilitário de código aberto que permite aos usuários gerenciar big data (de gigabytes a petabytes) ao possibilitar uma rede de computadores (ou "nós") para resolver vastos e complexos problemas de dados. É uma solução altamente escalável e econômica que armazena e processa dados estruturados, semiestruturados e não estruturados (por exemplo, registros de cliques na Internet, logs de servidores web, dados de sensores de IoT etc.).

Os benefícios do framework Hadoop incluem o seguinte:

  • Proteção de dados em meio a uma falha de hardware
  • Vasta escalabilidade de um único servidor para milhares de máquinas
  • Análise em tempo real para análises históricas e processos de tomada de decisão

O que é o Apache Spark?

O Apache Spark, que também é de código aberto, é um mecanismo de processamento de dados para conjuntos de big data. Assim como o Hadoop, o Spark divide grandes tarefas em diferentes nós. No entanto, ele tende a ter um desempenho mais rápido do que o Hadoop e usa memória de acesso aleatório (RAM) para armazenar em cache e processar dados em vez de um sistema de arquivos. Isso permite que o Spark lide com casos de uso que o Hadoop não pode.

Os benefícios do framework Spark incluem o seguinte:

Ecossistema do Hadoop

O Hadoop é compatível com análise de dados avançada para dados armazenados (por exemplo, análise preditiva, mineração de dados, aprendizado de máquina (ML) etc.). Ele permite que as tarefas de processamento de análise de big data sejam divididas em tarefas menores. As pequenas tarefas são executadas em paralelo usando um algoritmo (por exemplo, MapReduce) e são, então, distribuídas por um cluster Hadoop (ou seja, nós que realizam cálculos paralelos em conjuntos de big data).

O ecossistema Hadoop consiste em quatro módulos principais:

  1. Hadoop Distributed File System (HDFS): sistema primário de armazenamento de dados que gerencia grandes conjuntos de dados em execução em hardware comum. Também fornece acesso a dados de alto rendimento e alta tolerância a falhas.
  2. Yet Another Resource Negotiator (YARN): resource manager de cluster que agenda tarefas e aloca recursos (por exemplo, CPU e memória) a aplicação.
  3. Hadoop MapReduce: divide as tarefas de processamento de dados em tarefas menores, distribui as tarefas pequenas em diferentes nós e, em seguida, executa cada tarefa.
  4. Hadoop Common (Hadoop Core): conjunto de bibliotecas e utilitários comuns dos quais os outros três módulos dependem.

O ecossistema Spark

O Apache Spark, o maior projeto de código aberto em processamento de dados, é o único framework de processamento que combina dados e inteligência artificial (IA). Isso permite que os usuários realizem transformações de dados em grande escala e análises, e, em seguida, executem algoritmos de aprendizado de máquina (ML) e IA.

O ecossistema Spark consiste em cinco módulos principais:

  1. Spark Core: mecanismo de execução subjacente que agenda e despacha tarefas e coordena operações de entrada e saída (E/S).
  2. Spark SQL: reúne informações sobre dados estruturados para permitir que os usuários otimizem o processamento de dados estruturados.
  3. Spark Streaming e Structured Streaming: ambos adicionam recursos de processamento de fluxo. O Spark Streaming pega dados de diferentes fontes de streaming e os divide em microlotes para um fluxo contínuo. O Structured Streaming, desenvolvido no Spark SQL, reduz a latência e simplifica a programação.
  4. Machine Learning Library (MLlib): um conjunto de algoritmos de aprendizado de máquina para escalabilidade, além de ferramentas para seleção de funcionalidades e criação de pipelines de ML. A API principal para o MLlib é o DataFrames, que fornece uniformidade em diferentes linguagens de programação, como Java, Scala e Python.
  5. GraphX: mecanismo de computação fácil de usar que permite a criação, a modificação e a análise interativas de dados estruturados em gráficos escaláveis.

Comparação do Hadoop e do Spark

O Spark é um aprimoramento do Hadoop para o MapReduce. A principal diferença entre o Spark e o MapReduce é que o Spark processa e retém os dados na memória para as etapas subsequentes, enquanto o MapReduce processa os dados em disco. Como resultado, para cargas de trabalho menores, as velocidades de processamento de dados do Spark são até 100 vezes mais rápidas do que as do MapReduce (link externo a ibm.com).

Além disso, em oposição ao processo de execução em duas etapas do MapReduce, o Spark cria um DAG (gráfico acíclico dirigido) para programar tarefas e a orquestração de nós no cluster Hadoop. Esse processo de rastreamento de tarefas habilita a tolerância a falhas, que reaplica operações registradas aos dados de um estado anterior.

Vamos analisar mais de perto as principais diferenças entre o Hadoop e o Spark em seis contextos críticos:

  1. Desempenho: o Spark é mais rápido porque usa memória de acesso aleatório (RAM) em vez de ler e gravar dados intermediários em discos. O Hadoop armazena dados em várias fontes e os processa em lotes via MapReduce.
  2. Custo: o Hadoop é executado a um custo menor, pois depende de qualquer tipo de armazenamento em disco para processamento de dados. Spark é executado a um custo mais alto porque depende de cálculos na memória para processamento de dados em tempo real, o que exige que ele use grandes quantidades de RAM para executar um nó.
  3. Processamento: embora ambas as plataformas processem dados em um ambiente distribuído, o Hadoop é ideal para processamento em lote e processamento de dados lineares. O Spark é ideal para processamento em tempo real e processamento de fluxos de dados não estruturados em tempo real.
  4. Escalabilidade: quando o volume de dados cresce rapidamente, o Hadoop escala rapidamente para acomodar a demanda por meio do sistema de arquivos distribuídos do Hadoop (HDFS). Por sua vez, o Spark depende do HDFS tolerante a falhas para grandes volumes de dados.
  5. Segurança: o Spark aumenta a segurança com autenticação por meio de segredo compartilhado ou registro, enquanto o Hadoop usa vários métodos de autenticação e controle de acesso. Embora, em geral, o Hadoop seja mais seguro, o Spark pode se integrar ao Hadoop para alcançar um nível de segurança mais alto.
  6. Aprendizado de máquina (ML): o Spark é a plataforma superior nessa categoria porque inclui MLlib, que realiza cálculos iterativos de ML na memória. Ele também inclui ferramentas que realizam regressão, classificação, persistência, construção de pipeline, avaliação etc.

Equívocos sobre o Hadoop e o Spark

Equívocos comuns sobre o Hadoop

  • O Hadoop é barato: embora seja de código aberto e fácil de configurar, manter o servidor funcionando pode ser caro. Quando utilizar funcionalidades como computação in-memory e armazenamento em rede, o gerenciamento de dados pode custar até US$ 5.000.
  • O Hadoop é um banco de dados: embora o Hadoop seja usado para armazenar, gerenciar e analisar dados distribuídos, não há consultas envolvidas na extração de dados. Isso torna o Hadoop um data warehouse em vez de um banco de dados.
  • O Hadoop não ajuda as SMBs: “big data” não é exclusivo das “grandes empresas”. O Hadoop possui funcionalidades simples, como relatórios do Excel, que permitem que empresas menores aproveitem seu poder. Ter um ou dois clusters Hadoop pode melhorar muito o desempenho de uma pequena empresa.
  • O Hadoop é difícil de configurar: embora o gerenciamento do Hadoop seja difícil nos níveis mais elevados, há muitas interfaces gráficas de usuário (GUIs) que simplificam a programação para o MapReduce.

Equívocos comuns sobre o Spark

  • O Spark é uma tecnologia in-memory: embora o Spark utilize efetivamente o algoritmo menos usado recentemente (LRU), ele não é, por si só, uma tecnologia baseada na memória.
  • O Spark sempre tem um desempenho 100 vezes mais rápido do que o do Hadoop: embora o Spark possa ter um desempenho até 100 vezes mais rápido do que o do Hadoop para pequenas cargas de trabalho, de acordo com a Apache, ele normalmente tem um desempenho até três vezes mais rápido para as grandes (link externo a ibm.com).
  • O Spark introduz novas tecnologias no processamento de dados: embora o Spark utilize efetivamente o algoritmo LRU e o processamento de dados de pipelines, esses recursos existiam anteriormente em bancos de dados de processamento paralelo massivo (MPP). No entanto, o que diferencia o Spark do MPP é sua orientação para o código aberto.

Casos de uso do Hadoop e do Spark

Com base nas análises comparativas e nas informações factuais fornecidas acima, os casos a seguir ilustram melhor a usabilidade geral do Hadoop versus Spark.

Casos de uso do Hadoop

O Hadoop é mais eficaz para cenários que envolvem o seguinte:

  • Processamento de conjuntos de big data em ambientes onde o tamanho dos dados excede a memória disponível
  • Processamento em lote com tarefas que exploram operações de leitura e gravação de disco
  • Construção de infraestrutura de análise de dados com um orçamento limitado
  • Conclusão de trabalhos não urgentes
  • Análise de dados históricos e de arquivo

Casos de uso do Spark

O Spark é mais eficaz para cenários que envolvem o seguinte:

  • Lidar com cadeias de operações paralelas utilizando algoritmos iterativos
  • Alcançar resultados rápidos com cálculos na memória
  • Analisando a análise de dados de fluxo em tempo real
  • Processamento paralelo de gráficos para dados de modelo
  • Todas as aplicações de ML

Hadoop, Spark e IBM

A IBM oferece vários produtos para ajudar você a aproveitar os benefícios do Hadoop e do Spark para otimizar suas iniciativas de gerenciamento de big data e, ao mesmo tempo, atingir seus objetivos de negócios abrangentes:

  • O IBM Spectrum Conductor é uma plataforma multilocatária que implementa e gerencia o Spark com outros frameworks de aplicação em um cluster compartilhado de recursos. O Spectrum Conductor oferece gerenciamento de carga de trabalho, monitoramento, alerta, geração de relatórios e diagnóstico e pode executar várias versões atuais e diferentes do Spark e de outros frameworks simultaneamente.
  • O IBM Db2 Big SQL é um mecanismo híbrido SQL-on-Hadoop que oferece uma única conexão de banco de dados e fornece consultas de dados avançadas e com alto nível de segurança em fontes de big data como Hadoop HDFS e WebHDFS, RDMS, bancos de dados NoSQL e armazenamentos de objetos. Os usuários têm benefício de baixa latência, alto desempenho, segurança de dados, compatibilidade de SQL e recursos de federação para consultas ad hoc e complexas.
  • O IBM Big Replicate unifica clusters Hadoop executados no Structured Streaming, Hortonworks Data Platform, IBM, Amazon S3 e EMR, Microsoft Azure, OpenStack Swift e Google Cloud Storage. O Big Replicate oferece um namespace virtual em clusters e object storage na nuvem a qualquer distância.

Autor

IBM Cloud Education Team

IBM Cloud Education