O que é o Apache Hadoop?
Assine a newsletter da IBM
Pessoa sentada em uma mesa de escritório e usando um laptop

O Apache Hadoop é um framework de software de código aberto que oferece processamento distribuído de grandes conjuntos de dados, altamente confiável, utilizando modelos de programação simples. O Hadoop, conhecido por sua escalabilidade, é construído em clusters de computadores comuns, oferecendo uma solução econômica para armazenar e processar grandes quantidades de dados estruturados, semiestruturados e não estruturados, sem requisitos de formato.

As arquiteturas de data lake que incluem o Hadoop podem oferecer uma solução de gerenciamento de dados flexível para suas iniciativas de análise de big data. Como o Hadoop é um projeto de software de código aberto e segue um modelo de computação distribuída, ele pode oferecer um custo total de propriedade menor para uma solução de software e armazenamento de big data.

O Hadoop pode ser instalado também em servidores de nuvem, para melhor gerenciar os recursos de computação e armazenamento necessários para big data. Os principais fornecedores de nuvem, como a Amazon Web Services (AWS) e o Microsoft Azure, oferecem soluções. O Cloudera aceita cargas de trabalho do Hadoop no local e na nuvem, incluindo opções para um ou mais ambientes de nuvem pública de vários fornecedores.

Ecossistema do Hadoop

O framework do Hadoop, construído pela Apache Software Foundation, inclui:

  • Hadoop Common: os utilitários e bibliotecas comuns que viabilizam os outros módulos do Hadoop. Também conhecido como Hadoop Core.

  • Hadoop HDFS (Hadoop Distributed File System): Um sistema de arquivos distribuído para armazenar dados de aplicativos em hardware comum. Oferece acesso de alto rendimento aos dados e alta tolerância a falhas. A arquitetura do HDFS recorre a um NameNode para gerenciar o namespace do sistema de arquivos e o acesso a arquivos e vários DataNodes para gerenciar o armazenamento de dados.

  • Hadoop YARN: framework para gerenciar recursos de cluster e agendar tarefas. YARN significa Yet Another Resource Negotiator (mais um negociador de recursos). Aceita mais carga de trabalho, como SQL interativo, modelagem avançada e streaming em tempo real.

  • Hadoop MapReduce: sistema baseado em YARN para processamento paralelo de grandes conjuntos de dados.

  • Hadoop Ozone: Um armazenamento de objetos escalável, redundante e distribuído, concebido para aplicações de big data.
Suporte a projetos em Apache

Melhore o Hadoop com mais projetos de software de código aberto.

Ambari

Ferramenta baseada na web para provisionar, gerenciar e monitorar clusters do Hadoop.

Avro

Sistema de serialização de dados.

Cassandra

Um banco de dados NoSQL escalável, projetado de forma que nenhum componente único seja crítico para o funcionamento do sistema.

Chukwa

Sistema de coleta de dados para monitoramento de grandes sistemas distribuídos, construído no HDFS e MapReduce.

Flume

Serviço para coleta, agregação e movimentação de grandes quantidades de dados de streaming para HDFS.

HBase

Banco de dados distribuído não relacional e escalável, que viabiliza o armazenamento estruturado de dados para tabelas muito grandes.

Hive

Infraestrutura de data warehouse para consulta e análise de dados em uma interface semelhante à do SQL.

Mahout

Biblioteca escalável de aprendizado de máquina e mineração de dados.

Oozie

Workload Scheduler baseado em Java para gerenciar tarefas do Hadoop.

Pig

Linguagem e framework de execução de fluxo de dados de alto nível para computação paralela.

Sqoop

Ferramenta para transferência eficiente de dados entre o Hadoop e armazenamento de dados estruturados, tais como os bancos de dados relacionais.

Submarine

Plataforma unificada de IA para executar cargas de trabalho de aprendizado de máquina e deep learning em um cluster distribuído.

Tez

Framework de programação de fluxo de dados generalizada, construída em YARN, adotada no ecossistema do Hadoop para substituir o MapReduce.

ZooKeeper

Serviço de coordenação de alto desempenho para aplicações distribuídas.

Hadoop para desenvolvedores

O Apache Hadoop foi escrito em Java, mas dependendo do projeto de big data, os desenvolvedores podem programar na linguagem que preferirem, como Python, R ou Scala. O utilitário incluído para streaming do Hadoop permite que os desenvolvedores criem e executem trabalhos MapReduce com qualquer script ou executável como mapeador ou redutor.

Spark vs. Hadoop

O Apache Spark costuma ser comparado ao Hadoop pois também é um framework de código aberto para processamento de big data. Na verdade, o Spark foi construído inicialmente para melhorar o desempenho do processamento e ampliar os tipos de cálculos possíveis com o Hadoop MapReduce. O Spark faz o processamento na memória e isso o deixa muito mais rápido do que os recursos de leitura/gravação do MapReduce.

Embora o Hadoop seja melhor para processamento de grandes volumes de dados em lote, o Spark permite o processamento de dados em lote e em tempo real e é ideal para streaming de dados e cálculos gráficos. Tanto o Hadoop quanto o Spark oferecem bibliotecas de aprendizado de máquina, mas, repetindo, devido ao processamento na memória, o aprendizado de máquina do Spark é muito mais rápido.

Saiba mais sobre o Apache Spark
Casos de uso do Hadoop

Melhores decisões baseadas em dados: integre fluxo de dados em tempo real (áudio, vídeo, sentimento nas redes sociais e dados de fluxo de cliques) e outros dados semiestruturados e não estruturados não utilizados em data warehouses ou bancos de dados relacionais. Dados mais abrangentes viabilizam decisões mais precisas.

Melhor acesso e análises de dados : proporcione acesso por autoatendimento e em tempo real para seus cientistas de dados, responsáveis por linhas de negócios (LOB) e desenvolvedores. O Hadoop pode alimentar a ciência de dados, um campo interdisciplinar que utiliza dados, algoritmos, aprendizado de máquina e IA para realizar análises avançadas, revelar padrões e fazer previsões.

Descarregamento e consolidação de dados: simplifique os custos no data warehouse da sua empresa movendo dados “frios” que não estão em uso atualmente para uma distribuição baseada em Hadoop para armazenamento. Ou consolide os dados em toda a organização para aumentar a acessibilidade e reduzir os custos.

Soluções relacionadas
{Rótulo de categoria de produto avançado} IBM e Cloudera

Viabilize a análise de dados preditiva e prescritiva para a IA atual. Combine a distribuição do Hadoop de nível corporativo do Cloudera com um único ecossistema integrado de produtos e serviços da IBM e do Cloudera para aperfeiçoar a descoberta de dados, testes, consultas quase em tempo real e pontuais. Aproveite a colaboração entre a IBM e o Cloudera para fornecer soluções empresariais do Hadoop.

Conheça a IBM e o Cloudera

{Rótulo de categoria de produto avançado} IBM® Db2 Big SQL

Utilize um mecanismo de SQL-no-Hadoop de nível corporativo, híbrido, compatível com ANSI, para oferecer processamento paralelo em massa (MPP) e consulta de dados avançada.

Explore o Db2 Big SQL

{Rótulo de categoria de produto avançado} IBM Big Replicate

Replique os dados enquanto são transmitidos, para que não haja necessidade de gravar ou fechar totalmente os arquivos antes da transferência.

Conheça o Big Replicate
Bancos de dados de código aberto

Aproveite o big data de maneira mais econômica com bancos de dados de código aberto de grandes fornecedores como MongoDB e EDB.

Conheça os bancos de dados de código aberto

Recursos IBM + Cloudera

Veja como eles estão conduzindo análises de dados avançadas com um data lake de nível corporativo, seguro, governado e baseado em código aberto.

Como conectar mais dados

Adicione um data lake à sua estratégia de gerenciamento de dados para integrar mais dados não estruturados e obter insights mais aprofundados.

Um data lake robusto e governado para IA

Conheça a tecnologia de armazenamento e governança necessária para que seu data lake ofereça dados preparados para a IA.

Governança de data lake

Veja como soluções de governança comprovadas podem gerar melhor integração, qualidade e segurança de dados para seus data lakes.

Cursos de análise de dados de big data

Escolha o seu caminho de aprendizado com base no nível de conhecimento, com cursos sem custo sobre ciência de dados, IA, big data e mais opções.

Comunidade sobre código aberto

Participe da comunidade da IBM de gerenciamento de dados de código aberto para ter colaboração, recursos e mais opções.

Dê o próximo passo

A IBM e o Cloudera formaram uma parceria para criar serviços de dados e IA de nível corporativo, líderes do setor, utilizando ecossistemas de código aberto, projetados para ter dados e análise de dados de forma mais rápida e em escala. Crie modelos de maneira colaborativa para aplicar a fluxos de stream e analisar grandes quantidades de dados em tempo real. Entenda seus dados (texto não estruturado, vídeo, áudio, dados geoespaciais e de sensores) para conseguir identificar oportunidades e riscos quando eles estiverem acontecendo.

Conheça as soluções da IBM e do Cloudera