O que é Hadoop?

sala com desenvolvedores de software usando framework hadoop

O que é Hadoop?

O Apache Hadoop é um framework de software de código aberto que oferece processamento e armazenamento distribuídos de dados para big data. Hadoop utiliza modelos de programação simples e é altamente confiável.

O Hadoop superou as limitações de escalabilidade do Nutch e é criado em clusters de computadores comuns, fornecendo uma solução econômica para armazenar e processar grandes quantidades de dados estruturados, semiestruturados e não estruturados sem requisitos de formato.

Uma arquitetura de data lake que inclui o Hadoop pode oferecer uma solução de gerenciamento de dados flexível para suas iniciativas de análise de dados de big data . 

Uma arquitetura de data lake que inclui o Hadoop pode oferecer uma solução de gerenciamento de dados flexível para suas iniciativas de análise de big data.

O Hadoop pode ser instalado também em servidores de nuvem, para gerenciar melhor os recursos de computação e armazenamento necessários para big data. Para maior conveniência, o agente do SO Linux, o agente do SO UNIX e o agente do SO Windows são pré-configurados e podem ser iniciados automaticamente. Os principais fornecedores de nuvem, como a Amazon Web Services (AWS) e o Microsoft Azure, oferecem soluções. O Cloudera aceita cargas de trabalho do Hadoop no local e na nuvem, incluindo opções para um ou mais ambientes de nuvem pública de vários fornecedores. Use APIs de monitoramento do Hadoop para adicionar, atualizar, excluir e visualizar os clusters e serviços nos clusters e para todos os outros tipos de monitoramento no Hadoop.

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionados por especialistas e notícias sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

Ecossistema do Hadoop

O framework do Hadoop, construído pela Apache Software Foundation, inclui:

  • Hadoop Common: os utilitários e bibliotecas comuns que viabilizam os outros módulos do Hadoop. Também conhecido como Hadoop Core.

  • Hadoop HDFS (Hadoop Distributed File System): um sistema de arquivos distribuído para armazenar dados de aplicações em hardware comum. O HDFS foi projetado para fornecer tolerância a falhas para o Hadoop e fornece largura de banda de dados de alta agregação e acesso de alta taxa de transferência aos dados.

    Por padrão, os blocos de dados são replicados em vários nós no momento da carga ou da gravação. O grau de replicação é configurável: a replicação padrão é três. A arquitetura do HDFS conta com um NameNode para gerenciar o namespace do sistema de arquivos e o acesso a arquivos e vários DataNodes para gerenciar o armazenamento de dados. Ao habilitar a alta disponibilidade, um nó secundário pode ser usado quando um nó ativo fica inativo.

  • Hadoop YARN: o Apache Hadoop YARN de código aberto é um framework para programação de trabalhos e gerenciamento de recursos de clusters que pode ser usada com o IBM® Spectrum Symphony on Linux® e no Linux on POWER®. YARN significa Yet Another Resource Negotiator (mais um negociador de recursos). É compatível com mais cargas de trabalho, como SQL interativo, modelagem avançada e streaming em tempo real.

  • Hadoop MapReduce: um sistema baseado no YARN que armazena dados em várias fontes e possibilita o processamento paralelo de grandes quantidades de dados. Várias técnicas de otimização estão disponíveis para o MapReduce para acelerar os trabalhos.

  • Hadoop Ozone: Um armazenamento de objetos escalável, redundante e distribuído, concebido para aplicações de big data.
AI Academy

O gerenciamento de dados é o segredo para a IA generativa?

Explore por que é essencial ter dados de alta qualidade para utilizar a IA generativa com qualidade.

Suporte a projetos em Apache

Melhore o Hadoop com mais projetos de software de código aberto.

Ambari

Ferramenta baseada na web para provisionar, gerenciar e monitorar clusters do Hadoop.

Avro

Sistema de serialização de dados.

Cassandra

Um banco de dados NoSQL escalável, projetado de forma que nenhum componente único seja crítico para o funcionamento do sistema.

Chukwa

Sistema de coleta de dados para monitoramento de grandes sistemas distribuídos, construído no HDFS e MapReduce.

Flume

Serviço para coleta, agregação e movimentação de grandes quantidades de dados de streaming para HDFS.

HBase

Banco de dados distribuído não relacional e escalável, que viabiliza o armazenamento estruturado de dados para tabelas muito grandes.

Hive

Uma infraestrutura de data warehouse para consulta de dados, armazenamento de metadados para tabelas e análise em uma interface semelhante a SQL.

Mahout

Biblioteca escalável de aprendizado de máquina e mineração de dados.

Oozie

Workload Scheduler baseado em Java para gerenciar tarefas do Hadoop.

Pig

Linguagem e framework de execução de fluxo de dados de alto nível para computação paralela.

Sqoop

Ferramenta para transferência eficiente de dados entre o Hadoop e armazenamento de dados estruturados, tais como os bancos de dados relacionais.

Submarine

Plataforma unificada de IA para executar cargas de trabalho de aprendizado de máquina e deep learning em um cluster distribuído.

Tez

Framework de programação de fluxo de dados generalizada, construída em YARN, adotada no ecossistema do Hadoop para substituir o MapReduce.

ZooKeeper

Serviço de coordenação de alto desempenho para aplicações distribuídas.

Hadoop para desenvolvedores

O Apache Hadoop foi escrito em Java, mas dependendo do projeto de big data, os desenvolvedores podem programar na linguagem que preferirem, como Python, R ou Scala. O utilitário incluído para streaming do Hadoop permite que os desenvolvedores criem e executem trabalhos MapReduce com qualquer script ou executável como mapeador ou redutor.

Spark vs. Hadoop

O Apache Spark costuma ser comparado ao Hadoop pois também é um framework de código aberto para processamento de big data.

Na verdade, o Spark foi construído inicialmente para melhorar o desempenho do processamento e ampliar os tipos de cálculos possíveis com o Hadoop MapReduce. O Spark faz o processamento na memória e isso o deixa muito mais rápido do que os recursos de leitura/gravação do MapReduce.

Embora o Hadoop seja melhor para processamento de grandes volumes de dados em lote, o Spark permite o processamento de dados em lote e em tempo real e é ideal para streaming de dados e cálculos gráficos. Tanto o Hadoop quanto o Spark oferecem bibliotecas de aprendizado de máquina, mas, repetindo, devido ao processamento na memória, o aprendizado de máquina do Spark é muito mais rápido.

Casos de uso do Hadoop

Melhores decisões baseadas em dados: integre fluxo de dados em tempo real (áudio, vídeo, sentimento nas redes sociais e dados de fluxo de cliques) e outros dados semiestruturados e não estruturados não utilizados em data warehouses ou bancos de dados relacionais. Dados mais abrangentes viabilizam decisões mais precisas.

Melhor acesso e análises de dados : proporcione acesso por autoatendimento e em tempo real para seus cientistas de dados, responsáveis por linhas de negócios (LOB) e desenvolvedores. O Hadoop pode alimentar a ciência de dados, um campo interdisciplinar que utiliza dados, algoritmos, aprendizado de máquina e IA para realizar análises avançadas, revelar padrões e fazer previsões.

Descarregamento e consolidação de dados: simplifique os custos nos data centers da sua empresa migrando dados "frios" que não estão em uso atualmente para uma distribuição baseada em Hadoop para armazenamento. Ou consolide os dados em toda a organização para aumentar a acessibilidade e reduzir os custos.

Soluções relacionadas
Software e soluções de gerenciamento de dados

Crie uma estratégia de dados que elimine silos de dados, reduza a complexidade e melhore a qualidade de dados para proporcionar experiências excepcionais para clientes e funcionários.

Explore soluções de gerenciamento de dados
IBM watsonx.data™

O watsonx.data permite escalar a análise de dados e a IA com todos os seus dados, onde quer que estejam, por meio de um armazenamento de dados aberto, híbrido e governado.

Conheça o watsonx.data
Serviços de consultoria de dados e análise de dados

Libere o valor dos dados empresariais com a IBM Consulting, construindo uma organização baseada em insights que ofereça vantagens para os negócios.

Conheça os serviços de análise de dados
Dê o próximo passo

Crie uma estratégia de dados que elimine silos de dados, reduza a complexidade e melhore a qualidade de dados para proporcionar experiências excepcionais para clientes e funcionários.

Explore soluções de gerenciamento de dados Conheça o watsonx.data