O que é o Hadoop?

O que é o Apache Hadoop?

O Apache Hadoop é uma estrutura de software de código aberto desenvolvida por Douglas Cutting, que na época trabalhava no Yahoo, que fornece o processamento distribuído altamente confiável de grandes conjuntos de dados usando modelos de programação simples.

O Hadoop superou as limitações de escalabilidade do Nutch e é criado em clusters de computadores comuns, fornecendo uma solução econômica para armazenar e processar grandes quantidades de dados estruturados, semiestruturados e não estruturados sem requisitos de formato.

Uma arquitetura de data lake que inclui o Hadoop pode oferecer uma solução de gerenciamento de dados flexível para suas iniciativas de análise de big data. Como o Hadoop é um projeto de código aberto e segue um modelo de computação distribuída, ele pode oferecer preços econômicos para uma solução de software e armazenamento de big data.

O Hadoop pode ser instalado também em servidores de nuvem, para melhor gerenciar os recursos de computação e armazenamento necessários para big data. Para maior conveniência, o agente do sistema operacional Linux, o agente do sistema operacional UNIX e o agente do sistema operacional Windows são pré-configurados e podem ser iniciados automaticamente. Os principais fornecedores de nuvem, como a Amazon Web Services (AWS) e o Microsoft Azure, oferecem soluções. O Cloudera aceita cargas de trabalho do Hadoop no local e na nuvem, incluindo opções para um ou mais ambientes de nuvem pública de vários fornecedores. Use APIs de monitoramento Hadoop para adicionar, atualizar, excluir e visualizar os clusters e serviços nos clusters e para todos os outros tipos de monitoramento no Hadoop.

O armazenamento de dados para IA

Descubra o poder de integrar uma estratégia de data lakehouse em sua arquitetura de dados, incluindo aprimoramentos para escalar oportunidades de IA e otimização de custos.

Conteúdo relacionado

Registre-se para o white paper sobre governança de IA

Ecossistema do Hadoop

O framework do Hadoop, construído pela Apache Software Foundation, inclui:

Hadoop Common: os utilitários e bibliotecas comuns que viabilizam os outros módulos do Hadoop. Também conhecido como Hadoop Core.
Hadoop HDFS (Sistema de Arquivos Distribuído Hadoop): um sistema de arquivos distribuído para armazenar dados de aplicações em hardware comum. O HDFS foi projetado para fornecer tolerância a falhas para o Hadoop e fornece largura de banda de dados de alta agregação e acesso de alta taxa de transferência aos dados. Por padrão, os blocos de dados são replicados em vários nós no momento da carga ou da gravação. O grau de replicação é configurável: a replicação padrão é três. A arquitetura do HDFS conta com um NameNode para gerenciar o namespace do sistema de arquivos e o acesso a arquivos e vários DataNodes para gerenciar o armazenamento de dados. Ao habilitar a alta disponibilidade, um nó secundário pode ser usado quando um nó ativo fica inativo.
Hadoop YARN: o Apache Hadoop YARN de código aberto é uma estrutura para programação de trabalho e gerenciamento de recursos de cluster que pode ser usada com o IBM Spectrum Symphony no Linux e no Linux on POWER. YARN significa Yet Another Resource Negotiator (mais um negociador de recursos). Ele aceita mais carga de trabalho, como SQL interativo, modelagem avançada e streaming em tempo real.
Hadoop MapReduce: um sistema baseado em YARN que armazena dados em várias fontes e poderes para processamento paralelo de grandes quantidades de dados. Várias técnicas de otimização estão disponíveis para o MapReduce para acelerar os trabalhos.
Hadoop Ozone: Um armazenamento de objetos escalável, redundante e distribuído, concebido para aplicações de big data.

Suporte a projetos em Apache

Melhore o Hadoop com mais projetos de software de código aberto.

Ambari

Ferramenta baseada na web para provisionar, gerenciar e monitorar clusters do Hadoop.

Avro

Sistema de serialização de dados.

Conheça o Avro

Cassandra

Um banco de dados NoSQL escalável, projetado de forma que nenhum componente único seja crítico para o funcionamento do sistema.

Chukwa

Sistema de coleta de dados para monitoramento de grandes sistemas distribuídos, construído no HDFS e MapReduce.

Flume

Serviço para coleta, agregação e movimentação de grandes quantidades de dados de streaming para HDFS.

HBase

Banco de dados distribuído não relacional e escalável, que viabiliza o armazenamento estruturado de dados para tabelas muito grandes.

Saiba mais sobre o Apache HBase

Hive

Uma infraestrutura de data warehouse para consulta de dados, armazenamento de metadados para tabelas e análise em uma interface semelhante a SQL.

Saiba mais sobre o Apache Hive

Mahout

Biblioteca escalável de aprendizado de máquina e mineração de dados.

Oozie

Workload Scheduler baseado em Java para gerenciar tarefas do Hadoop.

Pig

Linguagem e framework de execução de fluxo de dados de alto nível para computação paralela.

Saiba mais sobre o Apache Pig

Sqoop

Ferramenta para transferência eficiente de dados entre o Hadoop e armazenamento de dados estruturados, tais como os bancos de dados relacionais.

Submarine

Plataforma unificada de IA para executar cargas de trabalho de aprendizado de máquina e deep learning em um cluster distribuído.

Tez

Framework de programação de fluxo de dados generalizada, construída em YARN, adotada no ecossistema do Hadoop para substituir o MapReduce.

ZooKeeper

Serviço de coordenação de alto desempenho para aplicações distribuídas.

Hadoop para desenvolvedores

O Apache Hadoop foi escrito em Java, mas dependendo do projeto de big data, os desenvolvedores podem programar na linguagem que preferirem, como Python, R ou Scala. O utilitário incluído para streaming do Hadoop permite que os desenvolvedores criem e executem trabalhos MapReduce com qualquer script ou executável como mapeador ou redutor.

Spark vs. Hadoop

O Apache Spark costuma ser comparado ao Hadoop pois também é um framework de código aberto para processamento de big data. Na verdade, o Spark foi construído inicialmente para melhorar o desempenho do processamento e ampliar os tipos de cálculos possíveis com o Hadoop MapReduce. O Spark faz o processamento na memória e isso o deixa muito mais rápido do que os recursos de leitura/gravação do MapReduce.

Embora o Hadoop seja melhor para processamento de grandes volumes de dados em lote, o Spark permite o processamento de dados em lote e em tempo real e é ideal para streaming de dados e cálculos gráficos. Tanto o Hadoop quanto o Spark oferecem bibliotecas de aprendizado de máquina, mas, repetindo, devido ao processamento na memória, o aprendizado de máquina do Spark é muito mais rápido.

Saiba mais sobre o Apache Spark

Casos de uso do Hadoop

Melhores decisões baseadas em dados: integre fluxo de dados em tempo real (áudio, vídeo, sentimento nas redes sociais e dados de fluxo de cliques) e outros dados semiestruturados e não estruturados não utilizados em data warehouses ou bancos de dados relacionais. Dados mais abrangentes viabilizam decisões mais precisas.

Melhor acesso e análises de dados : proporcione acesso por autoatendimento e em tempo real para seus cientistas de dados, responsáveis por linhas de negócios (LOB) e desenvolvedores. O Hadoop pode alimentar a ciência de dados, um campo interdisciplinar que utiliza dados, algoritmos, aprendizado de máquina e IA para realizar análises avançadas, revelar padrões e fazer previsões.

Descarregamento e consolidação de dados: simplifique os custos nos data centers da sua empresa migrando dados "frios" que não estão em uso atualmente para uma distribuição baseada em Hadoop para armazenamento. Ou consolide os dados em toda a organização para aumentar a acessibilidade e reduzir os custos.

Soluções relacionadas

IBM e Cloudera

Viabilize a análise de dados preditiva e prescritiva para a IA atual. Combine a distribuição do Hadoop de nível corporativo do Cloudera com um único ecossistema integrado de produtos e serviços da IBM e do Cloudera para aperfeiçoar a descoberta de dados, testes, consultas quase em tempo real e pontuais. Aproveite a colaboração entre a IBM e o Cloudera para fornecer soluções empresariais do Hadoop.

Conheça a IBM e o Cloudera

IBM Db2 Big SQL

Utilize um mecanismo de SQL-no-Hadoop de nível corporativo, híbrido, compatível com ANSI, para oferecer processamento paralelo em massa (MPP) e consulta de dados avançada.

Explore o Db2 Big SQL

IBM Big Replicate

Replique os dados enquanto são transmitidos, para que não haja necessidade de gravar ou fechar totalmente os arquivos antes da transferência.

Conheça o Big Replicate

Bancos de dados de código aberto

Aproveite o big data de maneira mais econômica com bancos de dados de código aberto de grandes fornecedores como MongoDB e EDB.

Conheça os bancos de dados de código aberto

Recursos

IBM + Cloudera

Veja como eles estão conduzindo análises de dados avançadas com um data lake de nível corporativo, seguro, governado e baseado em código aberto.

Como conectar mais dados

Adicione um data lake à sua estratégia de gerenciamento de dados para integrar mais dados não estruturados e obter insights mais aprofundados.

Um data lake robusto e governado para IA

Conheça a tecnologia de armazenamento e governança necessária para que seu data lake ofereça dados preparados para a IA.

Governança do data lake

Veja como soluções de governança comprovadas podem gerar melhor integração, qualidade e segurança de dados para seus data lakes.

Cursos de análise de dados de big data

Escolha o seu caminho de aprendizado com base no nível de conhecimento, com cursos sem custo sobre ciência de dados, IA, big data e mais opções.

Comunidade sobre código aberto

Participe da comunidade da IBM de gerenciamento de dados de código aberto para ter colaboração, recursos e mais opções.

Dê o próximo passo

Escale cargas de trabalho de IA para todos os seus dados, em qualquer lugar, com o IBM watsonx.data, um armazenamento de dados feito sob medida, construído em uma arquitetura aberta de data lakehouse.

Explore o watsonx.data

Agende uma demonstração em tempo real