O Apache Hadoop é um framework de software de código aberto que oferece processamento e armazenamento distribuídos de dados para big data. Hadoop utiliza modelos de programação simples e é altamente confiável.
O Hadoop superou as limitações de escalabilidade do Nutch e é criado em clusters de computadores comuns, fornecendo uma solução econômica para armazenar e processar grandes quantidades de dados estruturados, semiestruturados e não estruturados sem requisitos de formato.
Uma arquitetura de data lake que inclui o Hadoop pode oferecer uma solução de gerenciamento de dados flexível para suas iniciativas de análise de dados de big data .
Uma arquitetura de data lake que inclui o Hadoop pode oferecer uma solução de gerenciamento de dados flexível para suas iniciativas de análise de big data.
O Hadoop pode ser instalado também em servidores de nuvem, para gerenciar melhor os recursos de computação e armazenamento necessários para big data. Para maior conveniência, o agente do SO Linux, o agente do SO UNIX e o agente do SO Windows são pré-configurados e podem ser iniciados automaticamente. Os principais fornecedores de nuvem, como a Amazon Web Services (AWS) e o Microsoft Azure, oferecem soluções. O Cloudera aceita cargas de trabalho do Hadoop no local e na nuvem, incluindo opções para um ou mais ambientes de nuvem pública de vários fornecedores. Use APIs de monitoramento do Hadoop para adicionar, atualizar, excluir e visualizar os clusters e serviços nos clusters e para todos os outros tipos de monitoramento no Hadoop.
O framework do Hadoop, construído pela Apache Software Foundation, inclui:
Melhore o Hadoop com mais projetos de software de código aberto.
Ferramenta baseada na web para provisionar, gerenciar e monitorar clusters do Hadoop.
Sistema de serialização de dados.
Um banco de dados NoSQL escalável, projetado de forma que nenhum componente único seja crítico para o funcionamento do sistema.
Sistema de coleta de dados para monitoramento de grandes sistemas distribuídos, construído no HDFS e MapReduce.
Serviço para coleta, agregação e movimentação de grandes quantidades de dados de streaming para HDFS.
Banco de dados distribuído não relacional e escalável, que viabiliza o armazenamento estruturado de dados para tabelas muito grandes.
Uma infraestrutura de data warehouse para consulta de dados, armazenamento de metadados para tabelas e análise em uma interface semelhante a SQL.
Biblioteca escalável de aprendizado de máquina e mineração de dados.
Workload Scheduler baseado em Java para gerenciar tarefas do Hadoop.
Linguagem e framework de execução de fluxo de dados de alto nível para computação paralela.
Ferramenta para transferência eficiente de dados entre o Hadoop e armazenamento de dados estruturados, tais como os bancos de dados relacionais.
Plataforma unificada de IA para executar cargas de trabalho de aprendizado de máquina e deep learning em um cluster distribuído.
Framework de programação de fluxo de dados generalizada, construída em YARN, adotada no ecossistema do Hadoop para substituir o MapReduce.
Serviço de coordenação de alto desempenho para aplicações distribuídas.
O Apache Hadoop foi escrito em Java, mas dependendo do projeto de big data, os desenvolvedores podem programar na linguagem que preferirem, como Python, R ou Scala. O utilitário incluído para streaming do Hadoop permite que os desenvolvedores criem e executem trabalhos MapReduce com qualquer script ou executável como mapeador ou redutor.
O Apache Spark costuma ser comparado ao Hadoop pois também é um framework de código aberto para processamento de big data.
Na verdade, o Spark foi construído inicialmente para melhorar o desempenho do processamento e ampliar os tipos de cálculos possíveis com o Hadoop MapReduce. O Spark faz o processamento na memória e isso o deixa muito mais rápido do que os recursos de leitura/gravação do MapReduce.
Embora o Hadoop seja melhor para processamento de grandes volumes de dados em lote, o Spark permite o processamento de dados em lote e em tempo real e é ideal para streaming de dados e cálculos gráficos. Tanto o Hadoop quanto o Spark oferecem bibliotecas de aprendizado de máquina, mas, repetindo, devido ao processamento na memória, o aprendizado de máquina do Spark é muito mais rápido.
Melhores decisões baseadas em dados: integre fluxo de dados em tempo real (áudio, vídeo, sentimento nas redes sociais e dados de fluxo de cliques) e outros dados semiestruturados e não estruturados não utilizados em data warehouses ou bancos de dados relacionais. Dados mais abrangentes viabilizam decisões mais precisas.
Melhor acesso e análises de dados : proporcione acesso por autoatendimento e em tempo real para seus cientistas de dados, responsáveis por linhas de negócios (LOB) e desenvolvedores. O Hadoop pode alimentar a ciência de dados, um campo interdisciplinar que utiliza dados, algoritmos, aprendizado de máquina e IA para realizar análises avançadas, revelar padrões e fazer previsões.
Descarregamento e consolidação de dados: simplifique os custos nos data centers da sua empresa migrando dados "frios" que não estão em uso atualmente para uma distribuição baseada em Hadoop para armazenamento. Ou consolide os dados em toda a organização para aumentar a acessibilidade e reduzir os custos.
Crie uma estratégia de dados que elimine silos de dados, reduza a complexidade e melhore a qualidade de dados para proporcionar experiências excepcionais para clientes e funcionários.
O watsonx.data permite escalar a análise de dados e a IA com todos os seus dados, onde quer que estejam, por meio de um armazenamento de dados aberto, híbrido e governado.
Libere o valor dos dados empresariais com a IBM Consulting, construindo uma organização baseada em insights que ofereça vantagens para os negócios.