O Apache Hadoop é uma estrutura de software de código aberto desenvolvida por Douglas Cutting, que na época trabalhava no Yahoo, que fornece o processamento distribuído altamente confiável de grandes conjuntos de dados usando modelos de programação simples.
O Hadoop superou as limitações de escalabilidade do Nutch e é criado em clusters de computadores comuns, fornecendo uma solução econômica para armazenar e processar grandes quantidades de dados estruturados, semiestruturados e não estruturados sem requisitos de formato.
Uma arquitetura de data lake que inclui o Hadoop pode oferecer uma solução de gerenciamento de dados flexível para suas iniciativas de análise de big data. Como o Hadoop é um projeto de código aberto e segue um modelo de computação distribuída, ele pode oferecer preços econômicos para uma solução de software e armazenamento de big data.
O Hadoop pode ser instalado também em servidores de nuvem, para melhor gerenciar os recursos de computação e armazenamento necessários para big data. Para maior conveniência, o agente do sistema operacional Linux, o agente do sistema operacional UNIX e o agente do sistema operacional Windows são pré-configurados e podem ser iniciados automaticamente. Os principais fornecedores de nuvem, como a Amazon Web Services (AWS) e o Microsoft Azure, oferecem soluções. O Cloudera aceita cargas de trabalho do Hadoop no local e na nuvem, incluindo opções para um ou mais ambientes de nuvem pública de vários fornecedores. Use APIs de monitoramento Hadoop para adicionar, atualizar, excluir e visualizar os clusters e serviços nos clusters e para todos os outros tipos de monitoramento no Hadoop.
Descubra o poder de integrar uma estratégia de data lakehouse em sua arquitetura de dados, incluindo aprimoramentos para escalar oportunidades de IA e otimização de custos.
Registre-se para o white paper sobre governança de IA
O framework do Hadoop, construído pela Apache Software Foundation, inclui:
Melhore o Hadoop com mais projetos de software de código aberto.
Ferramenta baseada na web para provisionar, gerenciar e monitorar clusters do Hadoop.
Sistema de serialização de dados.
Um banco de dados NoSQL escalável, projetado de forma que nenhum componente único seja crítico para o funcionamento do sistema.
Sistema de coleta de dados para monitoramento de grandes sistemas distribuídos, construído no HDFS e MapReduce.
Serviço para coleta, agregação e movimentação de grandes quantidades de dados de streaming para HDFS.
Banco de dados distribuído não relacional e escalável, que viabiliza o armazenamento estruturado de dados para tabelas muito grandes.
Uma infraestrutura de data warehouse para consulta de dados, armazenamento de metadados para tabelas e análise em uma interface semelhante a SQL.
Biblioteca escalável de aprendizado de máquina e mineração de dados.
Workload Scheduler baseado em Java para gerenciar tarefas do Hadoop.
Linguagem e framework de execução de fluxo de dados de alto nível para computação paralela.
Ferramenta para transferência eficiente de dados entre o Hadoop e armazenamento de dados estruturados, tais como os bancos de dados relacionais.
Plataforma unificada de IA para executar cargas de trabalho de aprendizado de máquina e deep learning em um cluster distribuído.
Framework de programação de fluxo de dados generalizada, construída em YARN, adotada no ecossistema do Hadoop para substituir o MapReduce.
Serviço de coordenação de alto desempenho para aplicações distribuídas.
O Apache Hadoop foi escrito em Java, mas dependendo do projeto de big data, os desenvolvedores podem programar na linguagem que preferirem, como Python, R ou Scala. O utilitário incluído para streaming do Hadoop permite que os desenvolvedores criem e executem trabalhos MapReduce com qualquer script ou executável como mapeador ou redutor.
O Apache Spark costuma ser comparado ao Hadoop pois também é um framework de código aberto para processamento de big data. Na verdade, o Spark foi construído inicialmente para melhorar o desempenho do processamento e ampliar os tipos de cálculos possíveis com o Hadoop MapReduce. O Spark faz o processamento na memória e isso o deixa muito mais rápido do que os recursos de leitura/gravação do MapReduce.
Embora o Hadoop seja melhor para processamento de grandes volumes de dados em lote, o Spark permite o processamento de dados em lote e em tempo real e é ideal para streaming de dados e cálculos gráficos. Tanto o Hadoop quanto o Spark oferecem bibliotecas de aprendizado de máquina, mas, repetindo, devido ao processamento na memória, o aprendizado de máquina do Spark é muito mais rápido.
Melhores decisões baseadas em dados: integre fluxo de dados em tempo real (áudio, vídeo, sentimento nas redes sociais e dados de fluxo de cliques) e outros dados semiestruturados e não estruturados não utilizados em data warehouses ou bancos de dados relacionais. Dados mais abrangentes viabilizam decisões mais precisas.
Melhor acesso e análises de dados : proporcione acesso por autoatendimento e em tempo real para seus cientistas de dados, responsáveis por linhas de negócios (LOB) e desenvolvedores. O Hadoop pode alimentar a ciência de dados, um campo interdisciplinar que utiliza dados, algoritmos, aprendizado de máquina e IA para realizar análises avançadas, revelar padrões e fazer previsões.
Descarregamento e consolidação de dados: simplifique os custos nos data centers da sua empresa migrando dados "frios" que não estão em uso atualmente para uma distribuição baseada em Hadoop para armazenamento. Ou consolide os dados em toda a organização para aumentar a acessibilidade e reduzir os custos.
Viabilize a análise de dados preditiva e prescritiva para a IA atual. Combine a distribuição do Hadoop de nível corporativo do Cloudera com um único ecossistema integrado de produtos e serviços da IBM e do Cloudera para aperfeiçoar a descoberta de dados, testes, consultas quase em tempo real e pontuais. Aproveite a colaboração entre a IBM e o Cloudera para fornecer soluções empresariais do Hadoop.
Utilize um mecanismo de SQL-no-Hadoop de nível corporativo, híbrido, compatível com ANSI, para oferecer processamento paralelo em massa (MPP) e consulta de dados avançada.
Replique os dados enquanto são transmitidos, para que não haja necessidade de gravar ou fechar totalmente os arquivos antes da transferência.
Aproveite o big data de maneira mais econômica com bancos de dados de código aberto de grandes fornecedores como MongoDB e EDB.
Veja como eles estão conduzindo análises de dados avançadas com um data lake de nível corporativo, seguro, governado e baseado em código aberto.
Adicione um data lake à sua estratégia de gerenciamento de dados para integrar mais dados não estruturados e obter insights mais aprofundados.
Conheça a tecnologia de armazenamento e governança necessária para que seu data lake ofereça dados preparados para a IA.
Veja como soluções de governança comprovadas podem gerar melhor integração, qualidade e segurança de dados para seus data lakes.
Escolha o seu caminho de aprendizado com base no nível de conhecimento, com cursos sem custo sobre ciência de dados, IA, big data e mais opções.
Participe da comunidade da IBM de gerenciamento de dados de código aberto para ter colaboração, recursos e mais opções.