什么是 Apache Hadoop?

什么是 Apache Hadoop?

Apache Hadoop 是一个开源软件框架,由当时就职于雅虎的 Douglas Cutting 开发,该框架使用简单的编程模型提供对大型数据集的高度可靠的分布式处理。

Hadoop 克服了 Nutch 的可扩展性限制,并基于商用计算机集群,为存储和处理大量结构化、半结构化和非结构化数据提供了一种经济高效的解决方案,而且没有格式要求。

包括 Hadoop 在内的数据湖架构可以为您的大数据分析计划提供灵活的数据管理解决方案。Hadoop 是一个开源项目,并遵循分布式计算模型,因此它可以为大数据软件和存储解决方案提供节省预算的定价。

Hadoop 还可以安装在云服务器上,以便更好地管理大数据所需的计算和存储资源。为了更加方便,Linux 操作系统代理、UNIX 操作系统代理和 Windows 操作系统代理是预先配置的,可以自动启动。Amazon Web Services (AWS) 和 Microsoft Azure 等一流云供应商提供了各种解决方案。Cloudera 支持本地和云(包括多个供应商的一个或多个公有云环境选项)中的 Hadoop 工作负载。使用 Hadoop 监控 API来添加、更新、删除和查看集群和集群上的服务,并在 Hadoop 上进行所有其他类型的监控。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

Hadoop 生态系统

由 Apache Software Foundation 构建的 Hadoop 框架包括:

  • Hadoop Common:支持其他 Hadoop 模块的常用实用程序和库。也称为 Hadoop Core。

  • Hadoop HDFS(Hadoop 分布式文件系统):分布式文件系统,用于在商用硬件上存储应用程序数据。HDFS 旨在为 Hadoop 提供容错能力并提供高聚合数据带宽和高吞吐量数据访问。默认情况下,数据块在加载或写入时跨多个节点复制。复制程度可配置:默认复制为三个。HDFS 架构采用 NameNode 来管理文件系统命名空间和文件访问权限,采用多个 DataNode 来管理数据存储。通过支持高可用性,当活动节点发生故障时,可以使用从节点。

  • Hadoop YARN:开源 Apache Hadoop YARN 是一个用于作业调度和集群资源管理的框架,可与 IBM® Spectrum Symphony on Linux®Linux on POWER® 结合使用。YARN 代表“Yet Another Resource Negotiator”(又一个资源谈判专家)。它支持更多工作负载,例如交互式 SQL、高级建模和实时流。

  • Hadoop MapReduce:一种基于 YARN 的系统,可将数据存储在多个源上,并支持并行处理大量数据。MapReduce 提供了多种优化技术来加快作业速度。

  • Hadoop Ozone:专为大数据应用程序设计的可扩展、冗余和分布式对象库。
AI Academy

数据管理是生成式 AI 的秘诀吗?

深入了解为什么高质量数据对于成功使用生成式 AI 至关重要。

支持 Apache 项目

借助其他开源软件项目完善 Hadoop。

Ambari

基于 Web 的工具,用于配置、管理和监测 Hadoop 集群。

Avro

数据序列化系统。

Cassandra

可扩展的 NoSQL 数据库,旨在消除单点故障。

Chukwa

用于监测大型分布式系统的数据收集系统;构建在 HDFS 和 MapReduce 之上。

Flume

用于收集、聚合大量流数据并将其移动至 HDFS 的服务。

HBase

可扩展的非关系型分布式数据库,支持大型表的结构化数据存储。

Hive

一种数据仓库基础架构,用于在类似 SQL 的界面中进行数据查询、表格元数据存储和分析。

Mahout

可扩展的机器学习和数据挖掘库。

Oozie

基于 Java 的工作负载调度程序,用于管理 Hadoop 作业。

Pig

用于并行计算的高级数据流语言和执行框架。

Scoop

在 Hadoop 和结构化数据库(例如关系数据库)之间高效传输数据的工具。

Submarine

统一的 AI 平台,用于在分布式集群中运行机器学习和深度学习工作负载。

Tez

基于 YARN 构建的通用数据流编程框架;在 Hadoop 生态系统中用来取代 MapReduce。

ZooKeeper

适用于分布式应用程序的高性能协调服务。

面向开发者的 Hadoop

Apache Hadoop 使用 Java 编写,但开发人员可根据大数据项目的要求,自行选择 Python、R 或 Scala 等语言进行编程。其中包含的 Hadoop Streaming 实用程序,允许开发人员使用任何脚本或可执行文件作为映射器或还原器来创建和执行 MapReduce 作业。

Spark 与 Hadoop

Apache Spark 也是一个开源的大数据处理框架,经常被拿来与 Hadoop 对比。事实上,Spark 最初是为提高处理性能而构建,扩展了 Hadoop MapReduce 可能支持的计算类型。Spark 使用内存处理,因此比 MapReduce 的读/写能力要快得多。

虽然 Hadoop 最适合批量处理大量数据,但 Spark 既支持批处理,也支持实时数据处理,是流式传输数据和图形计算的理想选择。Hadoop 和 Spark 都有机器学习库,但同样,由于内存处理,Spark 的机器学习速度要快得多。

Hadoop 用例

改善数据驱动型决策:集成实时数据(流式传输音频、视频、社交媒体情绪和点击流数据)以及数据仓库或关系数据库中未使用的其他半结构化和非结构化数据。更全面的数据助您做出更准确的决策。

改进数据访问和分析:为数据科学家、业务线 (LOB) 所有者和开发者提供实时自助访问。Hadoop 可以推动数据科学的发展,这是一个跨学科领域,它使用数据、算法、机器学习和 AI 进行高级分析,以揭示模式并构建预测。

数据卸载与整合:通过将当前未使用的“冷”数据移动至基于 Hadoop 的发行版进行存储,降低企业数据中心的成本。或者整合整个组织的数据,提高可访问性并降低成本。

相关解决方案
数据管理软件和解决方案

设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。

深入了解数据管理解决方案
IBM watsonx.data™

watsonx.data 支持您通过开放、混合和已治理数据,利用您的所有数据(无论位于何处)来扩展分析和 AI。

了解 watsonx.data
数据和分析咨询服务

通过 IBM® Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。

了解分析服务
采取下一步行动

设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。

深入了解数据管理解决方案 了解 watsonx.data