什么是 Apache Hadoop?
订阅 IBM 时事通讯
坐在办公桌前使用笔记本电脑的人

Apache Hadoop 是一个开源软件框架,通过使用简单的编程模型,高度可靠地对大型数据集进行分布式处理。Hadoop 以可扩展性著称,基于商用计算机集群,为存储和处理大量结构化、半结构化和非结构化数据提供了一种经济高效的解决方案,而且没有格式要求。

包括 Hadoop 在内的数据湖架构可以为您的大数据分析计划提供灵活的数据管理解决方案。Hadoop 是一个开源软件项目,并遵循分布式计算模型,因此可以降低大数据软件和存储解决方案的总体拥有成本。

Hadoop 还可以安装在云服务器上,以便更好地管理大数据所需的计算和存储资源。Amazon Web Services (AWS) 和 Microsoft Azure 等一流云供应商提供了各种解决方案。Cloudera 支持本地和云(包括多个供应商的一个或多个公共云环境选项)中的 Hadoop 工作负载。

Hadoop 生态系统

由 Apache Software Foundation 构建的 Hadoop 框架包括:

  • Hadoop Common:支持其他 Hadoop 模块的常用实用程序和库。也称为 Hadoop Core。

  • Hadoop HDFS(Hadoop 分布式文件系统):分布式文件系统,用于在商用硬件上存储应用程序数据。它提供高吞吐量的数据访问能力和高容错能力。HDFS 架构采用 NameNode 来管理文件系统命名空间和文件访问权限,采用多个 DataNode 来管理数据存储。

  • Hadoop YARN:用于管理集群资源和调度作业的框架。YARN 代表“Yet Aanother Resource Negotiator”(又一个资源谈判专家)。它支持更多工作负载,例如交互式 SQL、高级建模和实时流。

  • Hadoop MapReduce:基于 YARN 的系统,用于并行处理大型数据集。

  • Hadoop Ozone:专为大数据应用程序设计的可扩展、冗余和分布式对象库。
支持 Apache 项目

借助其他开源软件项目完善 Hadoop。

Ambari

基于 Web 的工具,用于配置、管理和监测 Hadoop 集群。

Avro

数据序列化系统。

了解 Avro
Cassandra

可扩展的 NoSQL 数据库,旨在消除单点故障。

Chukwa

用于监测大型分布式系统的数据收集系统;构建在 HDFS 和 MapReduce 之上。

Flume

用于收集、聚合大量流数据并将其移动至 HDFS 的服务。

HBase

可扩展的非关系型分布式数据库,支持大型表的结构化数据存储。

了解 HBase
Hive

数据仓库基础结构,用于在类似 SQL 的界面中进行数据查询和分析。

Mahout

可扩展的机器学习和数据挖掘库。

Oozie

基于 Java 的工作负载调度程序,用于管理 Hadoop 作业。

Pig

用于并行计算的高级数据流语言和执行框架。

Scoop

在 Hadoop 和结构化数据库(例如关系数据库)之间高效传输数据的工具。

Submarine

统一的 AI 平台,用于在分布式集群中运行机器学习和深度学习工作负载。

Tez

基于 YARN 构建的通用数据流编程框架;在 Hadoop 生态系统中用来取代 MapReduce。

ZooKeeper

适用于分布式应用程序的高性能协调服务。

面向开发者的 Hadoop

Apache Hadoop 使用 Java 编写,但开发者可根据大数据项目的要求,自行选择 Python、R 或 Scala 等语言进行编程。其中包含的 Hadoop Streaming 实用程序,允许开发者使用任何脚本或可执行文件作为映射器或还原器来创建和执行 MapReduce 作业。

Spark 与 Hadoop

Apache Spark 也是一个开源的大数据处理框架,经常被拿来与 Hadoop 对比。事实上,Spark 最初是为提高处理性能而构建,扩展了 Hadoop MapReduce 可能支持的计算类型。Spark 使用内存处理,因此比 MapReduce 的读/写能力要快得多。

虽然 Hadoop 最适合批量处理大量数据,但 Spark 既支持批处理,也支持实时数据处理,是流式传输数据和图形计算的理想选择。Hadoop 和 Spark 都有机器学习库,但同样,由于内存处理,Spark 的机器学习速度要快得多。

了解有关 Apache Spark 的更多信息
Hadoop 用例

改善数据驱动型决策:集成实时数据(流式传输音频、视频、社交媒体情绪和点击流数据)以及数据仓库或关系数据库中未使用的其他半结构化和非结构化数据。更全面的数据助您做出更准确的决策。

改进数据访问和分析:为数据科学家、业务线 (LOB) 所有者和开发者提供实时自助访问。Hadoop 可以推动数据科学的发展,这是一个跨学科领域,它使用数据、算法、机器学习和 AI 进行高级分析,以揭示模式并构建预测。

数据卸载与整合:通过将当前未使用的“冷”数据移动至基于 Hadoop 的发行版进行存储,降低企业数据仓库的成本。或者整合整个组织的数据,提高可访问性并降低成本。

相关解决方案
{通用产品类别标签} IBM 和 Cloudera

支持当今 AI 的预测性和规范性分析。将 Cloudera 的企业级 Hadoop 发行版与集成 IBM 和 Cloudera 产品与服务的单一生态系统相结合,改进数据发现、测试、临时查询和近乎实时的查询。利用 IBM 与 Cloudera 之间的合作来交付企业 Hadoop 解决方案。

深入了解 IBM 和 Cloudera

{通用产品类别标签} IBM® Db2® Big SQL

使用企业级、符合 ANSI 标准的混合型 SQL-on-Hadoop 引擎来提供大规模并行处理 (MPP) 和高级数据查询功能。

深入了解 Db2 Big SQL

{通用产品类别标签} IBM Big Replicate

在数据流入时复制数据,文件无需等到完全写入或关闭后再传输。

深入了解 Big Replicate
开源数据库

利用 MongoDB 和 EDB 等领先供应商的开源数据库,提高大数据利用效率并降低成本。

深入了解开源数据库

资源 IBM + Cloudera

了解他们如何利用企业级、安全、已治理的开源数据湖推动高级分析。

如何连接更多数据

将数据湖融入数据管理策略中,以便集成更多非结构化数据,获得更深入的洞察分析。

面向 AI 的、强大的已治理数据湖

深入了解数据湖需要使用哪些存储和治理技术来提供 AI 就绪的数据。

数据湖治理

了解经过验证的治理解决方案如何为数据湖改善数据集成,提高质量和安全性。

大数据分析课程

根据自身技能水平,从数据科学、AI、大数据等免费课程中选择自己的学习路径。

开源社区

加入 IBM 开源数据管理社区,获得协作机会、资源等。

采取后续步骤

IBM 与 Cloudera 携手合作,使用开源生态系统创建行业领先的企业级数据与 AI 服务,旨在加速大规模数据处理和分析。协作构建各种模型,并应用于流式流程,实时分析海量数据。了解您的各种数据(非结构化文本、视频、音频、地理空间数据和传感器数据),助您即时发现机会和风险。

深入了解 IBM 和 Cloudera 解决方案