Apache Hadoop 是一个开源软件框架,通过使用简单的编程模型,高度可靠地对大型数据集进行分布式处理。Hadoop 以可扩展性著称,基于商用计算机集群,为存储和处理大量结构化、半结构化和非结构化数据提供了一种经济高效的解决方案,而且没有格式要求。
由 Apache Software Foundation 构建的 Hadoop 框架包括:
借助其他开源软件项目完善 Hadoop。
基于 Web 的工具,用于配置、管理和监测 Hadoop 集群。
数据序列化系统。
可扩展的 NoSQL 数据库,旨在消除单点故障。
用于监测大型分布式系统的数据收集系统;构建在 HDFS 和 MapReduce 之上。
用于收集、聚合大量流数据并将其移动至 HDFS 的服务。
可扩展的非关系型分布式数据库,支持大型表的结构化数据存储。
数据仓库基础结构,用于在类似 SQL 的界面中进行数据查询和分析。
可扩展的机器学习和数据挖掘库。
基于 Java 的工作负载调度程序,用于管理 Hadoop 作业。
用于并行计算的高级数据流语言和执行框架。
在 Hadoop 和结构化数据库(例如关系数据库)之间高效传输数据的工具。
统一的 AI 平台,用于在分布式集群中运行机器学习和深度学习工作负载。
基于 YARN 构建的通用数据流编程框架;在 Hadoop 生态系统中用来取代 MapReduce。
适用于分布式应用程序的高性能协调服务。
Apache Hadoop 使用 Java 编写,但开发者可根据大数据项目的要求,自行选择 Python、R 或 Scala 等语言进行编程。其中包含的 Hadoop Streaming 实用程序,允许开发者使用任何脚本或可执行文件作为映射器或还原器来创建和执行 MapReduce 作业。
Apache Spark 也是一个开源的大数据处理框架,经常被拿来与 Hadoop 对比。事实上,Spark 最初是为提高处理性能而构建,扩展了 Hadoop MapReduce 可能支持的计算类型。Spark 使用内存处理,因此比 MapReduce 的读/写能力要快得多。
虽然 Hadoop 最适合批量处理大量数据,但 Spark 既支持批处理,也支持实时数据处理,是流式传输数据和图形计算的理想选择。Hadoop 和 Spark 都有机器学习库,但同样,由于内存处理,Spark 的机器学习速度要快得多。
改善数据驱动型决策:集成实时数据(流式传输音频、视频、社交媒体情绪和点击流数据)以及数据仓库或关系数据库中未使用的其他半结构化和非结构化数据。更全面的数据助您做出更准确的决策。
改进数据访问和分析:为数据科学家、业务线 (LOB) 所有者和开发者提供实时自助访问。Hadoop 可以推动数据科学的发展,这是一个跨学科领域,它使用数据、算法、机器学习和 AI 进行高级分析,以揭示模式并构建预测。
数据卸载与整合:通过将当前未使用的“冷”数据移动至基于 Hadoop 的发行版进行存储,降低企业数据仓库的成本。或者整合整个组织的数据,提高可访问性并降低成本。
支持当今 AI 的预测性和规范性分析。将 Cloudera 的企业级 Hadoop 发行版与集成 IBM 和 Cloudera 产品与服务的单一生态系统相结合,改进数据发现、测试、临时查询和近乎实时的查询。利用 IBM 与 Cloudera 之间的合作来交付企业 Hadoop 解决方案。
使用企业级、符合 ANSI 标准的混合型 SQL-on-Hadoop 引擎来提供大规模并行处理 (MPP) 和高级数据查询功能。
在数据流入时复制数据,文件无需等到完全写入或关闭后再传输。
利用 MongoDB 和 EDB 等领先供应商的开源数据库,提高大数据利用效率并降低成本。