Apache Hadoop 是一个开源软件框架,由当时就职于雅虎的 Douglas Cutting 开发,该框架使用简单的编程模型提供对大型数据集的高度可靠的分布式处理。
Hadoop 克服了 Nutch 的可扩展性限制,并基于商用计算机集群,为存储和处理大量结构化、半结构化和非结构化数据提供了一种经济高效的解决方案,而且没有格式要求。
包括 Hadoop 在内的数据湖架构可以为您的大数据分析计划提供灵活的数据管理解决方案。Hadoop 是一个开源项目,并遵循分布式计算模型,因此它可以为大数据软件和存储解决方案提供节省预算的定价。
Hadoop 还可以安装在云服务器上,以便更好地管理大数据所需的计算和存储资源。为了更加方便,Linux 操作系统代理、UNIX 操作系统代理和 Windows 操作系统代理是预先配置的,可以自动启动。Amazon Web Services (AWS) 和 Microsoft Azure 等一流云供应商提供了各种解决方案。Cloudera 支持本地和云(包括多个供应商的一个或多个公有云环境选项)中的 Hadoop 工作负载。使用 Hadoop 监控 API来添加、更新、删除和查看集群和集群上的服务,并在 Hadoop 上进行所有其他类型的监控。
了解将湖仓一体战略集成到数据架构的强大之处,其中包括用于扩展 AI 的增强功能以及成本优化机会。
立即注册,获取 AI 治理白皮书
由 Apache Software Foundation 构建的 Hadoop 框架包括:
借助其他开源软件项目完善 Hadoop。
基于 Web 的工具,用于配置、管理和监测 Hadoop 集群。
数据序列化系统。
可扩展的 NoSQL 数据库,旨在消除单点故障。
用于监测大型分布式系统的数据收集系统;构建在 HDFS 和 MapReduce 之上。
用于收集、聚合大量流数据并将其移动至 HDFS 的服务。
可扩展的非关系型分布式数据库,支持大型表的结构化数据存储。
一种数据仓库基础架构,用于在类似 SQL 的界面中进行数据查询、表格元数据存储和分析。
可扩展的机器学习和数据挖掘库。
基于 Java 的工作负载调度程序,用于管理 Hadoop 作业。
用于并行计算的高级数据流语言和执行框架。
在 Hadoop 和结构化数据库(例如关系数据库)之间高效传输数据的工具。
统一的 AI 平台,用于在分布式集群中运行机器学习和深度学习工作负载。
基于 YARN 构建的通用数据流编程框架;在 Hadoop 生态系统中用来取代 MapReduce。
适用于分布式应用程序的高性能协调服务。
Apache Hadoop 使用 Java 编写,但开发人员可根据大数据项目的要求,自行选择 Python、R 或 Scala 等语言进行编程。其中包含的 Hadoop Streaming 实用程序,允许开发人员使用任何脚本或可执行文件作为映射器或还原器来创建和执行 MapReduce 作业。
Apache Spark 也是一个开源的大数据处理框架,经常被拿来与 Hadoop 对比。事实上,Spark 最初是为提高处理性能而构建,扩展了 Hadoop MapReduce 可能支持的计算类型。Spark 使用内存处理,因此比 MapReduce 的读/写能力要快得多。
虽然 Hadoop 最适合批量处理大量数据,但 Spark 既支持批处理,也支持实时数据处理,是流式传输数据和图形计算的理想选择。Hadoop 和 Spark 都有机器学习库,但同样,由于内存处理,Spark 的机器学习速度要快得多。
改善数据驱动型决策:集成实时数据(流式传输音频、视频、社交媒体情绪和点击流数据)以及数据仓库或关系数据库中未使用的其他半结构化和非结构化数据。更全面的数据助您做出更准确的决策。
改进数据访问和分析:为数据科学家、业务线 (LOB) 所有者和开发者提供实时自助访问。Hadoop 可以推动数据科学的发展,这是一个跨学科领域,它使用数据、算法、机器学习和 AI 进行高级分析,以揭示模式并构建预测。
数据卸载与整合:通过将当前未使用的“冷”数据移动至基于 Hadoop 的发行版进行存储,降低企业数据中心的成本。或者整合整个组织的数据,提高可访问性并降低成本。
支持当今 AI 的预测性和规范性分析。将 Cloudera 的企业级 Hadoop 发行版与集成 IBM 和 Cloudera 产品与服务的单一生态系统相结合,改进数据发现、测试、临时查询和近乎实时的查询。利用 IBM 与 Cloudera 之间的合作来交付企业 Hadoop 解决方案。
使用企业级、符合 ANSI 标准的混合型 SQL-on-Hadoop 引擎来提供大规模并行处理 (MPP) 和高级数据查询功能。
在数据流入时复制数据,文件无需等到完全写入或关闭后再传输。
利用 MongoDB 和 EDB 等领先供应商的开源数据库,提高大数据利用效率并降低成本。