Apache Avro
为 Apache Hadoop 提供数据序列化和数据交换服务
Close up of hands contemporary website developer man typing and writing code for program website and working with partner in office.
什么是 Avro?

Avro 是一个开源项目,用于为 Hadoop 提供数据序列号和数据交换服务。 这些服务可以一起使用,也可以单独使用。 Avro 简化了在以任何语言编写的程序之间交换大数据的过程。 借助序列化服务,程序可以将数据高效地序列化为文件或消息。 数据存储非常紧凑且高效。 Avro 将数据定义和数据存储在一条消息或一个文件中。

Avro 以 JSON 格式存储数据定义,使其便于阅读和解释;数据本身以二进制格式存储,以达到紧凑且高效的目的。 Avro 文件包含可用于将大型数据集拆分为适用于 Apache MapReduce 处理的子集的标记。 一些数据交换服务使用代码生成器来解释数据定义并生成代码以访问数据。 Avro 不需要此步骤,因而成为脚本编制语言的理想之选。

Avro 的一个主要功能是可对随时间变化的数据模式(通常称为模式演进)提供强大支持。 Avro 可处理类似缺少字段、添加字段和更改字段等的模式更改;因此,原有程序可读取新数据,新程序也可以读取原有数据。 Avro 包含适用于 Java、Python、Ruby、C、C++ 等的 API。 通过 Avro 存储的数据可从不同语言编写的程序进行传递,甚至从诸如 C 这样的编译式语言传递到 Apache Pig 一类的脚本编制语言。

相关解决方案
使用 IBM 的 Hadoop 解决方案更好、更快地进行分析

IBM 和 Cloudera 合作提供了一个行业领先的企业级 Hadoop 分发版,包括产品和服务的集成生态系统,以支持更快的大规模分析。

与 IBM 一起探索大数据机会
资源 数据仓库的演变:卓越分析的基础

探索业内最佳的数据管理方法,以及公司如何对数据技术划分优先级,以推动发展,提高效率。

在宣传炒作下真正认清大数据

阅读对下一代数据架构的这一实用简介。 其中引入了云的角色以及 NoSQL 技术,讨论了安全、隐私和监管的实际情况。 (PDF, 6.2 MB)

了解最新资讯,保持联系
探索 Hadoop 认知课程