¿Qué es Apache Avro?

Empresarios que emplean tabletas digitales en la oficina

¿Qué es Apache Avro?

Avro es un proyecto de código abierto que proporciona servicios de serialización e intercambio de datos para Apache Hadoop. Estos servicios se pueden emplear juntos o de forma independiente.

Avro facilita el intercambio de big data entre programas escritos en cualquier lenguaje. Con el servicio de serialización, los programas pueden serializar eficazmente los datos en archivos o en mensajes. El almacenamiento de datos es compacto y eficiente. Avro almacena tanto la definición de datos como los datos juntos en un mensaje o archivo.

Avro almacena la definición de datos en formato JSON, lo que facilita su lectura e interpretación. Los datos en sí se almacenan en formato binario, lo que los hace compactos y eficientes. Los archivos Avro incluyen marcadores que se pueden usar para dividir grandes conjuntos de datos en subconjuntos adecuados para el procesamiento de Apache MapReduce. Algunos servicios de intercambio de datos usan un generador de código para interpretar la definición de datos y producir código para acceder a los datos. Avro no requiere este paso, por lo que es ideal para lenguajes de scripting.

Una característica clave de Avro es el soporte robusto para esquemas de datos que cambian con el tiempo, a menudo denominado evolución del esquema. Avro maneja los cambios de esquema, como campos faltantes, campos agregados y campos modificados; como resultado, los programas antiguos pueden leer datos nuevos y los programas nuevos pueden leer datos antiguos. Avro incluye API para Java, Python, Ruby, C, C++, entre otros. Los datos almacenados con Avro pueden pasar de programas escritos en diferentes lenguajes, incluso de un lenguaje compilado como, C a un lenguaje de scripting, como Apache Pig.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

Mixture of Experts | 28 de agosto, episodio 70

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Soluciones relacionadas
IBM Knowledge Catalog

Active los datos para IA y analytics con catalogación inteligente y gestión de políticas. IBM Knowledge Catalog es un software de gobernanza de datos que proporciona un catálogo de datos para automatizar el descubrimiento de datos, la gestión de la calidad de los datos y la protección de datos.

Descubrir Knowledge Catalog
Soluciones de IBM Data Intelligence

Transforme rápidamente los datos sin procesar en insights aplicables en la práctica, unifique la gobernanza, la calidad, el linaje y el intercambio de datos, y dote a los consumidores de datos con datos confiables y contextualizados.

Descubra soluciones de inteligencia de datos
Servicios de consultoría en datos y analytics

Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por insights que ofrezca ventajas empresariales.

Descubra los servicios de analytics
Dé el siguiente paso

Encuentre, comprenda y cure datos, y acceda a ellos, así como a recursos de conocimiento y sus relaciones, dondequiera que residan, en la nube u on premises. IBM Knowledge Catalog es un software de gobernanza de datos que proporciona un catálogo de datos para automatizar el descubrimiento de datos, la gestión de la calidad de los datos y la protección de los datos.

Conozca IBM Knowledge Explore las soluciones de inteligencia de datos