Apache Avro
Offre servizi di serializzazione e di scambio dati per Apache Hadoop
Close up of hands contemporary website developer man typing and writing code for program website and working with partner in office.
Che cos'è Avro?

Avro è un progetto open source che offre servizi di serializzazione e di scambio dati per Hadoop. Questi servizi possono essere utilizzati insieme o in modo indipendente. Avro facilita lo scambio di big data tra programmi scritti in qualsiasi linguaggio. Con il servizio di serializzazione, i programmi possono serializzare i dati in modo efficiente, in file o come messaggi. L'archiviazione dati è compatta ed efficiente. Avro archivia sia la definizione dati, sia i dati collettivamente in un messaggio o file.

Avro archivia la definizione dati in formato JSON, facilitandone la lettura e l'interpretazione; il dato stesso è archiviato in formato binario rendendolo compatto ed efficiente. I file Avro includono marcatori che possono essere utilizzati per suddividere grandi set di dati in sottoinsiemi adatti all'elaborazione Apache MapReduce. Alcuni servizi di scambio dati usano un generatore di codice per interpretare la definizione dati e produrre codice per accedere ai dati. Avro non richiede questa fase, ed è quindi ideale per i linguaggi di script.

Una funzione principale di Avro è la solida assistenza per schemi di dati che si modifica nel tempo — spesso viene chiamato schema evolution. Avro gestisce le modifiche allo schema come campi mancanti, campi aggiunti e campi modificati; ne consegue che i vecchi programmi possono leggere nuovi dati e i nuovi programmi possono leggere dati obsoleti. Avro include API per Java, Python, Ruby, C, C ++ e altri. I dati archiviati utilizzando Avro possono essere trasmessi da programmi scritti in linguaggi diversi, anche da un linguaggio simile a C ad un linguaggio di script simile a Apache Pig.


Soluzioni correlate

Per un'analisi migliore e più veloce con le soluzioni Hadoop di IBM

IBM e Cloudera si sono unite per offrire una distribuzione Hadoop per le aziende, leader del settore, incluso un integrato ecosistema di prodotti e servizi per supportare analisi più veloci su larga scala.