Avro adalah proyek sumber terbuka yang menyediakan layanan serialisasi data dan pertukaran data untuk Apache Hadoop. Layanan ini dapat digunakan bersama atau secara independen.
Avro memfasilitasi pertukaran big data antara program yang ditulis dalam bahasa apa pun. Dengan layanan serialisasi, program dapat secara efisien melakukan serialisasi data ke dalam file atau ke dalam pesan. Penyimpanan datanya ringkas dan efisien. Avro menyimpan definisi data dan data bersama-sama dalam satu pesan atau file.
Avro menyimpan definisi data dalam format JSON sehingga mudah dibaca dan ditafsirkan; data itu sendiri disimpan dalam format biner sehingga ringkas dan efisien. File Avro menyertakan penanda yang dapat digunakan untuk membagi kumpulan data besar menjadi subset yang cocok untuk pemrosesan Apache MapReduce . Beberapa layanan pertukaran data menggunakan generator kode untuk menafsirkan definisi data dan menghasilkan kode untuk mengakses data. Avro tidak memerlukan langkah ini, sehingga ideal untuk bahasa skrip.
Fitur utama Avro adalah dukungan kuat untuk skema data yang berubah dari waktu ke waktu—sering disebut evolusi skema. Avro menangani perubahan skema seperti bidang yang hilang, bidang yang ditambahkan, dan bidang yang diubah; sebagai hasilnya, program lama dapat membaca data baru dan program baru dapat membaca data lama. Avro menyertakan API untuk Java, Python, Ruby, C, C ++ dan banyak lagi. Data yang disimpan menggunakan Avro dapat diteruskan dari program yang ditulis dalam bahasa yang berbeda, bahkan dari bahasa yang dikompilasi seperti C ke bahasa skrip seperti Apache Pig.
Pelajari blok bangunan dan praktik terbaik untuk membantu tim Anda mempercepat AI yang bertanggung jawab.
Daftar untuk mendapatkan laporan IDC
IBM dan Cloudera telah bermitra untuk menawarkan distribusi Hadoop kelas perusahaan yang terdepan di industri ini, termasuk ekosistem produk dan layanan terintegrasi untuk mendukung analitik yang lebih cepat dalam skala besar.
Jelajahi pendekatan terbaik di kelasnya untuk manajemen data dan bagaimana perusahaan memprioritaskan teknologi data untuk mendorong pertumbuhan dan efisiensi.
Baca pengantar praktis ini untuk arsitektur data generasi berikutnya. Buku ini memperkenalkan peran teknologi cloud dan NoSQL serta membahas kepraktisan keamanan, privasi, dan tata kelola.