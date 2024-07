Avro ist ein Open-Source-Projekt, das Datenserialisierung und Datenaustauschdienste für Apache Hadoop bereitstellt. Diese Services können zusammen oder unabhängig voneinander genutzt werden. Avro ermöglicht den Austausch von Big Data zwischen Programmen, die in einer beliebigen Sprache geschrieben sind. Mit dem Serialisierungsdienst können Programme Daten effizient in Dateien oder in Nachrichten serialisieren. Die Datenspeicherung ist kompakt und effizient. Avro speichert sowohl die Datendefinition als auch die Daten zusammen in einer Nachricht oder Datei.

Avro speichert die Datendefinition im JSON-Format, wodurch sie leicht gelesen und interpretiert werden können. Die Daten selbst werden im Binärformat gespeichert, wodurch sie kompakt und effizient sind. Avro-Dateien enthalten Markierungen, mit denen große Datensätze in Teilmengen aufgeteilt werden können, die für die Verarbeitung von Apache MapReduce geeignet sind. Einige Datenaustauschdienste verwenden einen Codegenerator, um die Datendefinition zu interpretieren und Code für den Zugriff auf die Daten zu erzeugen. Bei Avro ist dieser Schritt nicht erforderlich, was es ideal für Skriptsprachen macht.

Eine Schlüsselfunktion von Avro ist die robuste Unterstützung von Datenschemata, die sich im Laufe der Zeit ändern – oft als Schema-Evolution bezeichnet. Avro verarbeitet Schemaänderungen wie fehlende Felder, hinzugefügte Felder und geänderte Felder; dadurch können alte Programme neue Daten und neue Programme alte Daten lesen. Avro enthält APIs für Java, Python, Ruby, C, C++ und weitere. Mit Avro gespeicherte Daten können von Programmen, die in verschiedenen Sprachen geschrieben wurden, weitergegeben werden, sogar von einer Compilersprache wie C an eine Skriptsprache wie Apache Pig.