Apache Avro
Bietet Datenserialisierung und Datenaustauschdienste für Apache Hadoop
Close up of hands contemporary website developer man typing and writing code for program website and working with partner in office.
Was ist Avro?

Avro ist ein Open-Source-Projekt, das Datenserialisierung und Datenaustauschdienste für Apache Hadoop bereitstellt. Diese Services können zusammen oder unabhängig voneinander genutzt werden. Avro ermöglicht den Austausch von Big Data zwischen Programmen, die in einer beliebigen Sprache geschrieben sind. Mit dem Serialisierungsdienst können Programme Daten effizient in Dateien oder in Nachrichten serialisieren. Die Datenspeicherung ist kompakt und effizient. Avro speichert sowohl die Datendefinition als auch die Daten zusammen in einer Nachricht oder Datei.

Avro speichert die Datendefinition im JSON-Format, wodurch sie leicht gelesen und interpretiert werden können. Die Daten selbst werden im Binärformat gespeichert, wodurch sie kompakt und effizient sind. Avro-Dateien enthalten Markierungen, mit denen große Datensätze in Teilmengen aufgeteilt werden können, die für die Verarbeitung von Apache MapReduce geeignet sind. Einige Datenaustauschdienste verwenden einen Codegenerator, um die Datendefinition zu interpretieren und Code für den Zugriff auf die Daten zu erzeugen. Bei Avro ist dieser Schritt nicht erforderlich, was es ideal für Skriptsprachen macht.

Eine Schlüsselfunktion von Avro ist die robuste Unterstützung von Datenschemata, die sich im Laufe der Zeit ändern – oft als Schema-Evolution bezeichnet. Avro verarbeitet Schemaänderungen wie fehlende Felder, hinzugefügte Felder und geänderte Felder; dadurch können alte Programme neue Daten und neue Programme alte Daten lesen. Avro enthält APIs für Java, Python, Ruby, C, C++ und weitere. Mit Avro gespeicherte Daten können von Programmen, die in verschiedenen Sprachen geschrieben wurden, weitergegeben werden, sogar von einer Compilersprache wie C an eine Skriptsprache wie Apache Pig.

Relevante Lösungen
Bessere und schnellere Analysen mit Hadoop-Lösungen von IBM

IBM und Cloudera haben sich zusammengeschlossen, um eine branchenführende, unternehmensgerechte Hadoop-Distribution anzubieten, einschließlich eines integrierten Ökosystems von Produkten und Dienstleistungen zur Unterstützung schnellerer Analysen im großen Maßstab.

Entdecken Sie Möglichkeiten von Big Data mit IBM
Ressourcen Das Data Warehouse hat sich weiterentwickelt: Eine Grundlage für analytische Spitzenleistungen

Erfahren Sie mehr über einen leistungsfähigen Ensatz für das Datenmanagement und darüber, wie Unternehmen Datentechnologien einsetzen, um Wachstum und Effizienz zu steigern.

Big Data jenseits des Hypes verstehen

Lesen Sie diese praktische Einführung in die nächste Generation von Datenarchitekturen. Sie führt in die Rolle der Cloud und der NoSQL-Technologien ein und erörtert die praktischen Aspekte von Sicherheit, Datenschutz und Governance. (PDF, 6.2 MB)

Kontakt
Hadoop erkunden Kognitive Klasse