Qu’est-ce qu’Apache Avro ?

Qu’est-ce qu’Avro ?

Avro est un projet open source qui fournit des services de sérialisation et d’échange de données pour Apache Hadoop. Ces services peuvent être utilisés ensemble ou indépendamment.

Avro facilite l’échange de big data entre tous les programmes, quel que soit le langage utilisé. Grâce au service de sérialisation, les programmes peuvent sérialiser efficacement les données dans des fichiers ou des messages. Le stockage des données est compact et efficace. Avro stocke à la fois la définition des données et les données dans un seul message ou fichier.

Avro stocke la définition des données au format JSON, ce qui facilite sa lecture et son interprétation. Les données elles-mêmes sont stockées dans un format binaire, ce qui les rend compactes et efficaces. Les fichiers Avro incluent des marqueurs qui peuvent être utilisés pour diviser de grands jeux de données en sous-ensembles adaptés au traitement Apache MapReduce. Certains services d’échange de données emploient un générateur de code pour interpréter la définition des données et produisent du code pour accéder aux données. Avec Avro, cette étape est inutile, ce qui le rend idéal pour les langages de script.

L’une des principales caractéristiques d’Avro, c’est la prise en charge robuste des schémas de données qui changent au fil du temps, ce que l’on appelle souvent l’évolution du schéma. Avro gère les changements apportés au schéma : champs manquants, champs ajoutés et champs modifiés. Par conséquent, les anciens programmes peuvent lire de nouvelles données, et les nouveaux programmes peuvent lire les anciennes données. Avro inclut des API pour Java, Python, Ruby, C, C++ et d’autres langages. Les données stockées à l’aide d’Avro peuvent être transmises à partir de programmes écrits dans différents langages, même à partir d’un langage compilé comme C vers un langage de script comme Apache Pig.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets. 

Mixture of Experts | 25 avril, épisode 52

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Solutions connexes
IBM Knowledge Catalog

Générez des données pour l’IA et l’analytique grâce au catalogage intelligent et à la gestion des politiques. IBM Knowledge Catalog est un logiciel de gouvernance des données qui fournit un catalogue permettant d’automatiser la découverte des données, la gestion de leur qualité et leur protection.

Découvrir Knowledge Catalog
Solutions IBM Data Intelligence

Transformez rapidement les données brutes en informations exploitables, unifiez la gouvernance, la qualité, la traçabilité et le partage des données, et offrez aux consommateurs des données fiables et contextualisées.

Découvrir les solutions d’intelligence des données
Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique
Passez à l’étape suivante

Trouvez, comprenez, organisez et bénéficiez d'un accès aux données, aux actifs de connaissances et à leurs relations, où qu’ils se trouvent, dans le cloud ou sur site. IBM Knowledge Catalog est un logiciel de gouvernance des données qui fournit un catalogue permettant d’automatiser la découverte des données, la gestion de leur qualité et leur protection.

Découvrir IBM Knowledge Catalog Découvrir les solutions d’intelligence des données