Outre sa spécification ouverte, Iceberg intègre aussi un ensemble d’API et de bibliothèques qui permet aux moteurs de stockage, de requête et d’exécution d’interagir de manière optimale avec les tables suivant ce format.
Le format de table Iceberg fait désormais partie intégrante de l’écosystème big data. Cela est dû en grande partie à ses nombreuses fonctionnalités. En exploitant les métadonnées de chaque table, Iceberg permet de modifier facilement le schéma et le partitionnement, mais aussi d’accéder aux versions historiques de la table, sans réécriture ou migration coûteuses. Ce format prend en charge différents systèmes de stockage et sources de données, sans dépendance au système de fichier.
Créé par des ingénieurs de données de Netflix et Apple en 2017 pour combler les lacunes d’Apache Hive, Iceberg a été publié en open source et donné à l’Apache Software Foundation l’année suivante. En 2020, le projet Iceberg est devenu un « top-level project » Apache.
La vitesse, l’efficacité, la fiabilité et la convivialité d’Apache Iceberg simplifient le traitement des données à toutes les échelles. Ces atouts en ont fait un format de table de choix pour un certain nombre d’entrepôts de données, de data lakes et de data lakehouses de premier plan, dont IBM watsonx.data, Netezza et Db2 warehouse.