Además de su especificación de formato de tabla abierta, Iceberg también comprende un conjunto de API y bibliotecas que permiten que los motores de almacenamiento, los motores de consulta y los motores de ejecución interactúen sin problemas con las tablas que siguen ese formato.
El formato de tabla Iceberg se convirtió en una parte integral del ecosistema de big data , en gran parte debido a su capacidad para proporcionar funciones que normalmente no están disponibles con otros formatos de tabla. Empleando una gran cantidad de metadatos almacenados en cada tabla, Iceberg permite la evolución del esquema , la evolución de la división y la reversión de una versión de la tabla sin la necesidad de costosas reescrituras de tablas o migraciones de tablas. Es totalmente independiente del sistema de almacenamiento, con soporte para múltiples fuentes de datos y sin dependencias del sistema de archivos.
Originalmente creado por ingenieros de datos en Netflix y Apple en 2017 para abordar las deficiencias de Apache Hive, Iceberg se hizo con código abierto y se donó a la Apache Software Foundation al año siguiente. Se convirtió en un proyecto Apache de nivel superior en 2020.
La velocidad, eficacia, fiabilidad y facilidad de uso de Apache Iceberg ayudan a simplificar y coordinar el procesamiento de datos a cualquier escala. Estas fortalezas lo han convertido en un formato de tabla de elección para una serie de data warehouses líderes, data lakes y data lakehouses, incluyendo IBM watsonx.data, Netezza y Db2 Warehouse.