Icebergs Entstehungsgeschichte war ein Versuch, die praktischen Einschränkungen von Apache Hive-Tabellen in einer großen Data Lake-Umgebung zu überwinden. Laut Ryan Blue, PMC-Vorsitzender des Apache Iceberg-Projekts und (ehemals) leitender Ingenieur bei Netflix, „nutzten viele verschiedene Dienste und Engines Hive-Tabellen. Das Problem war jedoch, dass wir keine Garantie auf Richtigkeit hatten. Wir hatten keine atomaren Transaktionen“, sagte er in einer Konferenz im Jahr 2021. „Manchmal führten Änderungen in einem System dazu, dass ein anderes System die falschen Daten erhielt, und diese Art von Problemen veranlasste uns, diese Dienste, nur um sicher zu gehen, einfach nicht zu nutzen und keine Änderungen an unseren Tabellen vorzunehmen.“1

Apache Hive selbst wurde entwickelt, um Apache Hadoop-Cluster ähnlich funktionieren zu lassen wie relationale Datenbanken, auf die über SQL zugegriffen werden kann. Während es für statische Daten gut funktioniert, passt es sich nur schlecht an veränderte Datensätze an: Änderungen müssen manuell über verschiedene Anwendungen und Benutzer hinweg koordiniert werden, sonst besteht die Gefahr der Beschädigung und anschließenden Ungenauigkeit großer Datensätze.

Um die Genauigkeit in einer dynamischen Umgebung zu gewährleisten, wurde Iceberg so konzipiert, dass jede Datentransaktion alle vier AKID-Eigenschaften aufweist: