A origem do Iceberg foi um esforço para lidar com as limitações práticas das tabelas do Apache Hive em um ambiente de data lake de grande escala. De acordo com Ryan Blue, presidente do PMC do projeto Apache Iceberg e (antigo) engenheiro sênior da Netflix, "muitos serviços e mecanismos diferentes estavam usando as tabelas Hive. Mas o problema era que não tínhamos essa garantia de correção. Não tínhamos transações atômicas", disse ele em uma conferência de 2021. "Às vezes, mudanças de um sistema faziam com que outro sistema obtivesse dados incorretos, e esse tipo de problema nos levou a nunca usar esses serviços, a não fazer mudanças em nossas tabelas, apenas para garantir a segurança"1.

O próprio Apache Hive surgiu como uma forma de fazer com que clusters do Apache Hadoop operassem de maneira semelhante a bancos de dados relacionais acessíveis por SQL. Embora funcione efetivamente para dados estáticos, ele se adapta mal a conjuntos de dados dinâmicos: as alterações precisam ser coordenadas manualmente entre diferentes aplicações e usuários, sob o risco de corrupção e posterior imprecisão de grandes conjuntos de dados.

Para garantir a precisão em um ambiente dinâmico, o Iceberg foi projetado para assegurar que qualquer transação de dados exiba todas as quatro propriedades ACID: