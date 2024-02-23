La creazione di Iceberg è stata un'iniziativa per risolvere i limiti pratici delle tabelle Apache Hive in un ambiente di data lake di grandi dimensioni. Secondo Ryan Blue, PMC Chair del progetto Apache Iceberg ed (ex) ingegnere senior di Netflix, "molti servizi e motori diversi utilizzavano le tabelle Hive. Ma il problema era che non avevamo una garanzia di correttezza. "Non avevamo transazioni atomiche", ha affermato in una conferenza del 2021. "A volte le modifiche apportate da un sistema facevano sì che un altro sistema ricevesse i dati sbagliati e questo tipo di problema ci ha indotto a non utilizzare mai questi servizi, a non apportare modifiche alle nostre tabelle, solo per essere sicuri".1

Lo stesso Apache Hive è nato come mezzo per far funzionare i cluster Apache Hadoop in modo simile ai database relazionali accessibili da SQL. Sebbene funzioni efficacemente con i dati statici, si adatta male ai set di dati mutevoli: le modifiche devono essere coordinate manualmente tra diverse applicazioni e utenti, altrimenti si rischia il danneggiamento e la conseguente imprecisione di set di dati di grandi dimensioni.

Per garantire precisione in un ambiente dinamico, Iceberg è stato progettato per garantire che qualsiasi transazione di dati presenti tutte e quattro le proprietà ACID: