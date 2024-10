La génesis de Iceberg fue un esfuerzo por abordar las limitaciones prácticas de las tablas de Apache Hive en un entorno de data lake de gran tamaño. Según Ryan Blue, presidente de PMC del proyecto Apache Iceberg y (anteriormente) ingeniero sénior en Netflix, “muchos servicios y motores diferentes usaban tablas Hive. Pero el problema era que no teníamos esa garantía de corrección. No teníamos transacciones atómicas”, dijo en una conferencia de 2021. "A veces, los cambios de un sistema hacían que otro sistema obtuviera los datos incorrectos y ese tipo de problema hacía que nunca usáramos estos servicios, que no hiciéramos cambios en nuestras tablas, solo para estar seguros".1

Apache Hive se originó como un medio para hacer que los clústeres de Apache Hadoop funcionen de manera similar a las bases de datos relacionales accesibles por SQL. Si bien funciona de manera efectiva para datos estáticos, se adapta mal a conjuntos de datos cambiantes: los cambios deben coordinarse manualmente entre diferentes aplicaciones y usuarios o, de lo contrario, corren el riesgo de corrupción y la posterior inexactitud de grandes conjuntos de datos.

Para garantizar la precisión en un entorno dinámico, Iceberg se diseñó para garantizar que cualquier transacción de datos exhiba las cuatro propiedades de ACID: