Apache Icebergとは？

共同執筆者

Senior Staff Writer, AI Models

IBM Think

Apache Icebergとは？

Apache Icebergは、大規模な分析テーブル用の高性能なオープンソース形式であり、ビッグデータ用のSQLテーブルの使用を容易にし、それらのテーブルをApache Spark、Trino、Flink、Presto、Hive、Impalaなどのエンジンと安全に統合できるようにします。

Icebergは、オープン・テーブル形式の仕様に加えて、ストレージ・エンジン、クエリ・エンジン、実行エンジンがその形式に従ってテーブルとスムーズにやり取りできるようにする一連のAPIおよびライブラリーで構成されています。

Icebergテーブル形式は、他のテーブル形式では通常利用できない機能を提供できるため、ビッグデータエコシステムの不可欠な部分となっています。Icebergでは、各テーブルに保存されている多数のメタデータを使用することで、コストのかかるテーブルの書き換えやテーブルの移行を必要とせずに、スキーマの進化、パーティションの進化、テーブルバージョンのロールバックが可能になります。これはストレージ・システムに完全に依存せず、複数のデータ・ソースをサポートし、ファイル・システムに依存しません。

もともとはNetflixとAppleのデータ・エンジニアによって2017年にApache Hiveの欠点に対処するために作成されたIcebergは、オープンソースとなり、その翌年にはApache Software Foundationに寄付されました。2020年にトップレベルのApacheプロジェクトになりました。

Apache Icebergのスピード、効率、信頼性、総合的なユーザーフレンドリーさは、あらゆる規模のデータ処理の簡素化と調整に役立ちます。これらの強みにより、IBM watsonx.dataを含む多くの主要なデータウェアハウス、データレイク、データレイクハウスで選ばれるテーブル形式となりました。NetezzaおよびDb2 Warehouse。

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

Apache Icebergを使用する理由は？

Iceberg は、ACIDトランザクション、つまり原子性、一貫性、独立性、耐久性を保証することで正確性を維持するデータ交換を可能にする数少ないオープンソース・テーブル形式の1つです。

Icebergの起源は、大規模なデータレイク環境におけるApache Hiveテーブルの実際的な制限に対処するための取り組みでした。Apache IcebergプロジェクトのPMC会長であり、Netflixの（元）シニア・エンジニアであるRyan Blue氏は、「多くのさまざまなサービスやエンジンがHiveテーブルを使用していました。しかし、問題は、その正確性の保証がなかったことです。アトミック・トランザクションはありませんでした」と2021年の会議で述べました。「あるシステムからの変更によって、別のシステムが間違ったデータを取得することがあり、このような問題が発生したため、念のため、これらのサービスは使用せず、テーブルの変更も行いませんでした。」¹

Apache Hive自体は、Apache Hadoopクラスターを SQLでアクセス可能なリレーショナルデータベースと同様に動作させる手段として生まれました。静的データに対しては効果的に機能しますが、データ・セットの変化にはあまり適応しません。変更は、さまざまなアプリケーションやユーザー間で手動で調整する必要があります。そうしないと、大規模なデータセットが破損したり不正確になったりするリスクがあります。

動的な環境での正確性を保証するために、Icebergはすべてのデータトランザクションが次の4つのACID特性をすべて発揮するように設計されました：

原子性

データへのすべての変更は、あたかも単一の操作であるかのように実行されます—つまり、すべての変更が実行されるか、まったく実行されません。例えば、金融データ取引では、一方の口座から引き落としが行われた場合、それに対応してもう一方の口座にクレジットが行われることがatomicityによって保証されます。

一貫性

トランザクション前の全体的なデータ状態とトランザクション後のデータ状態の間に矛盾はありません。金融取引の例を続けると、一貫性は、2つの口座間に存在する資金の合計が、取引前と同じであることを取引後に保証します。

分離

トランザクションの中間状態は、他のトランザクションからは見えません。同時実行トランザクション—同じデータセットに対して同時に実行されるトランザクション—は、シリアライズされているかのように扱われます。この金融取引では、分離により、他のトランザクションによって、振替口座または与信口座に資金が組み込まれていることが保証されますが、両方（またはどちらにも）確認することはできません。

耐久性

トランザクションが成功すると、システム障害が発生した場合でも、データの変更が保持されます。この財務の例では、これは、直後にシステム全体の停電が発生した場合でも、トランザクションが完了したままであることを意味します。

Apache Iceberg 対 Delta Lake 対 Apache Hudi

Apache Icebergテーブル形式は、ACIDトランザクションを提供する他の2つのオープンソース・データ・テクノロジーとよく比較されます：デルタレイクは、最初にDatabricksが開発した最適化されたストレージ・レイヤーであり、ファイルベースのトランザクション・ログとスケーラブルなメタデータ処理でParquetデータ・ファイルを拡張します。もう1つはApache Hudi—これは「Hadoop Upserts ELEts and Incrementals」の略で—2016年にUberによって開発されました。

Synvertが2022年に実施した調査では、ランダムなデータを生成し、3つのテクノロジーのベンチマークに使用するためにJSON形式でAWS S3バケットに保管しました。それらのテストは最終的に、Icebergの最適化されたテーブル・フォーマットが、テストされたすべてのメトリクスにおいて、Delta LakeとApache Hudiの両方よりも優れた性能を発揮することが実証されました。²

ストレージ： Icebergテーブルの結果のファイル・サイズは、Delta LakeやHudiよりも大幅に小さくなったため、ストレージの最適化に大きな利点がありました。
挿入操作：挿入オペレーションでは、Icebergが最速の性能—つまり、最短のランタイムを記録しました。IcebergとDelta LakeはどちらもHudiよりも大幅に高速でした。
更新オペレーション：更新オペレーションでは、IcebergはDelta LakeとHudiの両者よりも大幅に高速でした。注目すべきことは、他とは異なり、Icebergのランタイムはこの調査でテストした最大ワークロード（5億レコード）において、レコード総数が大幅に増加しておらず、Icebergはデルタレイクのほぼ10倍高速だったことです。
除去オペレーション：同様に、Icebergは除去オペレーションにおいても、どちらの代替案よりも数倍高速でした。

AI Academy

生成AIの成功の鍵はデータ管理

生成AIの使用を成功させるために、高品質のデータが不可欠である理由をご覧ください。

エピソードに移動

Apache Icebergはどのように機能しますか？

Icebergは、メタデータ・ファイルの3層階層を実装し、多様なファイル形式と絶え間ない変更全体にわたって、テーブル・データの正確性と調整を確保します。

JavaとPythonで記述され、Scala API でも提供される Icebergは、Apache Parquet、Apache Avro、Apache ORCなど、さまざまなビッグデータファイル形式をサポートしています。従来のデータベースのSQLテーブルと同様の機能を、ファイル形式やベンダーにとらわれない方法で提供し、複数のエンジンが同じデータセットで動作できるようにします。

Icebergテーブルのアーキテクチャーは、Icebergカタログ、メタデータ層、データ層の3つの層で構成されています。

Icebergカタログ

Icebergカタログ自体はメタデータレイヤーの上にあり、データは後で表示されます。これは、氷山の一角が水面の上にあるのとよく似ています。特定のテーブルの名前を現在のメタデータファイルの場所にマップする最新（または「現在の」）メタデータポインタを保管します。組み込みのカタログに加えて、IcebergはHive MetaStoreやAWS Glueなどの他のカタログフレームワークもサポートしています。

Icebergカタログ・レベルでの操作はアトミックであり、これは取引の正確性を確保するために不可欠です。

そのため、クエリ・エンジンは、クエリ・エンジンが読み取ろうとしているテーブルの現在のメタデータ・ファイルの場所を提供するIcebergカタログにおいて、SELECTクエリを開始します。

メタデータ層

Icebergメタデータ層は、メタデータ・ファイル、目録リスト、目録ファイルを—降順—に構成しています。

メタデータ・ファイル

メタデータ・ファイルメタデータ・ファイルには、テーブルのスキーマ、パーティション情報、現在のスナップショット、以前の状態のスナップショットなど、テーブルのメタデータが保管されます。Icebergカタログのテーブルのエントリーから現在のメタデータ・ファイルを指定されたクエリ・エンジンは、[current-snapshot-id]値を使用して、そのエントリーを[snapshots]配列内で見つけます。そこから、テーブルのマニフェスト・リストを見つけて開くことができます。

マニフェスト・リスト

マニフェスト・リストは、マニフェスト・ファイルと、その中にある各データ・ファイルの場所、関連付けられているスナップショット、属するパーティションなど、そのファイルと重要な情報をリストしたものです。この段階では、特定の最適化とフィルタリング機能が利用可能です。

マニフェスト・ファイル

マニフェスト・ファイルは、データ・ファイルとそれに関連する詳細、メタデータ、統計を追跡します。これにより、Hiveテーブル形式に対するIcebergテーブル形式の基本的な利点の1つである、ファイル・レベルでデータを追跡できる機能が高まっています。この段階では、各[ data-file]オブジェクトの[ File-path] 値を使用して、そのファイルを検索し、開くことができます。

データレイヤー

データ層は、その名のとおり、メタデータ層の下に存在し、究極のファイルそのものを含みます。

Apache Icebergの主な機能

Apache Icebergは、データ管理を改善し、簡素化するための便利な機能を多数提供します。

隠れパーティション

Iceberg は、パーティショニングとクエリのすべての詳細を内部で処理します。Icebergの隠れたパーティショニングにより、テーブルにクエリを実行する際に、ユーザーにパーティション・レイアウト情報を提供する作業を減らせます。ユーザーは、正確なクエリ結果を得るための、パーティション列の保守や、物理的なテーブル・レイアウトの理解が必要なくなります。

これにより、Icebergのパーティショニングが非常にユーザーフレンドリーになるだけでなく—事前に作成されたクエリを壊すことなく、パーティションのレイアウトを時間の経過とともに変更できるようになります。パーティションの仕様が進化しても、テーブル内のデータ（およびそのメタデータ）は影響を受けません。進化後にテーブルに書き込まれた新しいデータだけが新しい仕様でパーティション化され、この新しいデータのメタデータは独立して保持されます。

スキーマの進化

Iceberg は、スキーマの進化に対するネイティブ・サポートを提供します。これにより、ユーザーは複雑なデータ移行を行うことなくテーブルスキームを変更することができ、進化するデータ構造への適応が大幅に効率化されます。

タイムトラベル

Icebergを使用すると、ユーザーはさまざまな時点でのIcebergデータのスナップショットを通じて、時間を遡ることができます。これは、監査、デバッグ、コンプライアンス・チェックなどのさまざまなユースケースにとって価値があります。

データのコンパイルとフィルタリング

Icebergは、小さなファイルを大きなファイルにマージしてメタデータのオーバーヘッドを削減する圧縮オプションや、クエリ実行中の不要なデータの読み取りを削減するブルーム・フィルターなど、クエリの性能を最適化する多数のインデックス作成機能を提供しています。

IBM、Forrester Wave™、2025年第3四半期の統合iPaaSのリーダーに選出

Forrester社が、IBMを現在の製品部門で最高スコアをつけてリーダーにランク付けした理由については、レポートをお読みください。このリーダーシップが、より広範なエンタープライズ統合ストラテジーの中で安全でスケーラブルなファイル転送を提供し、IBM® webMethods MFTを強化する方法をご覧ください。