抽出、ロード、変換(ELT)とは

バランガルー建設現場の航空写真

ELT(抽出、ロード、変換)とは

ELTとは「抽出、ロード、変換」を表すデータ統合プロセスのタイプの1つであり、ETLつまり「抽出、変換、ロード」と似ています。ELTのプロセスは、未加工データをソース・システムからデータウェアハウスなどの出力先リソースに移動します。

ELTはETLと似ていますが、ELTはデータ前処理に対してETLとは根本的に異なるアプローチで、クラウド環境への移行に伴い、ごく最近になって採用されるようになったものです。

ニュースレターを表示しているスマホの画面

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

ELTの仕組み

ELTは、主要な3つの段階(抽出、ロード、および変換)で構成されています。これらの各段階について、以下で詳しく説明します。

抽出

データ抽出中に、データは送信元ロケーションからステージング・エリアにコピーまたはエクスポートされます。データ・セットは多数のデータ・タイプで構成され、事実上すべての構造化ソースまたは非構造化ソースから取得されます。この一部には以下が含まれますが、これに限定されません。

  • SQLまたはNoSQLサーバー
  • CRMおよびERPシステム
  • テキスト・ファイルと文書ファイル
  • Eメール
  • Webページ

ただし、非構造化データで使用される方が一般的です。

ロード

このステップでは、変換されたデータをステージング・エリアからデータウェアハウスやデータレイクなどのデータ・ストレージ・エリアに移動させます。

多くの組織では、データの読み込みプロセスは自動化され、明確に定義され、継続的でバッチ駆動型です。通常、ELTは、ソース・システムとデータウェアハウスのトラフィックがピークに達し、消費者が分析などにデータを使用するのを待っている営業時間中に行われます。

変換

この段階では、SQLを使用してデータにスキーマを適用するか、分析の前にデータを変換する、スキーマ・オンライトのアプローチが採用されます。この段階には、以下が含まれます。

  • データのフィルタリング、クレンジング、重複排除、検証、認証。
  • 未加工データに基づいた計算、翻訳、データ分析、または集計の実行。これには、一貫性を保つために行と列のヘッダーの変更から、通貨や測定単位の変換、テキスト文字列の編集、値を追加または平均化まで、組織固有のBIや分析目的に合致するために必要なすべてのことが含まれる場合があります。
  • 官公庁・自治体または業界の規制により管理されるデータの削除、暗号化、非表示、またはその他の保護。
  • ウェアハウスにデプロイされたスキーマに基づいた、データの表または結合表へのフォーマット。
オフィスでミーティングをするビジネスチーム

IBMお客様事例

お客様のビジネス課題(顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など)を解決した多岐にわたる事例のご紹介です。

ETLとELTの比較

ELTは、ほぼ同じ頭字語で知られる姉妹プロセスのETLと混同されることがあります。しかし、ELTと、抽出、変換、ロードの略語であるETLの間には、いくつかの明確な違いがあります。ETLは、複数のデータ・ソースからのデータを単一の一貫性のあるデータ・ストアに結合し、データウェアハウスまたは他のターゲット・システムにロードするデータ統合プロセスです。従来のETLツールは、ビジネス・インテリジェンス(BI)および人工知能(AI)アプリケーションをサポートするデータウェアハウジングを作成するために設計されていました。

ETLとELTの違いとは

明らかな違いは、ELTプロセスが変換関数の前にロード関数を実行することで、ETLプロセスの2番目と3番目のステップが逆になっていることです。ELTは、送信元ロケーションからデータをコピーまたはエクスポートしますが、変換のためにステージング・エリアに移動する代わりに、未加工データをターゲット・データ・ストアに直接ロードし、必要に応じて変換できます。ELTは、転送中のデータを変換しません。

しかし、ステップの順序だけが違うわけではありません。ELTでは、ターゲット・データ・ストアはデータウェアハウスであることもありますが、多くの場合、構造化データと非構造化データの両方を大規模に保持するように設計された大規模な中央ストアであるデータレイクになります。

データレイクは、ビッグデータ・プラットフォーム(Apache Hadoopなど)または分散型のNoSQLデータ管理システムを使用して管理されます。これらはビジネス・インテリジェンスをサポートできますが、多くの場合、人工知能、機械学習、予測分析、リアルタイムのデータ・ストリームやイベント・ストリームを利用したアプリケーションをサポートするために作成されます。

ETLとELTの違いは他にもあります。例えば、ETLは中央リポジトリーに移動する前にデータを変換するため、ELTよりもデータ・プライバシー・コンプライアンスを単純化あるいは体系化することができます(例えば、アナリストが機密データを使用する前に変換しない場合、データレイクでマスクされないまま放置される可能性があります)。ただし、データサイエンティストは、未加工データの「サンドボックス」で動作し、特定のアプリケーションに合わせた固有のデータ変換を実行できるELTを好む場合があります。しかし、多くの場合、ETLとELTのどちらを選択するかは、利用可能なビジネス・リソースとニーズのどちらを選択するかによります。

ELTのメリット

ELTは、プロセスをワークフローに統合するユーザーにいくつかのメリットを提供します。注目すべきメリットのいくつかを見てみましょう。

データをより速く出力先に移動させ、より迅速な可用性を実現

大量のストリーミングデータが生成されると、ELTはそのデータをすぐにロードし、出力先に到達した後にデータを変換します。これにより、ETLのようにロード関数の前に変換が発生した場合に頻繁に発生しがちな速度の低下を防止できます。多くの場合、このデータに関連して決定を下す必要があり、遅延は許容されません。例として、リアルタイムで消費される大容量のデータを生成する株式市場が挙げられます。このようなシナリオでは、データが出力先に到達した後に変換が行われるため、ELTが最適なソリューションになります。

懸念事項の分離

データは出力先に到着した時点で変換されるため、ELTでは、データの受信者が制御データを操作できます。ELTでは、変換ステージとロード・ステージを分離することで、変換ステージのコーディング・エラーやその他のエラーが別のステージに影響を与えないようにしています。

サーバーのスケーリングの問題を回避

ELTは、データウェアハウスの能力とサイズを利用して、大容量の変換またはスケーラブルなコンピュートを実現します。特にクラウドのシナリオでは、各クラスター内に複数のノードが存在し、複数のクラスターを利用できるため、出力先データウェアハウスは、必要に応じてノードを増減させることができます。これにより、オンデマンドの柔軟性と拡張性が実現します。

コストの削減

ELTはデータ変換のためにそれほど強力なサーバーを必要とせず、ウェアハウス内にすでにあるリソースを活用することができます。これにより、コストが削減され、リソース効率が向上します。

柔軟性

ELTを使用することで、コストとリソースの柔軟性を考慮して、任意の出力先リポジトリーを使用できます。データウェアハウスは、大量のデータを保管できるカラムナ・メモリーベース・ストレージなどのMPPアーキテクチャー(超並列処理)を使用しています。データが受信されるとすぐにスキーマまたは変換モデルを適用するデータレイク・プロセス(造語で「スキーマ・オン・リード」とも呼ばれます)もサポートされています。これらの効率的な処理により、大容量のデータにも柔軟に対応できます。

連続稼働

連続稼働は、データへの高速アクセスを必要とするあらゆる環境に理想的です。ELTは、オンデマンドで継続的にアクセスされるアプリケーションを含むことが多いクラウド環境でのデータ活用に適しています。同様に、クラウドネイティブのELTの変換は、前述の拡張性と柔軟性を提供します。

ETLからELTアーキテクチャーへの移行に伴う課題

組織は、ETLからELTアーキテクチャーへの移行を選択できます。移行の理由としては、リアルタイムでの対応や対話が必要とされるなど製品やサービスの用途が変更する場合、またはデータ量が急激に増加し、インフラストラクチャーへの大量の処理要求により、変換がロード・ステージを遅らせている場合があります。組織は、クラウドに移行し、処理をオフロードしたい場合や、出力先の場所のデータをより早く使用したい場合は、ETLからELTへの移行を選択できます。

移行シナリオでは、現実的には、問題に遭遇することが予想されます。まず第一に、ELTとETLでは完全に異なるロジックとコードが使用されます。これには、完全な再構成と、場合によっては新しいインフラストラクチャーまたはクラウド内にインフラストラクチャーを持つ新しいプロバイダーが必要になる可能性があります。さらに、ELTの場合、未加工データが出力先ウェアハウスに送信されます。したがって、セキュリティーを考慮し、データを安全に保持するために実装する必要があります。

ELTの過去と未来

ELT は新しいテクノロジーではありません。ステージング・テーブルはこれまで、データをウェアハウスに移動して処理と変換を行うために使用されており、多くの場合、SQLスクリプトが使用されていました。SQLスクリプトはハードコーディングされているため、コーディング・エラーが発生する可能性があります。SQLを使用する場合、顧客はSQLスクリプトを使ったネイティブ・ウェアハウスの実行と宣言型プログラミング(別称、宣言型オーサリング)のどちらかを選ぶ必要がありました。宣言型オーサリングは、プログラムがどのように達成するかではなく、プログラムが何を達成しなければならないかを記述したコードを作成することで、より最新のクラウドを活用したデータウェアハウス環境のメリットを提供します。このプロセスにより、特にロード関数より先に変換を行う場合に、他のプロセスで発生する固有のコーディング・エラーを防ぐことができます。

ユースケース

ELTは通常、大容量データやリアルタイム・データを使う環境で使用されます。具体例としては以下が挙げられます。

  • 即時にアクセスが必要な組織例えば、証券取引や、流通在庫、製造業用部品、その他の材料を扱う大規模な卸売業者は、ビジネス・インテリジェンスにすぐにアクセスするために最新のデータにリアルタイムでアクセスする必要があります。
  • 膨大な量のデータを扱う組織。例えば、気象予報機関などの気象システムは、定期的に大容量のデータを収集、照合、使用します。大容量のトランザクションを行う企業も、このカテゴリーに該当する可能性があります。超大型望遠鏡を備えた天文学研究所などの組織では、照合して分析する必要のある大容量のデータが生成されます。大容量のデータを生成および利用し、そのデータへのリアルタイム・アクセスを必要とする業界が数多く存在するため、2つのカテゴリー間に重複が生じる可能性があります。
関連ソリューション
IBM StreamSets

直感的なグラフィカル・インターフェースでスマートなストリーミング・データ・パイプラインを作成、管理できるため、ハイブリッド環境やマルチクラウド環境でのシームレスなデータ統合を促進します。

StreamSetsの詳細はこちら
IBM Databand

データ・パイプライン用の可観測性ソフトウェア、IBM Databandをご紹介します。メタデータを自動的に収集して履歴ベースラインを構築し、異常を検知し、データ品質の問題を修復するためのワークフローを作成できます。

Databandはこちら
データ統合ソリューション

IBMのデータ統合ソリューションを活用して、生成AIへの取り組み、リアルタイム分析、ウェアハウスのモダナイゼーション、運用上のニーズに合わせて、レジリエンスがあり高性能でコスト最適化されたデータ・パイプラインを構築しましょう。

データ統合ソリューションの詳細はこちら
次のステップ

データ・パイプラインの設計、開発、デプロイのための視覚的なインターフェースを提供するETL(抽出、変換、格納)ツール、IBM DataStageをご紹介します。IBM Cloud上でのマネージドSaaSやセルフホスティングとして、またはIBM Cloud Pak for Dataへのアドオンとして利用できます。

データステージを探索 分析サービスの詳細はこちら