抽出、変換、ロード(ETL)

menu icon

抽出、変換、ロード(ETL)

ETLは、複数のソースからデータを抽出、変換し、データウェアハウスまたは統一されたデータ・リポジトリーにロードするプロセスです。

ETLとは

ETLとは、 抽出、変換、ロード の略で、複数のデータ・ソースからのデータを組み合わせ、整合の取れた単一のデータ・ストアにし、 データウェアハウス や他の受動システムにロードするデータ統合プロセスです。

1970年代にデータベースの人気が高まるにつれ、演算や分析のためにデータを統合し、ロードするプロセスとして導入されたETLは、最終的にデータウェアハウス・プロジェクトにおけるデータ処理の主要な手法となりました。

ETLは、データ分析や機械学習のワークストリームの基盤となるものです。 ETLは、一連のビジネス・ルールを通じて、月次報告などの特定のビジネス・インテリジェンスのニーズに対応する形でデータのクレンジングや整理を行いますが、さらに高度な分析にも対応できるため、バックエンド・プロセスや エンドユーザー 体験も改善できます。 ETLは、多くの場合、次のような用途に使用されます。 

  • レガシー・システムからの データ の抽出
  • データ品質を向上して整合性を確立するためのデータのクレンジング
  •  ターゲット・データベース
  • へのデータのロード

ETLとELTの比較

ETLとELTの最も明白な違いは、操作の順序です。 ELTはソースの場所からデータをコピーまたはエクスポートしますが、変換のためにデータをステージング・エリアにロードするのではなく、代わりにロウ・データを直接ターゲット・データ・ストアにロードし、必要に応じて変換を行います。

どちらのプロセスも、データベース、データウェアハウス、データレイクなど、さまざまなデータ・リポジトリーを活用しますが、それぞれに長所と欠点があります。 ELTは、ソースから直接ロードできるため、大量の非構造化データ・セットを使用する際に特に便利です。 ELTは、データの抽出や保管のための事前計画がそれほど必要ないため、ビッグデータ管理により理想的だと言えます。 一方ETLプロセスは、最初により多くの定義が必要です。 特定のデータ・ポイントを抽出し、異なるソース・システム間で統合するための「キー」の可能性を特定する必要があります。 その作業が終わった後も、データ変換のためのビジネス・ルールを構築する必要があります。 この作業は通常、特定の種類のデータ分析のデータ要件に左右される場合があり、データが持つ必要のある要約レベルがこのデータ要件に応じて決定されます。 ELTは、クラウド・データベースの導入に伴い人気が高まっていますが、新しいプロセスであるため、ベスト・プラクティスがまだ確立されていないという欠点があります。

ETLの仕組み

ETLの仕組みを理解する最も簡単な方法は、プロセスの各ステップにおいて何が起きているかを理解することです。

抽出

データ抽出の際、ロウ・データはソースの場所からステージング・エリアにコピーまたはエクスポートされます。 データ管理チームは、構造化または非構造化されたさまざまなデータ・ソースからデータを抽出できます。 それらのソースには次のようなものがありますが、これらに限定されません。

  • SQL Serverまたは NoSQL サーバー
  • CRMとERPシステム
  • フラット・ファイル
  • Eメール
  • Webページ

変換

ステージング・エリアでは、ロウ・データのデータ処理が行われます。 ここでは、意図した分析ユースケースに合わせたデータの変換と統合が行われます。 この段階に関係したタスクは以下のとおりです。

  • データのフィルタリング、クレンジング、重複排除、検証、認証
  • ロウ・データに基づく計算、翻訳、要約の実行。 これには、 整合性を保つための行や列のヘッダーの変更、通貨や他の測定単位の変換、テキスト文字列の編集などが含まれます。
  • データ品質とコンプライアンスを確保するための監査の実施
  • 業界や政府の規制機関により管理されているデータの削除、暗号化、保護
  • ターゲット・データウェアハウスのスキーマに合わせた、テーブルまたは結合テーブルへのデータのフォーマット

ロード

この最後のステップでは、変換されたデータがステージング・エリアからターゲット・データウェアハウスに移動されます。 ここでは通常、最初に全てのデータがロードされ、続いて増分データの変更が定期的にロードされます。その後、頻度は低いものの、全面的な更新により、データウェアハウス内のデータの消去と置き換えが行われます。 ETLを使用する大部分の組織では、このプロセスは自動化され、定義も整い、継続的でバッチ駆動になっています。 通常、ETLはソース・システムやデータウェアハウスのトラフィックが最も少なくなる営業時間外に行われます。

ETLとその他のデータ統合方法

ETLとELTはデータ統合の2つの手法に過ぎず、他にもデータ統合ワークフローを円滑に進める方法があります。 その中のいくつかの方法を紹介します。

  • 変更データ・キャプチャー(CDC) は、変更されたソース・データのみを識別してキャプチャーし、そのデータを受動システムに移動します。 CDCは、ETLの「抽出」ステップで必要とされるリソースを削減するために使用できます。また、単独で使用して、変換されたデータをデータレイクやその他のリポジトリーにリアルタイムで移動するために使用することも可能です。
  • データの複製 は、データ・ソースの変更をリアルタイムまたはバッチで中央のデータベースにコピーします。 データの複製 は、データ統合方法として挙げられることが多い手法です。 実際、 災害復旧のバックアップ作成に最もよく使われています。
  • データの仮想化 は、ソフトウェアの抽象化層を使用して、ソース・データを受動システムに物理的にコピー、変換、またはロードすることなく、統合され、完全に使用可能な データ・ビュー を作成します。 データの仮想化 機能を使用することで、組織はそれぞれに個別のプラットフォームを構築、管理する費用と複雑さに悩まされることなく、データ保管と同じソース・データから仮想データウェアハウス、データレイク、データマートを作成できます。 データ仮想化は、ETLと併用することもできますが、ETLやその他の物理的なデータ統合方法の代替手段と見なされることが多くなっています。
  • ストリーム・データ統合(SDI)  は、その名が示す通り、データ・ストリームをリアルタイムで連続的に消費し、変換し、分析のために受動システムにロードします。 ここでキーワードとなっているのが「連続 的」です。 SDIは、ある時点でソースから抽出されたデータのスナップショットを統合するのではなく、利用可能になったデータをその都度統合します。 SDIにより、データ・ストアは分析や機械学習、リアルタイムのアプリケーションを強化し、顧客体験や不正行為の検知などを改善できるようにします。 

ETLのメリットと課題

ETLソリューションは、データを別のリポジトリーにロードする前にデータのクレンジングを実行することで、品質を向上させます。 ETLは時間のかかるバッチ操作なので、更新頻度の少ない小規模なターゲット・データ・リポジトリーを作成する場合に推奨されることが多いですが、一方でELT、CDC、データの仮想化などの他のデータ統合方法は、変化の速い大量のデータやリアルタイムのデータ・ストリームを統合するために用いられます。

データ統合の詳細はこちら

ETLツール

以前は、組織が独自のETLコードを作成していました。 現在では、オープンソースや市販のETLツールおよびクラウド・サービスが数多く存在し、そこから選択できます。 これらの製品の代表的な機能は以下の通りです。

  • 包括的な自動化と使いやすさ: 主なETLツールは、データ・ソースからターゲット・データウェアハウスまでのデータ・フロー全体を自動化します。 多くのツールでは、データの抽出、変換、ロードのためのルールが推奨されています。
  • ドラッグ・アンド・ドロップによるビジュアルなインターフェース: この機能はルールやデータ・フローを指定する際に利用できます。
  • 複雑なデータ管理をサポート: 複雑な計算、データ統合、文字列操作の支援が含まれます。
  • セキュリティーとコンプライアンス: 優れたETLツールは、移動中と停止中のデータを両方暗号化し、HIPAAやGDPRなどの業界または政府の規制に準拠していることが証明されています。

さらに、ETLツールの多くにELT機能が搭載されており、人工知能(AI)アプリケーションのリアルタイム・データやストリーミング・データの 統合をサポートするように進化しています。

統合の未来―  EAIを利用したAPI

ETLの代わりに、 ワークフロー の統合が含まれ、柔軟性と拡張性に優れたソリューションとして、EAI(エンタープライズ・アプリケーション統合)を利用したAPI(アプリケーション・プログラミング・インターフェース)を使用することができます。 ETLが主要な データ統合 リソースであることに変わりはありませんが、EAIはWebベースの設定で API と一緒に使用されることが増えています。

ETL、データ統合、IBM Cloud®

IBMが提供している複数の統合ツールとサービスは、ビジネス対応のデータ・パイプラインをサポートし、企業が効率的に拡張するために必要なツールを提供するように設計されています。

データ統合のリーダーであるIBMは、ビッグデータ・プロジェクト、SaaSアプリケーション、機械学習技術を管理する際に必要な信頼性を企業に提供します。  IBM Cloud Pak® for Dataのような先進のプラットフォームにより、組織は優れた仮想化ツールを使用して DataOps プロセスを最新化し、現在と将来のビジネスが必要とするスピードと拡張性を実現できます。

企業として効果的なデータ統合戦略を構築、実行する方法の詳細については、IBMの データ統合製品群を参照してください。

IBMidの登録と IBM Cloudアカウントの作成

参考情報

FlightSafety International社

飛行中の飛行機のコックピットから見える山々の眺めの画像

FlightSafety International社は、IBM Garage™と共同で、フライト・シミュレーターと統合するアダプティブ・ラーニング技術の「FlightSmart」を開発しました。

お客様事例はこちら→