ETL(抽出、変換、ロード)とは
IBMのETLソリューションを詳しく見る AI関連の最新情報の購読
黒と青の背景
ETLとは

ETL(抽出変換、ロードの略)は、複数のソースからのデータを単一の一貫したデータ・セットに結合して、データ・ウェアハウスデータレイク、またはその他のターゲット・システムにロードするために使用される長年のデータ統合プロセスです。

1970年代にデータベースの人気が高まるにつれ、計算と分析のためにデータを統合およびロードするプロセスとしてETLが導入され、最終的にはデータ・ウェアハウジング・プロジェクトのデータを処理する主要な方法になりました。

ETLは、データ分析と機械学習のワークストリームの基盤を提供します。ETLは、一連のビジネス・ルールを通じて、月次レポートなどの特定のビジネス・インテリジェンスのニーズに対応する方法でデータをクレンジングおよび整理しますが、バックエンド・プロセスやエンドユーザー・エクスペリエンスを向上させる、より高度な分析にも取り組むことができます。ETLは組織で次の目的でよく使用されます。

  • レガシー・システムからのデータ抽出
  • データ品質を向上させ一貫性を確立するためのデータ・クレンジング
  • ターゲット・データベースへのデータ・ロード
Prestoの学習と操作

データ分析に役立つオープンソースのSQLエンジンであるPrestoの導入方法については、O'Reilly社が提供する資料をご覧ください。

関連コンテンツ

AIガバナンスに関するホワイトペーパーへの登録

ETLとELTの比較

ETLとELTの最も明確な違いは、操作の順序の違いです。ELTはソース・ロケーションからデータをコピーまたはエクスポートしますが、変換のためにステージング領域にロードする代わりに、生データをターゲット・データ・ストアに直接ロードして必要に応じて変換します。

どちらのプロセスもデータベース、データ・ウェアハウス、データレイクなどのさまざまなデータ・リポジトリを利用しますが、各プロセスには長所と短所があります。ELTは、ソースから直接読み込みを行えるため、大容量の非構造化データ・セットに特に適しています。ELTはデータの抽出と保存について事前の計画をそれほど必要としないため、ビッグデータ管理に理想的です。

一方、ETLプロセスでは開始時により多くの定義が必要です。異なるソース・システム間で統合するためには、抽出する特定のデータ・ポイントと潜在的な「キー」を特定する必要があります。その作業が完了した後でも、データ変換のためのビジネス・ルールを構築する必要があります。この作業は通常、特定のタイプのデータ分析のデータ要件に依存することがあり、データに必要な要約のレベルを決定します。

クラウド・データベースの採用に伴い、ELTはますます人気が高まっていますが、新しいプロセスであるがゆえのデメリットもあり、ベスト・プラクティスがまだ確立されていないという点があります。

ETLの仕組み

ETLの仕組みを理解する最も簡単な方法は、プロセスの各ステップで何が起こるかを理解することです。

抽出

データ抽出時には、未加工データがソースの場所からステージング・エリアへコピーまたはエクスポートされます。データ管理チームは、構造化されたものも非構造化されたものも含むさまざまなデータ・ソースからデータを抽出することができます。これらの情報源には以下が含まれますが、これに限定されません。

  • SQLまたはNoSQLサーバー
  • CRMおよびERPシステム
  • フラット・ファイル
  • Eメール
  • Webページ

変革

ステージング・エリアでは、未加工データがデータ処理を受けます。ここでは、データが変換され、意図した分析用途に合わせて統合されます。このフェーズには次のようなタスクが含まれます。

  • データのフィルタリング、クレンジング、重複排除、検証、認証
  • 未加工データに基づいて計算、翻訳、または要約を行う一貫性を保つために行と列のヘッダーを変更し、通貨やその他の計量単位を変換し、テキスト文字列を編集するなど
  • データ品質とコンプライアンスを確保するための監査を実施
  • 業界や政府の規制によって管理されるデータを削除、暗号化、または保護
  • データをテーブルまたは結合テーブルにフォーマットして、ターゲット・データ・ウェアハウスのスキーマに合わせる

ロード

最終ステップでは、変換されたデータがステージング・エリアからターゲット・データ・ウェアハウスへ移動されます。通常、これには全データの初期ロードが含まれ、その後、増分データの変更の定期的なロードが行われ、頻度は少ないですが、ウェアハウス内のデータを消去して置き換える完全なリフレッシュが行われます。ETLを使用するほとんどの組織では、プロセスが自動化され、明確に定義され、連続的かつバッチ処理されます。ETLは通常、ソース・システムとデータ・ウェアハウスのトラフィックが最も少ない時間外に実行されます。

ETLおよびその他のデータ統合方法

ETLとELTはデータ統合の方法のひとつに過ぎず、データ統合ワークフローを促進するために他にも多くのアプローチがあります。その例としては、以下があります。

  • 変更データ・キャプチャー(CDC)は、変更されたソース・データのみを識別してキャプチャーし、そのデータをターゲット・システムに移動します。CDCは、ETLの「抽出」ステップで必要なリソースを削減するために使用されることもありますが、データレイクやその他のリポジトリに変換されたデータをリアルタイムで移動するために単独で使用されることもあります。
  • データ・レプリケーションは、データ・ソースの変更をリアルタイムまたはバッチで中央データベースにコピーします。データ・レプリケーションは、データ統合方法としてよく挙げられますが、実際には災害復旧のためのバックアップを作成するために最もよく使用されます。
  • データ仮想化は、ソース・データをターゲット・システムに物理的にコピー、変換、またはロードすることなく、統合され、使用可能なデータ・ビューをソフトウェアの抽象化レイヤーを通じて作成します。データ仮想化機能を使用すると、組織は同じソース・データからデータ・ストレージ用の仮想データ・ウェアハウス、データレイク、データ・マートを作成でき、それぞれ別のプラットフォームを構築および管理する費用や複雑さを避けることができます。データ仮想化はETLと並行して使用されることもありますが、ETLや他の物理的なデータ統合方法の代替手段として見られることが増えています。
  • ストリーム・データ統合(SDI)は、リアルタイムでデータ・ストリームを連続的に取り込み、変換し、分析のためにターゲット・システムにロードします。「連続的に」というキーワードが重要で、SDIは特定の時点でソースから抽出されたデータのスナップ・ショットを統合するのではなく、データが利用可能になると同時に継続的にデータを統合します。SDIにより、分析、機械学習、リアルタイム・アプリケーションを強化するためのデータ・ストアが実現され、顧客体験の向上、不正アクセス検知などに役立ちます。
ETLの利点と課題

ETLソリューションは、データを別のリポジトリにロードする前にデータ・クレンジングを行うことで品質を向上させます。ETLは時間がかかるバッチ処理であり、更新頻度が低い小規模なターゲット・データ・リポジトリの作成に向いています。一方、ELT(抽出、ロード、変換)、変更データ・キャプチャー(CDC)、データ仮想化などの他のデータ統合方法は、増加する大量のデータやリアルタイム・データ・ストリームの統合に使用されます。

 

データ統合の詳細はこちら
ETLツール

過去には、組織が独自にETLコードを作成していましたが、現在では多くのオープン・ソースや商用のETLツール、クラウド・サービスがあります。これらの製品は、次のような一般的な機能を備えています。

  • 包括的な自動化と使いやすさ:主要なETLツールは、データ・ソースからターゲット・データ・ウェアハウスまでのデータ・フロー全体を自動化します。多くのツールは、データの抽出、変換、ロードに関するルールを推奨しています。
  • 視覚的なドラッグ・アンド・ドロップ・インターフェース:この機能は、ルールとデータ・フローの指定に使用できます。
  • 複雑なデータ管理のサポート:これには、複雑な計算、データ統合、および文字列操作の支援が含まれます。
  • セキュリティーとコンプライアンス:最良のETLツールは、移動中および停止中のデータを暗号化し、HIPAAやGDPRのような業界や政府の規制に準拠していることが証明されています。

さらに、多くのETLツールはELT機能を組み込み、人工知能(AI)アプリケーション向けのリアルタイムデータとストリーミングデータの統合をサポートするように進化しました。

統合の未来 - EAIを使用したAPI

アプリケーション・プログラミング・インターフェース(API)は、エンタープライズ・アプリケーション統合(EAI)を使用してETLの代わりとして利用でき、ワークフロー統合を含むより柔軟でスケーラブルなソリューションを実現します。ETLは依然として主要なデータ統合リソースでありながら、EAIはWebベースの設定でAPIと共に使用されることが増えています。

関連ソリューション
IBM Cloud Pak for Data

IBM Cloud Pak for Dataは、オープンで拡張可能なデータ・プラットフォームであり、あらゆるクラウドでAIや分析のために全てのデータを利用可能にするデータ・ファブリックを提供します。

IBM Cloud Pak for Dataの詳細はこちら
IBM DataOps

AIは新しい方法でデータの価値を引き出しています。DataOpsソリューションを用いてデータを整理し、AIとマルチクラウドの世界に対応できるようにしましょう。

IBM DataOpsを詳しく見る
データ統合

データ統合により、構造化データと非構造化データを変換し、スケーラブルなビッグデータ・プラットフォーム上の任意のシステムに配信できます。

データ統合を詳しく見る
参考情報 HiveをETLまたはELTのツールとして利用する

このツールを使用して大規模なデータ・セットを簡単に処理及び分析する方法を学び、抽出、変換、ロード、あるいは抽出、ロードした後に変換する方法を探ります。

ELTとETLの違い

ELTとETLの定義、利点、使用シナリオの類似点と違いを理解しましょう。

Node-REDを使ったETLフローの実装

Node-REDを利用したETLフローの力を発見し、これらの重要なプロセスを効率化し、実装と自動化を通じてデータの全潜在力を引き出す方法を学びます。