The DX Leaders
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ETLデータ・パイプラインは、データ分析と機械学習のワークストリームに対する基盤を提供します。ETLは、一連のビジネス・ルールを通じてデータをクレンジングおよび整理し、月次レポートなどの特定のビジネス・インテリジェンス・ニーズに対応します。また、バック・エンド・プロセスとエンド・ユーザー・エクスペリエンスを向上させる、より高度な分析にも対応できます。ETLパイプラインは、組織で次のような目的でよく使用されます。
レガシー・システムからのデータ抽出
データ品質を向上させ一貫性を確立するためのデータ・クレンジング
ターゲット・データベースへのデータ・ロード
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
企業はそろばんの時代からデータを生成してきましたが、現代の分析はデジタル・コンピュータとデータ・ストレージの登場によって初めて可能になりました。
1970年代には、大規模な集中型データベースへの移行により、大きな一歩が踏み出されました。その後、ETLは、計算や分析のためにデータを統合してロードするプロセスとして導入され、最終的にはデータ・ウェアハウジング・プロジェクトでデータを処理するための主要な方法になりました。
1980年代後半には、データウェアハウスと、トランザクション・データベースからリレーショナル・データ形式で情報を格納するリレーショナル・データベースへの移行が盛んになりました。古いトランザクション・データベースは、トランザクションごとに情報を保存し、トランザクションごとに重複した顧客情報が保存されるため、長期にわたって統一された方法で顧客データにアクセスする簡単な方法がありませんでした。リレーショナル・データベースによって、アナリティクスはBusiness Intelligence(BI)の基礎となり、意思決定における重要なツールとなりました。
より洗練されたETLソフトウェアが登場するまで、初期の試みは主にITチームによる手作業で、さまざまなシステムやコネクターからデータを抽出するものでした。次に、そのデータを共通形式に変換し、相互接続されたテーブルにロードしていました。それでも、高度なアルゴリズムとニューラル・ネットワークの登場により、分析による洞察をさらに深める機会が生まれたため、初期のETLにおける努力は価値があるものでした。
1990年代には、コンピューティング速度とストレージ容量が急速に増加し続けたことで、ビッグデータの時代が到来しました。その後、ソーシャル・メディアやモノのインターネット(IoT)などの新しいソースから、大量のデータが抽出されるようになりました。ただし、データはオンプレミスのデータウェアハウスに保存されることが多く、制約要因は残っていました。
コンピューティングとETLの両方における次の大きなステップは、1990年代後半に普及したクラウド・コンピューティングでした。Amazon Web Services(AWS)、Microsoft Azure、Snowflakeなどのデータウェアハウスを活用することで、今では世界中からデータにアクセスできるようになりました。これらのプラットフォームは迅速に拡張することもできるため、ETLソリューションは非常に詳細なインサイトと新たな競争優位性をもたらすことができます。
最新の進化は、ストリーミング・データを活用し、膨大なデータから最新のインサイトを提供するETLソリューションです。
ETLとELT(抽出、読み込み、変換)の最も明らかな違いは、操作の順序の違いです。ELTはソース・ロケーションからデータをコピーまたはエクスポートしますが、変換のためにステージング領域にロードする代わりに、生データをターゲット・データ・ストアに直接ロードして必要に応じて変換します。
どちらのプロセスも、データベース、データウェアハウス、データレイクなどのさまざまなデータ・リポジトリーを使用しますが、それぞれに長所と短所があります。ELTは、ソースから直接ロードできるため、大容量の非構造化データ・セットの処理に役立ちます。ELTは、データの抽出と保管に関する事前計画をあまり必要としないため、ビッグデータ管理により適している場合があります。
ETLプロセスでは、開始時により明確な定義が必要です。異なるソース・システム間で統合するために、抽出する特定のデータ・ポイントと潜在的な「キー」を特定する必要があります。入力データのソースは、多くの場合、メタデータを使用して追跡されます。その作業が完了した後でも、データ変換のためのビジネス・ルールを構築する必要があります。
この作業は通常、特定の種類のデータ分析に関するデータ要件に依存し、それによってデータに必要な集約レベルが決まります。
ELTパイプラインはクラウド・データベースの導入によりますます普及していますが、ELTテクノロジーはまだ開発段階にあり、ベスト・プラクティスはまだ模索されている状況です。
ETLの仕組みを理解する最も簡単な方法は、プロセスの各ステップで何が起こるかを理解することです。
データ抽出時には、未加工データがソースの場所からステージング・エリアへコピーまたはエクスポートされます。データ管理チームは、構造化データや非構造化データなど、さまざまなソースからデータを抽出できます。こうしたデータ・タイプには以下が含まれますが、これらに限定されません。
ステージング・エリアでは、未加工データがデータ処理を受けます。ここでは、データが変換され、意図した分析用途に合わせて統合されます。変換プロセスのこのフェーズには、以下が含まれます。
最終ステップでは、変換されたデータをステージング・エリアからターゲット・データウェアハウスへ移動します。通常、このプロセスでは、まず全データを初期ロードし、その後、増分データ変更を定期的にロードします。また、頻度は低いものの、ウェアハウス内のデータを消去して置き換える完全リフレッシュを行うこともあります。
ETLを使用するほとんどの組織では、プロセスは自動化され、明確に定義され、継続的で、バッチ駆動型です。通常、ETLのロード・プロセスは、ソース・システムとデータウェアハウスのトラフィックが最も少ない時間帯に行われます。
ETLとELTはデータ統合の方法のひとつに過ぎず、データ統合ワークフローを促進するために他にも多くのアプローチがあります。その例としては、以下があります。
ETLソリューションは、データを別のリポジトリーにロードする前にデータ・クレンジングを行うことで品質を向上させます。ETLは時間のかかるバッチ処理であり、更新頻度が低い小規模なターゲット・データ・リポジトリーの作成により適しています。一方、ELT(抽出、ロード、変換)、変更データ・キャプチャー(CDC)、データ仮想化などの他のデータ統合手法は、頻繁に変更されるデータやリアルタイム・データ・ストリームの増大する量を統合するために使用されます。
過去には、組織が独自にETLコードを作成していましたが、現在では多くのオープン・ソースや商用のETLツール、クラウド・ベースのサービスがあります。これらの製品の一般的な機能は次のとおりです。
さらに、多くのETLツールはELT機能を組み込み、人工知能(AI)アプリケーション向けのリアルタイム・データとストリーミング・データの統合をサポートするように進化しました。
ステージング・エリアは、データ・ソースとターゲットの宛先(データウェアハウスなど)の間にある一時的なストレージ・ロケーションで、未加工データを一時的に保管するために使用されます。未加工データをターゲットの宛先に移動する前にクレンジング、検査、変換する積み込みドックとして機能します。
初期ロードとは、データ・ソースからターゲットの宛先に履歴データを初めて抽出してロードすることです。これにはデータ・セット全体が含まれ、プロジェクトの開始時に一度実行されます。増分ロードは、直近のロード以降に新規作成、変更、または削除されたデータのみをロードするプロセスです。これらのプロセスはスケジュールに基づいて実行されます。
この用語はやや曖昧で、2つの異なる意味で使用されます。緩やかに変化するディメンションとは、固定されたスケジュールではなく、時間の経過とともに不定期に変化するデータウェアハウス内のディメンション・テーブルを指します。よく挙げられる例は顧客の住所です。この用語は、ディメンション・データの時間の経過に伴う変化を処理し、追跡するために使用される方法と手法を指す場合もあります。
重複データに対処するには、組織は重複データとその種類を体系的に特定するプロセス、重複データを削除または統合するための明確なルール、将来の入力を防ぐためのガードレールを作成する必要があります。
データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。
watsonx.dataを使用すると、オープンでハイブリッド、かつ管理されたデータ・ストアを通じて、データがどこに保存されていても、すべてのデータを使用して分析とAIを拡張できます。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。