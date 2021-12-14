ELT（抽出、読み込み、変換） とETL（抽出、変換、読み込み） はどちらも、未加工データをソースシステムからデータレイクやデータウェアハウスなどのターゲットデータベースに移動するデータ統合プロセスです。これらのデータ・ソースは、複数の異なるリポジトリに存在する場合もあれば、レガシー・システムに存在することもあり、ELTまたはETLを使用して対象となるデータ・ロケーションに転送します。
ELTでは、非構造化データをソースシステムから抽出し、必要に応じて後で変換するためにターゲットシステムにロードします。ここで抽出された非構造化データはビジネス・インテリジェンスのシステムで利用できるようになっており、データ・ステージングの必要はありません。ELTではデータウェアハウスを活用し、データの検証や重複データの削除といった基本的なデータ変換を行います。これらのプロセスはリアルタイムで更新され、大量の未加工データに使用されます。ELTは比較的新しいプロセスで、いわば姉にあたるETLと比較すると、ポテンシャルを十分に発揮できているとは言えません。ELTプロセスはもともと、ハードコードされたSQLスクリプトを基盤としていました。こうしたSQLスクリプトは、ETLで使用されるより高度な方法に比べ、コーディングエラーを起こす可能性が高くなっています。
ETLでは、非構造化データをソース・システムから抽出し、ターゲット・システムにロードする前に、具体的なデータ・ポイントと「キー」の候補が特定されます。従来のETLシナリオでは、ソースデータはステージングエリアに抽出され、ターゲットシステムに移動します。ステージング・エリアではデータの変換を経て、すべてのデータ・タイプの整理とクレンジングが行われます。この変換プロセスによって、構造化されたデータは、対象となるデータ・ストレージとの互換性を保つことができます。ETLは本来、市場において長く支配的だったリレーショナル・データベースと連携するように設計されたものです。データ・エンジニアは1970年代からETLプロセスに取り組んでおり、データサイエンスは長い時間をかけてETLのプロセスを大幅に改良してきました。
以下の動画では、Jamil SpainがETLについて深く掘り下げています。
ELTのアプローチは、ETLプロセスよりも高速な導入が可能ですが、移動させた後のデータは乱雑なものになります。データ変換がロード機能の後に実行されるため、このプロセスで起こりうる移行の遅延を防ぐことができます。ELTは変換の段階とロードの段階を分離し、コーディング・エラー（または変換段階でのその他のエラー）による移行作業の中断を防ぎます。さらにELTは、データウェアハウスの処理能力とサイズを利用して、大規模なデータ変換（またはスケーラブルなコンピューティング）を可能にすることで、サーバーのスケーリング問題を回避します。ELTはまた、クラウド・データウェアハウス・ソリューションと連携して、構造化、非構造化、半構造化、生データといった各種のデータをサポートできます。
ETLの実装には時間がかかるものの、よりクリーンなデータが得られます。このプロセスは、更新頻度がそれほど高くない、小規模なターゲットデータリポジトリに適しています。ETLはまた、クラウドベースのSaaSプラットフォームやオンサイトのデータ・ウェアハウスを使用して、クラウド・データ・ウェアハウスと連携させることもできます。
また、オープンソースや商用のETLツールも数多く存在し、以下のような機能やメリットがあります。
ELTプロセスは、大容量のデータセットやリアルタイムのデータ使用環境で使用するのが最適です。
具体例としては以下が挙げられます。
ETLは、複数のデータ使用環境の同期や、レガシーシステムからのデータ移行に最適です。
以下にその具体例を挙げます。
ELTとETLの主な違いは、2つのプロセスのオペレーションの順序であり、それぞれ異なる状況に適しています。その他、それぞれのプロセスで扱えるデータサイズとデータの修理も異なります。ELTとETLは似ているようにも見えますが、用途が異なります。
ELTの場合、データを転送し使用するために「キー」などの識別子を必要としないため、プロセスは簡素化されています。ELTプロセスは洗練されており、データ移行を支援するために使用される多くの進化したELTツールが存在します。それほど多くの段階に分かれていないため、ロード時間は短く済みます。ビジネス・インテリジェンス・システム用のELTソリューションは、非構造化データを迅速にロードする必要性から生まれました。クラウドベースの自動ELTソリューションは、比較的保守の負担が少ないものです。
ETLデータは導入時により多くの定義が必要で、通常はデータを正確に転送するためにかかる時間も長くなります。このプロセスではリアルタイム更新は必要なく、定期的な情報更新のみで事足ります。データをロードする前に、変換の段階で多くのステップを実行する必要があるため、ETLのロード時間はELTよりも長くなります。
IBMは、ビジネスに対応したデータ・パイプラインをサポートし、企業が効率的に拡張するために必要なツールを提供するように設計された、複数のデータ統合サービスとソリューションを提供しています。
オンプレミスおよびクラウドベースのデータ統合のリーダーであるIBMは、企業がビッグデータ・プロジェクト、アプリケーション、機械学習テクノロジーを管理する際に必要な自信を提供します。IBM Cloud Pak for Dataをはじめ、業界をリードするプラットフォームによって、DataOpsプロセスをモダナイズしつつクラス最高の仮想化ツールを活用し、現在と将来のビジネスに必要なスピードと拡張性を実現できます。
効果的なデータ統合ストラテジーを構築して実行する方法の詳細については、IBMのデータ統合スイートのデータ統合製品群をご覧ください。
IBMidにサインアップしてIBM Cloudアカウントを作成
IBMは、2024年Gartner® Magic Quadrant™のデータ統合ツール部門で、19年連続でリーダーに選出されました。
データ・アクセスを簡素化し、データ・ガバナンスを自動化します。ワークロードのコスト最適化やAIと分析の拡張、場所を問わないあらゆるデータへのアクセスなど、データレイクハウス戦略をデータ・アーキテクチャーに統合するメリットをご覧ください。
データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。
watsonx.dataを使用すると、オープンでハイブリッド、かつ管理されたデータ・ストアを通じて、データがどこに保存されていても、すべてのデータを使用して分析とAIを拡張できます。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。
