データ統合の手法と方法

By Alexandra Jonker , Tom Krantz

データチームは、エベレスト山そのものに匹敵するかもしれない大量のデータの山の前に立っています。そして、データの量と複雑さが衰える兆しが見られないため、このようなピーク時のスケーリングは日に日に気持ちをくじくものになっています。

今日の企業データは、異なるソース（SaaSアプリケーション、モノのインターネット（IoT）デバイス、レガシー・システムなど）から集められ、無秩序に広がったデータ・ストレージ・エコシステムに蓄積されています。この情報の大部分は非構造化データ、つまりEメール、PDF、画像、通話録音、チャットログなどの日常的な情報です。

包括的なビューがなければ、このデータはサイロ化され、到着した時点で古くなり、ほとんど活用されていません。言うまでもなく、大量の高品質データへのアクセスが限られているため、人工知能（AI）の実用化競争はスタートラインで停滞しています。

データ統合は、さまざまなソースにわたってさまざまなデータ形式、さまざまな品質レベルで保存されているデータを組み合わせ、集約し、調和させることで、このような課題を軽減するのに役立ちます。この統合は、データ・コンシューマーに、分析、AI、意思決定の目的で簡単に使用できる統一された首尾一貫した情報を提供します。

データ統合プロセスには、通常、データの識別、マッピング、変換、検証、読み込み、同期など、いくつかのステップがあります。ビジネスニーズと使用されるデータ統合方法の種類によって、技術的プロセス、ツール、ストラテジーの正確な組み合わせは異なり、その種類はいくつかあります。

データ統合の技術と方法

時間のかかる手作業でコード化されたSQLスクリプトを使用して、データを移動および変換する時代は終わりました。現在、テクノロジーを活用したさまざまなデータ統合方法があり、それぞれが異なる統合のニーズと機能に対応しています。

以下は、最も一般的な手法です。

抽出、変換、ロード（ETL）
抽出、ロード、変換（ELT）
リアルタイムのデータ統合
変更データ・キャプチャ（CDC）
データ仮想化
アプリケーションの連携
データの複製

抽出、変換、ロード（ETL）

ETLは、複数のソースシステムからデータを抽出し、ステージングエリアで変換し、中央リポジトリ（通常はデータウェアハウスやデータレイク）にロードするデータ統合手法です。

従来のETLアプローチは、オンプレミス環境におけるリレーショナルデータベースと、予測可能で構造化されたワークロード向けに設計されていました。これらは通常、バッチ処理、継続的な保守、硬直的なデータ・パイプラインに依存しているため、IoT（モノのインターネット）ストリームや非構造化データといった最新のユースケースには限界があります。

最新のETLツールはクラウド・ベースのアーキテクチャーとともに進化し、オートメーション、オーケストレーション、リアルタイムの取り込みを活用して機敏性と拡張性を向上させています。ELTパターンとブレンドされることが多く、バッチとストリーミングの両方のワークフローをサポートし、分析、機械学習（ML）、AIの基礎となります。

主な利点：データが対象システムに到達する前に、データのクリーニングと標準化を行うことで、データ品質を向上させます。
主な課題：従来のアプローチでは、大規模なデータ量やリアルタイムのデータストリームの処理に苦労しています。

ETLの詳細はこちら

抽出、ロード、変換（ELT）

ご想像の通り、ELTのデータ統合はETLと多くの共通点があります。どちらもソース・システムからターゲット・システムにデータを移動させます。ただし、ELTプロセスでは、前もってクレンジングするのではなく、未加工データを直接データ・ストレージ・リポジトリーに読み込み、必要に応じて変換を行います。

この統合アプローチにより、従来のETL手法に比べてより柔軟なデータ管理と高速なデータ処理が実現します。ELTは一般的に、スピードと拡張性が重要なビッグデータ・プロジェクトやリアルタイム処理で活用されています。

主な利点：ELTは、大量の構造化データ、非構造化データ、半構造化データ型の高速な取り込みをサポートします。
主な課題：強力なデータ変換とデータ・ガバナンス・プロセスがなければ、ターゲット・システムはデータ品質の問題に悩まされる可能性があります。

ELTの詳細はこちら

リアルタイム・データの統合

リアルタイム統合は、データが利用可能になり次第すぐに取得と処理を行い、ターゲット・システムに即座に配信します。従来のデータ統合のメリット（データ品質の向上やデータ・サイロの削減など）に加えて、この方法ではデータの可用性が大幅に向上し、場合によってはユーザーはミリ秒以内に洞察を抽出できるようになります。

この瞬時に近いデータ・アクセスは、ビジネス・インテリジェンス（BI）、生成AI（Gen AI）、顧客のハイパー・パーソナライゼーションを促進します。これは、リアルタイム分析、不正アクセス検知、システム監視などのユースケースにおいて特に有利です。

主要な利点：AIと情報に基づいた意思決定のために、高品質な最新データを提供します。
主な課題： リアルタイム・データの量と速度を扱えるデータ・インフラストラクチャーとネットワークが必要です。

リアルタイムのデータ統合の詳細はこちら

変更データキャプチャ（CDC）

リアルタイムのデータ統合の1つのタイプは、変更データ・キャプチャです。この手法は、データ・ソース・システムの変更を識別し、ただちにデータウェアハウスやその他のリポジトリーに適用します。

CDCは、組織全体でのリアルタイムのデータ同期を可能にします。また、変更されたデータのみを送信することで、ソース・システム、ネットワーク・トラフィック、コンピューティング・リソースの負荷が軽減されます。

効果的なリアルタイムの意思決定、クラウド移行、AIイニシアティブには、最新のシステムの使用が不可欠です。CDCは、不正アクセス検知、規制遵守、サプライチェーン管理とIoT（モノのインターネット）の実現などのビジネス・プロセスを支援します。

主な利点：他のデータ統合方法よりも少ないリソース消費で、最新のデータを効率的に提供します。
主な課題：CDCパイプラインは、機能を損なう可能性があるスキーマの変更に苦労する可能性があります。

変更データ・キャプチャの詳細はこちら

データ仮想化

データ仮想化は、異種のソースとデータ・コンシューマーの間に仮想（ソフトウェア抽象化）レイヤーを確立することでデータを統合します。この層は、物理的なデータの移動や複製を必要とせずに、データの統合ビューを提供します。これにより、ユーザーは、データが物理的にどこに存在するかに関係なく、オンデマンドでデータにアクセスし、クエリーを実行できます。

データ・フェデレーションは、別個のデータ統合方法と見なされることもありますが、データ仮想化における重要なテクノロジーです。さまざまなソース間の論理マッピングが可能になるため、ユーザーは単一のインターフェースからクエリを実行できます。

組織は、データ仮想化を使用して、物理プラットフォームの構築と管理のコストと複雑さなしに、「仮想」データ・ウェアハウジングを実行したり、データレイクを作成したりできます。分析やAIなど、俊敏性とリアルタイムのデータ・アクセスが重要なシナリオで、特に役立ちます。

主な利点：データ移動に関連するリソースの使用とリスクを削減しながら、データ統合を加速します。
主な課題：仮想化データのクエリは、特に頻繁なデータ更新が必要な場合、直接アクセスと比較してレイテンシーが発生する可能性があります。

データ仮想化の詳細はこちら

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

アプリケーションの統合

アプリケーションの連携は、アプリケーション、システム、サブシステムを接続し、統一された自動化されたデータ転送環境を構築します。そしてシームレスなデータフローと相互運用性をサポートし、チームやツール間のデータ・サイロを削減します。これらの機能は、平均的な企業が1,200近いクラウドアプリケーションを使用し、それぞれが独自のデータを生成している現在のビジネス環境において、非常に重要です。

組織は、データの一貫性を保ち、人事プラットフォームと財務プラットフォームなど、異なるシステムの連携をサポートするために、アプリケーションの連携を利用します。一般的なアプローチには、統合ワークフローを構築し自動化するためのアプリケーション・プログラミング・インターフェース（API）、コネクター、ミドルウェア、Webhookなどがあります。

主要な利点：以前は切断されていたアプリケーションやシステム間のリアルタイムのデータフローを促進をサポートします。
重要な課題：レガシー・システムと最新のSaaSアプリの統合は、複雑になる場合があります。

アプリケーションの連携の詳細はこちら

データの複製

データの複製は、異なる場所とシステムにまたがる同じ日付の複数のコピーを作成し、維持します。通常、この手法では、単一のソース・システムから1つ以上のターゲット・システム（レプリカ）にデータを複製します。分散環境におけるデータの可用性、信頼性、レジリエンスを確保するのに役立ち、ディザスター・リカバリー戦略の一部としても使用されます。

複製は通常、非同期と同期の2つの方法で行われます。非同期データ複製では、データはまずプライマリー・システムにコピーされ、その後、遅延を伴って、バッチでレプリカ・システムにコピーされます。同期データ複製では、データは常にプライマリー・システムとレプリカ・システムに同時にコピーされます。

主な利点：エンドユーザーへのデータ移動距離が短くなるため、レイテンシーが軽減され、パフォーマンスが向上します。
主な課題：リアルタイムのデータ更新の必要性とシステム・パフォーマンスのバランスを取るのが難しい場合があります。

データ複製の詳細はこちら

AI Academy

生成AIの成功の鍵はデータ管理

生成AIの使用を成功させるために、高品質のデータが不可欠である理由をご覧ください。

エピソードに移動

エージェント型データ統合：アクセスと提供の簡素化

データ統合の次の進化は、AIエージェントを使用した、データ配信の最適化および合理化です。これらの機械学習モデルは、人間の意思決定を模倣して、問題をリアルタイムで解決できます。マルチエージェント・システムでは、各エージェントが特定のサブタスクを実行し、AIエージェント・オーケストレーションによって調整されます。

エージェント型データ統合ツールを使用することで、どのようなスキルレベルのビジネス・ユーザーでも、自然言語を使用してデータをリクエストする（例：「CRMとERPのデータを結合する」）一方で、エージェントは技術的な作業を処理します。アナリストやビジネス・ユーザーが必要とするデータを得るまでに通常1～4週間かかるのに対し、これらのツールは数分で適切なソースに接続し、変換を適用し、信頼できるデータ・セットを提供します。

AIエージェントは、チーム間の絶え間ない引き継ぎを制限し、重いデータ・エンジニアリングのリソースを使用せずに運用効率を増強させ、長いデータ準備サイクルを削減することができます。信頼できる統合データにほぼリアルタイムでアクセスできるため、チームは分析とAIプロジェクトを前進させ、より迅速に、より適切な意思決定を行うことができます。

執筆者

Alexandra Jonker

Staff Editor

IBM Think

Tom Krantz

Staff Writer

IBM Think