雲、円グラフ、グラフのピクトグラムをコラージュしたイラスト
データ統合とは

データ統合とは、複数のソースから得たデータを統一した一貫性のある形式に結合して調和させ、さまざまな分析、運用、意思決定に使用できるようにするプロセスのことを指します。

今日のデジタル・ランドスケープでは通常、データベース、アプリ、スプレッドシート、クラウド・サービス、APIなど、さまざまなソースからデータを収集しなければ、組織は機能できません。ほとんどの場合、このようなデータはさまざまな形式や場所に異なる品質レベルで保存されるため、データのサイロ化や不整合が生じてしまいます。

データ統合のプロセスは、異種のソースからデータを収集し、それを一貫した構造に変換してから、分析や意思決定にアクセスできるようにすることで、これらの課題を克服することを目的としています。

データ統合の一部分に過ぎないデータ取り込みとは異なり、統合はデータ・エンジニアリングの分析段階まで続き、データの可視化Business Intelligence(BI)のワークフローも含まれます。そのため、データ統合のプロセスはデータの結果に対してより大きな責任を負うことになります。

データ統合の仕組み

データ統合には、異種ソースからデータを統合し、それを統一された使用可能な形式に変換する一連のステップとプロセスが含まれます。一般的なデータ統合プロセスの仕組みの概要は次のとおりです。

  1. データ・ソースの特定:最初のステップは、データベース、スプレッドシート、クラウド・サービス、API、レガシー・システムなど、統合が必要な多様なデータ・ソースを特定することです。

  2. データ抽出:次に、抽出のツールまたはプロセスを使用して、特定されたソースからデータを抽出します。これには、データベースのクエリ、リモートロケーションからのファイルの取得、APIによるデータの取得などが含まれます。

  3. データのマッピング:データソースが異なる場合、同じような情報を表すのに異なる用語、コード、構造を使用することがあります。異なるシステムのデータ要素が互いにどのように対応するかを定義するマッピング・スキーマを作成することで、統合時に適切なデータの整合性が確保されます。

  4. データの検証および品質保証:検証では、エラー、矛盾、データ完全性の問題をチェックし、正確性と品質を確保します。データの正確性と信頼性を維持するために、品質保証プロセスが実装されます。

  5. データ変換:この段階では、抽出されたデータは一貫性、正確性、互換性を確保するために、共通のフォーマットに変換され、構造化されます。これには、データ・クレンジング、データ・エンリッチメント、データの正規化などが含まれます。

  6. データの読み込み:データの読み込みとは、その後の分析やレポート作成のために、変換済みデータをデータウェアハウスまたはその他の希望の宛先へと読み込むことです。読み込みのプロセスは、要件に応じて、バッチ読み込みまたはリアルタイム読み込みで実行できます。

  7. データ同期:データ同期は、定期的な更新またはリアルタイム同期(新しく利用可能になったデータをすぐに統合する必要がある場合)のいずれによっても、統合されたデータが長期にわたって最新の状態に保たれるようにします。

  8. データ・ガバナンスとセキュリティー:機密データや規制対象データを統合する場合、データ・ガバナンスの実践により、データが規制やプライバシー要件に準拠して処理されるようになります。統合中および保管中のデータを保護するために、追加のセキュリティー対策が実装されます。

  9. メタデータ管理:統合されたデータに関する情報を提供するメタデータは、その検出性と使いやすさを向上させてユーザーがデータのコンテキスト、ソース、意味をより簡単に理解できるようにします。

  10. データ・アクセスと分析:統合後は、BIソフトウェア、レポート・ツール、分析プラットフォームなど、さまざまなツールを使ってデータセットにアクセスし、分析することができます。この分析により、意思決定とビジネス戦略を促進するための洞察を得られるようになります。

全体的に見て、データ統合には、多様なソースからのデータが調和され、正確で有意義な分析と意思決定に利用できるようにするための技術的プロセス、ツール、戦略が組み合わされています。

ELT、ETL、その他の種類のデータ統合

データ統合にはいくつかの種類があり、それぞれに独自の長所と短所があります。データ統合の最適な方法は、組織のデータ・ニーズ、テクノロジー・ランドスケープ、パフォーマンス要件、予算の制約などの要因によって異なります。

抽出、ロード、変換(ELT)では、ソースからデータを抽出し、それをデータベースまたはデータウェアハウスにロードし、その後ビジネス・ニーズに適した形式に変換します。これには、データのクリーニング、集約、または要約が含まれる場合があります。ELTのデータ・パイプラインは、速度と拡張性が重要になるビッグデータのプロジェクトやリアルタイム処理でよく使用されます。

ELTのプロセスは、最新のデータ・ストレージ・システムの能力と拡張性に大きく依存しています。データを変換する前にデータをロードすることで、ELTはこれらのシステムの計算能力を最大限に活用します。このアプローチでは、従来の方法と比較して、より迅速なデータ処理と柔軟なデータ管理が可能になります。

ETL(抽出、変換、ロード) では、データはデータ・ストレージ・システムにロードされる前に変換されます。つまり、変換はデータ・ストレージ・システムの外部、通常は別のステージング領域で行われます。

ELTは最新のデータ・ストレージ・システムを活用しているため、パフォーマンスの点でしばしば優位に立っています。一方、ETLのデータ・パイプラインは、変換プロセスに厳密なデータ・クリーニングと検証ステップを含めることができるため、データの品質と一貫性が最も重要なシナリオでは、より良い選択となり得ます。

リアルタイム・データ統合では、ソース・システムで利用可能になったデータを取り込んで処理し、直ちにターゲット・システムに統合します。このストリーミング・データ方式は通常、リアルタイム分析、不正アクセス検知、モニタリングなど、分刻みの洞察が必要とされるシナリオで使用されます。

リアルタイム・データ統合の1つである変更データ・キャプチャー(CDC)は、ソースシステムのデータに加えられた更新をデータウェアハウスやその他のリポジトリに適用します。これらの変更は、別のデータ・リポジトリに適用したり、ETLなどのデータ統合ツールで利用可能な形式にしたりすることができます。

アプリケーション統合(API)は、シームレスなデータフローと相互運用性を確保するために、異なるソフトウェアアプリケーション間でデータを統合することを含みます。このデータ統合方法は、人事システムが財務システムと同じデータを持つようにするなど、異なるアプリケーションがデータを共有し、連携する必要があるシナリオで一般的に使用されます。

データ仮想化では、データが物理的にどこに存在するかに関係なく、異なるソースからのデータを統一表示する仮想レイヤーが作成されます。これにより、ユーザーは物理的なデータ移動を必要とせずに、オンデマンドで統合データにアクセスし、クエリーを実行できるようになります。これは、アジリティーと統合データへのリアルタイム・アクセスが重要となるシナリオで特に役立ちます。

フェデレーション・データ統合では、データは元のソース・システムに残り、必要な情報を取得するためにクエリーがこれらの異種システム間でリアルタイムで実行されます。これは、データを物理的に移動する必要がなく、分析のために仮想的にデータを統合できるシナリオに最適です。フェデレーション統合によりデータの重複は減少しますが、パフォーマンス上の問題が発生する可能性があります。

データ統合のメリット

データ統合にはいくつかのメリットがあり、組織はより多くの情報に基づいて意思決定を行い、業務を合理化し、競争上の優位性を獲得することができます。データ統合の主要なメリットは次のとおりです。

データ・サイロの削減

データ統合では、さまざまなソースやシステムからの情報をまとめ、統一された包括的なビューを提供します。データのサイロ化を解消することで、組織は分離されたデータ・ソースから生じる冗長性や不整合を排除できます。

データ品質の向上

データ変換とデータ・クレンジングのプロセスを通じて、データ統合はエラー、不整合、冗長性を特定して修正することでデータ品質の向上を実現します。正確で信頼性の高いデータは、意思決定者が自信をもって活用することができます。

効率性の向上

統合されたデータは、手作業によるデータ入力を減らし、反復作業の必要性を最小限に抑えることで、よりスムーズなビジネスプロセスを可能にするうえ、エラーを最小限に抑え、組織全体でデータの一貫性を高めます。

洞察を得るまでの時間の短縮

データ統合により、分析のためにデータへより迅速にアクセスできるようになります。こういったスピードは、タイムリーな意思決定や、市場動向、顧客の要求、新たな機会への対応には不可欠なものです。

ビジネス・インテリジェンスの向上

データ統合は、あらゆるビジネス・インテリジェンス・イニシアチブで基本的な要素となります。BIツールは、戦略的なイニシアチブを推進する有意義な視覚化と分析を生成するのに統合データに依存します。

データ駆動型イノベーション

企業データが異種システムに分散している場合には分かりにくいパターンや傾向、機会などが、統合データによって明らかになります。これにより、組織はイノベーションを起こし、新しい製品やサービスを生み出すことができます。

データ統合のユースケース 

データ統合は、さまざまなビジネス・ニーズや課題に対処するために、幅広い業界やシナリオで使用されています。最も一般的なデータ統合のユースケースには、次のようなものがあります。

  • データウェアハウジング:データ統合は、データウェアハウスを構築して、分析と基本的なレポート作成のための一元化されたデータ・ストアを作成する際に使用されます。

  • データレイクの開発:ビッグデータ環境には、構造化データ、非構造化データ、半構造化データの組み合わせが含まれることがよくあります。このデータをサイロ化されたオンプレミス・プラットフォームからデータレイクに移動すると、人工知能(AI)や機械学習(ML)などのデータに対して高度な分析を実行することで、価値の抽出が容易になります。

  • 顧客の360度ビュー:顧客関係管理(CRM)システム、マーケティング・データベース、サポート・プラットフォームなど、さまざまなソースからの顧客データを統合することで、組織は各顧客の統一されたビューを作成できます。うまく統合された顧客データは、企業がマーケティング活動のターゲットを絞り込み、クロスセル/アップセルの機会を特定し、より良いカスタマー・サービスを提供するうえで役立ちます。

  • ビジネス・インテリジェンスとレポート:データ統合は、販売、マーケティング、財務、運営など、ビジネス業績のさまざまな側面に関するインサイト(洞察)を提供する包括的なBIレポートやダッシュボードを作成するために不可欠です。

  • IoTデータの処理:IoT(モノのインターネット)デバイスからのデータを統合することで、組織は接続されたデバイスの監視と管理、センサー・データの分析、リアルタイムのインサイトに基づくプロセスの自動化が可能になります。
データ統合ツール

長年にわたり、データ統合に対する最も一般的なアプローチでは、開発者はリレーショナル・データベースで使用される標準プログラミング言語である構造化照会言語(SQL)で記述されたコード・スクリプトを手に入れる必要がありました。

現在では、さまざまなITプロバイダーが、オープンソースのソリューションから包括的なデータ統合プラットフォームに至るまで、データ統合プロセスを自動化、合理化、文書化するさまざまなデータ統合ツールを提供しています。これらのデータ統合システムには、一般的に以下のようなツールが多数含まれています。

  • ETLツール:ETLツールは、様々なソースからデータを抽出して目的のフォーマットや構造に合うように変換し、データウェアハウスやデータベースを含むターゲットシステムに読み込むために使用されます。これらのツールはデータ・ウェアハウジングだけでなく、データ統合やデータ移行にも使用されています。

  • エンタープライズ・サービス・バス(ESB)とミドルウェア:これらのツールは、メッセージングと通信のインフラストラクチャーを提供することで、さまざまなソフトウェア・アプリケーションとサービスの統合を促進します。リアルタイムのデータ交換、ワークフロー・オーケストレーション、API管理が可能になります。

  • データ複製ツール:データ複製ツールは、ソース・システムからターゲット・システムにデータを継続的に複製し、同期を維持するために使用されます。これらのツールの一般的なユースケースとして挙げられるのが、リアルタイムのデータ統合、災害復旧、高可用性に関するシナリオです。

  • データ仮想化ツール:データが物理的にどこに存在するかに関係なく、異なるソースからのデータの統一表示する仮想レイヤーを作成するために使用されます。これらのツールを使用すると、ユーザーは物理的なデータ移動を必要とせずに、統合されたデータにアクセスしてクエリーを実行できるようになります。

  • データのサービスとしての統合プラットフォーム(iPaaS): iPaaSソリューションは、データ変換、データ・ルーティング、API管理に加え、さまざまなクラウドおよびオンプレミス・アプリケーションへの接続など、クラウドベースのデータ統合サービスを提供します。一般的には、ハイブリッドクラウド統合、SaaSアプリケーションの接続に使用されます。

  • ストリーミングデータ統合ツール:これらのツールでは、IoTデバイス、センサー、ソーシャル・メディア、イベント・ストリームといったソースからのストリーミング・データのリアルタイム統合に焦点が当てられています。これらツールにより、組織はデータが生成されるとともに処理し分析できるようになります。

  • データ品質とデータ・ガバナンス・ツール:複数のソースから統合されたデータが品質基準を満たし、規制に準拠し、データ・ガバナンスのポリシーに準拠していることを確認するためのツールです。これらのツールには多くの場合、データのプロファイリング、クレンジング、メタデータ管理機能が含まれています。

  • CDCツール:CDCツールは、ソース・システムからのデータの変更をリアルタイムでキャプチャし、複製します。これらのツールは、データウェアハウスを最新の状態に保つためだけでなく、リアルタイム分析にもよく使用されます。

  • Master Data Management(MDM=マスター・データ管理)ツールMDMツールは、顧客、製品、従業員、その他の種類のマスター・データを管理し、組織全体の一貫性と正確性を確保することに重点を置いています。多くの場合、これらのツールにはさまざまなシステムのマスター・データを統合、同期するためのデータ統合機能が含まれています。

  • API管理プラットフォーム: これらのプラットフォームは、APIを設計、公開、管理するためのツールを提供します。主な焦点はAPI統合を可能にすることですが、システムとアプリケーションの接続においても重要な役割を果たします。
関連製品
IBM Databand

IBM Databandは可観測性ソフトウェアで、メタデータを自動的に収集して履歴ベースラインを構築し、異常を検知してトリアージ・アラートを発信し、データ品質の問題を修復するデータ・パイプラインとデータ・ウェアハウスに対応しています。

Databandはこちら
IBM DataStage

IBM® DataStage®はETLとELTのパターンをサポートしており、オンプレミスにもクラウドにも対応する柔軟でほぼリアルタイムのデータ統合を実現します。

データステージを探索
IBM Knowledge Catalog

IBM® Knowledge CatalogはAI時代を支えるインテリジェントなデータ・カタログで、データと知識資産、そしてその関係へのアクセス、管理、分類、共有を可能にします。

ナレッジカタログを探索する
次のステップ

IBM Databandで、問題が起きる前にリスクを検知できるデータ可観測性を今すぐ実現することで、データの健全性における問題の発生をユーザーよりも前に知ることができます。

Databandはこちら デモの予約