データ統合とは、複数のソースから得たデータを統一した一貫性のある形式に結合して調和させ、さまざまな分析、運用、意思決定に使用できるようにするプロセスのことを指します。
今日のデジタル・ランドスケープでは通常、データベース、アプリ、スプレッドシート、クラウド・サービス、APIなど、さまざまなソースからデータを収集しなければ、組織は機能できません。ほとんどの場合、このようなデータはさまざまな形式や場所に異なる品質レベルで保存されるため、データのサイロ化や不整合が生じてしまいます。
データ統合のプロセスは、異種のソースからデータを収集し、それを一貫した構造に変換してから、分析や意思決定にアクセスできるようにすることで、これらの課題を克服することを目的としています。
データ統合の一部分に過ぎないデータ取り込みとは異なり、統合はデータ・エンジニアリングの分析段階まで続き、データの可視化とBusiness Intelligence(BI)のワークフローも含まれます。そのため、データ統合のプロセスはデータの結果に対してより大きな責任を負うことになります。
データ統合には、異種ソースからデータを統合し、それを統一された使用可能な形式に変換する一連のステップとプロセスが含まれます。一般的なデータ統合プロセスの仕組みの概要は次のとおりです。
全体的に見て、データ統合には、多様なソースからのデータが調和され、正確で有意義な分析と意思決定に利用できるようにするための技術的プロセス、ツール、戦略が組み合わされています。
データ統合にはいくつかの種類があり、それぞれに独自の長所と短所があります。データ統合の最適な方法は、組織のデータ・ニーズ、テクノロジー・ランドスケープ、パフォーマンス要件、予算の制約などの要因によって異なります。
抽出、ロード、変換(ELT)では、ソースからデータを抽出し、それをデータベースまたはデータウェアハウスにロードし、その後ビジネス・ニーズに適した形式に変換します。これには、データのクリーニング、集約、または要約が含まれる場合があります。ELTのデータ・パイプラインは、速度と拡張性が重要になるビッグデータのプロジェクトやリアルタイム処理でよく使用されます。
ELTのプロセスは、最新のデータ・ストレージ・システムの能力と拡張性に大きく依存しています。データを変換する前にデータをロードすることで、ELTはこれらのシステムの計算能力を最大限に活用します。このアプローチでは、従来の方法と比較して、より迅速なデータ処理と柔軟なデータ管理が可能になります。
ETL(抽出、変換、ロード) では、データはデータ・ストレージ・システムにロードされる前に変換されます。つまり、変換はデータ・ストレージ・システムの外部、通常は別のステージング領域で行われます。
ELTは最新のデータ・ストレージ・システムを活用しているため、パフォーマンスの点でしばしば優位に立っています。一方、ETLのデータ・パイプラインは、変換プロセスに厳密なデータ・クリーニングと検証ステップを含めることができるため、データの品質と一貫性が最も重要なシナリオでは、より良い選択となり得ます。
リアルタイム・データ統合では、ソース・システムで利用可能になったデータを取り込んで処理し、直ちにターゲット・システムに統合します。このストリーミング・データ方式は通常、リアルタイム分析、不正アクセス検知、モニタリングなど、分刻みの洞察が必要とされるシナリオで使用されます。
リアルタイム・データ統合の1つである変更データ・キャプチャー(CDC)は、ソースシステムのデータに加えられた更新をデータウェアハウスやその他のリポジトリに適用します。これらの変更は、別のデータ・リポジトリに適用したり、ETLなどのデータ統合ツールで利用可能な形式にしたりすることができます。
アプリケーション統合(API)は、シームレスなデータフローと相互運用性を確保するために、異なるソフトウェアアプリケーション間でデータを統合することを含みます。このデータ統合方法は、人事システムが財務システムと同じデータを持つようにするなど、異なるアプリケーションがデータを共有し、連携する必要があるシナリオで一般的に使用されます。
データ仮想化では、データが物理的にどこに存在するかに関係なく、異なるソースからのデータを統一表示する仮想レイヤーが作成されます。これにより、ユーザーは物理的なデータ移動を必要とせずに、オンデマンドで統合データにアクセスし、クエリーを実行できるようになります。これは、アジリティーと統合データへのリアルタイム・アクセスが重要となるシナリオで特に役立ちます。
フェデレーション・データ統合では、データは元のソース・システムに残り、必要な情報を取得するためにクエリーがこれらの異種システム間でリアルタイムで実行されます。これは、データを物理的に移動する必要がなく、分析のために仮想的にデータを統合できるシナリオに最適です。フェデレーション統合によりデータの重複は減少しますが、パフォーマンス上の問題が発生する可能性があります。
データ統合にはいくつかのメリットがあり、組織はより多くの情報に基づいて意思決定を行い、業務を合理化し、競争上の優位性を獲得することができます。データ統合の主要なメリットは次のとおりです。
データ統合では、さまざまなソースやシステムからの情報をまとめ、統一された包括的なビューを提供します。データのサイロ化を解消することで、組織は分離されたデータ・ソースから生じる冗長性や不整合を排除できます。
データ変換とデータ・クレンジングのプロセスを通じて、データ統合はエラー、不整合、冗長性を特定して修正することでデータ品質の向上を実現します。正確で信頼性の高いデータは、意思決定者が自信をもって活用することができます。
統合されたデータは、手作業によるデータ入力を減らし、反復作業の必要性を最小限に抑えることで、よりスムーズなビジネスプロセスを可能にするうえ、エラーを最小限に抑え、組織全体でデータの一貫性を高めます。
データ統合により、分析のためにデータへより迅速にアクセスできるようになります。こういったスピードは、タイムリーな意思決定や、市場動向、顧客の要求、新たな機会への対応には不可欠なものです。
データ統合は、あらゆるビジネス・インテリジェンス・イニシアチブで基本的な要素となります。BIツールは、戦略的なイニシアチブを推進する有意義な視覚化と分析を生成するのに統合データに依存します。
企業データが異種システムに分散している場合には分かりにくいパターンや傾向、機会などが、統合データによって明らかになります。これにより、組織はイノベーションを起こし、新しい製品やサービスを生み出すことができます。
データ統合は、さまざまなビジネス・ニーズや課題に対処するために、幅広い業界やシナリオで使用されています。最も一般的なデータ統合のユースケースには、次のようなものがあります。
長年にわたり、データ統合に対する最も一般的なアプローチでは、開発者はリレーショナル・データベースで使用される標準プログラミング言語である構造化照会言語(SQL)で記述されたコード・スクリプトを手に入れる必要がありました。
現在では、さまざまなITプロバイダーが、オープンソースのソリューションから包括的なデータ統合プラットフォームに至るまで、データ統合プロセスを自動化、合理化、文書化するさまざまなデータ統合ツールを提供しています。これらのデータ統合システムには、一般的に以下のようなツールが多数含まれています。
IBM Databandは可観測性ソフトウェアで、メタデータを自動的に収集して履歴ベースラインを構築し、異常を検知してトリアージ・アラートを発信し、データ品質の問題を修復するデータ・パイプラインとデータ・ウェアハウスに対応しています。
IBM® DataStage®はETLとELTのパターンをサポートしており、オンプレミスにもクラウドにも対応する柔軟でほぼリアルタイムのデータ統合を実現します。
IBM® Knowledge CatalogはAI時代を支えるインテリジェントなデータ・カタログで、データと知識資産、そしてその関係へのアクセス、管理、分類、共有を可能にします。