概要

データ統合とは

データ統合とは、ETL、データ複製、データ仮想化などの技術的・ビジネス的プロセスのことで、異なるソースからのデータを、ビジネス・インテリジェンスやビジネス・アナリティクスに必要な、意味のある有益なデータ・セットにまとめることです。 完全なデータ統合ソリューションは、オンプレミスとクラウドの複数ソースからデータを提供し、DataOpsのための信頼できるビジネス対応データ・パイプラインをサポートします。

IBMが提供するデータ統合ソリューション(IBM Cloud Pak® for Dataプラットフォームでのデータ統合を含む)は、拡張性の高いマルチクラウドのソリューションを提供して、AI導入を加速させます。 ソース・システムから大量のデータを抽出し、任意の形式に変換し、企業のデータウェアハウスやクラウド・ソースにロードします。

IBMのデータ統合製品は、スタンドアロンで使用することも、IBM Cloud®のマネージド・サービスとして使用することもできます。

IBMがGartner社のデータ統合ツールのマジック・クアドラント(2021年)でリーダーとして選定された理由をご覧ください。

Andre De Locht氏によるデータ統合の説明

30秒で語るデータのデコード: データ統合とは(00:30)

IBMはデータ・ファブリックのユースケースで2位にランク

Gartner社による2021年のデータ統合ツールのクリティカル・ケイパビリティーでその理由をご覧ください。

データ統合のユースケース

顧客データの統合

六角形の中の人の輪郭

分散したデータベースやシステムのデータを接続することで、カスタマー・リレーションシップ・マネジメント(CRM)を強化し、顧客で必要とされるものを提供します。

ヘルスケア・データの統合

カルテのクリップボード

臨床、ゲノム、放射線、画像のデータを組み合わせて迅速に洞察を引き出し、患者の治療、コホートの治療、公衆衛生の分析に利用できるようにします。

ビッグデータの統合

入れ子になった六角形

多数のソースからのビッグデータを統合して表示する高機能データウェアハウスを使用して、ビジネス・インテリジェンス・プロセスを簡素化します。

IBMのデータ統合ソリューションをお勧めする理由

オープンソース・プラットフォーム

Red Hat® OpenShift®上で稼働するデータ統合プラットフォームにより、エンタープライズ・クラスのスケールとセキュリティーを実現します。

AIを活用した自動化

AIを活用したタスクの自動化により、デリバリーを加速し、TCOを削減します。

マルチクラウド・デプロイメント

コンテナ・テクノロジーを活用して、ハイブリッド環境とマルチクラウド環境にわたりデータ統合を実行します。

IBM DataStage

ETL分野をリードするIBM® DataStage®は、オンプレミスとクラウド上でデータを移行・変換するジョブを設計、開発、実行するための、非常に拡張性の高いデータ統合ツールです。

IBM DataStage for IBM Cloud Pak for Dataは、Red Hat OpenShift上の最新のコンテナ・ベースのアーキテクチャーを備えています。データとAIの単一プラットフォーム上で、業界をリードするデータ統合をDataOps、ガバナンス、分析と組み合わせます。 ハイブリッド環境またはマルチクラウド環境にわたって信頼できるデータを大規模に提供します。

主な参考情報

詳細

データ統合の技法

データ統合は、企業がデータを単一の信頼できるビューに統合して分析し、最終的にはビジネスを推進するためには不可欠です。 例えば、顧客データを統合して表示することで、マーケティング戦略をより確実に成功に導くことができます。 データ統合のプロセスでは、以下のようなさまざまな技法が使用されます。

  • 抽出、変換、ロード(ETL): 複数のデータ・ソースからのデータを、抽出、変換し、ロードし、さらにデータウェアハウスまたは他のターゲット・システムにロードします。 ソース・システムではなくステージング領域で生データを変換(または、クレンジングや準備)することで、パフォーマンスが向上し、データが破損する可能性が低くなります。
  • 抽出、ロード、変換(ELT): ソース・ロケーションからターゲット・データ・ストアに生データを抽出してロードし、必要に応じて変換することができます。 多くの場合、ELTのターゲット・システムは、大量の構造化データや非構造化データを収容できるデータレイクや、クラウド・データウェアハウスです。 この方法は、人工知能(AI)機械学習予測分析のサポートや、リアルタイム・データを使用するアプリケーションのサポートに最適です。
  • データ複製: 影響の少ないログ・ベースのデータ・キャプチャーを使用して、ほぼリアルタイムのデータの同期や配信などの補完的機能を提供します。
  • データ仮想化: オンデマンドでデータにアクセスしてクエリーを実行する必要があるビジネス・ユーザー向けの仮想ビューを作成して、複数ソースからのデータ・アクセスを抽象化します。

データ統合の課題

多くの企業は、リレーショナル・データベースやストリーミング・データ・サービスなどの異なるシステムから発信されるデータの雪崩に直面しています。 より適切な意思決定を行うために必要なビジネス・インテリジェンスは、そのようなデータすべての中に隠されています。しかし、データが管理・規定され、最終的に信頼されるようになるには、堅固なデータ統合プロセスに従う必要があります。 統合作業が妨げられる要因には以下のものがあります。

マルチクラウド環境でのデータ・レイテンシー
大量のデータをマルチクラウド環境とデータレイク環境にわたり移動するには時間がかかり、そのデータをアプリケーションや運用システム内でリアルタイムに使用できない可能性があります。

複数のツールを使用する複雑さとコスト
複数のデータ統合ツールを管理することは、お客様のリソースで時間がかかる作業であるため、ビジネスにとって高コストである可能性があります。

手動プロセスとワークフロー
ハンド・コーディングやジョブ設計などの手動タスクは、アプリケーションの構築と更新を遅らせる可能性があります。 また、手動プロセスはクラウド環境ごとに設計する必要があるため、複数のクラウドを扱う場合は、開発時間とコストが増加します。

データ品質とガバナンスの欠如
多種多様なソースから送られてくるデータは、管理が難しく、ビジネスを危険にさらす可能性があります。 効果的なAIモデルには、信頼できるクリーンなデータも必要です。

クラウド・データ統合

データ・リポジトリーには、オンプレミス環境、クラウド環境、データレイク環境があります。 多くの場合、企業はストレージやアプリケーション導入に関する特定のニーズを満たすために、異なるベンダーのクラウドを利用しています。 これらすべての環境にわたりデータを統合して、統一されたビューを実現する手法が、クラウド・データ統合です。

クラウド・データ統合の複雑さには、最新のアプローチが必要です。 堅牢なマルチクラウド・データ統合ソリューションには次のことが求められます。

  • ハイブリッド・マルチクラウド環境にわたる多様なデータ・ソースの同期を簡素化および高速化する
  • データ・ソースに近いランタイムを見つける
  • 各種クラウド・プラットフォーム上の組み込み型の分析サービスとAIサービスを使用する
  • ジョブ設計を自動化し、データ・ソースへの高速アクセスのために事前構築コネクターを装備する
  • ガバナンスとコンプライアンスを管理するためにインラインのデータ品質を組み込む

IBM DataStage for IBM Cloud Pak for Dataは、この最新のアプローチを提供できます。

データ統合かアプリケーション統合か

データ統合とアプリケーション統合は似ているようでいて、実は全く異なる概念です。 前述のように、データ統合とは、異なるデータ・ソースから情報を検索して取得し、統合された構造およびビューで提供することです。 アプリケーション統合は、複数の独立したアプリケーションを直接結びつけ、それらが相互に連携できるようにするものです。多くの場合、最新のAPIや従来型のサービス指向アーキテクチャーを介して行われます。 データとワークフローが統合・最適化されるため、オンプレミスのシステムとクラウド・ベースのアプリケーションとのギャップを埋めるのに役立ちます。

データ統合かデータ・マイグレーションか

データ・マイグレーションとは、単にデータをストレージ・タイプ間で移動させるプロセスのことです。 これには、オンプレミス環境からクラウドへのデータ移動も含まれます。 一方で、データ統合は、データがETLやELTのプロセスを経て分析可能な状態になるため、より複雑になります。

関連製品

IBM Cloud Pak for Data

オンプレミスかクラウドかを問わず、すべてのデータを統合して、データをその発生場所で安全に保つ、柔軟なマルチクラウド・データ・プラットフォームです。

IBM InfoSphere Master Data Management

単一または複数のドメイン(顧客、サプライヤー、製品、アカウントなどを含む)のマスター・データ管理を行います。

IBM InfoSphere Data Replication

トランザクションの保全性を向上させつつ、RDBMSと非RDBMSの各種ソースとターゲットにわたってデータを低遅延で複製するのに役立ちます。

次のステップ