クラウドデータ統合とは何ですか？

By Alexandra Jonker , Tom Krantz

クラウド・データ統合、定義済み

クラウドデータ統合とは、少なくとも１つのデータソースやプラットフォームがクラウドベースである場合に、システム間でデータを結合し調和させるために使用される慣行やテクノロジーを指します。

クラウドデータ統合の目標は、組織全体でクラウドデータへのアクセスと配信を改善する一方で、データが安全で、統治され、パフォーマンスを確保することを目的とし、より広範なエンタープライズデータ管理戦略の一環として実施されます。データの量、速度、多様性が爆発的に増大する中で、組織がAIを導入し、顧客体験を改善し、リアルタイム分析を拡大しようとする中で、これらの基盤的機能は特に必要不可欠です。

クラウドデータ統合の傘下には、ハイブリッドクラウドデータ統合とマルチクラウドデータ統合という2つのサブタイプがあります。

ハイブリッドクラウドデータ統合：パブリッククラウド、プライベートクラウド、オンプレミスに存在するデータを統合。
マルチクラウド・データ統合：複数のクラウドプロバイダーのクラウドサービスに存在するデータを統合します。

今日、ほとんどの企業は、複数のプロバイダーのパブリックおよびプライベート・クラウド・サービスにまたがるハイブリッド・マルチクラウド環境で運用しています。このモデルでは、クラウド・データの統合により、データがどこに存在してもアクセス可能で信頼性が高く、利用可能な状態を維持するための基盤が提供されます。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

クラウド・データ統合が重要な理由

企業データをクラウドに保管することには明確な利点があり、特にハードストレージの制限をなくし、大量のビッグデータを簡単に保管できるようになります。その他の一般的な利点としては、コスト効率、拡張性、ビジネス継続性の向上などが挙げられます。

これらの利点により、組織は急速にデータをクラウドに移行してきました（同時に、性能や規制要件を満たすためにデータをオンプレミスに保持しながら）。一部の予測では、企業のクラウドストレージの支出は2028年までに1280億ドルに達すると予測されています。¹また、世界中で保管されているデータの量は2024年から2029年の間に倍増すると予測している企業もあります。²

現在、企業の最も重要な資産であるクラウドデータの一つは、ハイブリッドおよびマルチクラウド環境において、構造化および非構造化形式で幅広い範囲での分散が増加しています。

この異種のデータにより、チーム、プラットフォーム、環境間で情報がサイロ化された断片化したデータ環境が生じ、チームがデータを活用することが困難になっています。同時に、アプリ、モノのインターネット（IoT）デバイス、トランザクションデータによって生成されるデータの量は、クラウドとオンプレミスの両方のシステムで増加し続けています。

クラウドデータの統合は、この複雑さに対処するのに大幅に役立ちます。クラウド環境とオンプレミス環境全体でデータを統合し、調和させます。この統合されたビューにより、クラウド・データはアクセス可能で、分析や意思決定に使用できるようになります。急速なイノベーションとますます分断されるデータの時代において、この機能は不可欠です。

断片化はイノベーションを阻害し、遅延、一貫性のない、または不正確な意思決定につながり、組織が革新、適応、運用効率達成の能力を制限する可能性があります。実際、IBMのデータによると、調査に回答したCEOの68％が、企業全体にわたる統合データ・アーキテクチャーが、部門横断のコラボレーションとイノベーションの推進を実現するために必要不可欠であると回答しています。³

特に人工知能（AI）の取り組みは、統一され、信頼され、一貫性のあるデータに依存しています。強力なデータ統合ストラテジーがなければ、組織はAIを大規模に運用するのに苦労する可能性があります。

AI Academy

生成AIの成功の鍵はデータ管理

生成AIの使用を成功させるために、高品質のデータが不可欠である理由をご覧ください。

エピソードに移動

クラウド・データの統合はどのように機能するのか？

クラウドデータ統合は典型的なデータ統合ステップに従いますが、運用順序や技術的な詳細、特に分散クラウドやハイブリッド環境間でのデータの移動と処理をオーケストレーションするようにパイプラインが設計される方法によって異なる場合があります。

データソースの識別：クラウド・データ統合では、データソースにはクラウド固有の特性があります。これらには通常、データウェアハウス、サービスとしてのソフトウェア（SaaS）とクラウドアプリケーション、クラウドオブジェクトストレージシステム、およびオンプレミスのレガシーシステムとクラウドベースのデータストアにまたがるハイブリッドソースシステムが含まれます。
データ抽出：クラウドやハイブリッドのソースからデータを抽出するには、クラウドネイティブのツールやプロセスを使用します。このツールやプロセスは、（必要な場合は従来のバッチ処理に加えて）インクリメンタルなほぼリアルタイムのデータ取り込みをサポートするのが一般的です。抽出には通常、アプリケーション・プログラミング・インターフェース（API）やコネクター（マネージド、ビルトインの両方）が関与します。
データのマッピング：マッピングスキーマは、異なるシステムのデータ要素が互いにどのように対応するかを定義します。このステップは、統合時にデータの整合性を確保するために役立ちます。クラウド・データ統合では、マッピング・プロセスはクラウド・ソースとSaaSソースで一般的なスキーマ・ドリフトに対応する必要があります。
データのロード：抽出、ロード、変換（ELT）はクラウドデータ統合の主要なアプローチであり、変換前にデータをターゲットシステム（データウェアハウス、データレイク、データレイクハウスなど）にロードします。このステップは、スケーラブルなクラウド・ストレージとクラウド・コンピューティングを活用し、大量のクラウドデータを効率的に移動させます。
データ変換：データ変換はデータを共通フォーマットに変換・強化し、精度と下流の互換性をサポートします。変換は通常、クラウドネイティブのサービスを使用し、ELTアプローチに従い、クラウド環境でのオンデマンドのデータアクセスの並列処理と継続的な運用を活用します。
データの検証および品質保証：品質管理は、エラー、不整合、データ整合性の問題をチェックすることにより、データの正確性と品質を確保するのに役立ちます。自動検証チェックは、大規模にデータ形式、コード、タイプ、範囲の一貫性を維持するために使用されます。

クラウドデータ統合のメリット

従来のデータ統合と同様に、クラウド・データ統合には次のような幅広いメリットがあります。

統合データアクセス
データ品質と一貫性
拡張性とレジリエンス
イノベーションの加速

統合データアクセス

クラウド・データ統合は、データが存在するあらゆる環境全体でデータを統合します。この一元化により、データ・ユーザーは増え続ける組織のデータ・エコシステムにアクセスできるようになり、データのサイロを効果的に解消することができます。

クラウド、オンプレミス、バッチ、リアルタイムのいずれであっても、必要なときに、必要な場所でデータを提供します。この民主化は通常、豊富なメタデータとデータカタログによって可能になります。

データ品質と一貫性

データ品質の問題がダウンストリームのシステムやダッシュボードに到達すると、被害は既に完了しています。データ変換とクレンジングプロセスを通じて、クラウドデータ統合は、ビジネス上の意思決定や自動化、AIに使用される前に、エラーや矛盾、冗長性のない高品質で目的に合ったクラウドデータを確保するのに役立ちます。

拡張性とレジリエンス

クラウドデータ統合では、サーバーレスやエラスティックなコンピュートサービスとともに、オブジェクトストレージ（データレイクやクラウドデータウェアハウスのストレージレイヤーなど）を活用することが多いです。このアプローチにより、データ・ストレージがコンピューティングから切り離され、スケーラブルでレジリエントな処理が提供されます。クラウドデータが保存されている場所で処理される分散アーキテクチャーは、サーバーやデータセンターに障害が発生した場合の耐障害性を提供します。

アジリティーとイノベーションの加速

統合されたデータにより、クラウド・データ・アクセスがより迅速かつ容易になります。この接続性は、金融サービス、医療、小売などのペースの速い業界において、関連性の高いデータ駆動型の意思決定を行う際に不可欠です。また、 AIモデルのトレーニングやデータサイエンスワークフロー、AIの文脈理解や機能の向上にも重要です。

クラウド・データ統合における一般的な考慮事項と課題

クラウド・データ統合を実装する組織は、ガバナンス、性能、リアルタイム処理、デプロイメント・モデルにわたるさまざまな技術的および運用上の課題に直面する可能性があります。

ガバナンス、セキュリティー、コンプライアンス
効率とスケーラビリティー
リアルタイムのデータ統合
ハイブリッド展開

ガバナンス、セキュリティー、コンプライアンス

システム間でデータを統合すると、潜在的な攻撃ベクトルの数が増え、それに伴い不正アクセスや機密情報の漏洩のリスクも高まります。データ・セキュリティー上の懸念以外にも、地域、管轄区域、またはクラウド環境を越えた顧客データの転送には、さまざまな法的要件やデータ居住要件が適用される場合があります。組織は、データフローがGDPR、HIPAA、PCI DSSなどの適用規則に準拠していることを確認しなければなりません。

すべての統合ポイントでのデータ暗号化（転送中および保存中のデータ）、強力な認証、権限、承認は、これらのリスクの軽減に役立ちます。堅牢なデータ・ガバナンス・フレームワークは、セキュリティーの強化にも役立ちます。セキュリティー機能とコンプライアンス認証が組み込まれたデータ統合プラットフォームは、運用上のオーバーヘッドの削減に役立ちます。一方、クライアントが管理するプラットフォームやローカルでホストされるプラットフォームでは、セキュリティー・プロトコル、コンプライアンスの実施、インフラストラクチャー管理をより細かく制御することが可能です。

性能と拡張性

クラウドデータ統合におけるコアな課題は、性能、コスト、複雑なデータのバランスを取ることです。データ統合ツールが拡張性を考慮して設計されていない場合、大量のデータの処理が困難になる可能性があります。取り込みパイプラインが過負荷になると、データ処理が遅くなり、ビジネス・プロセスに遅延が生じ、一貫性のないアウトプットが発生し、コストが増加する可能性があります。

組織は、高スループットのコネクター、並列処理、大規模なデータセットを分割するためのパーティショニングをサポートするソリューションを優先できます。組み込みの監視およびオブザーバビリティー機能により、データ・フローとストレージ・リソースの使用率をエンドツーエンドで可視化し、ボトルネックを防ぎ、データ量の変動に関係なく高いパフォーマンスを維持できます。適切な統合アプローチを選択することも、非常に重要です。例えば、ELTパイプラインは読み込み後にデータを変換し、クラウド・プラットフォームやデータウェアハウスの柔軟な計算能力を活用して大規模なデータを処理します。

リアルタイム・データの統合

リアルタイムまたはほぼリアルタイムデータの統合は、企業にとってますますクリティカルになっています。即時の意思決定、AIワークロード、その他の一刻を争うオペレーションには、新鮮なデータの継続的なストリームが必要です。しかし、リアルタイムのデータ統合は技術的に困難であり、特に低レイテンシー処理が要求される大容量のデータではそうです。分散型クラウド・アーキテクチャーは、レイテンシーとネットワークの信頼性に関する懸念をさらに増大させる可能性があります。

イベント駆動型アーキテクチャー（EDA）をサポートするクラウドデータ統合ソリューションにより、システムはリアルタイムで通信し、データを交換できます。クラウドネイティブ環境におけるEDAの採用の増加は、従来のバッチ指向のアーキテクチャーから、イベント（データ・レコード）が発生したときに処理する、よりダイナミックで応答性の高いアーキテクチャーへの大きな移行を示しています。

変更データ・キャプチャ（CDC）は、多くのソリューションがサポートするもう1つのリアルタイム統合方法です。さまざまなターゲット・システムで発生したデータ変更を取り込んで配信し、ほぼリアルタイムのデータ同期を可能にします。

ハイブリッド展開

多くの企業は、クラウド外に存在するオンプレミスのワークロード（例えば、Oracle Database、IBM Db2、SQL Serverに保管されているデータセット）を規制しています。このようなシナリオでは、オンプレミスシステムとクラウド・プラットフォームの間で相互運用性の問題が発生する可能性があるため、完全なクラウドベースのデータ統合デプロイメントは現実的ではありません。

ハイブリッドの導入は、データがすでに存在する場所でデータを処理し、同じ環境（クラウドかオンプレミスかを問わない）でパイプラインを実行することで、こうした課題に対処できます。これらの機能により、レガシーシステムとクラウドネイティブ・システムを統合する複雑さが軽減されます。また、コスト効率も高く、ツールの無秩序な増加を減らすのにも役立ちます。

ハイブリッドのデータ統合のデプロイメントでは、設計時間とランタイムを分離するクラウドネイティブのパイプライン開発モデルであるリモート・エンジン実行を使用します。パイプラインは一元的に設計され、ターゲット環境（クラウドからクラウド、クラウドからオンプレミス、オンプレミスからクラウドのワークロード）で実行されます。この柔軟性には、データ移動の削減、出口コストの削減、ネットワーク遅延の最小化など、さまざまなメリットがあります。

リモートエンジン実行の詳細はこちら

AIとクラウド・データの統合

AIを活用してデータ統合プロセスを加速、合理化、最適化するユースケースは数多くあります。例としては、機械学習支援スキーママッピング、データ変換のための自然言語処理（NLP）インターフェース、合成データを作成するための生成AI、データの複製を改善するためのAIを活用した手法などがあります。⁴

エージェント型AIもまた、データチームが自然言語を使って統合要件を表現できるようにする、新たに登場した最先端のデータ統合機能です。これらのインプットに基づいて、エージェントは自律的に統合設計プランを提案し、データ環境やビジネス・ニーズの変化に応じてワークフローの最適化を長期にわたって継続的に支援します。

これらのエージェント機能により、データエンジニアはデータ・パイプラインの設計と実行を迅速化し、手動のデータ入力やデータ移行などの時間のかかる作業を削減できます。また、データエンジニアリング・チームの助けを借りなければデータにアクセスできないことが多い非技術系ユーザーの遅延も短縮できます。

他のAIイニシアチブと同様に、導入の成功は、ヒューマン・イン・ザ・ループを保つことと、強力なAIガバナンスと継続的な透明性の維持にかかっています。

共同執筆者

Alexandra Jonker

Staff Editor

IBM Think

Tom Krantz

Staff Writer

IBM Think