従来のデータ統合と同様に、リアルタイム・データ統合は、組織内で分断されていたり一貫性のないデータを結合し、整合させる機能を果たします。このプロセスには、データ取り込みから分析に至るまでの一連のステップが含まれており、ユーザーはより迅速かつ的確な意思決定を行うことが可能になります。
違いは、データの利用可能になるスピードにあります。リアルタイム・データ統合では、ユーザーがデータからインサイトを得るまでの遅延が最小限に抑えられ、通常は数ミリ秒以内での処理が可能です。
多様なソース(データベース、スプレッドシート、アプリケーション、クラウド・サービスなど)やフォーマットからの高品質なデータへ即座にアクセスできることにより、企業は変化に迅速に対応できる柔軟性を獲得します。このことは、Business Intelligence(BI)、生成AI(Gen AI)、ハイパーパーソナライゼーションなどのユースケースを推進します。
バッチ処理などの従来型のデータ統合プロセスでは、増大するデータ量や現代の企業が求める高速なデータ処理ニーズに対応できません。リアルタイム・データ統合は、さまざまなストリーミング技術やリアルタイムのデータ処理を活用しており、オープンソース・ソリューションから包括的なデータ統合プラットフォームに至るまで、継続的かつ大規模な運用を前提として設計されています。
データはイノベーションの背後にある原動力であり、データ駆動型の組織にとって重要な資産です。しかし、今日のデータ量は増加しており、世界のデータ量は2028年までに393.9ゼタバイトに達すると予想されています。データの分散と多様化も進んでおり、さまざまなシステムやリポジトリー、クラウド、オンプレミス環境に保管されています。
ますます複雑化するデータの山を管理することは、大きな課題です。組織は、サイロ、データの古さ(データが更新されていない期間がある場合に発生)、データ・ガバナンス、ネットワークのレイテンシーに手を焼いています。
現代のデータ管理における課題をさらに複雑にしているのが、俊敏性とイノベーションへの圧力です。今日の市場は変動が激しく、組織は変化に迅速に対応するためにリアルタイム・データ処理が必要であることを理解しています。また、生成AIは競争上の不可欠な要素として浮上しており、今後10年以内に世界のGDPを7%押し上げると予測されています。
しかし、生成AIが有益な成果を生み出すためには、大量かつ高品質なデータが必要です。また、不正アクセス検知や物流など、生成AIモデルがリアルタイムで応答しなければならないユースケースでは、データが収集された瞬間に提供されることが極めて重要です。現在、自社のクラウドおよびデータ機能が生成AIに対応できると自信を持っているテクノロジー・リーダーはわずか16%にとどまっています。1
リアルタイムのデータ統合は、即時データ・アクセスという現代のニーズを満たすと同時に、従来のデータ統合のメリット(データ・サイロの削減とデータ品質の向上)も実現します。また、知見を得るまでの時間が短縮され、データ駆動型の意思決定が可能になることで、業務効率も向上します。
リアルタイム・データは多くの場合、ストリーミング・データとイベント・データの2種類に分類されます。リアルタイムの統合と知見を追求する組織にとって、これらの種類の違いと関連性を理解することは非常に重要です。
ストリーミング・データとはモノのインターネット(IoT)、デバイス、金融市場、ソーシャル・メディア活動、e取引トランザクションなど、さまざまなソースから継続的に流れるリアルタイム・データです。ストリーミング・データは、ビッグデータとリアルタイム分析、人工知能 (AI)、機械学習の基盤となります。また、継続的な最新情報を必要とする他のユースケースのかなめでもあります。
イベントとは、製品の販売、送金、設定されたしきい値に達する温度など、システムにとって重要な単一の変化、発生、またはアクションのことです。関連するイベントはグループ化されます。これらのグループ化されたイベントの継続的な送信は、ストリーム、またはより具体的にはイベント・ストリームと考えることができます。ただし、リアルタイムのデータ・ストリームのすべてのインスタンスにイベントが含まれているわけではありません。
リアルタイム・データ統合のツールおよび手法には、以下のようなものがあります。
さまざまなソースのデータのスナップショットを特定の間隔で統合するバッチ統合とは異なり、ストリーム・データ統合(SDI)は、データが利用可能になるとリアルタイムで統合します。SDIは分析のためにデータ・ストリームを常に消費、処理し、ターゲット・システムにロードします。これらの機能により、高度なデータ分析、機械学習、および不正アクセス検知やIoT分析などのリアルタイム・データのユースケースが可能になります。
SDIの実装には、エンタープライズ・システム間で数百万のデータ・レコードを低レイテンシーかつ高速に移動するストリーミング・データ・パイプラインが必要です。これらのパイプラインは、大量のデータを迅速に処理する際によく発生する問題である、データの破損や重複のリスクを大幅に軽減することで、データの整合性を確保します。
Apache KafkaやIBM StreamSetsのようなデータ統合プラットフォームは、各組織の独自のITエコシステムに合わせて設計されたストリーミング・データパイプラインの構築を支援します。
変更データ・キャプチャ(CDC)は、Microsoft SQL Server、Oracle、MongoDBなどのデータソースで発生した変更をリアルタイムに検出し、それをデータウェアハウス、ETLソリューション、その他のデータ・リポジトリーやターゲット・システムに反映させる手法です。ここでいう変更には、データの削除、挿入、更新が含まれます。CDCは、データ複製ツールとは異なり、データ全体のセットではなく、変更された部分のみを検出・複製します。
CDCは基本的に、システムをリアルタイムで最新の状態に保つのに役立ちます。変更されたデータのみを送信することで、データ処理のオーバーヘッド、データのロード時間、ネットワーク・トラフィックも削減できます。
平均的な企業は、業務運営のために1,200種類近くのクラウド・アプリケーションを利用しており、それぞれのアプリが独自のデータを生成するため、データのサイロ化が発生していますしかし、現代のワークフローでは、アプリやシステム間でリアルタイムのデータ連携が求められています。アプリケーションの連携(ソフトウェア統合とも呼ばれます)は、ソフトウェア間のデータ転送プロセスを自動化・効率化し、リアルタイムまたはほぼリアルタイムでのデータ統合を実現する手法です。
企業は、アプリケーションの連携ワークフローの構築や自動化のために、アプリケーション・プログラミング・インターフェース(API)を活用することがよくあります。APIとは、アプリケーション同士がシームレスに通信し、データをやり取りできるようにするための一連のルールやプロトコルのことです。
企業は、アプリケーションの連携を促進するために、Webhooksやミドルウェアを使用することもあります。
データ仮想化は、センサー・データや機器のログなど、さまざまなソースからのリアルタイム・データ・ストリームを統合して表示する仮想レイヤーを作成します。この集約ビューにより、データを別の場所に移動・複製したり、バッチ処理を行ったりする必要がなくなります。こうした機能によって、統合にかかる時間とコストが大幅に削減され、同時に不正確な処理やデータ損失のリスクも最小限に抑えられます。
データ仮想化ツールは、セマンティック・レイヤーと呼ばれるユーザー向けインターフェースを提供することもあり、ビジネス上の意思決定に役立つ意味のある用語にデータを変換します。
さらに、データ仮想化は、リアルタイム・データと過去データの両方に対応したデータ統合ソリューションであり、組織全体の運用データ・エコシステムを包括的に把握できるビューを構築します。このような豊富なデータセットは、生成AIの基盤モデルのトレーニングに最適です。
組織のデータへのニーズに応じて、リアルタイムのデータ統合と併用できるデータ統合プロセスには他の種類もあります。
これらのデータ統合の種類は最も一般的なものですが、すべてを網羅しているわけではありません。たとえば、組織によっては、フェデレーション型データ統合、手動によるデータ統合、統一データ・アクセス型統合などの手法を用いる場合もあります。
リアルタイムのデータ統合は、多くの業界やシナリオで役に立ちます。一般的なユースケースには、次のようなものがあります。
サプライチェーン、製造、在庫管理などの業務プロセスからリアルタイム・データを統合することで、プロセス最適化の取り組みを強化することができます。BIツールと組み合わせることで、最新情報をダッシュボード、レポート、その他の可視化ツールに表示でき、全体的なパフォーマンスをインテリジェントかつ透明性のある形で把握できます。
顧客関係管理(CRM)システム、ソーシャル・メディア、その他のソースから顧客情報をリアルタイムで統合することで、企業は従来のパーソナライゼーションを超えた競争優位性を獲得することができます。リアルタイムのインサイトにより、個々の顧客の行動や嗜好に基づいて高度にカスタマイズされた体験や製品、サービスを提供するハイパーパーソナライゼーションが可能になります。
リアルタイムのデータ統合プラットフォームは、トランザクション・データ、行動データ、外部の脅威データのシームレスな集約を促進します。その後、分析エンジンがデータを取り込み、問題を大規模に検出し、企業を詐欺や金銭的損失から保護すると同時に、規制コンプライアンスの体制を向上させることができます。
継続的に更新されるデータ・ストリームによって、AIモデルはより正確なリアルタイム予測を行えるようになります。また、リアルタイム統合は自動化の支援にもなります。たとえば、ロボティック・プロセス・オートメーション(RPA)を活用したチャットボットや自動運転車などは、その中核機能としてリアルタイムで意思決定を行います。
直感的なグラフィカル・インターフェースでスマートなストリーミング・データ・パイプラインを作成、管理できるため、ハイブリッド環境やマルチクラウド環境でのシームレスなデータ統合を促進します。
データ・パイプライン用の可観測性ソフトウェア、IBM Databandをご紹介します。メタデータを自動的に収集して履歴ベースラインを構築し、異常を検知し、データ品質の問題を修復するためのワークフローを作成できます。
IBMのデータ統合ソリューションを活用して、生成AIへの取り組み、リアルタイム分析、ウェアハウスのモダナイゼーション、運用上のニーズに合わせて、レジリエンスがあり高性能でコスト最適化されたデータ・パイプラインを構築しましょう。
1「テクノロジー・リーダーが明らかにすべき6つの盲点」、IBM Institute for Business Value より。2024年8月20日。