データチームは、エベレスト山そのものに匹敵するかもしれない大量のデータの山の前に立っています。そして、データの量と複雑さが衰える兆しが見られないため、このようなピーク時のスケーリングは日に日に気持ちをくじくものになっています。
今日の企業データは、異なるソース(SaaSアプリケーション、モノのインターネット(IoT)デバイス、レガシー・システムなど)から集められ、無秩序に広がったデータ・ストレージ・エコシステムに蓄積されています。この情報の大部分は非構造化データ、つまりEメール、PDF、画像、通話録音、チャットログなどの日常的な情報です。
包括的なビューがなければ、このデータはサイロ化され、到着した時点で古くなり、ほとんど活用されていません。言うまでもなく、大量の高品質データへのアクセスが限られているため、人工知能(AI)の実用化競争はスタートラインで停滞しています。
データ統合は、さまざまなソースにわたってさまざまなデータ形式、さまざまな品質レベルで保存されているデータを組み合わせ、集約し、調和させることで、このような課題を軽減するのに役立ちます。この統合は、データ・コンシューマーに、分析、AI、意思決定の目的で簡単に使用できる統一された首尾一貫した情報を提供します。
時間のかかる手作業でコード化されたSQLスクリプトを使用して、データを移動および変換する時代は終わりました。現在、テクノロジーを活用したさまざまなデータ統合方法があり、それぞれが異なる統合のニーズと機能に対応しています。
以下は、最も一般的な手法です。
ETLは、複数のソースシステムからデータを抽出し、ステージングエリアで変換し、中央リポジトリ(通常はデータウェアハウスや データレイク)にロードするデータ統合手法です。
従来のETLアプローチは、オンプレミス環境におけるリレーショナルデータベースと、予測可能で構造化されたワークロード向けに設計されていました。これらは通常、バッチ処理、継続的な保守、硬直的なデータ・パイプラインに依存しているため、IoT(モノのインターネット)ストリームや非構造化データといった最新のユースケースには限界があります。
最新のETLツールはクラウド・ベースのアーキテクチャーとともに進化し、オートメーション、オーケストレーション、リアルタイムの取り込みを活用して機敏性と拡張性を向上させています。ELTパターンとブレンドされることが多く、バッチとストリーミングの両方のワークフローをサポートし、分析、機械学習(ML)、AIの基礎となります。
ご想像の通り、ELTのデータ統合はETLと多くの共通点があります。どちらもソース・システムからターゲット・システムにデータを移動させます。ただし、ELTプロセスでは、前もってクレンジングするのではなく、未加工データを直接データ・ストレージ・リポジトリーに読み込み、必要に応じて変換を行います。
この統合アプローチにより、従来のETL手法に比べてより柔軟なデータ管理と高速なデータ処理が実現します。ELTは一般的に、スピードと拡張性が重要なビッグデータ・プロジェクトやリアルタイム処理で活用されています。
リアルタイム統合は、データが利用可能になり次第すぐに取得と処理を行い、ターゲット・システムに即座に配信します。従来のデータ統合のメリット(データ品質の向上やデータ・サイロの削減など)に加えて、この方法ではデータの可用性が大幅に向上し、場合によってはユーザーはミリ秒以内に洞察を抽出できるようになります。
この瞬時に近いデータ・アクセスは、ビジネス・インテリジェンス(BI)、生成AI(Gen AI)、顧客のハイパー・パーソナライゼーションを促進します。これは、リアルタイム分析、不正アクセス検知、システム監視などのユースケースにおいて特に有利です。
リアルタイムのデータ統合の1つのタイプは、変更データ・キャプチャです。この手法は、データ・ソース・システムの変更を識別し、ただちにデータウェアハウスやその他のリポジトリーに適用します。
CDCは、組織全体でのリアルタイムのデータ同期を可能にします。また、変更されたデータのみを送信することで、ソース・システム、ネットワーク・トラフィック、コンピューティング・リソースの負荷が軽減されます。
効果的なリアルタイムの意思決定、クラウド移行、AIイニシアティブには、最新のシステムの使用が不可欠です。CDCは、不正アクセス検知、規制遵守、サプライチェーン管理とIoT(モノのインターネット)の実現などのビジネス・プロセスを支援します。
データ仮想化は、異種のソースとデータ・コンシューマーの間に仮想(ソフトウェア抽象化)レイヤーを確立することでデータを統合します。この層は、物理的なデータの移動や複製を必要とせずに、データの統合ビューを提供します。これにより、ユーザーは、データが物理的にどこに存在するかに関係なく、オンデマンドでデータにアクセスし、クエリーを実行できます。
データ・フェデレーションは、別個のデータ統合方法と見なされることもありますが、データ仮想化における重要なテクノロジーです。さまざまなソース間の論理マッピングが可能になるため、ユーザーは単一のインターフェースからクエリを実行できます。
組織は、データ仮想化を使用して、物理プラットフォームの構築と管理のコストと複雑さなしに、「仮想」データ・ウェアハウジングを実行したり、データレイクを作成したりできます。分析やAIなど、俊敏性とリアルタイムのデータ・アクセスが重要なシナリオで、特に役立ちます。
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
アプリケーションの連携は、アプリケーション、システム、サブシステムを接続し、統一された自動化されたデータ転送環境を構築します。そしてシームレスなデータフローと相互運用性をサポートし、チームやツール間のデータ・サイロを削減します。これらの機能は、平均的な企業が1,200近いクラウドアプリケーションを使用し、それぞれが独自のデータを生成している現在のビジネス環境において、非常に重要です。
組織は、データの一貫性を保ち、人事プラットフォームと財務プラットフォームなど、異なるシステムの連携をサポートするために、アプリケーションの連携を利用します。一般的なアプローチには、統合ワークフローを構築し自動化するためのアプリケーション・プログラミング・インターフェース(API)、コネクター、ミドルウェア、Webhookなどがあります。
データの複製は、異なる場所とシステムにまたがる同じ日付の複数のコピーを作成し、維持します。通常、この手法では、単一のソース・システムから1つ以上のターゲット・システム(レプリカ)にデータを複製します。分散環境におけるデータの可用性、信頼性、レジリエンスを確保するのに役立ち、ディザスター・リカバリー戦略の一部としても使用されます。
複製は通常、非同期と同期の2つの方法で行われます。非同期データ複製では、データはまずプライマリー・システムにコピーされ、その後、遅延を伴って、バッチでレプリカ・システムにコピーされます。同期データ複製では、データは常にプライマリー・システムとレプリカ・システムに同時にコピーされます。
データ統合の次の進化は、AIエージェントを使用した、データ配信の最適化および合理化です。これらの機械学習モデルは、人間の意思決定を模倣して、問題をリアルタイムで解決できます。マルチエージェント・システムでは、各エージェントが特定のサブタスクを実行し、AIエージェント・オーケストレーションによって調整されます。
エージェント型データ統合ツールを使用することで、どのようなスキルレベルのビジネス・ユーザーでも、自然言語を使用してデータをリクエストする(例:「CRMとERPのデータを結合する」)一方で、エージェントは技術的な作業を処理します。アナリストやビジネス・ユーザーが必要とするデータを得るまでに通常1~4週間かかるのに対し、これらのツールは数分で適切なソースに接続し、変換を適用し、信頼できるデータ・セットを提供します。
AIエージェントは、チーム間の絶え間ない引き継ぎを制限し、重いデータ・エンジニアリングのリソースを使用せずに運用効率を増強させ、長いデータ準備サイクルを削減することができます。信頼できる統合データにほぼリアルタイムでアクセスできるため、チームは分析とAIプロジェクトを前進させ、より迅速に、より適切な意思決定を行うことができます。
データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。
watsonx.dataを使用すると、オープンでハイブリッド、かつ管理されたデータ・ストアを通じて、データがどこに保存されていても、すべてのデータを使用して分析とAIを拡張できます。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。