AIデータ統合とは何か

By Alexandra Jonker , Tom Krantz

AIデータ統合、定義済み

人工知能（AI）データ統合は、データ取り込み、変換、パイプライン生成などのアクティビティを利用して、アルゴリズムと統合プロセスの自動化と最適化を自動化するモデルを使用します。

従来のデータ統合（複数のソースからのデータを統合して調和させ、統一されたフォーマットにするプロセス）は、データエンジニアが調整する固定ルールや半自動化プロセスに依存していました。¹ただし、これらのアプローチは、現代のデータ量と複雑さを処理するには不十分です。

今日のAIと分析のワークロードには、高いレベルのスピード、柔軟性、可視性を備えたデータ基盤が必要です。このようなニーズは、ツールの乱立、断片化したワークフロー、データのサイロ化といった問題にすでに取り組んでいるデータチームに、過大な負担をかけることになります。

AIは、効率的で将来のデータ・ニーズに適応可能な、インテリジェントで合理的な統合アプローチを提供します。AIデータ統合は、手作業による変換に頼るのではなく、大規模言語モデル（LLM）、AIエージェント、自動化を活用して、データについて独自に学習、適応、意思決定を行い、事後対応的なプロセスを事前対応的なインテリジェントなシステムに変換します。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

現在、AIデータ統合が重要な理由

現代の企業は、多様なデータ型が存在する、複雑で分散した環境で運営しています。そして、リアルタイムでイノベーションを起こし、意思決定を行うというますます高まるプレッシャーに直面しています。従来のデータ統合手法は、このような需要に対応して設計されたものではありません。

なぜ今AIデータ統合が重要なのかを、4つの大きな変化が詳しく説明します。

非構造化データの爆発的な増加

非構造化データとは、画像や文書、モノのインターネット（IoT）のセンサーデータなど、あらかじめ定義されたフォーマットのない情報のことです。現在、このデータは大規模に生成されており、企業が生成したデータの90%を占めると推定されています。²

非構造化データの規模は、分析やAIにとって非常に価値あるものとなります。しかし、データスキーマが急速に変化したり、非同期で更新が行われたり、データ品質の問題が増加したりすると、手作業での統合手法が急速に処理できなくなってしまうこともあります。³より柔軟で効率的な統合プロセスがなければ、企業は貴重なデータを未使用のままにするリスクを負うことになります。

LLMとエージェントには信頼できる統合データが必要

AIはアクセスできるデータに対してのみ行動するため、企業データへの統一されたアクセスは、AI対応に不可欠な要件です。組織は、AIを効果的にサポートするために、データベース、データレイク、ビジネス・アプリケーションにまたがるデータを単一の管理可能なビューで見る必要があります。

たとえばLLMは、正確で状況に応じた回答を生成するために、膨大な量の関連データを必要とします。AIエージェントにも同様の要件があり、ワークフロー全体で確実に動作するために統合されたデータに依存しています。正確で最新かつ関連性のあるビジネス・データにアクセスすることで、両者からのアウトプットが完全で、一貫性があり、最新のものであることが保証されます。

リアルタイムの意思決定が必要とするより高速なパイプライン

データ駆動型の意思決定が成功するかどうかは、大規模で多様なデータセットから、迅速、安全、かつコスト効率よく洞察を引き出せるかどうかにかかっています。⁴これを実現するには、新鮮で信頼性の高いデータを継続的に提供できる、自動化された低遅延パイプラインが必要です。

しかし、従来のパイプラインの設計やオーケストレーションのアプローチは、AIやリアルタイム分析のスピードや規模に対応できるものではありませんでした。バッチ抽出、変換、ロード（ETL）プロセスでは遅延が発生し、行動までの時間と洞察を得るまでの時間が長くなり、古くて使えないアウトプットが発生することがよくあります。

複雑さが増すことで困難になる手作業での統合

データ環境がさらに複雑化するなかで、小さな変更でも統合が中断され、研究者が「貴重なエンジニアリング・リソースを消費するパイプライン障害の検出、診断、解決の反復サイクル」が発生する可能性があります。⁵

エンタープライズAIとリアルタイムの意思決定を優先する組織にとって、AI駆動型のパイプライン設計とオーケストレーションへの移行は「避けられない、かつ不可欠なもの」であるとの見方が強まっていると、IBMソフトウェアエンジニアのJahangir Khanは述べています。⁶エージェント型AIがサポートするパイプラインは、データ統合プロセスを根本的に改善し、レジリエンスとスピードを高めることができる自己適応と自己修復の機能を提供しています。

AIデータ統合が解決する主な課題

AIデータの統合は、現代のデータ・チームを遅らせる3つの重要な実行上の課題に取り組むのに役立ちます。

データ・アクセス
パイプラインの信頼性
スキルの制約

データ・アクセスの遅延とワークフローのボトルネック

多くの企業は、遅く複雑なデータ・アクセスに苦労しています。リクエスターは通常、データ提供まで1週間から4週間待ち、生産性と意思決定を停滞させます。

この課題は、断片化されたワークフローとツールの乱立によってさらに複雑化しており、50%の組織が3つ以上のデータ統合ツールを使用しています。データ・エンジニアリング・チームは分断された環境に対応する必要があり、これは一貫性のない実装、重複した作業、運用の複雑さにつながります。

信頼性の低いデータ品質を伴う脆弱なパイプライン

スキーマや形式の変更により、レガシー・パイプラインやハードコードされたシステムが静かに壊れ、質の低いデータが下流に伝播する可能性があります。こうした障害が検知された場合でも、多くの場合は手作業での介入が必要となるため、遅延が発生し、リスクが増大します。

パイプラインの可視性が制限されていると、問題の追跡と解決が困難になります。その結果、データ・エンジニアは、新しい機能を提供するのではなく、「アプリをオンにし続ける」ことに、ほぼ時間の半分を費やしています。^7,8これらの問題が重大な技術的負債に発展し、コストが増加し、生産性が制限される可能性があります。

スキル不足とエンジニアリングの制約

多くの組織には、最新のAIとデータの需要を満たすために必要なデータ・エンジニアリングの専門人材が不足しています。一部の推計によると、 77%の企業が必要なデータ・スキルや専門知識の不足を報告しています。

このようなスキル・ギャップにより、手動プロセスへの依存度が高まり、最新の統合アプローチの導入が遅れます。さらに、ビジネス・ユーザーは最も基本的なデータのリクエストについて技術チームに大きく依存しているため、エンジニアリング・チームは限界をはるかに超えて拡張されることがよくあります。

データ統合におけるAIの活用方法

AIデータ統合では、LLM、機械学習、自動化を利用して、エンドツーエンドのデータ統合プロセスを合理化します。最も一般的な方法には以下のものがあります。

データの発見、分類、強化
ソース間でのデータのマッピングと変換
データ品質とパイプラインの正常性の監視
データ・パイプラインの設計とオーケストレーション
自然言語によるデータのクエリ

データの発見、分類、強化

データを統合して配信する前に、AIは以下のようないくつかの上流タスクを自動化できます。

関連するデータ・セット、Webソース、アクセス・ログ、メタデータ・リポジトリを分析することで、新しい内部および外部のデータ・ソースを発見します。
分類とタグ付けするデータを使用して、決定木、ランダム・フォレスト、ニューラル・ネットワークなどのモデルを使用して、ガバナンスとセマンティックな一貫性を向上させます。¹⁰
ビジネス・コンテキストやメタデータ（感情分析や企業識別子など）を用いてデータを充実させる。
エンティティー、関係、パターンを検出することで、非構造化データから構造を抽出します。
新しいソースの登場や、ビジネス上の定義の進化にしたがって、データ・カタログを常に最新の状態に保ちます。

これらのAI搭載機能により、下流分析とAIに関連するデータの検索、解釈、準備が容易になります。

ソース間でのデータのマッピングと変換

AIは、スキーマ・マッピングやデータ変換などの重要なデータ統合タスクを自動化することもできます。従来のデータ・マッピングと変換は、エンジニアリングの専門知識とハードコードされたルールに依存しています。AIモデルは、意味の理解を用いて、データソース全体のスキーマを自動的にマッピングし、調整できます。

たとえば、フィールド名やデータ形式が異なる場合でも、AIは、あるシステムの「emp_ID」と別のシステムの「Employee_Number」を一致させることができます。このコンテキストを使用して、AIは変換ロジックと正規化ルールを生成し、コードを書き直すことなくビジネス・ロジックの変更に適応させることができます。

データ品質とパイプラインの正常性の監視

従来、チームはパイプラインを監視するために、カスタムのオブザーバビリティー・ロジック、ダッシュボード、アラート、手作業での診断に頼っていました。修復には、多くの場合、専門知識と複数の利害関係者間の調整が必要でした。

AIシステムは、自動化によってデータ品質を維持し、問題をより迅速に解決することができます。

パイプラインの監視
異常検知
スキーマドリフトの検知
根本原因分析
修復の推奨事項
検証
ドキュメンテーション

AIは、品質ベースラインを学習し、最小の逸脱までも認識することで、データ品質管理を改善することもできます。これらすべての機能は、ユーザーに配信されるデータが信頼でき、一貫性があり、すぐに使用できる状態を確保するのに役立ちます。

データ・パイプラインの設計とオーケストレーション

エージェント型AIは、各ワークロードに最適な統合スタイルを推奨することで、データ・パイプラインの設計とオーケストレーションを支援します。データ・ソース、パフォーマンスのニーズ、コスト制約に応じて、 AIシステムはETL/ELT、リアルタイム・ストリーミング、複製、またはハイブリッド・アプローチを提案できます。

宣言型パイプライン・オーサリングは、このプロセスをサポートできます。各ステップを手作業でコーディングするのではなく、エンジニアは望ましい結果とガバナンス・ルールを定義し、システムがレビューと承認のためのパイプライン計画を生成できるようにします。その後、AIエージェントがワークフローの実行を支援できます。

AIはまた、ワークロードのパターンやビジネス・ニーズに基づいて、オブジェクト・ストレージ、データウェアハウス、データベースなど、統合されたデータの最適な目的地を推奨することもできます。時間の経過とともに、エージェント・システムは、多くの場合強化学習を通じて、履歴データを使用して優先順位付けと実行パスを最適化することで、オーケストレーションを改善できます。

自然言語によるデータのクエリ

ほとんどのビジネス・ユーザーは構造化クエリ言語（SQL）を知らず、レポートや日常的な質問について企業データにアクセスする際は、技術チームに依存しています。AIデータ統合は、ノーコードでセルフサービスのデータ・エージェントによって、この摩擦を軽減します。データ・エージェントは、自然言語処理（NLP）とLLMを使用して平易な言語によるリクエストを解釈し、SQLクエリを生成します。

たとえば、金融アナリストが「過去2四半期の顧客セグメント別の収益性の傾向を示して」と依頼します。エージェントはリクエストを解釈し、クエリを生成し、成果を返します。

このアプローチにより、データ・アクセスの遅延が減り、統合された企業データが企業全体で使いやすくなります。リクエストをより細かく制御したい技術ユーザー向けに、Pythonのソフトウェア開発キット（SDK）はLLMを使用して、ユーザーのリクエストに基づいてPythonスクリプトを生成し、実行することができます。

AIデータ統合のメリット

データ統合で高度なAI機能を使用すると、以下を含む多くのメリットが得られます。

意思決定の迅速化：AIのサポートにより、データ・リクエストの所要時間が数週間から数分に短縮され、ビジネス・チームは機会とリスクが依然として重要な時期に、迅速に行動できるようになります。
信頼性の高い高品質のデータ：組み込みのAIオブザーバビリティー、監視、ガバナンスにより、不良データや非準拠データが下流のリポジトリや意思決定に影響を与えるリスクを軽減します。
簡素化されたアーキテクチャー：エージェント型システムは、バッチ、リアルタイム・ストリーミング、データ複製ワークロードを問わず、さまざまな統合パイプラインを単一のプラットフォームに統合します。そのため、ユーザーは異なるツールを切り替える必要がありません。
生産性の向上：自動化とセルフサービスにより、データ統合ワークフロー内の反復的なタスクや価値の低いタスクが削減され、データ・エンジニアが戦略的な作業に集中できるようになります。

AIがデータ・エンジニアリングを劇的に民主化しているという議論もあります。データ・アクセスと理解の障壁を下げることで、技術に詳しくないビジネス・ユーザーでも、積極的にデータを扱うことができると感じることができます。

AI Academy

生成AIの成功の鍵はデータ管理

生成AIの使用を成功させるために、高品質のデータが不可欠である理由をご覧ください。

エピソードに移動

AIデータ統合のユースケース

AIデータ統合ソリューションを導入する実際のユースケースは、以下を含め数多く存在します。

リアルタイム・ストリーミング
データ・ウェアハウジング
ファイナンシャル・プランニング
AIのためのデータ
セールスと収益オペレーション

リアルタイム・ストリーミング

リアルタイムのデータ・ストリームをAIで取り込み、変換することで、レイテンシーを短縮し、より迅速で、より多くの情報に基づいた運用と分析の意思決定を行うのに役立ちます。

データ・ウェアハウジング

AIデータ統合は、レイクハウスやウェアハウス環境へのデータフローのモダナイズと合理化をサポートし、データの信頼性と効率的な配信を確実なものにします。

ファイナンシャル・プランニング

AIはデータ・アクセスを大幅に簡素化し、財務報告、予測、KPI追跡の支援に必要な手作業でのデータ準備を軽減します。

AIのためのデータ

AIによって、未加工データ（特に非構造化エンタープライズ・データ）の統合が容易になり、アクセスしやすく、利用しやすいものにします。この機能は、検索拡張生成（RAG）や生成AIなどのエンタープライズAIの取り組みを可能にする重要なものです。

セールスと収益オペレーション

顧客関係管理（CRM）とパフォーマンス洞察を迅速かつシンプルに統合できるため、営業チームはより迅速に動き、技術チームへの依存を軽減することができます。

AIデータ統合プラットフォームで何を探すべきか

データ統合は1つの方法ですべてに対応できるものではありません。AI駆動型データ統合ソリューションを評価する際には、考慮すべき特徴、機能、サービスがいくつかあります。検索の指針となる3つの重要な質問は以下のとおりです。

相互運用性と拡張性：ソリューションは他のシステムとどの程度連携できるか

アプリケーション・プログラミング・インターフェース（API）や事前構築されたコネクタを通じて、ネイティブのエコシステム接続をサポートするソリューションは、ベンダー・ロックインを減らし、既存のデータ投資を最大限に活用することができます。これらのAI駆動型ソリューションは、ファイル・ストレージ・システム、イベント駆動型アーキテクチャー、データ・ストア、ビジネス・アプリケーションとシームレスに接続する必要があります。拡張性は相互運用性と同じくらい重要であり、ニーズの変化に応じてプラットフォームをスケーラブルに保つことを可能にします（カスタムコードや非ネイティブのデータ・ソースのサポートも含みます）。

セキュリティーとガバナンス：このソリューションはデータをどの程度保護するか

AIデータ・プラットフォームは、データ・クレンジング、データ・セキュリティー、データ・ガバナンスの機能が組み込まれたもので、統合ライフサイクルを通じてデータの信頼性と信用性を確保するのに役立ちます。また、機密データを不正アクセスや不正利用から保護します。AIを活用したオブザーバビリティーと監視によって、他の方法では見過ごされがちな捉えにくい異常などの問題を早期に検知できます。

デプロイメントの柔軟性：プラットフォームをどこで、どのように稼働させることができるか

企業はハイブリッド・マルチクラウド環境で事業を展開することが増えているため、パイプラインを（オンプレミス、クラウド、ハイブリッド・エコシステム全体の）どこででも実行できるソリューションが不可欠です。ハイブリッド・デプロイメントとインプレースのデータ処理により、レイテンシーとデータ転送コストを最小限に抑えることができ、長期的な技術的負債を減らすのに役立ちます。

執筆者

Alexandra Jonker

Staff Editor

IBM Think

Tom Krantz

Staff Writer

IBM Think