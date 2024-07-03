組織は、AIの信頼できるデータにアクセスするために、オープンで信頼できるデータ基盤の構築に注力する必要があります。オープンとは、ハイブリッドクラウドのデプロイメント、データ・ストレージ、データ形式、クエリー・エンジン、ガバナンス、メタデータなど、オープンで相互運用可能な機能上に構築されたデータを保管、管理、統合、アクセスするための基盤を構築することです。これにより、データ・サイロを排除し、データ駆動型のトランスフォーメーションを加速しながら、既存のテクノロジー投資との統合が容易になります。

信頼できるデータ基盤を構築することで、高品質で信頼性が高く安全な、管理対象データとメタデータの管理が可能になり、データ・プライバシーと法規制遵守のニーズを満たしながら分析やAIアプリケーションにデータを提供できるようになります。次の4つのコンポーネントは、オープンで信頼できるデータ基盤の構築に役立ちます。

1. データ・インフラストラクチャーをアプリケーション、分析、生成AIのためにハイブリッドクラウドにモダナイズする

マルチクラウドやハイブリッド・ストラテジーの採用は必須となりつつあり、ハイブリッドクラウド間での柔軟な展開をサポートするデータベースが求められています。ガートナーは、新しいデジタル・イニシアティブの95%（ibm.com外部へのリンク）がクラウドネイティブ・プラットフォーム上で開発されるという予測をしています。これは、大規模なデータ・ストレージと拡張性を必要とするAIテクノロジーにとって不可欠なものです。

2. 適切なデータベースとオープン・データレイクハウスのストラテジーにより、データ駆動型アプリケーション、分析、AIを強化する

データを保管・分析するには、適切なワークロード、データ型、価格・性能に適したデータベースを使用する必要があります。これにより、データがどこに存在しても、データのニーズに応じて成長するデータ基盤が確保されます。データストラテジーには、オープンで統合されたコンポーネントで設計されたデータベースを組み込む必要があります。これにより、データ・プラットフォーム内での高度な分析とAIアプリケーションのためのシームレスな統合とデータへのアクセスが可能になります。これにより、組織は貴重な洞察を抽出し、情報に基づいた意思決定を促進できるようになります。

例えば、組織は最も重要な運用データを管理するために、高性能で安全かつ強靭なトランザクションデータベースを必要としています。ハイブリッドクラウドの可用性により、組織はデータベースを使用して、レガシー・アプリをモダナイズし、新しいクラウドネイティブ・アプリを構築し、AIアシスタントやエンタープライズ・アプリケーションをパワーすることができます。

データの種類とアプリケーションが進化するにつれて、多様なデータ構造と特定のアプリケーション要件を 処理するために、特殊なNoSQLデータベースが必要になる場合があります。これらには、時系列、ドキュメンテーション、メッセージング、キー値、全文検索、メモリ内データベースが含まれ、IoT（モノのインターネット）、コンテンツ管理、地理空間アプリケーションなどのさまざまなニーズを満たします。

AIと分析のワークロードをトランザクショナルデータベースと専用データベースで実行するには、重複や追加の抽出、変換、ロード（ETL）プロセスなしに、オープンデータレイクハウスアーキテクチャとシームレスに統合できるようにする必要があります。オープンなデータレイクハウスを使用すると、データがどこにあっても、データの単一コピーにアクセスできます。

オープンなデータレイクハウスは、複数のオープン形式（cloud object storage上のApache Icebergなど）を処理し、ハイブリッドクラウド全体のさまざまなソースや既存のリポジトリーからのデータを結合します。最もコスト・パフォーマンスに優れたデータレイクハウスは、複数のオープンソースクエリー・エンジンによるストレージとコンピューティングの分離や他のAnalytics Engineとの統合も可能で、優れたコスト・パフォーマンスを実現するためにワークロードを最適化します。

これにはデータウェアハウス・エンジンとの統合も含まれ、データウェアハウス・エンジンは現在、リアルタイムのデータ処理や意思決定と、コスト効率の高いオブジェクト・ストレージ、オープンソース・テクノロジー、データレイクハウスとシームレスにデータを共有するための共有メタデータ・レイヤーとのバランスを取る必要があります。オープンなデータレイクハウス・アーキテクチャーにより、データウェアハウスのワークロードを最適化して費用対効果を高め、従来のデータレイクをAIのための優れたパフォーマンスとガバナンスでモダナイズできるようになりました。

企業は、ペタバイト（場合によってはエクサバイト）規模の貴重な独自データをメインフレームに保存しており、新しい洞察やML/AIモデルを解除するためにロックする必要があります。メインフレームとIcebergのようなオープンフォーマット間のデータ同期をサポートするオープンデータレイクハウスにより、組織は不正の特定、有権者の行動の理解、そして高度なビジネス成果を理解し、予測し、影響を与えるための予測AIモデルを構築することができる。

ビジネスのための信頼できる生成AIを構築する前に、この異種のデータを高品質なデータに準備し、変換するための適切なデータ・アーキテクチャーが必要です。生成AIの場合、適切なデータ基盤には、会話用のNoSQLデータベース、コンテキスト・データ用のトランザクション・データベース、AIと分析用にデータにアクセスして準備するためのデータレイクハウス・アーキテクチャー、および生成AIの埋め込みを保存および取得するためのベクトル埋め込み機能など、さまざまなナレッジ・ストアが含まれます。検索拡張生成（RAG）共有メタデータ層、データをカタログ化するためのガバナンス、およびデータ・リネージュにより、信頼できるAIのアウトプットが可能になります。

3. 信頼の基盤の確立：エンタープライズAIのデータ品質とガバナンス

組織がクリティカルな意思決定を推進するために人工知能（AI）へ依存することが高まるにつれ、データ品質とガバナンスの重要性はいくら強調してもしすぎることはありません。調査会社であるGartner社によると、データ品質の低さ、不適切なリスク管理、コストの上昇、ビジネス価値の不透明性が原因で、2025年までに生成AIプロジェクトの30％が放棄されると予想されています。質の低いデータを使用することによる影響は、顧客の信頼の低下、規制への違反、財務上および評判上の損害など、広範囲に及びます。

これらのリスクを軽減するには、効果的なデータ品質管理が不可欠です。この目標を達成するには、適切に設計されたデータ・アーキテクチャーのストラテジーが不可欠です。データ・ファブリックは、データ・リーダーがデータをプロファイリングし、データ品質ルールを設計・適用し、データ品質違反を発見し、データをクレンジングし、データを増強するための強固なフレームワークを提供する。このアプローチにより、データ品質への取り組みが正確性、アクセシビリティ、適時性、関連性を確実に実現できます。

さらに、データ・ファブリックによって、データ・オブザーバビリティー機能を通じてデータ品質レベルを継続的に監視できるため、組織はデータの問題が大きな問題に発展する前に特定できます。このデータ・フローの透明性により、データおよびAIリーダーは潜在的な問題を特定し、適切なデータが意思決定に使用されるようになります。

データ品質とガバナンスを優先することで、組織はAIシステムの信頼を築き、リスクを最小限に抑え、データの価値を最大化することができます。データ品質は単なる技術的な問題ではなく、クリティカルなビジネス上の課題であることを認識することが重要です。適切なデータ・アーキテクチャーストラテジーを採用することで、組織はAIへの取り組みの可能性を解き放ち、ビジネスの成功を推進することができます。

4. AIのためのデータの管理と提供

データは、適切なデータセットを使用したAIモデルの構築から、業種・業務固有のエンタープライズ・データを使用したAIモデルのチューニング、ベクトル化された埋め込みを使用したRAG AIアプリケーション（チャットボット、パーソナライズされたレコメンデーション・システム、画像類似性検索アプリケーションなど）の構築まで、AIの基礎となります。

AIの正確性、関連性、精度を確保するには、信頼できる管理対象データが不可欠です。AIのためのデータの価値を最大限に引き出すために、企業は複雑なITランドスケープをナビゲートし、データ・サイロを打破し、データを統合し、AIモデルとアプリケーション用に信頼できる管理されたデータを準備して提供できる必要があります。

オープン形式を利用したオープン・データレイクハウス・アーキテクチャーを使用して、既存のデータ資産（データウェアハウス、データレイク、メインフレーム環境など）のクリティカルなデータに接続してアクセスし、エンタープライズ・データの単一コピーを使用してAIモデルを構築およびチューニングできます。アプリケーションがあります。

セマンティック・レイヤーを使用すると、クライアントがセマンティック検索を通じて、以前は難解だった効果的に構造化されたデータを自然言語で見つけて理解できるようにするデータ・エンリッチメントを生成でき、データの洞察をより迅速に解き放つことができます。SQLは不要です。

レイクハウス内に直接埋め込まれたベクトル・データベースを使用することで、データをRAGユースケース用のベクトル化された埋め込みデータとしてシームレスに保管および照会し、AIのアウトプットの関連性と精度を向上させることができます。