エンタープライズAIにおけるデータ取り込みと統合の重要性

付箋にアイデアを書く若い女性と男性の同僚

生成AIの出現により、複数の著名企業が、内部の機密データの取り扱いミスを理由に、生成AIの使用を制限するよう努めました。CNNによると一部の企業は、テクノロジーの理解を深める一方で、生成AIツールを社内で禁止しており、多くの企業は ChatGPT の社内使用もブロックしています。

企業は依然として、 大規模言語モデル(LLM) を調査する際に社内データを使用するリスクを受け入れることがよくあります。このコンテキスト・データは、LLMが汎用型の知識からドメイン固有の知識に変更できるものだからです。生成AIや従来型のAI開発サイクルでは、データ取り込みがエントリーポイントとして機能します。ここでは、企業の要件に合わせた未加工データを収集、前処理、マスクし、LLMやその他のモデルに適した形式に変換できます。現在、データ取り込みの課題を克服するための標準化されたプロセスは存在しませんが、モデルの精度はそれに依存します。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

ご登録いただきありがとうございます。

ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。

データが不適切に取り込まれる 4 つのリスク

  1. 誤情報の生成: LLMが汚染されたデータ(エラーや不正確さを含むデータ)でトレーニングされると、誤った答えが生成され、欠陥のある意思決定や潜在的な連鎖の問題が発生する可能性があります。
  2. 分散の増加: 分散は一貫性を測る。不十分なデータは、時間の経過とともに答えを変動させたり、誤解を招く外れ値を発生させたりする可能性があり、特に小規模なデータ・セットに影響を及ぼします。モデル内の分散が大きい場合、そのモデルはトレーニングデータでは機能するものの、現実世界のユースケースには不十分であることを示している可能性があります。
  3. データ範囲が限られ、代表的回答ではない: データ・ソースが限定的、同種である、または誤った重複が含まれている場合、サンプリング・バイアスなどの統計的誤差により、すべての成果が歪むことがあります。これにより、モデルは、領域、部門、人口統計、業種・業務、またはソース全体を会話から除外する可能性があります。
  4. バイアスデータを修正する際の課題:データが最初からバイアスしている場合、「そのデータの一部を遡及的に削除する唯一の方法は、アルゴリズムを最初から再トレーニングすることです。」LLM モデルでは、代表的でないデータや汚染されたデータから導き出された回答がベクトル化された場合、学習を元に戻すことは困難です。これらのモデルは、以前に仮定した回答に基づいて理解を強化する傾向があります。

データ取り込みを誤ると、新たな問題の多くが生じる可能性があるため、最初から適切に行う必要があります。AIモデルのデータ・トレーニングの基礎は、飛行機の操縦に相当します。離陸角度が 1度ずれている場合、予想よりもまったく新しい大陸に着陸する可能性があります。

生成AIパイプライン全体はそれを可能にするデータ・パイプラインにかかっているため、適切な予防策を取ることが不可欠です。

AI Academy

生成AIの成功の鍵はデータ管理

生成AIの使用を成功させるために、高品質のデータが不可欠である理由をご覧ください。

信頼性の高いデータ取り込みを保証するための4つの重要なコンポーネント

  1. データ品質とガバナンス: データ品質とは、データ・ソースのセキュリティーを確保し、全体的なデータを維持し、明確なメタデータを提供することを意味します。また、Webスクレイピングやアップロードなどの方法を通じた新しいデータの操作が必要になる場合があります。データ・ガバナンスは、法律や企業のベスト・プラクティスへの準拠を確保するために役立つ、データ ライフサイクルにおける継続的なプロセスです。
  2. データ統合: これらのツールを使うと、企業は異種のデータ・ソースを1つの安全な場所に統合できます。一般的な方法は、抽出、ロード、変換(ELT)です。ELTシステムでは、データセットはサイロ化されたウェアハウスから選択され、変換され、ソースまたはターゲットデータプールにロードされます。IBM ® DataStage ®などの ELT ツールは、並列処理エンジンを通じて高速かつ安全な変換を実現します。2023年、平均的な企業は数百の異種データ・ストリームを受け取り、効率的で正確なデータ変換が従来のAIモデルおよび新しいAIモデルの開発に不可欠なものになっています。
  3. データのクリーニングと前処理:これは、特定のLLMトレーニング要件、オーケストレーションツール、またはデータタイプに適合するようにデータをフォーマットすることを含む。テキストデータはチャンク化またはトークン化でき、画像データは埋め込みとして保管できます。データ統合ツールを使用して包括的な変換を実行できます。また、重複を削除したりデータ型を変更したりして、未加工データを直接操作する必要がある場合もあります。
  4. データ・ストレージ: データをクリーニングして処理した後、データ・ストレージの問題が発生します。ほとんどのデータはクラウドまたはオンプレミスでホストされているため、企業はデータを保管する場所について決定を下す必要があります。個人データ、社内文書、顧客データなどの機密情報を扱うために外部LLMを使用することには注意が必要です。ただし、LLMは、検索拡張生成(RAG)ベースのアプローチの微調整または実装においてクリティカルな役割を果たします。リスクを軽減するには、内部サーバー上でできるだけ多くのデータ統合プロセスを実行することが重要です。1つの潜在的な解決策は、次のようなリモート・ランタイム・オプションを使用することです。

IBMでデータ取り込みを開始する

IBM DataStageは、さまざまなツールを組み合わせてデータ統合を合理化し、ハイブリッドクラウド環境でAIトレーニング・モデルに必要なデータを簡単に取得、整理、変換、保存できるようにします。あらゆるスキル・レベルのデータ実践者が、ノーコードGUIを使用したり、ガイド付きカスタム・コードでAPIにアクセスしたりすることで、ツールを活用できます。

新しいDataStage as a Service Anywhereリモート・ランタイム・オプションにより、データ変換を柔軟に実行できます。パラレルエンジンをどこからでも使用できるようになりその場所をかつてないほど自由にコントロールできるようになる。DataStage as a Service Anywhereは軽量コンテナとして出現し、あらゆる環境であらゆるデータ変換機能を実行することができます。これにより、仮想プライベートクラウド内でデータの統合、クリーニング、前処理を実行する際に、データ取り込みが不十分であるという落とし穴の多くを回避できます。DataStageを使用すると、セキュリティー、データ品質、有効性を完全に管理でき、生成AIプロジェクトのあらゆるデータニーズに対応できます。

生成AIで達成できることには事実上制限はありませんが、モデルで使用するデータには制限があり、そのデータがすべての違いを生む可能性があります。

関連ソリューション
データ管理ソフトウェアとソリューション

データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。

データ管理ソリューションの詳細はこちら
IBM watsonx.data

watsonx.dataを使用すると、オープンでハイブリッド、かつ管理されたデータ・ストアを通じて、データがどこに保存されていても、すべてのデータを使用して分析とAIを拡張できます。

watsonx.dataについてはこちら
データ分析コンサルティングサービス

IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。

分析サービスを発見する
次のステップ

データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。

データ管理ソリューションの詳細はこちら watsonx.dataについてはこちら