生成AIアプリケーションをサポートするデータ戦略の構築方法

暗い部屋に置かれた大きな湾曲したスクリーンの壁

生成AIユーザーの要求に応じてテキスト、画像、動画、音声、さらにはソフトウェア・コードまで作成することができる人工知能(AI)です。最近では、組織が新しい生成AIアプリの構築に取り組んでいますが、それをサポートする効果的なデータ戦略を構築するために必要な手順を見落としていることがよくあります。

生成AIモデル(人間の脳と同じように判断するようにトレーニングされたコンピューター・プログラム)は、トレーニングのために膨大な量のデータを必要とします。組織がアプリケーションについて素晴らしいアイデアを持っていたとしても、基礎となるデータが適切に処理されない場合、そのアプリケーションは失敗します。

データの収集と処理にかかるコストから、データを安全に保存するための基盤となるインフラストラクチャー、データ・ガバナンスの進化する要件に至るまで、アプリケーションを成功させるためには組織が戦略的なアプローチを取ることが重要です。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

ご登録いただきありがとうございます。

ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。

ChatGPTと新しい生成AIビジネス・アプリケーションの推進

2022年にChatGPTがリリースされたことで、生成AIにおけるイノベーションの新時代が到来し、組織はビジネス・アプリケーションにこのテクノロジーを活用する方法を検討するようになりました。ChatGPTは、大規模言語モデル(LLM)を基にトレーニングされたAIチャットボットで、ユーザーと会話形式でやり取りします。発売以来、組織はその基礎となるテクノロジーをオートメーションを含むさまざまなビジネス上の問題に適用し、生産性と顧客の洞察を向上させることを目指してきました。

さまざまなリスクと課題も明らかになりました。例えば、医療分野では、特定の診断の自動化に役立つ一方で、プライバシーとセキュリティーの懸念も生じています。1 さらに、AIハルシネーションとして知られる状態は依然として根強く、一部の生成AIモデルは、質問の答えが見つからないときに事実を「でっち上げる」ことがあります。

しかし、こうしたさまざまな問題が継続する一方で、あらゆる規模やさまざまな業種の組織が、その能力を活用する新しい方法を模索して、この分野に多額の投資を行っています。Menlo Ventures社によると、2022年から2023年にかけて、生成AIへの企業投資は23億米ドルから6倍増加して、138億ドルになりました。

AI Academy

ビジネス向け生成AIの台頭

生成AIの発展と現在のビジネスへの影響について学びます。

生成AIアプリケーションがAIインフラストラクチャーに新たな課題を提起

AIインフラストラクチャーは、AIアプリケーションの構築に必要なハードウェアとソフトウェアのソリューションを表す用語です。生成AIの時代には、AIインフラストラクチャーは、このテクノロジーに関連するコンピュート・リソース、データ・ストレージ容量、帯域幅などに対するより高い要求を満たすように進化しなければなりません。しかし、組織は新しい生成AIアプリケーションのデプロイを急ぐあまり、AIやデータ・インフラのニーズを見落としてしまうことがあります。

組織が生成AIとそのすべての可能性をビジネス目的で活用しようとする中、データ・インフラストラクチャーとストラテジーへのアプローチの重要な側面を再考する必要があります。

非構造化データを構造化データに変換する

成功する生成AIビジネス・アプリケーションを構築するために、組織は通常、構造化データと非構造化データを組み合わせる必要があります。構造化データは定量データとしても知られ、生成AIアプリケーションを動かす機械学習(ML)アルゴリズムで簡単に処理できるように、あらかじめフォーマットされたデータです。

アルゴリズムは高度なMLモデルを使用して、人間が大量のデータ(データ・セット)から学習し、データに関する質問を理解して新しいコンテンツを作成して応答できるようになるまでの方法をシミュレートします。

企業が収集したデータの中には、既に構造化されているものもあります(名前、日付、取引額などの顧客情報や財務情報など)が、大部分は構造化されていません。非構造化データ(定性データとも呼ばれる)は、事前定義された形式を持たないデータです。非構造化データは多岐にわたり、Eメール、ウェブページ、ソーシャル・メディア・アカウント、モノのインターネット(IoT)センサーからのビデオ、オーディオ、テキスト・ファイルが含まれます。

デジタル経済が拡大するにつれて、企業が収集する非構造化データの量は指数関数的な速度で増加しています。Forbesによると、企業が収集するデータの80%から90%は非構造化データです。非構造化データはMLの目的には適していないため、AIモデルのトレーニングに使用する前に、変換する必要があります。

非構造化データを、コンピューターで処理でき、ビジネス目的で使用できるデータに変換するには、関連情報を抽出し、事前に定義された形式に整理する必要があります。データの量と複雑さによって課題が生じ、困難なデータ管理環境やデータ・ガバナンス法の遵守にはコストがかかる可能性があります。

データ・ガバナンスの複雑な世界を進む

データ・ガバナンスとは、一連のポリシーと手順を通じて、組織に属するデータの品質、セキュリティー、可用性を確保することです。生成AIとビッグデータの台頭により、データ・ガバナンスとそのすべての要件が現代の企業の最前線に浮き彫りになりました。

生成AIは、トレーニングしたデータに基づいて新しいコンテンツを作成する能力を備えているため、安全かつ合法的なデータの収集、ストレージ、処理において新たな要求を生み出します。

品質

生成AIモデルは大規模なデータ・セットでトレーニングされるため、セット内のデータは最高品質のもので、その完全性には疑問の余地がないものでなければなりません。データ・ガバナンスは、生成AIモデルがトレーニングするデータ・セットが正確かつ完全であることを保証する上で重要な役割を果たし、信頼できる回答を生成するための重要な要素となります。

コンプライアンス

業種や場所にもよりますが、生成AIのビジネス・アプリケーションは、データの使用方法について厳しいコンプライアンス環境に直面しています。例えば、GDPR(一般データ保護規則)は、EU居住者のデータを組織がどのように使用できるかを規定しています。何らかの形で顧客情報が漏洩した場合、違反には多額の罰金や罰則が科せられます。

2021年、GDPRに規定されたデータ保護規則に違反したとして、10億ドルを超える罰金がGoogleをはじめとする企業に科せられました

透明性

生成AIアプリケーションが効果的であるためには、そのデータの出所と、ビジネス利用のためにデータがどのように変換されたかが明確に確立され、可視化されていなければなりません。データ・ガバナンスは、収集から保存、処理、出力に至るまで、データ・ライフサイクルのあらゆる段階でドキュメントが存在し、ユーザーにとって透明性があることを保証するのに役立ちます。これによりユーザーは回答がどのように生成されたかを理解できるようになります。

生成AIアプリケーションをサポートするデータ戦略を構築するためのベスト・プラクティス

生成AIアプリケーションの成功は、適切なデータ戦略とそれをサポートするインフラストラクチャーを整備できるかどうかにかかっています。成功を確実にするためのベスト・プラクティスをいくつかご紹介します。

組織が回答を必要とする特定のビジネス上の質問から始める

非構造化データの性質(データの来歴や収集方法と保管方法)により、組織は多くのデータを収集する傾向があります。

しかし、すべてが生成AIアプリケーションで役立つわけではありません。「質問から始めなさい」と、IBM Center for Business of Governmentのシニア・フェロー、Margaret Gravesはアドバイスします。「それは1つの質問だけではなく、いくつかの質問でも構いませんが、構築したいアプリケーションがミッションを前進させ、サポートするための具体的な方法に焦点を当ててください。」

2022年にChatGPTが登場して以来、企業は生産性の向上、洞察の特定、デジタル・トランスフォーメーションの加速など、さまざまなビジネス上の問題への生成AIの適用を急いでいます。これらは確かにテクノロジーが対応できる分野ですが、幅が広く、組織が具体性に欠けるアプリを構築することにつながる可能性があります。

ビジネスの問題が具体的であればあるほど、生成AIモデルのトレーニングに必要な関連データ・セットや、プロセスをサポートするために必要なAIインフラストラクチャーの種類を容易に特定できます。

アプリケーションに必要なデータを確保するための戦略を策定する

組織は、生成AIアプリケーションをどのビジネス上の質問に集中させたいかを決定すると、AIモデルのトレーニングに関連するデータ・セットの検討を開始できます。Gravesはこの過程を、スペクトラムを見ることに例えています。「その一方で、モデルをトレーニングするために必要な、機密性の高い独自の内部データが存在することになります。もう一方には、独自のデータではなく、アプリケーションのパフォーマンスを向上させるのに役立つ一般的なデータがあります。」

RFP(提案依頼書)の世界は、ここ数年に登場した生成AIの最も魅力的なビジネス・ユースケースの1つであるため、良い例です。RFPプロセスのさまざまな側面を自動化するために生成AIアプリケーションの構築を検討しているB2B企業は、社内データに基づいてトレーニングする必要があるでしょう。そうしないと、企業独自の機能を提示できないことになります。しかし、同じ生成AIモデルも、文の作成方法や回答の構成方法など、より一般的なデータでトレーニングする必要もあります。そうしないとその応答が意味を成さないからです。

「これらの側面の両方を、広範で一般的なデータ・セットに加え、より独自の社内データセットも含めたデータのストラテジーには、これらの側面の両方を統合する必要があります」とGravesは言います。「そうしないと、ただツールを作って大量のデータを投入して何が起こるか見ているだけになり、お金と時間の無駄になります。」

該当する場合は、ドメイン固有のデータを活用する

ドメイン固有のデータ、つまり特定の業界や分野に関連するデータを使用することで、企業は特定のビジネス・ニーズにより重点を置いたAIモデルを作成することができます。IBM Consultingのシニア・パートナーであるJason Prowは、「現在、財務や人事分野などでAIモデルのトレーニングに関しては、ドメイン固有のデータが重視されている」と述べています。「あらゆるデータが公開されているため、特定のドメインを中心にモデルを整理することが重要になってきています。」

AIモデルの作成にドメイン・データを活用すると、特定のビジネス・ニーズにさらに合わせてモデルを調整できるようになります。ドメイン固有のモデルは、より正確でユーザーのニーズに合致しているため、関連する生成AIアプリケーションの全体的なパフォーマンスの向上につながります。

ドメイン固有のデータは技術的で複雑な場合があるため、データの活用を検討している組織は、データの変換に役立つ「セマンティック」を後でAIモデルに抽象化レイヤーとして追加することを検討する必要があります。IBM Consultingのアソシエイト・パートナーであるAnthony Vachino氏は、「特に製薬業界ではセマンティックな記述が盛んに行われています」と言います。「異なる企業が異なる試験を行い、セマンティック・レイヤーがそれを記述することで、他の企業にも応用可能になり、再現しなくて済むようにしています。

データ・インフラストラクチャーを戦略的に配置する

サプライチェーンを混乱させる地政学的な変化や、重要なインフラストラクチャーを脅かす自然災害に備えるにせよ、現代のデータ・リーダーは、データの保管場所とアクセス場所を選択する際に、単なる人材やコスト以上のものを考慮し始めています。IBM Institute of Business Valueによると、政府首脳の60%は、サプライチェーンやインフラのショックの頻度が今後増加すると考えており、70%は、その激しさが増すと考えています。

地域が異なれば利点も異なり、人材、データ・エコシステムとインフラストラクチャー、ガバナンス、地政学的要因などはすべて考慮する必要があります。経営幹部は次のことに注目しています。IBVの同レポートによると、昨年、調査対象となった経営幹部の約70%が、AIによって重要なリソースの配置先が変わると予想していると答えましたが、今年はその割合が96%に跳ね上がりました。

IBM Center for the Business of Governmentのエグゼクティブ・ディレクターであるDan Chenokは、複数の場所でデータを保管およびアクセスできるため、生成AIモデルのトレーニングに分散データを使用する可能性に興味を持っています。「分散データを使用すると、アクセス制御を通じてセキュリティーと規制を維持しながら、複数の場所にあるデータでモデルをトレーニングできます」と彼は言います。

生成AIアプリケーションのサポートには、オープンなハイブリッド・アプローチが必要である

最新のハイブリッド・ソリューションにより、組織は特定のビジネス問題の解決により適したAIモデルを構築し、コスト、時間、その他の重要なリソースを節約できます。「複数のプラットフォーム間で統合することで、特に複数の拠点で活動している企業の場合には、より良いサービスを提供できます」とChenokは付け加えます。「そして最適なソリューションは、これらすべてを調整してアプリケーションを機能させるのに役立ちます。」

オープンなハイブリッド・データレイクハウスのおかげで、ユーザーはクラウドとオンプレミスの両方のインフラストラクチャーでデータを共有できるため、データの存在場所にかかわらず、生成AIアプリケーションからデータにアクセスできます。データレイクハウスは、データウェアハウスデータレイクの側面を統合し、単一の統合データ管理ソリューションとするプラットフォームです。

データレイクは、大量の構造化データと非構造化データを処理するために構築された低コストのデータ・ストレージ・ソリューションであり、データウェアハウスは、複数のソースからデータを1つの場所に収集して分析できるシステムです。データレイクハウスはレイクやウェアハウスほど拡張性はありませんが、より合理化され、パフォーマンスが高く、幅広いワークロードをサポートできる傾向があります。

生成AI用にデータを準備し、アプリケーションを開発してデプロイすることが複雑であるため、より包括的なソリューションを求める企業向けに、Databricks、Snowflake、Amazon RedShiftなどのプラットフォームの人気が高まっています。包括的なソリューションは、データ管理、モデルのトレーニング、ソリューションの導入に役立ち、組織はさまざまなユースケースに対応する拡張性とガバナンスが組み込まれた生成AIアプリケーションを立ち上げることができます。

IBM watsonx.dataは、オープン・データレイクハウス上に構築された、目的に適したデータ・ストアであり、生成AIワークロードの拡張性を向上させます。オープンでハイブリッドな、目的に合わせて構築されたアプローチにより、さまざまな種類のデータベースとの統合が改善され、企業は単一の領域や一連のルールに縛られずに、さまざまなエコシステムや環境に分散しているデータを活用できるようになります。

 

関連ソリューション
IBM watsonx.ai

AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。

watsonx.aiをご覧ください。
人工知能ソリューション

業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。

AIソリューションはこちら
AIサービス

AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。

AIサービスはこちら
次のステップ

AI開発ライフサイクル全体にわたる機能にワンストップでアクセスできます。使いやすいインターフェース、ワークフロー、業界標準のAPIやSDKを利用して、強力なAIソリューションを構築できます。

watsonx.aiの詳細はこちら デモを予約