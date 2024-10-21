独自データ—生成AIにおける競争上の優位性

公開日 2024年10月21日
会議中に主張する同僚
By Matthew Kosinski

IBMIBM Institute for Business Valueによると、トップクラスの業績を上げているCEOの72% は、最先端の生成AIツールを持つことが組織の競争優位につながることに同意している。しかし、これらの生成AIツールが企業固有のコンテキストに基づいていない場合、組織はそのメリットを最大限に享受できない可能性があります。

ChatGPTやGoogle Geminiのような大規模で汎用的な生成AIモデルは強力ですが、組織固有のデータセットで訓練されているわけではありません。これらが組織のプロセスに組み込まれている場合、重要な情報が欠落している可能性があり、混乱を引き起こして最適でない成果を生み出す可能性があります。

「どの企業にも独自の言語があります」と、IBM ConsultingのAI・アナリティクス担当上級経営コンサルタントのMichael Choie氏は説明します。「『ドレッシング』という言葉を考えてみましょう。食料品チェーンにとっては「サラダ・ドレッシング」につながります病院にとって、それは「傷保護」を意味するでしょう」

AIリーダーは独自のデータでAIをカスタマイズ

IBMはThe Harris Pollと提携し、世界中の2,000の組織を対象とした調査『 AIの活用 2024』を発表しました。この調査では、これらの組織のうちAIリーダーと呼ばれる15%がAIによって定量的な成果を上げていることが判明しました。

AI リーダーを際立たせている理由の 1 つは、自分の AI への取り組みをカスタマイズして最適な価値を得る能力に自信を持っていることです。これは、組織が群衆から目立つために独自のモデルをゼロから構築しなければならないという意味ではありません。代わりに、他社が持っていない唯一のもの、つまり独自の企業データを活用して、既存のAIモデルを適応させることができます。

「XやGoogleなどのすべてのAIベンダーは公開情報にアクセスできます。また、独自のプラットフォームからデータにもアクセスできます」と、IBM Consultingの南北アメリカ大陸AIリーダー、副社長兼シニア・パートナーのShobhit Varshney氏は説明します。「彼らがアクセスできないのは企業データです。そのパズルのピースが欠けているのです」

Varshneyが「AIの活用 2024」で詳しく述べているように、「次のフロンティアは、AIが企業に取り込まれ、吸収して学習し、競争上の優位性を獲得できるようにすることです。」

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

ご登録いただきありがとうございます。

ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。

独自データがAIモデルにエンタープライズ・コンテキストをもたらす方法

AIモデルに独自データを入力する方法は主に3つあります: プロンプト・エンジニアリング検索拡張生成（RAG）ファインチューニングです。

プロンプト・エンジニアリング

この文脈では、プロンプト・エンジニアリングとは、AIに渡されるプロンプトに独自のデータを含めることを意味します。

ユーザーがコールセンターでの会話を要約するAIモデルを必要としているとします。ユーザーは「この会話を要約する」というプロンプトを作成し、プロンプトの一部として通話の記録を添付できます。

プロンプト・エンジニアリングでは、モデル自体を変更する必要はありません。これは、すべてのプロンプトに必要なコンテキストを含めることが合理的で、大量の汎用タスクに最適です。

2. 検索拡張生成（RAG）

検索拡張生成（RAG）とは、AIモデルを独自のデータベースに接続することを意味します。モデルはプロンプトに応答する際に、このデータベースから関連情報を引き出すことができます。

例えば、組織はカスタマー・サービス用チャットボットに企業製品データベースへのアクセスを許可できます。ユーザーがチャットボットにこれらの製品について質問すると、対応するドキュメントを参照して、正しい答えを取得することができます。

RAGではモデルに永続的な変更を加える必要はありません。精度を向上させ、ハルシネーションを軽減することができますが、応答時間を短縮することもできます。

3. 微調整

ファイン・チューニングとは、AIモデルのパラメーターの一部を変更するのに十分な追加データをAIモデルに与えることを意味します。ファイン・チューニングはモデルの動作を永続的に変更し、特定のユースケースまたはコンテキストに適応させます。また、まったく新しいモデルをトレーニングするよりも速くて安価です。

「100の異なる層を持つニューラル・ネットワークがある場合、それをトレーニングするとは、100の層すべてを変更することになります」とChoie氏は説明します。「ファイン・チューニングとは、最後の層を実際に変更することを意味します。モデルはまだ修正中ですが、すでにパフォーマンスが優れているため、完全に変更する必要はありません」

ファイン・チューニングには、プロンプト・エンジニアリングやRAGよりも少し初期投資が必要です。小規模モデルを専門領域の専門家に変えるのに役立ちます。たとえば、保険会社は、新しい請求処理技術を習得するためにモデルをファイン・チューニングできます。

Varshney氏は、ファイン・チューニングされたモデルを、集中的に訓練された新入社員に例えています。彼らは、才能的なポリマトリックス（または巨大な汎用AIモデル）が持っているような幅広い知識を持っていないかもしれませんが、主張の処理においては、ポリマリティよりもはるかに優れています。

Varshney氏は次のように言います。「IBMは、税金の負担を軽減したり、法的な契約を結んだりすることはできません。しかし、請求の処理を頼めば、すぐに処理する方法が分かるはずです。」

このような方法で独自データを使用することで、AIモデルを企業固有のプロセス、製品、顧客、その他のニュアンスに精通させることで、大きな競争上の優位性を得ることができます。

「特定の企業が主なユーザーであるAIを使用している場合、そのAIもその企業のデータを使用することが重要です」とChoie氏は言います。

AIモデルが独自データにアクセスできる場合、そのモデルは特定のビジネス・コンテキストに基づいています。つまり、その出力もそのコンテキストに基づいています。

「オープンなAIモデルを採用し、独自のデータでファイン・チューニングすることができます。そのコピーは私たちの独自のデータです」とVarshney氏は言います。「その背後にあるIPは私が所有しています。自分のインフラストラクチャーで実行しています。」

その結果、これらのモデルは、一般的な公開データから取得した拡張されていない既製のモデルよりも、より正確で効果的な出力を生成できます。

オープンソースのAIモデルを使用する価値

組織は、さまざまなタイプのAIモデルを使用して成果を上げることができます。しかし、IBM Granite™ のようなオープンソースのモデルは、Apache 2.0 ライセンスの下で広範で制限のない商用利用が可能であり、一定のメリットがあります。

「AIモデルをトレーニングする際には、モデルが効果的かつ効率的に学習できるようにするために、さまざまなパラメーターや手法を調整する必要があります。そのための設定には、専門のデータサイエンティストと機械学習の専門家が必要です」とChoie氏は説明します。「オープン・モデルを微調整することのメリットは、優秀な人材がすでに開発したモデルがあることです。必要なのはタスク固有のデータをモデルに追加し、いくつかのレイヤーを調整することだけです。これはモデルを構築するよりもはるかに簡単な作業です」

オープンソースモデルを使用すると、組織は群衆の叡智からメリットを受けるだけでなく、失敗コストをそれほど高くせずに実験できるようになります。この実験は、組織がドメイン固有のタスクに合わせて多数の異なるモデルを使用し、異なる状態で調整されたマルチモデルストラテジーを追求するのに役立ちます。

このマルチモデル戦略はベスト・プラクティスとみなされています。「AIの活用 2024」では、AI学習者の32％に対し、AIリーダーの62％が複数のモデルを使用していることがわかりました。

「オープンソース・モデルを使用するのは、ほとんど迷うことがありません」とChoie氏は言います。「このソリューションは費用対効果が高く、業界最高レベルの人たちが取り組んでおり、アップデートや問題が発生するとコミュニティーが協力して問題に取り組みます」

AI Academy

ビジネス向け生成AIの台頭

生成AIの発展と現在のビジネスへの影響について学びます。
エピソードに移動

データ・アーキテクチャを構築して独自データの価値を解き放つ

効果的なデータ管理は、「AIの活用 2024」によると、AIリーダーを他の組織と区別する重要な特徴の一つです。AIリーダーの61％は、AIの取り組みをサポートするために組織データにアクセスし、効果的に管理する能力があると考えているのに対し、AI学習者は11％にとどまっています。

しかし、独自のデータをAIモデルにフィードするのはそれほど簡単ではありません。データのサイロ化、品質管理、その他の問題が阻害要因となる可能性があります。

大まかに言えば、サイロを打ち壊し、相互運用性を確保し、プラットフォーム間の流動的なデータ移動をオーケストレーションする統合データ・ファブリックを導入することが解決策となります。

しかし、これは実際にはどのようなものなのでしょうか？ここでは、いくつかの重要な考慮事項を示します。

データ統合

多くの AI への取り組みにおける最初のハードルは、データの収集と保存ですが、そのプロセスは見た目ほど単純ではありません。

従来のデータベースにデータを収集すると、サイロが発生することが多く、組織が効果的なRAGデータベースを構築したり、モデルをファイン・チューニングしたりするために必要なすべてのデータを集約することができなくなります。IBM® Data Differentiatorの報告によると、企業の82％が主要なワークフローを妨げるデータ・サイロを経験しています。

組織はパイプラインを実装して、異種のソースからデータを取得し、使用できるように準備し、アクセス可能な一元化された保管にデータを格納する必要があります。

データの取得と準備には、Apache Kafkaのようなストリーム処理ツールや、IBM DataStage のような ETLやELTに対応したデータ統合 ツールが使われるかもしれません。組織は、データに適したリポジトリーを選択する必要もあります。

  • データレイク：大量の未加工の構造化データと非構造化データを処理するために設計された低コストのストレージ環境を提供します。

  • データウェアハウス は、データ分析、ビジネス・インテリジェンス、データサイエンスの取り組みをサポートするために構築されます。

ハイブリッドクラウドインフラストラクチャーは、データの統合の取り組みにおいて重要なコンポーネントでもあります。現在、多くの企業では、オンプレミスのデータ・ストアと複数のクラウド・サービスの間でデータを分散しています。

「こうした情報をどこにあってもすべて集約し、AIモデルに入力できるようにする必要があります」とChoie氏は言います。「ハイブリッドを続けていなければ、何かを逃すことになります」

データのクリーニングと準備

悪いインプットは悪いアウトプットをもたらします。組織は、AIモデルに供給する独自データが信頼性が高く、正確であることを保証する必要があります。

「データの中のゴールド、つまり差別化要因を見つける必要があります。そうすることで、それを強化できるようになります」とVarshney氏は言います。「データのノイズを削減する必要があり、ファイン・チューニングを行うための高品質なデータを提供する必要があります。」

データはAIに渡される前にクリーンアップする必要があります。そうしないと、モデルのパフォーマンスが低下する可能性があります。

Varshney氏は、コールセンターのチケットの例を挙げています。「人々は、うまくできる方法を見つける前に、5つの異なる方法を試すかもしれません。そのチケットをモデルに直接送信することはできません。大きなノイズが発生します。人々が試したことすべてが含まれますモデルはどちらが正しい結果なのか混乱するかもしれません。モデルが実際のソリューションだけを認識できるように、ノイズをクリーニングする必要があります。

データセットのクリーニング、準備、キュレーションには、社内または外部のパートナーのデータ・サイエンティストとアナリストによる手作業が含まれます。また、次のようなツールも含まれます。

  • 合成データ・ジェネレーターは、欠損値を埋めたり、人間が準備した資産をより大規模なコーパスで補強したりするのに役立ちます。

  • Apache Sparkやpandas Pythonライブラリーなどの、データ前処理およびエンジニアリング・ツール。

生成AIは方程式の一部に過ぎません

独自のデータが生成AIにもたらす競争上の優位性は何であれ、テクノロジーとビジネス・プロセスを適切に組み合わせて展開することで、永続的な戦略的優位性がもたらされます。

「ワークフローそのものが、お金の源です」とVarshney氏は説明します。「モデルは商品であり、私たちはこれからもより良いモデルを作り続けていきます。私たちが本当に必要としているのは、従来のAI、自動化、生成AIをワークフローに統合することです。」

つまり、組織は、たとえ自社の仕様に合わせてファイン・チューニングされたモデルであっても、生成AIをプロセスに落とし込んで成果を期待することはできません。むしろ、モデルをワークフローに適応させるのと同じくらい、プロセスを評価し、ワークフローをモデルに適応させる必要があります。

より実用的な食器洗い機を考えてみましょう。

「食器洗い機を開発した時は、シンクで立って洗うのと同じように食器を洗えるようになるとは思っていませんでした」とVarshney氏は言います。「私たちはプロセスを変え、食器洗い機が真に優れた洗浄能力を発揮できるようにしました。私たちは問題を正しい形式で設定しました。ここでも同じことをする必要があります。プロセスを再構築し、従来のAIと生成AIの適切な組み合わせを見つける必要があります。そうすることで、価値を解き放つことができます」

執筆者

Matthew Kosinski

Staff Editor

IBM Think

参考情報

CEOのための生成AI活用ガイド

生成AIが生み出しうる価値、AIに必要な投資、AIがもたらすリスクのバランスを、CEO（最高経営責任者）がどのように取ることができるかについて説明します。
生成AIのスキルを次のレベルに引き上げる

ハンズオン・ラボ、コース、指導付きプロジェクト、トライアルなどで、基本的な概念を学び、スキルを身につけていただけます。
生成AI + MLの力を解き放つ

生成AIと機械学習をビジネスに活用する確実な方法を学びましょう。
AIの活用を本格化：生成AIでROI向上

AIの投資対効果を高めるために、主要な分野で生成AIの活用を拡大することで、どのように革新的な新規ソリューションの構築、提供を支援し、変化をもたらすかを紹介します。 
AI in Action 2024

2,000の組織を対象に、AIへの取り組みについて調査を行い、何が機能し、何が機能していないのか、どうすれば前進できるのかを明らかにしました。
IBM Graniteはこちら

IBM Graniteは、ビジネス向けにカスタマイズされ、AIアプリケーションの拡張に合わせて最適化された、オープンで高性能、かつ信頼性の高いAIモデルのファミリーです。言語、コード、時系列、ガードレールのオプションをご覧ください。
適切な基盤モデルを選ぶ方法

ユースケースに最適なAI基盤モデルを選択する方法について説明します。
AIの新時代に信頼と自信を持って成功する方法

強力なAIストラテジーの3つの重要な要素である、競争優位性の創出、ビジネス全体へのAIの拡張、信頼できるAIの推進について詳しく説明します。
関連ソリューション
IBM watsonx.ai

AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。

 watsonx.aiをご覧ください。
人工知能ソリューション

業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。

 AIソリューションはこちら
AIサービス

AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。

 AIサービスはこちら
次のステップ

AI開発ライフサイクル全体にわたる機能にワンストップでアクセスできます。使いやすいインターフェース、ワークフロー、業界標準のAPIやSDKを利用して、強力なAIソリューションを構築できます。

 watsonx.aiの詳細はこちら デモを予約