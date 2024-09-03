2023年の春、人工知能（AI）分野ではかなり長い期間をさかのぼりますが、ゴールドマン・サックスは、生成AIの出現により世界のGDPが年間7％増加し、その額は7兆米ドル以上に相当するという推定報告書を発表しました。
生成AIはどのようにしてこれを達成できるのでしょうか？このテクノロジーの用途は多数ありますが、一般的には、人間と機械間の通信効率を向上させるものと言えます。この改善は、低レベルの作業のオートメーションと人間の能力の増強につながり、労働者はより高い習熟度でより多くのことを達成できるようになります。
生成AIは幅広いアプリケーションと複雑さがあるため、多くのメディアの報告によれば、読者は、このテクノロジーがほぼ魔法の治療法であると信じてしまうかもしれません。実際、この視点は、2022年にChatGPTやその他のツールがリリースされて生成AIが一般化したことから、生成AIに関する報道の多くが特徴的であり、一部のアナリストは、仕事の未来を再構築する革命の到来が近づいていると予測していました。
それから2年も経たないうちに、生成AIに対するメディアの熱意は少し冷え込みました。ゴールドマン・サックスは6月、より冷静なアセスメントを加えた別の報告書を発表し、生成AIのメリットが、その開発への1兆ドル規模の投資を正当化できるかどうかに疑問を呈しました。「フィナンシャル・タイムズ」紙なども、同様に懐疑的な論説を掲載している。IBM Thinkニュースレターチームは、以前の投稿でこれらの不確実性のいくつかを要約し、回答しました。
その後の株式市場の変動により、数人のアナリストは「AIバブル」が破綻をきたし、90年代のドットコム崩壊の規模で市場が修正される可能性があると主張しました。
生成AIを取り巻くメディアの懐疑的な見方は、開発者が直面する次の4つの危機に大まかに分類できます。
これらは重大なハードルですが、多くは、最後の問題（ユースケース）の解決が他の3の問題の解決に役立つと楽観的です。幸いなことに、そのような人たちはすでに有意義なユースケースを特定し、それに取り組んでいます。
IBMの特別エンジニアであるChris Hay氏は、「生成AIは当社と当社の顧客に大きな影響を与え、当社の働き方を根本的に変えている」と述べています。「このことは、ブランド・コンテンツによる人事プロセスの変革やマーケティング変革からコンタクト・センターやソフトウェア開発まで、すべての業界と分野に当てはまります」Hay氏は、私たちは修正フェーズにあり、多くの場合、その後には熱意が大幅に高まる期間が続き、また、最近のメディアの悲観論は、後から見ると誇大広告のように見える以前の声明とのバランスを取ろうとしていると見なすことができると考えています。
「そのようなアナリストにはなりたくありません」とHay氏は言い、AIの未来に関する最近の予測の一部を言及しました。「私は『今後10年間、AIは何も役に立たない』と言う人にはなりたくありません。なぜなら、残りの人生でその選択が採用されるからです」
このようなメディアの予測は、初期のインターネットはそれほどではないという主張や、IBM創設者であるThomas Watsonの1943年の推測に相当する、世界に5台以上のコンピューターは必要ないという分析の結果と同じくらい近視眼的なものになるかもしれません。Hay氏は、問題の一部は、メディアが生成AIをChatGPTのような特定範囲のLLMベースのチャットボットのアプリケーションと混同していることが原因だと主張しています。
データ、コンピューティング、電力など、供給のボトルネックが生じ始めたら、エンジニアは創造性を発揮してこれらの障害を解決するとHay氏は信じています。
「豊富にある物は、消費される」とHay氏は言います。「何十万ものGPUがあれば、それを使用することになります。しかし、制約があると、よりクリエイティブになるのです」
例えば、合成データは、データ危機に所在地するための有望な方法です。このデータは、現実世界のデータの特性を模倣するようにアルゴリズムで作成されており、その代替または補足として使用できます。機械学習エンジニアは合成データの過剰使用に注意する必要がありますが、ハイブリッド・アプローチは、短期的には実世界のデータの不足を克服するのに役立つ可能性があります。例えば、最近のMicrosoft PHI-3.5モデルやHugging Face SMOLモデルは、大量の合成データでトレーニングされており、高性能な小さなモデルを生み出しています。
今日のLLMは電力を大量に消費していますが、現在のトランスフォーマーが最終的なアーキテクチャーであると考える理由はほとんどありません。Mistral Codestral Mamba、Jamba 1.5、Falcon Mamba 1.5などのSSMベースのモデルは、コンテキスト長のキャパシティが増加したため人気が高まっています。複数の種類のモデルを使用するハイブリッド・アーキテクチャーも注目を集めています。アーキテクチャ以外にも、エンジニアは量子化、推論専用に設計されたチップ、そして特定のユースケースに事前学習済みモデルを適応させるディープラーニング技術であるファインチューニングなど、他の手法にも価値を見出しています。
「事前トレーニングではなく、業界でファイン・チューニングに関するコミュニティーがもっと増えることを嬉しく思います」とHay氏は言います。「事前トレーニングは、プロセスの中で最もコストがかかる部分です。ファイン・チューニングは非常に安価であり、より多くの価値を引き出す可能性があります」
Hay氏は、当社の技術が大幅に効率化されたため、将来的には、既存のGPUよりも多くのGPUが使用される可能性があると示唆しています。同氏は最近、個人のノートPCを、モデルをトレーニングできるマシンに変える試みをしました。より効率的なデータ・パイプラインを再構築し、バッチ処理を微調整することで、制限の中で作業する方法を見つけています。当然ながら、高価なH100 Tensor Core GPUを使用してこれらすべてを行うこともできましたが、不足感により、必要な成果を達成するためのより効率的な方法を見つけることができました。必要は発明の母です。
モデルはより小型化し、より強力になっています。
「今日の小規模モデルを見ると、昨年の大規模モデルよりも多くのトークンでトレーニングが行われています」とHay氏は言います。「人々はより多くのトークンをより小さなモデルに詰め込み、そのモデルはより効率的で高速になっています」
「実際のビジネス上の問題を解決するためのAIのアプリケーションについて考察するとき、こうした特殊モデルがより重要になっていることがわかります」と、IBMの技術、データ、AIストラテジーのグローバル責任者であるBrent Smolinksiは述べています。これには、いわゆる小規模言語モデルや、より狭いデータ・セットを必要とするForecastingモデルなどの非生成モデルが含まれます。こうした文脈では、データ品質が量を上回ることがよくあります。また、こうした特殊モデルは電力の消費が少なく、制御も容易です。
「より計算効率の高いアルゴリズムの開発について多くの研究が行われています」とSmolinksi氏は付け加えます。より効率的なモデルは、提案されている4つの危機すべてに対処します。データ、電力、コンピューティングの消費量が減り、より高速であるため、新しいユースケースが開かれます。
「LLMは、非常に自然な会話型インターフェースを備えており、入力されるデータが多いほど会話が自然に感じられるため、優れています」とSmolinksi氏は言います。「しかし、これらのLLMは、狭い領域や問題の文脈において、ハルシネーションの影響を受けやすいため、これは現実の問題です。そのため、お客様は小さな言語モデルを選択することが多く、インターフェースが完全に自然でなくても問題ありません。特定の問題では、そうである必要がないからです」
生成AIはすべてを解決するものではありませんが、強力なツールです。エージェント型ワークフローについて考えてみましょう。これは、LLMとAIエージェントを使用してタスクを実行するための複数ステップのアプローチを指します。これらのエージェントは、ある程度の独立性と意思決定機能を備えて行動し、データ、システム、場合によっては人と対話して、割り当てられたタスクを完了します。専門エージェントは、特定のタスクや専門知識分野を処理するように設計できるため、LLMに欠けている深い知識とエクスペリエンスを取り入れることができます。これらのエージェントは、より特殊なデータを利用するか、ドメイン固有のアルゴリズムとモデルを統合することができます。
LLMによってオーケストレーションされたエージェント型ワークフローがカスタマー・サポートの問い合わせを効率的に管理している通信会社を想像してみてください。顧客がリクエストを送信すると、LLMは問い合わせを処理し、問題を分類し、さまざまなタスクを処理するために特定のエージェントをトリガーします。例えば、あるエージェントが顧客のアカウントの詳細を取得し、提供された情報を検証し、別のエージェントがネットワークチェックの実行や請求の不一致の調査などの問題を診断します。
問題が特定されると、第三者が解決策を策定します。それは、設備のリセット、払い戻しの提供、技術者への訪問のスケジュール設定などです。その後、LLMは、コミュニケーション・エージェントが顧客に対してパーソナライズされた応答を生成するのを支援し、メッセージが明確で企業のブランド・ボイスと一致していることを確認するのに役立ちます。問題が解決されると、フィードバック・ループが開始され、エージェントが顧客からのフィードバックを収集して満足度を判断します。顧客が不満を抱いている場合、LLMはフィードバックをレビューし、人間のエージェントからの電話など、他のフォローアップ・アクションをトリガーする場合があります。
LLMは多用途ですが、深いドメインの専門知識や特殊な知識を必要とするタスクに困難が生じることがあります。特にこうしたタスクがLLMのトレーニング・データの範囲外にある場合にはそうです。また、速度が遅く、動的な環境でリアルタイムの意思決定を行うことには適していません。対照的に、エージェントは、より単純な意思決定アルゴリズムを使用することで、リアルタイムで自律的かつ積極的に動作できます。
エージェントは、大規模なモノリシックLLMとは異なり、環境から学習し、環境に適応するように設計することもできます。強化学習やフィードバック・ループを使用して、前のタスクの成功または失敗に基づいてストラテジーを調整し、性能を徐々に向上させることができます。エージェント型ワークフロー自体が新しいデータを生成するため、さらなるトレーニングに使用できます。
このシナリオでは、LLMがビジネス上の問題の解決に役立つが、ソリューション全体としては役立たないことが強調されています。LLMはバリュー・チェーンの中で最もコストがかかることが多いため、これは朗報です。
Smolinksi氏は、人々が新しいテクノロジーに興奮すると極端になることが多いと主張しています。新しいテクノロジーが世界を変えると考察するかもしれませんが、それが失敗すると、過度に悲観的になるかもしれません。
「答えは中間のどこかにあると考察します」と同氏は言い、AIはビジネス上の問題を解決するためのより広範なストラテジーの一部である必要があると主張しています。「通常、AIだけではありませんし、たとえAIだけだったとしても、問題を解決するために連携して適用する複数の種類のAIモデルを組み合わせて使用している場合もあります。しかし、問題から始める必要があります。意思決定能力に大きな影響を与え、財務にも大きな影響を与える可能性のあるAIアプリケーションがあれば、それらの分野に焦点を当てて適切なテクノロジーとAIを適用する方法を見つけますLLMだけでなく、幅広いツールキットを活用してください」
いわゆる「ユースケースの危機」についてHay氏は、これらのモデルのコストを正当化するさらに魅力的なユースケースが出現するだろうと確信しています。
「テクノロジーが完璧になるまで待ち、すべてが正常化されてから初めて市場に参入するのは、混乱を招く良い方法です」と同氏は言います。「そのチャンスを受けるかどうかは分かりません」