言語モデルは大規模であるほど、常に優れているといえるのでしょうか。

データセンターを監視する女性プログラマーの画像

AIを支配するための競争においては、通常、大は小を兼ねるといえます。データとパラメーターが多いほど、より強力なだけでなく、効率性と速度も向上させた大規模なAIシステムが構築され、一般的に小規模なシステムよりもエラーが発生しにくくなります。

ニュースの見出しを賑わせるテクノロジー企業がこの傾向を強めています。MicrosoftのCTOであるKevin Scott氏は、Chat GPT-5を支えているスーパーコンピューターについて、「今回導入したシステムは、規模の面でクジラほどの大きさです」と述べています。Scott 氏は、5月下旬に開催された同社のBuildイベントにおいて、OpenAIの最新バージョンの生成AIチャットボットについて議論しました。「クジラほどの巨大なスーパーコンピュータを使用すると、大量のAIを構築できることがわかりました。」

一方、Nvidiaの時価総額は6月に3兆ドルの大台に到達しました。このチップメーカーは、そのチップがますます大規模な言語モデル、スーパーコンピューター、そして世界中に急増するデータセンターを動かすことで、目まぐるしいペースで成長してきました。

しかし、大きければ大きいほど良いのでしょうか?それは視点次第です。大規模言語モデルを開発する企業にとって、ほとんどの場合、規模は利点となります。しかし、企業が AI が真の価値を付加できる部分と誇大宣伝を切り離そうとする中、ますます大規模な言語モデルが必ずしもビジネスにとってより優れたソリューションにつながるかどうかは明らかではありません。

今後は「現在の100倍のモデルで価値の大部分を引き出す必要はなくなる」と、IBMの生成AI研究プログラムディレクター、Kate Soule,はIBMの『Mixture of Experts』ポッドキャストの 最近のエピソードで語りました。すでに AI 投資から利益を得ている多くの企業は、現在の言語モデルの能力をフルに活用していない分類や要約などのタスクに AI を活用しています。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

ご登録いただきありがとうございます。

ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。

規模拡大の歴史

「大きいほど良い」という考え方は、スケーリングの法則を機械学習に適用したPrasanth Kolachinaによる2012年の論文で議論に登場したデータスケーリングの法則に由来しています。Kolachinaと彼の同僚は、モデルが大きくなるにつれて、一般的に精度が高まり、パフォーマンスが向上することを示しました。2017年、Hestnessら はディープラーニングのスケーリングが実証的に予測可能であることも示しました。そして2020年、Kaplanらは言語モデルにもデータスケーリングの法則が当てはまることを示しました。

これらの法則は、汎用人工知能の開発に取り組む言語モデル・プロバイダーにとっては有用ですが、企業がその価値を最大限に引き出すためにこの規模の投資やAIが必要かどうかは、まったく明らかではありません。

「n次のサイズのモデルをトレーニングする最も費用対効果の高い方法を知っているからといって、そのモデルから得られる実際のメリットがそのコストを正当化するでしょうか?」とIBMのSoulは言います。「これはスケーリングの法則では答えられない、まったく別の疑問です。」

AI Academy

基盤モデルがAIのパラダイム・シフトとなる理由

新たな収入源の獲得、コスト削減、生産性の向上を実現する、柔軟で再利用可能な新しいAIモデルについて学びます。その後、ガイドブックを使ってさらに理解を深めてください。

コストと規模のトレードオフ

AIモデルのトレーニングに使用される高品質のデータはますます不足しているため、データのコストは上昇しています。AIの研究機関であるEpoch AIが発表した論文によると、AIモデルは早ければ2026年にも、インターネット上で利用可能な現在の高品質な言語データをすべて使い果たしてしまう可能性があるといいます。

そのため、企業はモデルをトレーニングし、コストを管理するために新しいデータにアクセスするという点で創造性を発揮しています。たとえば、Open AI の最新バージョンの Chat GPT は、一部のユーザーおよびサードパーティのデータと引き換えにユーザーに無料で提供されます。大手企業はまた、2D画像、3Dデータ、テキストなどから構成され、現実世界のデータと組み合わせてAIをトレーニングする合成データにも注目しています。

LLMを開発する企業がデータ・コストを負担する一方で、ますます大規模になる言語モデルの気候変動コストはほとんど見落とされています。これらのモデルは複雑さと使用頻度が増すにつれて、膨大なリソースを消費します。これらのモデルを動かすスーパーコンピューターを収容するデータセンターは、大量のエネルギーを消費し、それに応じた二酸化炭素を排出しています。

「ここではエネルギーへの影響が大きいだけでなく、その炭素影響によって、このテクノロジーからメリットを受けていない人々がまずコストを被ることになります」とワシントン大学の言語学教授で、「On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?(確率的オウムの危険性について:言語モデルは大きすぎるのか?)」と題する論文を発表したEmily Bender氏は述べています。

「費用対効果分析を行う際には、誰がメリットを得て、誰がそのコストを負担しているかを考察することが重要です。なぜなら彼らは同じ人ではないからです」とBender氏はワシントン大学の ニュースリリースで述べました。

ミニ・パワーハウス

企業がコストと利益のバランスをとる方法の 1 つは、最も困難なビジネス上の問題に対処するために、まず大規模なモデルを使用することです。そして、答えが得られたら、大規模モデルの調査結果をより低コストで再現し、レイテンシーも減少させる小規模モデルに切り替えます。

大規模言語モデルに代わる小規模言語モデルの使用も拡大しています。

クラウド・ベースのAI搭載プラットフォームであるDialpadの共同創設者兼最高技術責任者であるBrian Peterson氏は、PYMNTSに次のように語っています。「小規模なLLMは、ChatGPTやAnthropicのClaudeなどの大規模な言語モデルと比較して、ユーザーがより細かく制御できるため、多くの場合、より望ましいものになっています。

より小さなデータのサブセットでフィルタリングできるため、より速く、より手頃な価格で、独自のデータがあれば、はるかにカスタマイズ可能で、さらに正確になります。」より大規模で強力な LLM を構築するための競争は、当分の間減速しそうにありません。しかし、今後は、特定の分野で優れ、 AIの価値とコストのバランスをより良く取ろうとしている企業に代替手段を提供する、コンパクトでありながら強力なAIモデルも急増するだろうと、ほとんどの専門家は同意しています。

 

著者

Aili McConnon

Staff Writer

IBM

スマートフォンで入力する男性の空撮

見逃せない知見AIニュースレターを購読する

AI、量子コンピューティング、クラウド、セキュリティーなどに関する専門ニュースをチェックして、知識を自分のものにしましょう。

今すぐ登録
関連ソリューション
基盤モデル

watsonxプラットフォームにある基盤モデルのIBMライブラリーを探索し、ビジネスに合わせて自信を持って生成AIを拡張します。

watsonx.aiをご覧ください。
人工知能ソリューション

業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。

AIソリューションはこちら
AIコンサルティングとサービス

AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。

AIサービスはこちら
次のステップ

ビジネスに合わせて生成AIを確実に拡張できるように、IBM watsonxプラットフォームにあるIBMライブラリーの基盤モデルの詳細を学びましょう。

watsonx.aiの詳細はこちら AIソリューションはこちら