新しいクラスのAIモデルがGPTスタイルのシステムの優位性に挑戦し、より高速で、より安価で、潜在的に強力な代替手段として期待されています。
スタンフォード大学の研究者らが設立したスタートアップ企業Inception Labsは最近、単語を1つずつ予測するのではなく、フレーズ全体を1度に改良する拡散ベースの言語モデル(dLLM)である「Mercury」をリリースしました。拡散モデルは、前のテキストに基づいて1度に1つの単語を生成する自己回帰アプローチを使用する従来の大規模言語モデル(LLM)とは異なり、改良を通じてテキストを繰り返し改善します。
「dLLMは可能性のフロンティアを広げます」と、スタンフォード大学のコンピューター・サイエンス教授でありInception Labsの共同創設者であるStefano Ermon氏がIBM Thinkに語ります。「Mercuryは比類のないスピードと効率性を提供し、さらにテスト時間のコンピューティングを活用することで、dLLMは品質の基準を設定し、エッジ・アプリケーションとエンタープライズ・アプリケーションの全体的な顧客満足度を向上させます。」
IBMのリサーチ・エンジニアであるBenjamin Hoover氏は、「ほとんどの人が拡散モデルを使うようになるのは2~3年先のことです」と将来を予測しています。「Inception Labsのモデルを見たとき、私は『これは遅かれ早かれ実現するだろう』と気づきました。」
拡散モデルは、従来のAIと同じルールでは動作しません。GPTのような自己回帰モデルは、単語ごとに文を構築し、1度に1つのトークンを予測します。モデルが「関係するかもしれない人に対して」というフレーズを生成する場合、「対象者」、「誰」、「それ」といった順に、1度に1ステップずつ予測していきます。拡散モデルでは状況が一転します。テキストを順番につなぎ合わせるのではなく、文章全体の大まかな、ノイズの多いバージョンから始めて、複数のステップを経てそれを改良していきます。各要素を順番に描画するのではなく、詳細を定義する前に大まかな輪郭をスケッチするアーティストのようなものと考えてください。文全体を一度に考慮することで、拡散モデルは従来のLLMよりも迅速に、多くの場合、より一貫性と正確性を備えた応答を生成できます。
Hoover氏は、このテクノロジーが古い概念を現代的にアレンジしたものであると考えています。「拡散モデルは、基本的にはエラー修正メカニズムです」と彼は述べます。「ノイズの多い入力から始めて、目的の出力に到達するまで徐々にノイズを除去していきます。」
拡散モデルは画像生成に広く使用されており、DALL·E、Stable Diffusion、Midjourneyなどのモデルはノイズの多い画像を高品質の画像に精製します。ただし、言語では文法と構文を厳密に遵守する必要があるため、このアプローチをテキストに適用するのはより困難です。
「これまでに拡散モデルをテキスト生成に適用しようとした試みの多くは、困難を伴いました」とErmon氏は述べます。「他の企業が失敗した中で、Mercuryが成功を収めることができたのは、トレーニングと推論アルゴリズムの両方における独自のイノベーションのおかげでした。認識可能な形に徐々にクリーンアップできる画像とは異なり、言語は厳格な文法規則に従っているため、反復改良が難しくなります。」
Hoover氏は、拡散モデルがどのようにギャップを埋めているかを示す代表例として、Inception LabsのMercuryを挙げています。「このモデルは、拡散によって独自性を保つ可能性があり、同等の自己回帰モデルよりも実際に高速かつ効率的であることが証明されました。」
拡散ベースのLLMの効率性は、特にコストと速度が重要なエンタープライズ・アプリケーションにおけるAIの導入を揺るがす可能性があります。従来のLLMは、かなりの計算能力を必要とするため、実行コストが高くなります。拡散モデルは、わずかなコストで同等またはそれ以上の性能を提供できることを約束します。拡散モデルは、従来のLLMのように各単語を段階的に生成するのではなく、シーケンス全体を並行して改良するため、多くの場合、より効率的であり、計算オーバーヘッドを削減できます。
「当社のお客様と早期導入者は、カスタマー・サポート、販売、ゲームなどの分野でdLLMを活用したアプリケーションを開発しています」とErmon氏は述べます。「お客様は、アプリケーションをより応答性が高く、インテリジェントで、より安価なものにしています。」
Hoover氏は、その影響はさらに広範囲に及ぶと見ています。「現時点では、AIはエネルギー消費量に制約を受けています」と彼は述べます。「大規模モデルは膨大なエネルギーを消費します。しかし、拡散モデルは動作方法が異なり、はるかに効率的です。長い目で見れば、拡散ベースのAIシステムがアナログ・ハードウェア上で動作し、エネルギー・コストを劇的に削減できるでしょう。」
バイナリ演算ではなく、連続的な電気信号を使って情報を処理するアナログ・コンピューティングは、AIのエネルギー問題の潜在的な解決策として長い間注目されてきました。Hoover氏は、拡散モデルがこのアプローチに特に適していると考えています。
「これらのモデルは本質的に解釈可能です」と彼は述べます。「つまり、内部計算をアナログ回路に直接マッピングできるということです。これは、従来のディープラーニング・アーキテクチャーでは実現がはるかに困難です。」
AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。