大規模言語モデル(LLM)は、大量なデータを使ってトレーニングされたディープラーニングモデルのカテゴリーであり、自然言語やその他のコンテンツを理解および生成し、幅広いタスクを実行することができます。LLMは、単語のシーケンスを処理し、テキスト内のパターンをキャプチャするのに優れた、トランスフォーマーと呼ばれるニューラル・ネットワークアーキテクチャーの一種に基づいて構築されています。
LLMでは、シーケンス内の次の単語を繰り返し予測する巨大な統計的予測マシンとして機能します。テキスト内のパターンを学習し、そのパターンに従って言語を生成します。
LLMは、人間の非構造化言語を大規模に処理できる最初のAIシステムであり、機械との自然なコミュニケーションを可能にする最初のAIシステムであるため、人間とテクノロジーの対話方法は大きく進歩しています。従来の検索エンジンやその他のプログラムされたシステムはアルゴリズムを使用してキーワードを一致させましたが、LLMはより深いコンテキスト、ニュアンス、推論を把握します。トレーニングが完了すると、LLMは、記事の要約、コードのデバッグ、法的条項の作成など、テキストの解釈を伴うさまざまなアプリケーションに適応できます。エージェント機能が与えられると、LLMは、さまざまなレベルの自律性で、人間が実行するさまざまなタスクを実行できます。
LLMは、自然言語処理(NLP)と機械学習の研究における数十年にわたる進歩の集大成であり、その発展は2010年代後半から2020年代にかけての人工知能の進歩の爆発的な進歩に大きく貢献しています。人気のあるLLMはよく知られるようになり、生成AIが一般の関心の最前線に躍り出ました。LLMは企業でも広く使用されており、組織は多数のビジネス機能やユースケースに多額の投資を行っています。
LLMは、AnthropicのClaude、Open AIのChatGPT、MicrosoftのCopilot、MetaのLlamaモデル、GoogleのGeminiアシスタントとそのBERTおよびPaLMモデルなどのインターフェースを通じて、一般の人が簡単にアクセスできます。IBMはwatsonx.aiでGraniteモデルシリーズを維持しています。これは、watsonx Assistantやwatsonx Orchestrateなど、他のIBM製品の生成AIの土台となっています。
トレーニングは、書籍、記事、Webサイト、コード、その他のテキスト・ソースから得た数十億語または数兆語の大量のデータから始まります。データサイエンティストは、エラー、重複、望ましくないコンテンツを削除するためのクリーニングと前処理を監督します。
このテキストは、「トークン化」のプロセス中に、「トークン」と呼ばれる機械が読み取り可能な小さな単位に分割されます。トークンは、単語、サブワード、文字などの小さな単位です。これにより、言語が標準化されるため、希少かつ斬新な単語を一貫して処理できるようになります。
LLMは最初に、ラベルなしデータを使用して教師あり学習を行う機械学習手法である自己教師あり学習でトレーニングされます。自己教師あり学習はラベル付きデータセットを必要としませんが、「グラウンド・トゥルース」に対して性能を最適化するという点では、教師あり学習と密接に関連しています。自己教師あり学習では、ラベルなしデータから「グラウンド・トゥルース」を推測できるようにタスクが設計されています。教師あり学習のように、各インプットの「正しいアウトプット」が何かを教えられるのではなく、モデルはデータ内のパターン、構造、または関係を自ら見つけようとします。
このモデルでは、トークンをトランスフォーマーネットワークに通します。2017年に導入されたトランスフォーマーモデルでは、さまざまな瞬間にさまざまなトークンに「注意を払う」ことができる自己注意メカニズムを備えているため便利です。この技術は、トランスフォーマーとその主要なイノベーションの中心です。自己注意が便利な理由の1つは、AIモデルがトークン間の関係と依存関係、特にテキスト内で互いに離れているトークン間の関係と依存関係を計算できるようになるためです。Transformerアーキテクチャーでは並列化も可能となるため、プロセスが以前の方法よりもはるかに効率的になります。これらの特性により、LLMはこれまでにないほど大規模なデータセットを処理できるようになりました。
テキストがトークンに分割されると、各トークンは埋め込みと呼ばれる数値のベクトルにマッピングされます。ニューラル・ネットワークは人工ニューロンの層で構成され、各ニューロンは数学的演算を実行します。トランスフォーマーはこれらの層の多くで構成されており、それぞれの層で埋め込みが少し調整され、層ごとの文脈表現が豊かになります。
このプロセスの目的は、モデルが単語間の意味論的な関連を学習することです。これにより、犬に関するエッセイでは、「bark」と「dog」のような単語が、ベクトル空間で「bark」や「tree」よりも近くに見えるようになります。トランスフォーマーでは位置エンコーディングも追加します。これにより、各トークンにシーケンス内の位置に関する情報が与えられます。
注意を計算するために、各埋め込みは、学習された重み行列(クエリー、キー、値)を使用して3つの異なるベクトルに投影されます。クエリーは、与えられたトークンが「求めている」ものを表し、キーは各トークンが含む情報を表し、値は各キー・ベクトルからの情報を「返す」もので、それぞれの注意の重みによって拡張されます。
次に、アライメント・スコアがクエリーとキー間の類似性として計算されます。これらのスコアは、注意の重みに正規化されると、各値ベクトルが現在のトークンの表現にどの程度流入するかを決定します。このプロセスにより、モデルは、それほど重要でないトークン(「ツリー」など)を無視しながら、関連するコンテキストに柔軟に焦点を当てることができます。
したがって、自己注意は、以前のアーキテクチャーよりも効率的に、すべてのトークン間の「重み付けされた」接続を作成します。モデルは、トークン間の各関係に重みを割り当てます。LLMには、数十億または数兆の重みを設定できます。これは、データの処理方法と予測方法を制御する機械学習モデルの内部構成変数である、LLMパラメーターの一種です。パラメーター数は、モデル内にこれらの変数がどれだけ多く存在するかを指し、LLMによっては数十億のパラメーターが含まれることもあります。いわゆる小規模言語モデルは、規模と範囲が小さく、パラメーターも比較的少ないため、小型のデバイスやリソースが制限された環境でのデプロイメントに適しています。
トレーニング中、モデルは、トレーニング用データから抽出された数百万の例に対して予測を行い、損失関数によって各予測の誤差が定量化されます。予測を行い、バックプロパゲーションと勾配降下法によってモデルの重みを更新するという反復サイクルを通じて、モデルはクエリー、キー、値のベクトルを生成するレイヤーの重みを「学習」します。
これらの重みが十分に最適化されると、任意のトークンの元のベクトル埋め込みを取り込み、それに対するクエリー、キー、値のベクトルを生成できるようになります。これらのベクトルは、他のすべてのトークンに対して生成されたベクトルと相互作用することで、「より良い」アライメント・スコアを生成し、その結果、モデルがより良いアウトプットを生成するのに役立つ注意の重みが生成されます。最終的には、文法、事実、推論構造、ライティングスタイルなどのパターンを学習したモデルが得られます。
トレーニング後(または追加トレーニング、「事前トレーニング」の文脈内で)、LLMをファイン・チューニングすることで、特定のコンテキストでより有用なものにすることができます。例えば、一般知識の大規模なデータセットでトレーニングされた基礎モデルを、法律分野のチャットボットを作成するために、法律に関するQ&Aのコーパスで微調整することができます。
ここでは、最も一般的なファイン・チューニングの形式をいくつか紹介します。実務者は、1つの方法を使用することも、複数の方法を組み合わせて使用することもできます。
ファイン・チューニングは、はるかに小規模でラベル付きデータセットを使用し、教師ありコンテキストで行われることがほとんどです。モデルは、新しいグラウンド・トゥルース(この場合は、ラベル付きデータ)によりよく適合するように、その重みを更新します。
事前トレーニングはモデルに幅広い一般的な知識を与えることを目的としていますが、ファイン・チューニングは汎用モデルを要約、分類、カスタマー・サポートなどの特定のタスクに適応させます。これらの機能的適応は、新しいタイプのタスクを意味します。教師ありファイン・チューニングは、人間が提供した例に近いアウトプットを生成し、ゼロからトレーニングするよりもはるかに少ない参考情報を必要とします。
教師ありファイン・チューニングは、医療関連の質問に答えることができるように医療文書でモデルをトレーニングするなど、ドメイン固有のカスタマイズにも役立ちます。
データサイエンティストは、モデルをさらに改良するために、人間によるフィードバックからの強化学習(RLHF)をよく使用します。これは、人間がモデルのアウトプットをランク付けし、人間が上位にランク付けしたアウトプットを優先するようにモデルをトレーニングする、ファイン・チューニングの形式です。RLHFは、LLMのアウトプットを有用で安全かつ人間の価値観と一致させるプロセスであるアラインメントでよく使用されます。
RLHFはまた、文体の調整に特に有効で、LLMを調整することで、よりカジュアルに、ユーモラスに、あるいはブランドの一貫性を保った形で対応することができる。体系的アライメントでは、同じタイプのタスクのトレーニングを行いますが、特定のスタイルでアウトプットを生成します。
LLMカスタマイズの別の形式は、人間の指示に従うモデルの能力を向上させるために特別に設計されたプロセスであるインストラクション・チューニングです。インストラクション・データセットの入力サンプルは、ユーザーがプロンプト内で行う可能性のある要求に似たタスクで完全に構成されています。アウトプットは、それらの要求に対する適切な応答を示します。事前トレーニングされたLLMは本質的に、指示や会話の目標に従うように最適化されていないため、モデルをユーザーの意図に合わせてより適切に調整するためにインストラクション・チューニングが使用されます。
トレーニングされると、大規模な言語モデルは、プロンプトをトークン化し、埋め込みに変換し、トランスフォーマーを使用してテキストを1つずつ生成し、潜在的な次のトークンすべての確率を計算し、最も可能性の高いトークンをアウトプットしてプロンプトに応答することで機能します。このプロセスは推論と呼ばれ、アウトプットが完了するまで繰り返されます。このモデルは最終的な答えを事前に「知っている」わけではありません。トレーニングで学習したすべての統計的関係を使用して、一度に1つのトークンを予測し、全てのステップで最善の推測を行います。
汎用LLMからドメイン固有の知識を得るための最も簡単で最速の方法は、追加のトレーニングを必要としないプロンプト・エンジニアリングです。ユーザーは、あらゆる種類の方法でプロンプトを変更できます。例えば、「訓練を受けた医療専門家の声で回答」のようなプロンプトでは、より関連性の高い結果が得られる可能性があります(LLMは医療アドバイスとして使用しないことにご注意ください)。
LLMには他にも、推論中にLLMによって生成されるテキストのランダム性を制御するLLM温度や、創造性と一貫性のバランスを取りながら、検討対象となるトークンを最も可能性の高いものに制限するtop-k/top-pサンプリングなど、アウトプットを制御するストラテジーがあります。
コンテキスト・ウィンドウは、モデルがテキストを生成するときに一度に「確認」して使用できるトークンの最大数です。初期のLLMのウィンドウは短いものでしたが、新しいLLMではコンテキスト・ウィンドウに数十万のトークンがあり、研究論文全体の要約、大規模なコードベースでのコード支援の実行、ユーザーとの長時間にわたる継続的な会話などのユースケースが可能になります。
検索拡張生成(RAG)は、事前トレーニング済みのモデルを外部の知識ベースに接続し、より関連性の高い応答をより高い精度で提供できるようにする方法です。取得された情報はモデルのコンテキスト・ウィンドウに渡されるため、モデルは再トレーニングすることなく、応答を生成する際にその情報を使用できます。例えば、LLMを動的な気象サービス・データベースに接続することで、LLMはその日の天気予報に関するユーザーの情報を取得することができます。
LLMをゼロから構築することは、複雑でリソースを大量に消費するプロセスです。最も人気のあるLLMは、膨大な量のデータ、GPU、エネルギー、および人的専門知識の結果であり、その多くが、膨大な参考情報を持つ大手テクノロジー企業によって構築および維持されているのはそのためです。
ただし、これらのモデルの多くは、APIを通じてすべての開発者がアクセスできます。開発者は、事前トレーニング済みのモデルを使用して、チャットボット、知識検索システム、自動化ツールなどを構築できます。データとカスタマイズをより詳細に制御するために、多くのオープンソース・モデルをローカルまたはクラウドにデプロイできます。Github、Hugging Face、Kaggleなどのプラットフォームにより、AI開発は誰でも利用できるようになります。
開発者は、LLMをあらゆる種類のAIアプリケーションの基盤として使用できます。AI における最もエキサイティングな開発の1つは、エージェントシステムです。AIエージェントは考察するだけではありません。LLM自体は、コンテキストに基づいてテキストを生成するだけですが、メモリ、API、意思決定ロジック、その他の外部システムと統合して、フライトの予約や自動運転車の操縦などの特定のタスクを実行できます。
LLMはビジネス・プロセスを再定義しており、多くの業種における多数のユースケースにおいて、その応用力の高さが証明されています。
テキスト生成:LLMは、プロンプトに応じて、Eメール、ブログ記事、法的メモの下書きを作成するなど、あらゆる種類のコンテンツ作成タスクを実行できます。
テキスト要約:LLMは、長い記事、ニュース記事、調査レポート、社内文書、顧客履歴を、希望するアウトプット形式とスタイルに合わせて長さを調整した詳細なテキストに要約できます。
コード生成:開発者のアプリケーションの構築、コード内のエラーの発見、複数のプログラミング言語のセキュリティ問題の発見、さらにプログラミング言語間の翻訳を支援します。
センチメント分析:顧客フィードバックを大規模に理解するために、顧客の口調を分析します。
言語翻訳:自然な翻訳と多言語機能により、言語や地域を越えて、組織に幅広い対応力を提供します。
推論:LLMは、数学の問題を解決し、複数ステップのプロセスを計画し、複雑な概念をより簡単な言葉で説明することができます。
LLMは強力なツールですが、いくつかの制限があります。大きな懸念の1つは精度です。ハルシネーションの間、モデルはもっともらしいように聞こえながら、虚偽または誤解を招く情報を生成します。LLMは、トレーニング・データ内に存在するバイアスを反映して増幅し、不公平または不快なアウトプットを生成することもあります。さらに、参考情報の需要も膨大であり、LLMのトレーニングと実行には大量の計算能力とエネルギーが必要となるため、コストと環境に関する懸念が高まります。
実践者は、AIシステムとツールが安全で倫理的であることを保証するのに役立つ包括的なAIガバナンス、プロセス、標準、ガードレールを通じて、LLMのこれらのマイナス面を軽減できます。ガバナンスの重要な部分には、ベンチマークに照らしてモデルを評価することが含まれます。LLMベンチマークは定量的なスコアを提供するため、モデルの比較が容易になります。LLMはさまざまなタスクを実行できる汎用システムであるため、その評価には単一のベンチマークではなく複数の側面が必要となります。研究者と実践者は、モデルがどの程度適切に機能するかを判断するために、精度、効率、安全性、公平性、堅牢性などの品質を調べます。
また、LLMは、評価者が意図的にモデルに安全でない対応や偏った回答をさせ、弱点を明らかにしようとするレッド・チーミングなどの手法を使用して、整合性と安全性の観点でも評価されます。公平性とバイアスの評価は、LLMが有害なステレオタイプや誤情報を再現するのを実践者が防ぐのに役立ちます。
LLMも一般的に効率に基づいて評価されます。速度、エネルギー消費、トークンのスループット、メモリフットプリント、長いコンテキスト・ウィンドウの処理能力などは、LLMがどれだけ効率的にアウトプットに到達できるかを評価するために使用される一般的なメトリクスの一部です。
LLMの歴史は、研究者がルールベースのシステムと統計的手法を使用してテキストをモデル化していた初期のコンピューティングと自然言語処理にさかのぼります。これらの初期のアプローチでは、ローカル単語のパターンを把握できましたが、長距離の依存関係やより深い意味論を理解することはできませんでした。
Word2VecやGloVeなどの埋め込みにより、ニューラル・ネットワークが台頭したことで、2010年代に大きな変化が起こりました。これらは、単語を連続空間内のベクトルとして表現し、モデルが意味論的な関係を学習できるようにするものでした。リカレント・ニューラル・ネットワーク(RNN)や長短期記憶(LSTM)ネットワークなどのシーケンス・モデルは、連続データをより適切に処理するために登場しました。
2017年、Vaswaniらは、画期的な論文「Attention Is All You Need」でエンコーダー/デコーダーTransformerアーキテクチャーを紹介しました。[1]トランスフォーマーにより、大規模なデータセットを使用したモデルのトレーニングが可能になり、現代のLLM時代の始まりを示しました。Googleのエンコーダー専用トランスフォーマーであるBERT(2018)は、言語を理解するためのトランスフォーマーの力を実証しました。一方、デコーダーのみのバリアントに基づくOpenAIの生成事前トレーニング済みトランスフォーマー(GPT)シリーズは、インターネット規模のテキストの生成事前トレーニングがどのようにして非常に流暢な言語生成の速度に達するかを示しました。同時に、GoogleのT5やFacebookのBARTのようなエンコーダー・デコーダー・モデルは、翻訳や要約などのタスクにおける完全なシーケンスツーシーケンス設計の強みを示しました。GPT-2(2019年)は一貫した段落を生成する能力で注目を集めましたが、GPT-3(2020年)は1,750億のパラメーターを持ち、AIにおける変革力としてLLMを決定しました。
さらに、新しいアーキテクチャーにより、LLMにおけるトランスフォーマーの人気が問われています。Mambaモデルは、過去の情報を効率的にフィルタリングして組み合わせる選択的な更新を備えた状態空間モデルを使用して動作し、長距離の依存関係をキャプチャできるようにします。拡散LLMはランダムノイズから始まり、学習したモデルのガイドに従って段階的にノイズを除去し、最終的に一貫したテキストが生成されます。どちらのアーキテクチャーも、トランスフォーマーよりもはるかに効率的です。
watsonxプラットフォームにある基盤モデルのIBMライブラリーを探索し、ビジネスに合わせて自信を持って生成AIを拡張します。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。
1. “Attention is all you need”, Vaswani et al, arXiv, 12 June 2017