LLMパラメーターとは

執筆者

Staff writer

Staff Editor, AI Models

IBM Think

LLMパラメーター、定義

LLMパラメーターは、大規模言語モデル（LLM）のアウトプットと動作を制御および最適化する設定です。トレーニング可能なパラメーターには重みとバイアスが含まれており、大規模言語モデル（LLM）がトレーニング・データセットから学習するときに構成されます。ハイパーパラメーターはモデルの外部にあり、学習プロセスを導き、モデルの構造を決定し、アウトプットを形成します。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

LLMパラメーターの種類

LLMパラメーターは、次の3つの主要なカテゴリーに分類できます。

重み

バイアス

ハイパーパラメーター

重み

重みとは、LLMが特定のインプットに割り当てる重要度を表す数値です。人工知能（AI）モデルは、回答を生成する際に、すべてのインプットを平等に処理するわけではありません。インプットの重みが大きいほど、モデルのアウトプットとの関連性が高くなります。

重みなどのトレーニング可能なパラメーター設定は、トレーニング・プロセス中にモデルの学習アルゴリズムによって設定されます。学習アルゴリズムは、損失関数を使用して機械学習（ML）モデルの性能を測定し、モデルのパラメーターを最適化することでエラーを最小限に抑えようとします。

ニューラル・ネットワーク内では、重みとは、あるニューロン層から次のニューロン層への信号強度を決定する乗数のことです。信号がネットワークを通過するには、活性化関数の強度しきい値を満たす必要があります。したがって、重みは、ネットワークが層を通じてデータを前方に伝播する方法に直接影響します。

バックプロパゲーションは、重み値の変更がモデルの性能にどのように影響するかを計算するために使用されます。

バイアス

重みと同様に、バイアスもAIモデルのトレーニング中に自動的に構成されます。バイアスは、前の層からの信号値に追加される定数値です。モデルはバイアスを使用して、重みだけでは活性化関数を通過するのに十分ではない可能性がある条件下でニューロンが活性化できるようにします。

バイアスにより、モデルの柔軟性が向上します。重み付けされたインプットが活性化のしきい値に達していない場合でも、モデルはデータから学習できます。重みと同様に、バイアスもトレーニング中にバックプロパゲーションで調整され、モデルの性能を最適化し、誤差が最小限に抑えられます。

LLMで重みとバイアスを組み合わせると、数十億個のパラメーターを持つモデルが得られる場合があります。ファイン・チューニングのプロセス中（事前トレーニング済みのLLMが下流のタスク用にさらにトレーニングされるとき）、その重みとバイアスは分野固有のトレーニング・データを使用して調整されます。

ハイパーパラメーター

ハイパーパラメーターは、モデルの動作、形状、サイズ、リソースの使用、およびその他の特性を決定する外部設定です。ハイパーパラメーター調整またはモデル調整のプロセスでは、アルゴリズムを使用して、性能を向上させるためのハイパーパラメータの最適な組み合わせを見つけ出します。ハイパーパラメータ調整は、プロンプト・エンジニアリングと並んで、LLMの主要なカスタマイズ手法の1つです。

層の数や隠し層の次元などのアーキテクチャー・ハイパーパラメーターによって、モデルのサイズと形状が構成されます。

学習率やバッチ・サイズなどのトレーニング・ハイパーパラメータは、モデルのトレーニング・プロセスを導きます。トレーニング・ハイパーパラメーターは、モデルの性能と、モデルが必要なLLMベンチマークを満たしているかどうかに大きく影響します。

温度やtop-pサンプリングなどの推論ハイパーパラメーターは、生成 AIモデルがアウトプットを生成する方法を決定します。

コンテキスト・ウィンドウ、出力シーケンス内のトークンの最大数、ストップ・シーケンスなどのメモリーと計算能力のハイパーパラメーターは、モデルの性能・能力とリソース要件のバランスをとります。

プレゼンス・ペナルティーや頻度ペナルティーなどのアウトプット品質ハイパーパラメーターにより、LLMはコストを制御しながら、より多様で興味深いアウトプットを生成できます。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

注目すべきLLMパラメーター

GPT-4とGPT-3、Llama、Geminiなど複雑なニューラル・ネットワークの大規模モデルや、他のTransformerモデルのパラメーター数は数十億に達することがあります。小規模なモデルではパラメーターが少ないため、計算負荷が少なくなりますが、複雑なパターンと関係を識別する能力も低くなります。

すべてのパラメーターは、モデルが検出した実世界のデータをどのように理解するかを決定するのに役立ちます。ただし、モデルのアウトプットに最も直接的な影響を与えるパラメーターはハイパーパラメーターです。オープンソース・モデルのメリットの1つは、ハイパーパラメーター設定が可視化されることです。

ハイパーパラメータ調整は、特定のタスクに合わせてモデルをファイン・チューニングする、LLMカスタマイズの重要な柱です。

モデルのハイパーパラメーターの中で最も重要なものは次のとおりです。

層の数

コンテキスト・ウィンドウ

温度

top-p（核サンプリング）

トップK

トークン数（最大トークン数）

学習率

頻度ペナルティー

プレゼンス・ペナルティー

ストップ・シーケンス

層の数

ニューラル・ネットワークの層の数は、モデルのサイズと複雑さを設定する上で重要なハイパーパラメーターです。ニューラル・ネットワークは、ニューロンまたはノードの層で構成されています。最初のインプット層と最終アウトプット層間の層が増えるほど、モデルはより複雑になります。

しかし、複雑さは必ずしも良いことではありません。層を必要としないタスクに対して層が多すぎるモデルは、過剰適合に悩まされ、リソースを浪費する可能性があります。一方、層が不十分なモデルでは、複雑なデータセット内のパターン、関係、分布を捉えることができません。

コンテキスト・ウィンドウ

コンテキスト・ウィンドウのハイパーパラメーターは、オープンソースLLM Llama-2など、Transformerアーキテクチャー上に構築されたあらゆるモデルに関連します。コンテキスト・ウィンドウは、インプット・シーケンス全体にわたって一貫性を維持しながらモデルがフィールドにできるトークンの最大数です。

コンテキスト・ウィンドウは、モデルが以前のコンテンツの追跡を失うことなく維持できる会話の長さも決定します。コンテキスト・ウィンドウが大きいと、精度が向上し、ハルシネーションが減り、より大きな文書の処理やより長時間の会話が可能になります。

ただし、大規模なコンテキスト・ウィンドウは、より大量の計算リソースも必要となり、回答生成の処理時間が長くなる可能性があります。

温度

LLM温度ハイパーパラメーターは、ランダム性または創造性のダイヤルに似ています。温度を上げると、テキスト生成中にモデルのアウトプットに表示される次の単語の確率分布が増加します。

温度設定 1では、モデルの標準確率分布が使用されます。温度が1を超えると確率分布が平坦になり、モデルはより広範なトークンを選択するようになります。逆に、温度が1より低いと確率分布が広がり、モデルが最も確率の高い次のトークンを選択する可能性が高くなります。

0.8など、温度値が1.0に近い場合、LLMは回答においてより創造性が発揮されることになりますが、予測可能性は低下する可能性があります。一方、温度が0.2と低いと、より決定的な回答が得られます。温度が低いモデルは、変化がなければ予測可能なアウトプットを提供します。温度が2.0に近いと、無意味なアウトプットが発生し始める可能性があります。

このユースケースは、LLMの理想的な温度値を示します。ChatGPTなどのエンターテイメント性と創造性を重視して設計されたチャットボットでは、人間のようなテキストを作成するためにより高い温度が必要です。法律、医療、金融などの規制の厳しい分野のテキスト要約アプリでは、その逆が必要です。つまり、生成されるテキスト要約は、厳しい要件に準拠する必要があります。

top-p（核サンプリング）

温度と同様に、top-pサンプリングも、生成されたテキスト出力内の語のダイバーシティーに影響します。top-pは、アウトプット・シーケンスの次のトークンの確率しきい値pを設定することで機能します。モデルは、確率制限内でトークンを使用して回答を生成できます。

top-pサンプリングでは、トークンは確率順にランク付けされます。シーケンスの次に出現する可能性が高いトークンはスコアが高く、可能性の低いトークンではその逆が当てはまります。モデルは、累積pスコアが設定されたしきい値に達するまで、潜在的な次のトークンのグループを組み立て、そのグループからトークンをランダムに選択します。

pしきい値が高いとより多様なアウトプットが得られ、しきい値が低いと精度と一貫性が維持されます。

温度とtop-pサンプリングの比較

温度サンプリングとtop-pサンプリングの違いは、温度が潜在的なトークンの確率分布を調整するのに対し、top-pサンプリングはトークンの選択を有限のグループに制限することです。

Top-k

top-kハイパーパラメーターは、もう1つのダイバーシティーに重点を置いた設定です。k値は、シーケンス内で次の項として見なすことができる項の数の制限を設定します。用語は確率に基づいて並べられ、上位k個の用語が候補として選ばれます。

top-pとtop-k

top-pはトークン・プールを設定済みのp個の確率合計までに制限しますが、top-kはプールを最も可能性の高い上位k個の用語に制限します。

トークン数（最大トークン数）

トークン数または最大トークンのハイパーパラメーターは、アウトプット・トークンの長さの上限を設定します。トークン数の値が小さいほど、チャットボットの会話や要約などの迅速なタスク、つまり小規模な言語モデルやLLMで処理できるタスクに最適です。

コーディングにLLMを使用する場合など、より長いアウトプットが必要な場合は、トークン数値を大きくする方が適しています。

学習率

学習率は、トレーニングやファイン・チューニング中にモデルが重みやバイアスを調整する速度に影響する非常に重要なハイパーパラメーターです。これらのプロセスでは、勾配降下法として知られる学習アルゴリズムが使用されることがよくあります。

勾配降下法アルゴリズムは、モデルの予測の誤差を測定する損失関数を最小化しようとします。トレーニングを反復するたびに、アルゴリズムはモデルの重みを更新し、次のデータバッチで性能を理想的に向上させます。

学習率は、重みが更新される度合い制御します。学習率が高いと学習効率が大きくなり、局所的最小値を超えるリスクがある状態でトレーニングがスピードアップします。学習率が低いと、より微妙な調整が行われますが、最小値に達するにはより多くの反復が必要であり、停止する可能性もあります。

学習率を管理する効果的な方法の1つは、より高い値でトレーニングを開始し、モデルが損失関数の局所的な最小値に近づくにつれて学習率を下げることです。

頻度ペナルティ

頻度ペナルティーのハイパーパラメーターは、モデルが同じアウトプット内で用語を過剰に使用するのを防ぐのに役立ちます。アウトプットに用語が出現すると、頻度ペナルティーによってモデルは後でその用語を再度再利用できなくなります。

モデルは各トークンにロジットと呼ばれるスコアを割り当て、ロジットを使用して確率値を計算します。頻度ペナルティーは、用語が繰り返されるたびに用語のロジット値を直線的に下げ、次に選択される可能性を徐々に低くします。頻度の高いペナルティー値が得られると、アプリケーションあたりの容量が大きくなり、ロジットが低下します。

モデルは用語の繰り返しを避けるため、代わりに他の用語を選択せざるを得ず、その結果、生成されるテキストにおける語彙の多様性が増します。

繰り返しペナルティー

繰り返しペナルティーは、線形ではなく指数関数的であることを除き、頻度ペナルティーと似ています。反復ペナルティーは、用語が再利用されるたびにそのロジットを指数関数的に低下させるため、頻度よりも強い抑制が難しくなります。このため、繰り返しペナルティー値を低くすることが推奨されます。

プレゼンス・ペナルティ

プレゼンス・ペナルティーは、一度だけ適用されることを除いて、頻度ペナルティーと同様に機能する関連ハイパーパラメーターです。プレゼンス・ペナルティーは、その用語がアウトプットに存在する頻度に関係なく、少なくとも1回出現する限り、用語のロジット値を同じ量だけ下げます。

アウトプットに「bear」という語が10回出現し、「fox」という語が1回出現する場合、「bear」の頻度ペナルティーは「fox」よりも高くなります。ただし、bearとfoxはどちらも同じプレゼンス・ペナルティーを共有します。

ストップ・シーケンス

ストップ・シーケンスは、表示されるとモデルにアウトプット・シーケンスを終了させるトークンの事前設定された文字列です。たとえば、モデルが一度に１つの文を出力するように設計されている場合、ストップ・シーケンスはピリオドになる可能性があります。

ストップ・シーケンスは、モデルが停止点までアウトプットを生成する方法に影響を与えることなく、回答の簡潔さを維持します。ストップ・シーケンスはモデルの回答を切り捨てるので、APIを介してLLMに接続するときにトークン・コストを節約するのにも役立ちます。

LLMパラメーターの最適化

モデルの内部のトレーニング可能なパラメーター（重みとバイアス）を最適化することは、強力な性能の実現に不可欠です。モデルに最適なハイパーパラメーターが装備されると、モデルの設計者は内部LLMパラメーターの形成に役立つさまざまな手法を自由に利用できるようになります。

ファイン・チューニングは、特定のタスクのためにモデルの重みとバイアスを調整します。パラメーター効率の高いファイン・チューニング（PEFT）は、関連する小さなサブセットを変更しながら、ほとんどのパラメーターを固定します。

転移学習は、デルの事前知識を使用して新しいタスクの性能を向上させることを中心とした、幅広いモデル最適化手法の流派です。

量子化は、モデル内部のすべての計算を簡素化し、同じデータを表現しながらモデルをより小さく効率化します。

早期停止は、性能の顕著な向上が見られなくなった時点でトレーニング・プロセスを中止することで、過剰適合を防ぎます。

生成AI + MLの力を解き放つ

生成AIと機械学習をビジネスに活用する確実な方法を学びましょう。

参考情報

AIの専門知識のレベルアップを図る

ハンズオン・ラボ、コース、指導付きプロジェクト、トライアルなどで、基本的な概念を学び、スキルを身につけていただけます。

生成AI + MLの力を解き放つ

生成AIと機械学習をビジネスに活用する確実な方法を学びましょう。

AIの活用を本格化：生成AIでROI向上

AIの投資対効果を高めるために、主要な分野で生成AIの活用を拡大することで、どのように革新的な新規ソリューションの構築、提供を支援し、変化をもたらすかを紹介します。

適切な基盤モデルを選ぶ方法

ユースケースに最適なAI基盤モデルを選択する方法について説明します。

IBM Graniteはこちら

IBM Graniteは、ビジネス向けにカスタマイズされ、AIアプリケーションの拡張に合わせて最適化された、オープンで高性能、かつ信頼性の高いAIモデル・ファミリーです。言語、コード、時系列、ガードレールのオプションをご覧ください。

AIの新時代に信頼と自信を持って成功する方法

強力なAIストラテジーの3つの重要な要素である、競争優位性の創出、ビジネス全体へのAIの拡張、信頼できるAIの推進について詳しく説明します。

AI in Actionレポート

2,000の組織を対象に、AIへの取り組みについて調査を行い、何が機能し、何が機能していないのか、どうすれば前進できるのかを明らかにしました。