LLM温度とは

執筆者

Data Scientist

LLM温度とは

人工知能（AI）と機械学習において、温度は大規模言語モデル（LLM）のアウトプットを調整するためのパラメーターです。温度は、推論中にLLMによって生成されるテキストのランダム性を制御します。

LLMは、確率分布に従って次の単語（またはトークン）を予測することによりテキストを生成します。各トークンにはLLMからロジット（数値）が割り当てられ、トークンの全体が「ソフトマックス確率分布」に正規化されます。各トークンには、0と1の間に存在するソフトマックス関数が割り当てられ、すべてのトークンのソフトマックス確率の合計は1になります。

LLM温度パラメーターは、この分布を変更します。温度が低いと、基本的に最も高い確率のトークンが選択される可能性が高くなります。温度が高いと、モデルが低い確率のトークンを選択する可能性が高くなります。これは、温度値が高いとLLMのトークンの選択にばらつきが生じるためです。異なる温度設定は、本質的に、生成AIモデルがテキストをアウトプットするときにさまざまなレベルのランダム性をもたらします。

温度は、モデル性能におけるランダム性を制御するために重要な機能です。これにより、ユーザーは、実際のさまざまなアプリケーションに合わせて、LLMアウトプットを調整することができます。具体的には、このLLM設定により、ユーザーは特定のユースケースのアウトプットを生成する際に、一貫性と創造性のバランスを取ることができます。たとえば、ドキュメンテーションやチャットボットとの会話型回答など、正確性と事実の正確さを要求するタスクには、低温度が適している可能性があります。温度値が低いため、LLMはより一貫性のある一貫性のあるテキストを作成し、無関係な回答を回避することができます。対照的に、創造的なアウトプットや創作的な作文やコンセプト・ブレーンストーミングなどの創造的なタスクには、高い温度が適しています。温度設定を効果的に行うことで、ユーザーはLLMをファイン・チューニングし、モデルのアウトプットを独自の望ましい結果に調整することができます。

温度は「創造性」とよく混同されますが、必ずしもそうとは限りません。モデルがトレーニング・データのテキストをどの程度広く使用するかと考察する方が、より役立ちます。Max Peeperkornら¹は、さまざまな温度値に対するLLMのアウトプットの実証分析を実施し、次のように記しています。

「温度は新規性と弱く相関しており、当然のことながら、一貫性の欠如と中程度の相関があることがわかりましたが、まとまりや典型性とは関係がありません。しかし、創造性に対する温度の影響は、「創造性パラメーター」の主張が示唆するよりもはるかに微妙で弱いものです。全体的な結果は、温度が高くなるにつれて、LLMがわずかに新しいアウトプットを生成することを示唆しています。

温度値が高いとモデルアウトプットがより創造的になるように見えますが、トレーニング・データによる決定が少ないと考察する方が正確です。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

温度の構成

IBM® Granite™ InstructやOpenAIのChatGPTなどのモデルにアクセスするための多くの API には、温度を構成するパラメーターや、その他のさまざまなLLMパラメーターがあります。最も一般的なものは次のとおりです。

do_sample：このパラメーターは、テキスト生成中にモデルがサンプリングするかどうかを制御します。サンプリングは、テキスト出力を変化させる手法です。「True」に設定すると、モデルはデータセット内のシーケンスから最も可能性の高い単語を常に選択するのではなく、編集されたトークンの確率からランダムにサンプリングします。実際には、事前トレーニングされたLLMの温度調整を有効にするために、これをTrueに設定する必要があります。

top_k : このパラメーターは、ランダム・サンプリング時にモデルが選択可能なトークンを、最も可能性の高い上位k個のトークンに制限します。前のパラメータは、最も可能性の高いトークン以外の予測トークンへのランダム・サンプリングを可能にしますが、このパラメータは、モデルが選択する潜在的なトークンの数を制限します。ランダム・サンプリングは、より多様で多彩なアウトプットを生成するのに役立ちますが、このパラメーターは、より可能性の低いものをサンプリングから除外することで、生成されるテキストの品質を維持するのに役立ちます。

top_p：このパラメーターは核サンプリングとも呼ばれることがあります。これは、一貫性のない無意味なアウトプットを避けるために、ランダム・サンプリングの選択肢を制限するもう1つの方法です。このパラメーターにより、モデルは累積確率が指定された確率値よりも大きいトークンを考慮できるようになります。生成されたアウトプットのトークンを選択する際、モデルは、合計確率が95%以上であるトークンのグループのみを選択します。ランダム・サンプリングによりモデルのアウトプットはより動的になりますが、最上位のpパラメーターにより、ある程度の一貫性と一貫性を維持できます。

AI Academy

基盤モデルがAIのパラダイム・シフトとなる理由

新たな収入源の獲得、コスト削減、生産性の向上を実現する、柔軟で再利用可能な新しいAIモデルについて学びます。その後、ガイドブックを使ってさらに理解を深めてください。

エピソードに移動

アウトプットの制御

多くの場合、モデルではユーザーがモデルからのアウトプットをより明示的に制御できるようになります。アウトプット制御に一般的に使用されるパラメーターには次のようなものがあります。

最大長：最大長は、AI が生成できるトークンの合計数です。この設定は、ユーザーがモデルの回答の長さを管理し、長すぎる応答や無関係な回答を防ぐことができるため便利です。

ストップ・シーケンス：これらのシーケンスは、アウトプットの生成を停止するタイミングをモデルに指示し、コンテンツの長さと構造の制御に役立ちます。LLM に「Best regards」または「Sincerely」をストップ・シーケンスとして使用してEメールを書くように指示すると、モデルは最後の挨拶の前で停止するように指示されます。このプロンプトは、Eメールを簡潔かつ要点に保つのに役立ちます。ストップ・シーケンスは、アウトプットがEメール、番号付きリスト、ダイアログなどの構造化された形式で提供されることが予想される場合に役立ちます。

頻度ペナルティー：頻度ペナルティは、トークンの出現頻度に比例してペナルティーを課すことで、生成されたテキスト内の繰り返しを抑制する設定です。トークンがテキストで使用される頻度が高いほど、LLMがそれを再度使用する可能性は低くなります。

プレゼンス・ペナルティー：プレゼンス・ペナルティーは頻度ペナルティーに似ていますが、トークンに比例してペナルティーを課すのではなく、トークンが発生したかどうかに基づいてペナルティーを課します。

アウトプットとIBM Graniteとの比較

LLMのアウトプットに温度がどのような影響を与えるかを確認するには、IBM Granite 3.1の20億パラメーター・モデルによって作成されたアウトプットを確認します。ここでのプロンプトは「Pythonが大好きなデータサイエンティストのストーリーを書いてください」でした。

温度が0.1の場合、Graniteは以下を生成します。

かつて、サンフランシスコの繁華街に、アレックスという優秀なデータサイエンティストがいました。アレックスは、Pythonプログラミングとデータ分析において優れたスキルを持っていることで知られています。彼らは、Pythonを使用して知見を抽出し、予測を行うために、昼夜を問わずデータの世界に没頭していました。

ある日、アレックスは、人気のあるストリーミング・サービスの顧客離れを分析する任務を負いました。Pythonのscikit-learnライブラリーを使用して、どの顧客がサブスクリプションをキャンセルする可能性が高いかを予測できる機械学習モデルを構築しました。

温度が0.75の場合、Graniteは以下を生成します。

かつて、サンフランシスコの繁華街に、アレックスという優秀なデータサイエンティストがいました。アレックスは、データ分析と機械学習に最適なツールだと信じていたプログラミング言語である Pythonを深く愛していることで知られていました。アレックスは毎日、早起きしてコーヒーを抽出し、机に座っていました。Pythonでのコードの作成、データセットの探索、予測モデルの構築に何時間も費やしていました。彼らのPythonに対する愛は、言語自体だけではなく、その周りにあるコミュニティーへの熱意でもありました。

温度が1.25の場合、Graniteは以下を生成します。

かつて、高層ビルやネオンに満ちた活気ある都市で、世界で何よりもPythonを愛するデータサイエンティストがいました。データサイエンティストには、スキという名前の猫のヘルパーがいます。スキは好奇心旺盛で遊び好きな猫で、いつも家の隅々まで探検したがります。

ある日、データサイエンティストは複雑なコーディングの問題に取り組んでいます。スキは、まるでデータサイエンティストにメッセージを伝えようとしているかのように、大きな声で鳴き続けます。データ サイエンティストは、大きな声で鳴くのは大抵、複雑なコーディング問題の解決に近づいたときだと気づきます。

各ストーリーは似たような始まりから開始しますが、温度を上げると、生成されるテキストと詳細のばらつきが大きくなることに注意してください。

適切な基盤モデルを選ぶ方法

データ・セットの準備と基盤モデルの採用において、適切なアプローチを選択する方法をご覧ください。