モデル・パラメーターとは

モデルのパラメーターは機械学習モデル内で学習された値であり、入力データを生成されたテキストや予測された分類などの出力にマッピングする方法を決定します。機械学習アルゴリズムの目的は、AIモデルのアウトプットが期待される成果とほぼ一致するまでパラメータを調整することです。

これらのパラメーターの値によって、モデルの予測、そして最終的には特定のタスクにおけるモデルの性能が決まります。モデル内のパラメーターの数は、データ・ポイント全体のパターンをキャプチャするモデルの能力に直接影響します。生成AIで使用されるような大規模モデルには、数十億のパラメーターを含めることができるため、高度に洗練されたアウトプットを生成できます。パラメータを増やすと、モデルはより微妙なデータのパターンをより正確に捉えることができますが、パラメータが多すぎると過剰適合のリスクがあります。

機械学習アルゴリズムによって、パラメーターの種類も異なります。例えば、回帰には係数があり、ニューラルネットワークには重みとバイアスがあり、サポートベクトルマシンや状態空間モデルなどのアルゴリズムには独自のタイプのパラメータがあります。

モデル・パラメーターはトレーニング中に学習される変数であり、事前に設定されるハイパーパラメーターとは異なります。どちらの種類のパラメーターもモデルの性能と動作に影響を与えますが、その方法は大きく異なります。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

簡素化されたモデル・パラメーター

モデル・パラメーターは単純モデル（一定速度で変化する量を記述する、可能な限り単純な数学モデル）にも存在します。

線形回帰

住宅価格に平方フィートがどのように影響するかを知るには、次の式を使った単純な線形回帰モデルを使うことができます。 $y = m x + b$ ここで、 m （傾き）と b （切片）はパラメータです。これらを調整することで、得られる直線はデータに最も適合するまでシフトし、傾きます。

分類

少し複雑な例としては、ロジスティック回帰モデルを使用して、住宅が市場に出た日数に基づいて住宅が売るかどうかを判断することなどが挙げられます。

ロジスティック回帰では次の式を使用します。 $p = \frac{1}{1 + e^{- (w x + b)}}$ ここではp =「売りの確率」、x =「市場に出回る日数」です。繰り返しになりますが、wとbはモデルが「学習する」パラメーターです。方程式は少し複雑になりましたが、使用されているパラメーターはわずか2つです。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

モデル・パラメーターの種類

機械学習では、モデル・パラメーターには主に重みとバイアスの2種類があります。単純な線形回帰モデルの例では $y = m x + b$ 、重みは傾きmに対応し、インプットがアウトプットに与える影響を制御します。重みが大きいほど、インプットの影響が大きくなります。バイアスは切片 bに対応します。これにより、モデルはライン全体を上下に動かすことができます。

重み

重みはモデルの基本的な制御つまみ、つまり設定であり、モデルが新しいデータを評価し、予測を行う方法を決定します。

線形回帰モデルでは、重みづけによって、各インプットデータのポイントを表すために使用する特徴量の相対的な影響力を決定します。ニューラルネットワークでは、重みによって、後続層の各ニューロンのアウトプットに対する各ニューロンのアウトプットに対する相対的な影響が決定されます。

「市場に出た日」などの要素に基づいて家が売るかどうかを予測するモデルの例では、これらの各要素には、その要素が勝つ可能性にどれだけ大きく影響するかを反映した重みがあります。

バイアス

バイアスにより、モデルは重みづけやインプットから独立してアウトプットを調整し、しきい値やオフセットとして機能させることができます。バイアスは、モデルを一般化して、データセット全体のより大きなパターンと傾向を捉えるのに役立ちます。

住宅販売のモデルを引き続き考えてみます。履歴としては、特定の住宅が何日も上場されていたり、あるいはほとんど上場されていなかったとしても、市場に出回った日数に関係なく、その地域の全住宅の60％が最終的に販売されています。バイアスにより、モデルはこの現実的なベースラインの確率から始めて、他のインプットに基づいて上方修正や下方修正をすることができます。

この「バイアス」の使用法は、モデルが差別的な結果を生み出す場合のアルゴリズム・バイアスとは異なる概念です。バイアスは、モデルがデータについて誤った仮定を行うことで予測値と実際の値の間に相違が生じるエラーの種類を表す用語でもあります。どちらもパラメーターのバイアスとは無関係です。

その他のパラメータ

機械学習の世界には、他の種類のパラメーターがあります。上記の単純なモデルでは、重みとバイアスを使用し、はるかに複雑なニューラル・ネットワークと同様、正規化のためのゲインとシフトのパラメーターを使用します

たとえば、畳み込みニューラル・ネットワークには、空間パターンを検知するフィルター（カーネルとも呼ばれます）が存在します。長期短期記憶を備えたリカレント・ニューラル・ネットワークは、ネットワークを介した情報の流れを制御するゲーティング・パラメーターを使用します。単純ベイズなどの確率モデルでは、パラメータを使用して条件付き確率または確率分布の特性を定義します。サポート・ベクトル・マシンは、特徴空間内のクラスを分離するために「超平面」を配置および方向付けるパラメーターを定義します。状態空間モデルには観測パラメーターとノイズ・パラメーターがあります。

これらの例はほんの一部であり、さまざまなモデルのパラメーターはそれぞれに異なる方法で機能します。しかしいずれの場合も、パラメーターはモデルが入力データを出力にマッピングする方法を決定します。

モデル・パラメーターとハイパーパラメーター

パラメーターは基本的に、モデルが求めている質問（例：「平方フィート単位で住宅の価格を最も正確に教えてくれる方程式で、存在しうる最大の傾きは何ですか？」）

一方、ハイパーパラメーターは、その答えを見つける方法をモデルに伝えるゲームのルールとして認識できます。モデルをトレーニングするデータサイエンティストは、問題の理解に基づいて、モデルが答えを検索する方法を決定する境界を設定します。

モデルのパラメータはモデルの内部にあり、トレーニング・データに応じて学習プロセスの反復全体にわたってモデルによって更新されます。モデルはトレーニング中にパラメーター値を更新します。パラメーターは、モデルが目に見えないデータにどのように反応するかを制御します。

モデルのハイパーパラメーターはモデルの外部にあり、トレーニングの前にハイパーパラメーター・チューニングを通じて設定されます。一部のハイパーパラメーターは、勾配降下法での学習率やトレーニング・プロセスのエポック数など、トレーニング中のモデルの動作を決定します。

その他のハイパーパラメーターは、モデルの形状と構造を決定します。例えば、ランダム・フォレストのDecision Treesの数、k-meansクラスタリングのクラスターの数、ニューラル・ネットワークの隠れ層の数などです。

ニューラル・ネットワークにおけるモデル・パラメーター

機械学習モデルは、これまでの例よりもはるかに複雑な場合があります。ニューラル・ネットワークなどの大規模言語モデル（LLM）では、モデルは人間の脳内で生物学的ニューロンが連携して機能する方法と同様の方法で意思決定を行います。すべてのニューラル・ネットワークは人工のニューロンの層で構成され、各ニューロンは数値を処理する数学的関数を表します。ディープラーニングでは、こうしたレイヤーの多くがニューラル・ネットワークからなっています。

層から層へ

各ニューロンは、ネットワークのある部分が別の部分にどの程度影響を与えるかを制御します。重みは、ニューロン間の接続の強度、つまりあるニューロンのアウトプットが次のニューロンのインプットに影響を与える度合いを決定します。

トレーニング中、ネットワークはインプットを受け取ります。住宅価格の例の続きは、平方フィート、建設年数、地域人口統計データ、その他多数のインプット・データなどです。

これらのインプット特徴量はニューロンの最初の層に渡されます。各インプットには、重み、ニューロンの重要性に関するネットワークの最良の推測、および柔軟性を向上させるためにバイアスを追加することで、ニューロンに、前の層のニューロンからのインプットの重み付けされた合計の影響からある程度の独立性を与えます。活性化関数は、そのニューロンがどの程度「強力」かを決定し、次の層の個々のニューロンの活性化関数に入力として、次の層に渡されます。これらのニューロンからニューロン間の接続には、それぞれ独自の重みがあります。

重みは行列を形成し、バイアスはベクトルを形成します。そして、層はインプットとバイアスの線形組み合わせを計算し、その成果をシグモイド、タンフ、ReLU、またはソフトマックス関数などの有効化関数に渡します。この機能の仕事は非線形性を導入することです。これにより、ネットワークは単なる線形の関係ではなく複雑なパターンを学習し、モデル化できるようになります。

データは、後続の隠れたレイヤーを通っていきます。最初の隠れたレイヤーでは、家の平方フィートとベッド数を組み合わせて、「全体的な生活空間」に到達する可能性があります。別のレイヤーでは、住宅の地理的位置と学区の評価を組み合わせて、「地域での人気度」を決定する場合があります。このモデルは、「地域での人気度」が何であるかを人間のように理解しているわけではなく、単にトレーニング・データの数のパターンを認識し、相関関係を作成しているだけです。

ネットワークは層ごとに、どのパターンが最も関連しているかを「理解」し始めます。これらの積み重ねられたレイヤーは、単純なオペレーションを、複雑な階層パターンを学習できる強力なネットワークに変えます。

損失とバックプロパゲーション

次の段階では、ネットワークは損失（ネットワークのアウトプットとグラウンド・トゥルース（トレーニング・データセットに存在するデータの構造）との差）を計算します。これにより、モデルがどれだけ現実から離れているかを表す1つの数値が得られます。

次に、バックプロパゲーション中に、ネットワークは重みとバイアスに関する損失の勾配を計算します。これにより、どのパラメータが損失に影響を与えているか、損失を最小限に抑えるためにどのように調整すればよいかがネットワークに伝えられます。これは、勾配降下アルゴリズムを使用して、レイヤーごとに、逆の順序で実行されます。勾配降下法などの最適化アルゴリズムは、損失関数を最小化するように設計されており、損失を減らすためにパラメーターを効率的に変更する方法をモデルに伝えます。

上記のプロセスを、モデルが希望する性能でアウトプット（この場合は予測住宅価格）を提供できるようになるまで繰り返します。

住宅価格を予測する例は、ニューラル・ネットワークが特徴量を一度に取得し、それらを非線形に組み合わせて、アウトプットを出力する方法を表しています。しかし、これはよりシンプルな線形回帰モデルによって実現できた可能性があります。ニューラル・ネットワークは、データが構造化されていない場合、またはパターンが従来のモデルでは複雑または高次元すぎる場合に本領を発揮します。例えば、ニューラル・ネットワークを使用して衛星写真や近隣地図データを処理し、販売価格を予測することができます。あるいは、ニューラル・ネットワークをトレーニングして、「静かな通り」や「新しい屋根」などのリスト記述内の重要な用語を認識させることもできます。

ファイン・チューニング

初期トレーニングが完了すると、 AIモデルを特定のタスクまたは主題領域にさらに適応させることができます。微調整は、事前にトレーニングされたモデルを特定のユースケースに合わせて調整するプロセスです。そのためにモデルのパラメーターを、新しいデータに対する追加トレーニングを通じて更新します。

その他の学習

住宅価格を予測するために使用される上記のニューラル・ネットワークの例は、ラベル付けされたデータを使用してモデルが学習する教師あり学習を説明したものです。この文脈では、モデルにはインプットと正しいアウトプットの両方が与えられます。このモデルは、その予測をグランド・トゥルース（この場合はラベル付きデータ）と比較します。微調整は、多くの場合は教師ありの方式で行われます。

教師なし学習の場合は、「正しい答え」を知らなくても、ラベルのないデータ内のパターンや構造を見つけることでモデルがパラメータを学習できます。これらのモデルは（教師あり学習のように）予測をグランド・トゥルースのラベルと比較するのではなく、データ自体をどの程度説明しているかを測定するための目標を最適化します。例えば、クラスタリングでは、パラメーター（k-クラスターのクラスター重心など）が反復的に更新され、類似のポイントがより近くにグループ化されます。次元削減では、データ内で最も大きな変動を捉える方向を見つけることによってパラメータが学習されます。

強化学習では、モデル（またはモデルによって駆動されるエージェント）が環境と対話し、正しいアクションに対して報酬を受け取ります。このパラメーターは通常、期待報酬を推定するポリシーまたは値関数を定義します。パラメーターは、予測された報酬と実際に受け取った報酬を比較することにより更新されます。

モデル・パラメーターのパフォーマンスの検証

トレーニング・データの性能を向上させることはトレーニングの目的ですが、それは目的達成の手段にすぎません。第一の目標は一般化で、これはモデルをトレーニング・データにはない実世界のタスクを適切に一般化できるよう訓練することで達成されます。

パラメータがトレーニング・データ内のノイズやランダムな変動を捉え、新しいデータに対する一般化が不十分になるような、過剰適合などの落とし穴を避けるように注意する必要があります。パラメーターは、意味のあるパターンを学習できるほど柔軟である必要がありますが、無関係な詳細を記憶できるほど柔軟ではありません。

モデルの性能を評価するために、いくつかのデータサイエンス手法が使用されます。クロス検証は、データセットをいくつかの部分（フォールド）に分割するモデル評価手法です。モデルはいくつかのフォールドでトレーニングされ、残りのフォールドでテストされ、すべてのフォールドがテスト・セットとして使用されるまで繰り返されます。モデルがデータの複数の区分でテストされるため、過剰適合のリスクが軽減されます。相互検証ではパラメータを直接変更することはありませんが、学習したパラメータが目に見えないデータにどの程度一般化されるかをテストします。フォールド間で性能が一貫している場合、パラメーターは適切に最適化されている可能性があります。そうでない場合は、モデル・パラメーターが既に確認したトレーニング・データのサブセットに過剰に適合している可能性があります。より多様なデータに対するさらなるトレーニングにより、一般化が改善される場合があります。

もう1つの手法はブートストラッピングです。これは、元のデータセットからの置換物でランダムにサンプリングすることによって、新しいデータセットを作成する統計的手法です。ブートストラッピングのサンプルはそれぞれ少しずつ異なるため、多くのパラメーター・セットを生成します。ブートストラッピングを施した複数のモデルの差異を見ることにより、異なるデータでトレーニングしたときにパラメーターがどの程度信頼できるかを測定できます。

プラクティショナーはまた、精度、適合率、再現率、平均二乗誤差など、モデルの性能を定量化するメトリクスにも依存します。これらは、現在のパラメーターがモデルを正しい方向に移動させているかどうかに関する客観的なフィードバックを提供します。