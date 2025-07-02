人間のフィードバックによる強化学習（RLHF）は、報酬モデルを組み合わせて活用し、事前学習済みモデルを複雑かつ主観的なタスクに合わせてファイン・チューニングします。MLモデルは文章が感情を喚起するかどうかを判断できませんが、人間にはそれができ、人間は自身の嗜好をモデルに学習させて模倣させることができます。

RLHFでは、人間が新しいタスクに対して報酬モデルをトレーニングします。報酬モデルの役割は、与えられた入力に対して人間がどのように反応するかを正しく予測することです。標準的なモデル・トレーニングが誤りにペナルティーを課すのに対し、報酬トレーニングは良好な性能にインセンティブを与えます。

その後、報酬モデルは人間のトレーナーの嗜好に基づいて、基盤モデルにどのように振る舞うべきかを教えます。報酬モデルがトレーニングされると、人間をループ（HITL）に介在させることなく、基盤モデルをトレーニングできるようになります。

すべての機械学習タイプに共通するように、モデルは批判的に考えているわけでも、そもそも考えているわけでもありません。むしろ、モデルは数学的に、トレーナーである人間の好みに最も合致する結果を選択しているにすぎません。