In Bezug auf die Anweisungsoptimierung, die das Modell darauf vorbereitet, Anweisungen besser zu befolgen, wenden sowohl Gemma als auch Gemma 2 überwachtes Feintuning und verstärkendes Lernen anhand von menschlichem Feedback (Reinforcement Learning from Human Feedback, RLHF) an.4 Bei der überwachten Feinabstimmung werden gekennzeichnete Beispiele für anweisungsorientierte Aufgaben verwendet, um dem Modell beizubringen, wie es seine Antworten strukturieren soll. RLHF hingegen verwendet ein Belohnungsmodell, um Qualitätsbewertungen von menschlichen Bewertern in numerische Belohnungssignale zu übersetzen und den Modellen zu helfen, zu lernen, welche Antworten positives Feedback erhalten.