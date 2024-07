Lllama-2-Chat-Modelle sind auf dialogorientierte Anwendungsfälle feinabgestimmt, ähnlich wie die spezifischen GPT-Modellversionen, die in ChatGPT verwendet werden.

Überwachte Feinabstimmung (SFT, supervised fine tuning) wurde verwendet, um das vorab trainierte Lllama-2-Basismodell vorzubereiten, damit es Antworten in dem Format generiert, das Benutzer von einem Chatbot oder einem virtuellen Agenten erwarten. In einer Reihe von überwachten Lernaufgaben werden markierte Paare von Dialogen (Prompt, Antwort) verwendet, um das Modell so zu trainieren, dass es die Divergenz zwischen seiner eigenen Antwort auf eine bestimmte Prompt und der Beispielantwort aus den gekennzeichneten Daten minimiert. So lernt das Modell zum Beispiel, dass die richtige Antwort auf die Prompt „Bring mir bei, wie man Kekse backt“ darin besteht, konkrete Anweisungen zum Backen von Keksen zu geben, anstatt den Satz zu vervollständigen.

Anstatt Millionen beschrifteter Beispiele zu verwenden, wurden die Ergebnisse durch „weniger, aber qualitativ hochwertigere Beispiele“ verbessert, wobei Meta AI 27.540 gekennzeichnete Beispiele sammelte.

Im Anschluss an das SFT nutzte Meta verstärkendes Lernen mit menschlichem Feedback (RLHF, reinforcement learning with human feedback), um das Verhalten der Chat-Modelle noch näher an menschliche Vorlieben und Anweisungen zu bringen. Bei RLHF wird direktes menschliches Feedback verwendet, um ein „Belohnungsmodell“ zu trainieren, damit es Muster für die Art von Reaktionen lernt, die Menschen bevorzugen. Die Vorhersagen des Belohnungsmodells (ob eine bestimmte Reaktion von Menschen bevorzugt wird) werden in ein skalares Belohnungssignal umgewandelt. Das Belohnungsmodell wird dann verwendet, um Lllama-2-chat durch verstärkendes Lernen weiter zu trainieren.

Es gibt viele verschiedene Methoden und Formate, in denen menschliches Feedback erfasst werden kann. Meta AI verwendete eine einfache Methode des binären Vergleichs: menschliche Kommentatoren wurden gebeten, eine Prompt zu schreiben und dann zwischen zwei Antworten des Modells zu wählen, die von zwei verschiedenen Varianten von Lllama 2 erzeugt wurden – anhand der Kriterien von Meta. Um dem Belohnungsmodell zu helfen, diese Auswahl richtig zu gewichten, wurden die Kommentatoren auch gebeten, zu bewerten, inwieweit sie die von ihnen gewählte Antwort der anderen vorziehen: „deutlich besser“, „etwas besser“ oder „unwesentlich besser/nicht sicher“.

Anhand der von Menschen bevorzugten Ausgaben wurden zwei separate Belohnungsmodelle trainiert: eines, das auf Hilfsbereitschaft, und ein anderes, das auf Sicherheit optimiert ist (d. h. Vermeiden toxischer, hasserfüllter Antworten oder Reaktionen, die für gewalttätige oder kriminelle Aktivitäten genutzt werden könnten). Zusätzlich zur proximalen Richtlinienoptimierung (PPO), dem Algorithmus, der normalerweise für Updates der LLM-Modellgewichtungen im RLHF verwendet wird, verwendete Meta auch Ablehnungsstichproben (Link befindet sich außerhalb ibm.com) für sein Update von Llama-2-chat-70B.