LLaMA 2 ist eine Familie vorab trainierter und feinabgestimmter großer Sprachmodelle (LLMs), die 2023 von Meta AI veröffentlicht wurde. Die KI-Modelle von LLaMA 2, die kostenlos für Forschung und kommerzielle Nutzung zur Verfügung gestellt werden, können eine Vielzahl von Aufgaben zur Verarbeitung natürlicher Sprache (NLP) bewältigen, von der Texterstellung bis zur Programmierung von Code.
Die Lllama-2-Modellfamilie, die sowohl Basismodelle als auch feinabgestimmte „Chat“-Modelle bietet, ist der Nachfolger der ursprünglichen Lllama-1-Modelle, die im Jahr 2022 unter einer nichtkommerziellen Lizenz veröffentlicht wurden. Der Zugang zu Lllama 1 wurde ausschließlich einzeln für Forschungseinrichtungen ermöglicht. Im Gegensatz zu ihren Vorgängern stehen die Lllama-2-Modelle sowohl für die KI-Forschung als auch für die kommerzielle Nutzung kostenlos zur Verfügung.
Die LLaMA-Modelle von Meta zielen daher auf die Demokratisierung des Ökosystems der generativen KI ab. Wie im LLaMA-2-Forschungsbericht (Link befindet sich außerhalb von ibm.com) beschrieben, ist die Methode für das Vortraining autoregressiver LLMs durch selbstüberwachtes Lernen inzwischen zwar relativ einfach und gut verstanden. Die immensen Rechenleistungsanforderungen, die dieser Prozess mit sich bringt, beschränken die Entwicklung hochmoderner LLMs jedoch weitgehend auf einige wenige wichtige Akteure. Da es sich bei den meisten hochmodernen LLMs wie OpenAIs GPT, Anthropics Claude und Googles BARD um proprietäre (und riesige) Closed-Source-Modelle handelt, ist der öffentliche Zugang zur KI-Forschung sehr beschränkt. Ein solcher Zugang könnte jedoch helfen zu verstehen, wie und warum diese Modelle so funktionieren, wie sie es tun, und wie man ihre Entwicklung besser mit menschlichen Interessen in Einklang bringen kann.
Zusätzlich zur freien Verfügbarkeit des Codes und der Modellgewichte hat sich das Lllama-Projekt darauf konzentriert, die Leistungsfähigkeit kleinerer Modelle zu verbessern, anstatt die Anzahl der Parameter zu erhöhen. Während die meisten bekannteren Closed-Source-Modelle Hunderte Milliarden Parameter aufweisen, werden Lllama-2-Modelle mit sieben Milliarden (7B), 13 Milliarden (13B) oder 70 Milliarden Parametern (70B) angeboten.
Dadurch können auch kleinere Organisationen wie Start-ups und Forscher lokale Instanzen von Lama-2-Modellen – oder Lllama-basierten Modellen, die von der KI-Community entwickelt wurden – bereitstellen, ohne dass unerschwinglich teure Rechenleistung oder Infrastrukturinvestitionen benötigt werden.
Der Forschungsbericht zu LLaMA 2 beschreibt mehrere Vorteile, die die neuere Generation von KI-Modellen gegenüber den ursprünglichen LLaMA-Modellen bietet.
Obwohl Meta den Startcode und die Modellgewichte für die Llama-2-Modelle für die Forschung und die kommerzielle Nutzung frei zugänglich gemacht hat, haben bestimmte Einschränkungen in der Lizenzvereinbarung eine Debatte darüber ausgelöst, ob das Modell wirklich als „Open Source“ bezeichnet werden kann.
Die Debatte ist eher technischer und semantischer Natur: Obwohl „Open Source“ umgangssprachlich oft für jede Software (oder andere Programmierwerkzeuge) verwendet wird, deren Quellcode kostenlos zugänglich ist, handelt es sich eigentlich eine formale Bezeichnung, die von der Open Source Initiative (OSI) verwaltet wird. Die OSI zertifiziert eine bestimmte Softwarelizenz nur dann als „Open Source Initiative approved“, wenn es der Ansicht ist, dass diese Lizenz die zehn in der offiziellen Open-Source-Definition (OSD) aufgeführten Anforderungen erfüllt (Link befindet sich außerhalb von ibm.com).
In einer Erklärung des Executive Director der OSI Stefano Maffulli heißt es: „OSI ist erfreut darüber, dass Meta die Hürden für den Zugang zu leistungsstarken KI-Systemen senkt. Leider hat der Tech-Gigant missverständlicherweise den Eindruck erweckt, Lllama 2 sei ‚Open Source‘ – das ist es nicht.“ 1
Dieser Widerspruch ergibt sich aus zwei Punkten der Llama-2-Lizenzvereinbarung:
Diese Einschränkungen widersprechen zwei Punkten der OSD:
Um sowohl die Idee der Offenheit von Llama 2 als auch seine Nichtkonformität mit der technischen Definition von Open Source anzuerkennen, haben einige in der Tech-Community den Begriff „Open Approach“ (zu Dt. „offener Ansatz“) eingeführt. 4
Die Llama-2-Basismodelle sind vortrainierte Foundation Models, die für spezifische Anwendungsfälle feinabgestimmt werden sollen. Die Llama-2-Chatmodelle sind hingegen bereits für Dialoge optimiert.
LLaMA 2 ist eine Familie von Transformer-basierten autoregressiven kausalen Sprachmodellen. Autoregressive Sprachmodelle nehmen eine Folge von Wörtern als Eingabe und sagen rekursiv das nächste Wort bzw. die nächsten Wörter als Ausgabe voraus.
Während des selbstüberwachten Vortrainings erhalten LLMs den Anfang von Beispielsätzen, die aus einem riesigen Korpus ungekennzeichneter Daten stammen, und sollen daraus das nächste Wort vorhersagen. Indem das Modell darauf trainiert wird, die Abweichung zwischen der Ground Truth (dem tatsächlichen nächsten Wort) und den eigenen Vorhersagen zu minimieren, lernt es, linguistische und logische Muster in den Trainingsdaten zu replizieren. Obwohl der Forschungsbericht keine Details über spezifische Datenquellen enthält, wird darin beschrieben, dass LLaMA 2 mit 2 Billionen Token aus öffentlich zugänglichen Quellen trainiert wurde – also mit numerisch dargestellten Wörtern, Wortteilen, Phrasen und anderen semantischen Fragmenten, die transformatorbasierte neuronale Netze für die Sprachverarbeitung verwenden.
Grundsätzlich sind die Basismodelle nicht darauf trainiert, eine Prompt tatsächlich zu beantworten: Sie fügen vielmehr den Text in einer grammatikalisch passenden Weise an. Ein Foundation Model in seiner grundlegenden Form könnte auf die Prompt „Bring mir bei, wie man Plätzchen backt“ mit „für eine Weihnachtsfeier“ antworten.Eine weitere Feinabstimmung mit Hilfe von Techniken wie überwachtem Lernen und verstärkendem Lernen ist erforderlich, um ein Foundation Model für bestimmte Anwendungen wie Gespräche, das Befolgen von Anweisungen oder kreatives Schreiben zu trainieren.
Vielmehr sollen die Lllama-2-Modelle als Grundlage für den Entwicklung zweckspezifischer Modelle dienen. Bislang wurden Lllama-2-Modelle (und die ursprünglichen Lllama-Modelle) als Basis für mehrere bekannte Open-Source-LLMs verwendet, darunter:
Lllama-2-Chat-Modelle sind auf dialogorientierte Anwendungsfälle feinabgestimmt, ähnlich wie die spezifischen GPT-Modellversionen, die in ChatGPT verwendet werden.
Überwachte Feinabstimmung (SFT, supervised fine tuning) wurde verwendet, um das vorab trainierte LLaMA-2-Basismodell vorzubereiten, damit es Antworten in dem Format generiert, das Benutzer von einem Chatbot oder einem virtuellen Agenten erwarten. In einer Reihe von überwachten Lernaufgaben werden markierte Paare von Dialogen (Prompt, Antwort) verwendet, um das Modell so zu trainieren, dass es die Divergenz zwischen seiner eigenen Antwort auf eine bestimmte Prompt und der Beispielantwort aus den gekennzeichneten Daten minimiert. So lernt das Modell zum Beispiel, dass die richtige Antwort auf die Prompt „Bring mir bei, wie man Kekse backt“ darin besteht, konkrete Anweisungen zum Backen von Keksen zu geben, anstatt den Satz zu vervollständigen.
Anstatt Millionen beschrifteter Beispiele zu verwenden, wurden die Ergebnisse durch „weniger, aber qualitativ hochwertigere Beispiele“ verbessert, wobei Meta AI 27.540 gekennzeichnete Beispiele sammelte.
Im Anschluss an das SFT nutzte Meta Reinforcement Learning From Human Feedback (RLHF), um das Verhalten der Chat-Modelle noch näher an menschliche Vorlieben und Anweisungen zu bringen. Bei RLHF wird direktes menschliches Feedback verwendet, um ein „Belohnungsmodell“ zu trainieren, damit es Muster für die Art von Reaktionen lernt, die Menschen bevorzugen. Die Vorhersagen des Belohnungsmodells (ob eine bestimmte Reaktion von Menschen bevorzugt wird) werden in ein skalares Belohnungssignal umgewandelt. Das Belohnungsmodell wird dann verwendet, um LLaMA-2-chat durch verstärkendes Lernen weiter zu trainieren.
Es gibt viele verschiedene Methoden und Formate, in denen menschliches Feedback erfasst werden kann. Meta AI verwendete eine einfache Methode des binären Vergleichs: menschliche Kommentatoren wurden gebeten, eine Prompt zu schreiben und dann zwischen zwei Antworten des Modells zu wählen, die von zwei verschiedenen Varianten von Lllama 2 erzeugt wurden – anhand der Kriterien von Meta. Um dem Belohnungsmodell zu helfen, diese Auswahl richtig zu gewichten, wurden die Kommentatoren auch gebeten, zu bewerten, inwieweit sie die von ihnen gewählte Antwort der anderen vorziehen: „deutlich besser“, „etwas besser“ oder „unwesentlich besser/nicht sicher“.
Anhand der menschlichen Präferenzen wurden zwei separate Belohnungsmodelle trainiert: ein auf Hilfsbereitschaft und ein auf Sicherheit optimiertes Modell (d. h. Vermeiden toxischer, hasserfüllter Antworten oder Reaktionen, die für gewalttätige oder kriminelle Aktivitäten genutzt werden könnten). Zusätzlich zur Proximal Policy Optimization (PPO), dem Algorithmus, der normalerweise für Updates der LLM-Modellgewichtungen im RLHF verwendet wird, verwendete Meta auch Ablehnungs-Sampling (Link befindet sich außerhalb ibm.com) für sein Update von LLaMA-2-chat-70B.
Code Lllama, das auf Lllama 2 aufbaut, ist auf die Generierung von Code (und natürlicher Sprache über Code) sowohl aus codebasierten Prompts als auch aus Prompts in natürlicher Sprache abgestimmt. Es wurde kurz nach der Veröffentlichung der Basis- und Chat-Modelle von Llama 2 eingeführt und ist für Forschung und kommerzielle Nutzung kostenlos.
Lllama 2 Unterstützt die meisten gängigen Programmiersprachen, darunter Python, C++, Java, PHP und Javascript (unter anderem), und ist in Modellgrößen von 7B, 13B und 34B Parametern verfügbar. Es bietet eine Kontextlänge von bis zu 100.000 Token. Zwei weitere Varianten, Code Llama – Python und Code Llama – Instruct, sind auf Python (und PyTorch) bzw. auf das Befolgen von Anweisungen abgestimmt.
Im Vergleich zu seinen Closed-Source-Konkurrenten sind die Llama-2-Modelle in Bereichen wie Sicherheit und faktischer Genauigkeit hervorragend. Auch wenn Llama 2 nicht die volle Leistungsfähigkeit wesentlich größerer Modelle erreicht, bieten seine offene Verfügbarkeit und seine größere Effizienz einzigartige Vorteile.
Beim Vergleich von Lllama 2 mit den proprietären Flaggschiffmodellen der Konkurrenz, etwa von OpenAI, Anthropic und Google, muss man unbedingt ihre Größe berücksichtigen. Obwohl die Closed-Source-Modelle nicht immer alle Details ihrer Architektur offenlegen, deuten die verfügbaren Informationen stark darauf hin, dass sie alle die 70 Milliarden Parameter der größten Lllama-2-Modelle bei weitem übertreffen:
Laut dem LLaMA-2-Forschungsbericht bevorzugten menschliche Bewerter die Antworten von LLaMA-2-chat 70B gegenüber denen von GPT-3.5-turbo-0301, dem Standardmodell für ChatGPT: Die Antworten von LLaMA 2 wurden in 36 % der Fälle bevorzugt, mit einem Unentschieden in 31,5 % der Fälle. Im Vergleich zu PaLM Bison, dem zweitgrößten PaLM-Modell, hatte 70B eine Erfolgsrate von über 50 %.
In den Tests von Meta wiesen die Modelle 7B, 13B und 70B von LLaMA 2 alle einen deutlich geringeren Prozentsatz an Sicherheitsverletzungen auf als PaLM Bison – 3 % und 4 % im Vergleich zu 27 % bei PaLM – sowie einen geringeren Prozentsatz an Sicherheitsverletzungen als ChatGPT mit 7 %. Das ist ein großer Vorteil für Anwendungsfälle in Unternehmen, in denen toxische, hasserfüllte oder unruhestiftende Sprache von Chatbots schlimme Folgen haben kann.
Ein inhärenter Vorteil kleinerer, offener Modelle gegenüber massiven Closed-Source-Modellen ist die Freiheit für Unternehmen, lokale Modellinstanzen auszuführen, und die Kosteneffizienz, dies ohne große Investitionen in Infrastruktur oder Cloud-Computing zu tun. Die Ausführung eines lokalen Modells stellt sicher, dass proprietärer Code, Trainingsanpassungen und firmeneigene Daten zur Feinabstimmung der Modellleistung verwendet werden können, ohne dass sie auf einen kommerziellen Server geladen oder möglicherweise für das zukünftige Training von Closed-Source-Modellen verwendet werden. Darüber hinaus ermöglichen kleinere Modellgrößen, wie die 7B- und 13B-Varianten, eine flüssigere Leistung in Umgebungen wie mobilen Apps, in denen die Rechenleistung begrenzt ist.
Llama 2 hat keine eigene dedizierte API, ist aber über mehrere Anbieter zugänglich.
Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.
Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.
Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.
Entdecken Sie IBM Granite, unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.
Erfahren Sie, wie Sie das für Ihren Anwendungsfall am besten geeignete KI Foundation Model auswählen.
Lesen Sie Artikel, Blogs und Tutorials von IBM Developer, um Ihr Wissen über LLMs zu vertiefen.
Erfahren Sie, wie Sie Teams durch den Einsatz neuester KI- Technologien und -Infrastrukturen zur kontinuierlichen Verbesserung der Modell-Leistung und Steigerung des Wettbewerbsvorsprungs motivieren können.
Alle Links befinden sich außerhalb von ibm.com.
1 „Meta's LLaMA 2 license is not Open Source“, Voices of Open Source, 20. Juli 2023
2 „LLaMA 2 Community License Agreement“, Meta, 18. Juli 2023
3 „The Open Source Definition“, Open Source Initiative, zuletzt geändert am 22. Februar 2023
4 „Statement of Support for Meta’s Open Approach to Today’s AI“, Meta, 18. Juli 2023
5 „Alpaca: A Strong, Replicable Instruction-Following Model“, Stanford CRFM, 13. März 2023
6 „Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality“, LMSYS Org, 30. März 2023
7 „Orca-2: Teaching Small Language Models How to Reason“, Microsoft, November 2023
8 „WizardLM: Empowering Large Language Models to Follow Complex Instructions“, arXiv, 10. Juni 2023
9 „The secret history of Elon Musk, Sam Altman, and OpenAI“, Semafor, 24. März 2023
10 „Google’s newest A.I. model uses nearly five times more text data for training than its predecessor“, CNBC, 16. Mai 2023
11 „Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance“, Google, 4. April 2023
12 „The Capacity for Moral Self-Correction in Large Language Models“, arXiv, 18. Februar 2023
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com