Mein IBM

Anmelden

Was ist Lllama 2?

19. Dezember 2023

Autoren

Dave Bergmann

Senior Writer, AI Models

IBM

Was ist Lllama 2?

LLaMA 2 ist eine Familie vorab trainierter und feinabgestimmter großer Sprachmodelle (LLMs), die 2023 von Meta AI veröffentlicht wurde. Die KI-Modelle von LLaMA 2, die kostenlos für Forschung und kommerzielle Nutzung zur Verfügung gestellt werden, können eine Vielzahl von Aufgaben zur Verarbeitung natürlicher Sprache (NLP) bewältigen, von der Texterstellung bis zur Programmierung von Code.

Die Lllama-2-Modellfamilie, die sowohl Basismodelle als auch feinabgestimmte „Chat“-Modelle bietet, ist der Nachfolger der ursprünglichen Lllama-1-Modelle, die im Jahr 2022 unter einer nichtkommerziellen Lizenz veröffentlicht wurden. Der Zugang zu Lllama 1 wurde ausschließlich einzeln für Forschungseinrichtungen ermöglicht. Im Gegensatz zu ihren Vorgängern stehen die Lllama-2-Modelle sowohl für die KI-Forschung als auch für die kommerzielle Nutzung kostenlos zur Verfügung.

Die LLaMA-Modelle von Meta zielen daher auf die Demokratisierung des Ökosystems der generativen KI ab. Wie im LLaMA-2-Forschungsbericht (Link befindet sich außerhalb von ibm.com) beschrieben, ist die Methode für das Vortraining autoregressiver LLMs durch selbstüberwachtes Lernen inzwischen zwar relativ einfach und gut verstanden. Die immensen Rechenleistungsanforderungen, die dieser Prozess mit sich bringt, beschränken die Entwicklung hochmoderner LLMs jedoch weitgehend auf einige wenige wichtige Akteure. Da es sich bei den meisten hochmodernen LLMs wie OpenAIs GPT, Anthropics Claude und Googles BARD um proprietäre (und riesige) Closed-Source-Modelle handelt, ist der öffentliche Zugang zur KI-Forschung sehr beschränkt. Ein solcher Zugang könnte jedoch helfen zu verstehen, wie und warum diese Modelle so funktionieren, wie sie es tun, und wie man ihre Entwicklung besser mit menschlichen Interessen in Einklang bringen kann.

Zusätzlich zur freien Verfügbarkeit des Codes und der Modellgewichte hat sich das Lllama-Projekt darauf konzentriert, die Leistungsfähigkeit kleinerer Modelle zu verbessern, anstatt die Anzahl der Parameter zu erhöhen. Während die meisten bekannteren Closed-Source-Modelle Hunderte Milliarden Parameter aufweisen, werden Lllama-2-Modelle mit sieben Milliarden (7B), 13 Milliarden (13B) oder 70 Milliarden Parametern (70B) angeboten.

Dadurch können auch kleinere Organisationen wie Start-ups und Forscher lokale Instanzen von Lama-2-Modellen – oder Lllama-basierten Modellen, die von der KI-Community entwickelt wurden – bereitstellen, ohne dass unerschwinglich teure Rechenleistung oder Infrastrukturinvestitionen benötigt werden.

Lllama 2 oder Lllama 1

Der Forschungsbericht zu LLaMA 2 beschreibt mehrere Vorteile, die die neuere Generation von KI-Modellen gegenüber den ursprünglichen LLaMA-Modellen bietet.

Größere Kontextlänge: Lllama-2-Modelle bieten eine Kontextlänge von 4.096 Token – doppelt so lang wie die von Lllama 1. Die Kontextlänge (oder das Kontextfenster) bezieht sich auf die maximale Anzahl von Token, die sich das Modell während der Inferenz (d. h. der Generierung von Text oder eines laufenden Gesprächs) „merken“ kann. Dies ermöglicht eine größere Komplexität und einen kohärenteren, flüssigeren Austausch in natürlicher Sprache.
Bessere Zugänglichkeit: Während Llama 1 ausschließlich für Forschungszwecke veröffentlicht wurde, steht Llama 2 jeder Organisation (mit weniger als 700 Millionen aktiven Benutzern) zur Verfügung.
Robusteres Training: LLaMA 2 wurde mit 40 % mehr Daten trainiert, wodurch seine Wissensbasis und sein kontextbezogenes Verständnis verbessert wurden. Darüber hinaus wurden die Chat-Modelle von LLaMA 2 im Gegensatz zu LLaMA 1 mithilfe von Reinforcement Learning from Human Feedback (RLHF) feinabgestimmt, um die Antworten des Modells näher an die menschlichen Erwartungen zu bringen.

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think.

Abonnieren Sie noch heute

Ist Llama 2 Open Source?

Obwohl Meta den Startcode und die Modellgewichte für die Llama-2-Modelle für die Forschung und die kommerzielle Nutzung frei zugänglich gemacht hat, haben bestimmte Einschränkungen in der Lizenzvereinbarung eine Debatte darüber ausgelöst, ob das Modell wirklich als „Open Source“ bezeichnet werden kann.

Die Debatte ist eher technischer und semantischer Natur: Obwohl „Open Source“ umgangssprachlich oft für jede Software (oder andere Programmierwerkzeuge) verwendet wird, deren Quellcode kostenlos zugänglich ist, handelt es sich eigentlich eine formale Bezeichnung, die von der Open Source Initiative (OSI) verwaltet wird. Die OSI zertifiziert eine bestimmte Softwarelizenz nur dann als „Open Source Initiative approved“, wenn es der Ansicht ist, dass diese Lizenz die zehn in der offiziellen Open-Source-Definition (OSD) aufgeführten Anforderungen erfüllt (Link befindet sich außerhalb von ibm.com).

In einer Erklärung des Executive Director der OSI Stefano Maffulli heißt es: „OSI ist erfreut darüber, dass Meta die Hürden für den Zugang zu leistungsstarken KI-Systemen senkt. Leider hat der Tech-Gigant missverständlicherweise den Eindruck erweckt, Lllama 2 sei ‚Open Source‘ – das ist es nicht.“ ¹

Dieser Widerspruch ergibt sich aus zwei Punkten der Llama-2-Lizenzvereinbarung:

Jede Organisation mit mehr als 700 Millionen aktiven Benutzern pro Monat muss bei Meta eine Lizenz beantragen (die nach eigenem Ermessen von Meta gewährt wird).²
Die „Richtlinien für die akzeptable Nutzung“ untersagen die Nutzung der Modelle für Gewalt, kriminelle Aktivitäten und die Nachahmung von Menschen. Darüber hinaus gelten andere rechtliche und moralische Einschränkungen.

Diese Einschränkungen widersprechen zwei Punkten der OSD:

Punkt 5: „Die Lizenz darf keine Person oder Personengruppe diskriminieren.“ ³
Punkt 6: „Die Lizenz darf niemanden daran hindern, das Programm in einem bestimmten Bereich zu verwenden.^{“ 3}

Um sowohl die Idee der Offenheit von Llama 2 als auch seine Nichtkonformität mit der technischen Definition von Open Source anzuerkennen, haben einige in der Tech-Community den Begriff „Open Approach“ (zu Dt. „offener Ansatz“) eingeführt. ⁴

AI Academy

Warum Foundation Models einen Paradigmenwechsel für die KI bedeuten

Erfahren Sie mehr über eine neue Klasse flexibler, wiederverwendbarer KI-Modelle, die neue Einnahmen erschließen, Kosten senken und die Produktivität steigern können. Dann nutzen Sie unseren Leitfaden, um mehr zu erfahren.

Zur Episode wechseln

Wie funktioniert Llama 2?

Die Llama-2-Basismodelle sind vortrainierte Foundation Models, die für spezifische Anwendungsfälle feinabgestimmt werden sollen. Die Llama-2-Chatmodelle sind hingegen bereits für Dialoge optimiert.

Llama-2-Basismodelle

LLaMA 2 ist eine Familie von Transformer-basierten autoregressiven kausalen Sprachmodellen. Autoregressive Sprachmodelle nehmen eine Folge von Wörtern als Eingabe und sagen rekursiv das nächste Wort bzw. die nächsten Wörter als Ausgabe voraus.

Während des selbstüberwachten Vortrainings erhalten LLMs den Anfang von Beispielsätzen, die aus einem riesigen Korpus ungekennzeichneter Daten stammen, und sollen daraus das nächste Wort vorhersagen. Indem das Modell darauf trainiert wird, die Abweichung zwischen der Ground Truth (dem tatsächlichen nächsten Wort) und den eigenen Vorhersagen zu minimieren, lernt es, linguistische und logische Muster in den Trainingsdaten zu replizieren. Obwohl der Forschungsbericht keine Details über spezifische Datenquellen enthält, wird darin beschrieben, dass LLaMA 2 mit 2 Billionen Token aus öffentlich zugänglichen Quellen trainiert wurde – also mit numerisch dargestellten Wörtern, Wortteilen, Phrasen und anderen semantischen Fragmenten, die transformatorbasierte neuronale Netze für die Sprachverarbeitung verwenden.

Grundsätzlich sind die Basismodelle nicht darauf trainiert, eine Prompt tatsächlich zu beantworten: Sie fügen vielmehr den Text in einer grammatikalisch passenden Weise an. Ein Foundation Model in seiner grundlegenden Form könnte auf die Prompt „Bring mir bei, wie man Plätzchen backt“ mit „für eine Weihnachtsfeier“ antworten.Eine weitere Feinabstimmung mit Hilfe von Techniken wie überwachtem Lernen und verstärkendem Lernen ist erforderlich, um ein Foundation Model für bestimmte Anwendungen wie Gespräche, das Befolgen von Anweisungen oder kreatives Schreiben zu trainieren.

Vielmehr sollen die Lllama-2-Modelle als Grundlage für den Entwicklung zweckspezifischer Modelle dienen. Bislang wurden Lllama-2-Modelle (und die ursprünglichen Lllama-Modelle) als Basis für mehrere bekannte Open-Source-LLMs verwendet, darunter:

Alpaka: Eine Version von Lllama 7B, die durch Forscher der Stanford University für die Befolgung von Anweisungen optimiert wurde. Bemerkenswert ist, dass es Ergebnisse erzielte, die mit GPT-3.5 konkurrieren konnten, obwohl es nur 600 US-Dollar an Rechenressourcen kostete.⁵
Vicuna: Ein Chat-Assistent-Modell von LMSYS Org, trainiert durch Feinabstimmung von LLaMA 2 13B auf Benutzergespräche von ShareGPT (Link befindet sich außerhalb von ibm.com). Es übertraf Alpaca in über 90 % der Fälle, obwohl das Training nur 300 USD gekostet hat.⁶
Orca: Eine feinabgestimmte Version von Lllama 2, die von Microsoft nach einem „Lehrer-Schüler“-Schema trainiert wurde, bei dem ein größeres, leistungsfähigeres LLM verwendet wird, um Beispiele für nützliches Denkverhalten zu erzeugen, denen das kleinere Modell folgen kann^.7
WizardLM: Dieses Modell wurde feinabgestimmt mit Evol-Instruct, einer Methode zur Erstellung großer Mengen synthetischer Anweisungsdaten unter Verwendung von LLMs. Es erreichte in 17 von 29 bewerteten Skills mehr als 90 % der Leistung von ChatGPT^.8

Llama-2-Chatmodelle

Lllama-2-Chat-Modelle sind auf dialogorientierte Anwendungsfälle feinabgestimmt, ähnlich wie die spezifischen GPT-Modellversionen, die in ChatGPT verwendet werden.

Überwachte Feinabstimmung (SFT, supervised fine tuning) wurde verwendet, um das vorab trainierte LLaMA-2-Basismodell vorzubereiten, damit es Antworten in dem Format generiert, das Benutzer von einem Chatbot oder einem virtuellen Agenten erwarten. In einer Reihe von überwachten Lernaufgaben werden markierte Paare von Dialogen (Prompt, Antwort) verwendet, um das Modell so zu trainieren, dass es die Divergenz zwischen seiner eigenen Antwort auf eine bestimmte Prompt und der Beispielantwort aus den gekennzeichneten Daten minimiert. So lernt das Modell zum Beispiel, dass die richtige Antwort auf die Prompt „Bring mir bei, wie man Kekse backt“ darin besteht, konkrete Anweisungen zum Backen von Keksen zu geben, anstatt den Satz zu vervollständigen.

Anstatt Millionen beschrifteter Beispiele zu verwenden, wurden die Ergebnisse durch „weniger, aber qualitativ hochwertigere Beispiele“ verbessert, wobei Meta AI 27.540 gekennzeichnete Beispiele sammelte.

Im Anschluss an das SFT nutzte Meta Reinforcement Learning From Human Feedback (RLHF), um das Verhalten der Chat-Modelle noch näher an menschliche Vorlieben und Anweisungen zu bringen. Bei RLHF wird direktes menschliches Feedback verwendet, um ein „Belohnungsmodell“ zu trainieren, damit es Muster für die Art von Reaktionen lernt, die Menschen bevorzugen. Die Vorhersagen des Belohnungsmodells (ob eine bestimmte Reaktion von Menschen bevorzugt wird) werden in ein skalares Belohnungssignal umgewandelt. Das Belohnungsmodell wird dann verwendet, um LLaMA-2-chat durch verstärkendes Lernen weiter zu trainieren.

Es gibt viele verschiedene Methoden und Formate, in denen menschliches Feedback erfasst werden kann. Meta AI verwendete eine einfache Methode des binären Vergleichs: menschliche Kommentatoren wurden gebeten, eine Prompt zu schreiben und dann zwischen zwei Antworten des Modells zu wählen, die von zwei verschiedenen Varianten von Lllama 2 erzeugt wurden – anhand der Kriterien von Meta. Um dem Belohnungsmodell zu helfen, diese Auswahl richtig zu gewichten, wurden die Kommentatoren auch gebeten, zu bewerten, inwieweit sie die von ihnen gewählte Antwort der anderen vorziehen: „deutlich besser“, „etwas besser“ oder „unwesentlich besser/nicht sicher“.

Anhand der menschlichen Präferenzen wurden zwei separate Belohnungsmodelle trainiert: ein auf Hilfsbereitschaft und ein auf Sicherheit optimiertes Modell (d. h. Vermeiden toxischer, hasserfüllter Antworten oder Reaktionen, die für gewalttätige oder kriminelle Aktivitäten genutzt werden könnten). Zusätzlich zur Proximal Policy Optimization (PPO), dem Algorithmus, der normalerweise für Updates der LLM-Modellgewichtungen im RLHF verwendet wird, verwendete Meta auch Ablehnungs-Sampling (Link befindet sich außerhalb ibm.com) für sein Update von LLaMA-2-chat-70B.

Code Llama

Code Lllama, das auf Lllama 2 aufbaut, ist auf die Generierung von Code (und natürlicher Sprache über Code) sowohl aus codebasierten Prompts als auch aus Prompts in natürlicher Sprache abgestimmt. Es wurde kurz nach der Veröffentlichung der Basis- und Chat-Modelle von Llama 2 eingeführt und ist für Forschung und kommerzielle Nutzung kostenlos.

Lllama 2 Unterstützt die meisten gängigen Programmiersprachen, darunter Python, C++, Java, PHP und Javascript (unter anderem), und ist in Modellgrößen von 7B, 13B und 34B Parametern verfügbar. Es bietet eine Kontextlänge von bis zu 100.000 Token. Zwei weitere Varianten, Code Llama – Python und Code Llama – Instruct, sind auf Python (und PyTorch) bzw. auf das Befolgen von Anweisungen abgestimmt.

Llama 2 im Vergleich zu Closed-Source-Modellen

Im Vergleich zu seinen Closed-Source-Konkurrenten sind die Llama-2-Modelle in Bereichen wie Sicherheit und faktischer Genauigkeit hervorragend. Auch wenn Llama 2 nicht die volle Leistungsfähigkeit wesentlich größerer Modelle erreicht, bieten seine offene Verfügbarkeit und seine größere Effizienz einzigartige Vorteile.

Beim Vergleich von Lllama 2 mit den proprietären Flaggschiffmodellen der Konkurrenz, etwa von OpenAI, Anthropic und Google, muss man unbedingt ihre Größe berücksichtigen. Obwohl die Closed-Source-Modelle nicht immer alle Details ihrer Architektur offenlegen, deuten die verfügbaren Informationen stark darauf hin, dass sie alle die 70 Milliarden Parameter der größten Lllama-2-Modelle bei weitem übertreffen:

GPT-3 hat 175 Milliarden Parameter.
GPT-4 hat schätzungsweise 1 Billion Parameter.9
Googles PaLM 2 soll über 340 Milliarden Parameter verfügen.10 Sein Vorgänger PaLM verfügt über 540 Milliarden Parameter.11
Anthropic hat noch keine Parameterzahlen für Claude-Modelle veröffentlicht, aber eine kürzlich erschienene Studie deutet auf die Existenz einer Version von Claude 2 mit 175 Milliarden Parametern hin.12

Menschliche Bewertung

Laut dem LLaMA-2-Forschungsbericht bevorzugten menschliche Bewerter die Antworten von LLaMA-2-chat 70B gegenüber denen von GPT-3.5-turbo-0301, dem Standardmodell für ChatGPT: Die Antworten von LLaMA 2 wurden in 36 % der Fälle bevorzugt, mit einem Unentschieden in 31,5 % der Fälle. Im Vergleich zu PaLM Bison, dem zweitgrößten PaLM-Modell, hatte 70B eine Erfolgsrate von über 50 %.

Sicherheit

In den Tests von Meta wiesen die Modelle 7B, 13B und 70B von LLaMA 2 alle einen deutlich geringeren Prozentsatz an Sicherheitsverletzungen auf als PaLM Bison – 3 % und 4 % im Vergleich zu 27 % bei PaLM – sowie einen geringeren Prozentsatz an Sicherheitsverletzungen als ChatGPT mit 7 %. Das ist ein großer Vorteil für Anwendungsfälle in Unternehmen, in denen toxische, hasserfüllte oder unruhestiftende Sprache von Chatbots schlimme Folgen haben kann.

Privatsphäre und Effizienz

Ein inhärenter Vorteil kleinerer, offener Modelle gegenüber massiven Closed-Source-Modellen ist die Freiheit für Unternehmen, lokale Modellinstanzen auszuführen, und die Kosteneffizienz, dies ohne große Investitionen in Infrastruktur oder Cloud-Computing zu tun. Die Ausführung eines lokalen Modells stellt sicher, dass proprietärer Code, Trainingsanpassungen und firmeneigene Daten zur Feinabstimmung der Modellleistung verwendet werden können, ohne dass sie auf einen kommerziellen Server geladen oder möglicherweise für das zukünftige Training von Closed-Source-Modellen verwendet werden. Darüber hinaus ermöglichen kleinere Modellgrößen, wie die 7B- und 13B-Varianten, eine flüssigere Leistung in Umgebungen wie mobilen Apps, in denen die Rechenleistung begrenzt ist.

Verwendung von Llama 2

Llama 2 hat keine eigene dedizierte API, ist aber über mehrere Anbieter zugänglich.

LLaMA-2-13B-Chat und LLaMA-2-70B-Chat gehören zu den vielen Foundation Models, die in watsonx durch die Partnerschaft von IBM mit Hugging Face verfügbar sind.
Modellgewichte und Startcode für LLaMA 2 können direkt von Github heruntergeladen werden, wo Meta auch Anweisungen, Demos und „Rezepte“ für LLaMA 2 bereitstellt (Link befindet sich außerhalb von ibm.com). Die Modelle können in Open-Source-Frameworks für maschinelles Lernen wie PyTorch oder LangChain implementiert werden.
Lllama 2 ist sowohl bei Open-Source-Anbietern wie Hugging Face als auch bei Unternehmensanbietern wie Microsoft Azure, Amazon Sagemaker und Bedrock sowie bei einer Reihe von cloudbasierten Start-ups erhältlich.

So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie bei der Vorbereitung von Datensätzen und dem Einsatz von Foundation Models den richtigen Ansatz wählen.

Weiterführende Lösungen

Basismodelle

Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.

Entdecken sie watsonx.ai

Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen

KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken

Ressourcen

IBM Granite erkunden

Entdecken Sie IBM Granite, unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.

So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie das für Ihren Anwendungsfall am besten geeignete KI Foundation Model auswählen.

Entdecken Sie die Power von LLMs

Lesen Sie Artikel, Blogs und Tutorials von IBM Developer, um Ihr Wissen über LLMs zu vertiefen.

Der Leitfaden des CEOs zur Modelloptimierung

Erfahren Sie, wie Sie Teams durch den Einsatz neuester KI- Technologien und -Infrastrukturen zur kontinuierlichen Verbesserung der Modell-Leistung und Steigerung des Wettbewerbsvorsprungs motivieren können.

Ein differenzierter Ansatz für KI Foundation Models

Erkunden Sie den Wert von Foundation Models der Unternehmensklasse, die Vertrauen, Leistung und kosteneffiziente Vorteile in allen Branchen bieten.

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI, maschinelles Lernen und Foundation Models zur Verbesserung der Leistung in Ihre Geschäftsabläufe integrieren können.

KI in Aktion 2024

Lesen Sie die Umfrage unter 2.000 Unternehmen zu ihren KI-Initiativen und erfahren Sie, was funktioniert, was nicht funktioniert und wie Sie vorankommen können.

Machen Sie den nächsten Schritt

Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.

watsonx.ai erkunden

Erkunden Sie KI-Lösungen

Fußnoten

^{Alle Links befinden sich außerhalb von ibm.com.

1} „Meta's LLaMA 2 license is not Open Source“, Voices of Open Source, 20. Juli 2023
² „LLaMA 2 Community License Agreement“, Meta, 18. Juli 2023
³ „The Open Source Definition“, Open Source Initiative, zuletzt geändert am 22. Februar 2023
⁴ „Statement of Support for Meta’s Open Approach to Today’s AI“, Meta, 18. Juli 2023
⁵ „Alpaca: A Strong, Replicable Instruction-Following Model“, Stanford CRFM, 13. März 2023
⁶ „Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality“, LMSYS Org, 30. März 2023
⁷ „Orca-2: Teaching Small Language Models How to Reason“, Microsoft, November 2023
⁸ „WizardLM: Empowering Large Language Models to Follow Complex Instructions“, arXiv, 10. Juni 2023
⁹ „The secret history of Elon Musk, Sam Altman, and OpenAI“, Semafor, 24. März 2023¹⁰ „Google’s newest A.I. model uses nearly five times more text data for training than its predecessor“, CNBC, 16. Mai 2023
¹¹ „Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance“, Google, 4. April 2023
¹² „The Capacity for Moral Self-Correction in Large Language Models“, arXiv, 18. Februar 2023