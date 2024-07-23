Am Dienstag, dem 23. Juli, kündigte Meta die Veröffentlichung der Llama 3.1-Kollektion mehrsprachiger großer Sprachmodelle (LLMs) an. Llama 3.1 umfasst sowohl vortrainierte als auch auf Anweisungen abgestimmte Open-Source-Generative-KI-Modelle für Texteingabe und -ausgabe in Größen von 8 Milliarden, 70 Milliarden und – zum ersten Mal – 405 Milliarden Parametern.
Das instruktionsoptimierte Llama 3.1-405B, das voraussichtlich das größte und leistungsstärkste Open-Source-Sprachmodell heute wird und mit den besten proprietären Modellen auf dem Markt konkurriert, wird auf IBM watsonx®.ai verfügbar sein und kann in der IBM Cloud, in einer Hybrid-Cloud-Umgebung oder lokal eingesetzt werden.
Die Veröffentlichung von Llama 3.1 folgt auf die Einführung der Llama-3-Modelle am 18. April. In der dazugehörigen Ankündigung erklärte Meta, dass „[ihr] Ziel in naher Zukunft darin besteht, Llama 3 mehrsprachig und multimodal zu gestalten, einen längeren Kontext zu bieten und die Gesamtleistung in Bezug auf die LLM-Funktionen wie Schlussfolgerung und Codierung weiter zu verbessern.“
Die heutige Veröffentlichung von Llama 3.1 zeigt deutliche Fortschritte auf dem Weg zu diesem Ziel, von einer drastisch erhöhten Kontextlänge über eine erweiterte Werkzeugnutzung bis hin zu mehrsprachigen Funktionen.
Im Dezember 2023 starteten Meta und IBM die AI Alliance in Zusammenarbeit mit über 50 globalen Gründungsmitgliedern und Kooperationspartnern. Die AI Alliance vereint führende Unternehmen aus Branchen, Startups, Akademie, Forschung und Regierung und hat sich zum Ziel gesetzt, die Entwicklung der KI so zu gestalten, dass sie den Bedürfnissen und der Komplexität unserer Gesellschaften bestmöglich gerecht wird. Seit ihrer Gründung ist die Alliance auf über 100 Mitglieder angewachsen.
Genauer gesagt hat sich die AI Alliance der Förderung einer offenen Gemeinschaft verschrieben, die es Entwicklern und Forschern ermöglicht, verantwortungsvolle Innovation zu beschleunigen und gleichzeitig Vertrauen, Sicherheit, Vielfalt, wissenschaftliche Genauigkeit und wirtschaftliche Wettbewerbsfähigkeit zu gewährleisten. Zu diesem Zweck unterstützt die Alliance Projekte, die Benchmarks und Bewertungsstandards entwickeln und bereitstellen, gesellschaftliche Herausforderungen adressieren, den globalen KI-Kompetenzaufbau unterstützen und eine offene Entwicklung von KI auf sichere und vorteilhafte Weise fördern.
Llama 3.1 unterstützt diese Mission weiter, indem es der globalen KI-Community eine offene, hochmoderne Modellfamilie und ein Entwicklungsökosystem zur Verfügung stellt, um neue Ideen und Ansätze zu entwickeln, zu erproben und verantwortungsvoll zu skalieren. Neben den leistungsstarken neuen Modellen umfasst die Veröffentlichung robuste Sicherheitsmaßnahmen auf Systemebene, neue Bewertungsmaßnahmen für die Cybersicherheit und aktualisierte Schutzmechanismen für die Inferenzzeit. Zusammengenommen fördern diese Ressourcen die Standardisierung der Entwicklung und Nutzung von Vertrauens- und Sicherheitstools für generative KI.
Kommende Llama-Modelle mit „über 400 B-Parametern“ wurden in der Ankündigung von Llama 3 im April besprochen, einschließlich einiger vorläufiger Bewertungen der Leistung, aber ihre genaue Größe und Einzelheiten wurden erst bei der heutigen Markteinführung veröffentlicht. Während Llama 3.1 bedeutende Verbesserungen in allen Modellgrößen darstellt, erreicht das neue Open-Source-Modell 405B eine beispiellose Gleichstellung mit führenden proprietären Closed-Source-LLMs.
Die heute von Meta veröffentlichten aktualisierten Zahlen zeichnen ein umfassendes Bild davon, wie beeindruckend das Modell 405B gegenüber anderen hochmodernen Angeboten im Stack steht. So schneidet es im Vergleich zu führenden LLMs bei gängigen Benchmarks ab. [1]
Beim Vergleich des 405B mit anderen hochmodernen Modellen mit Edge-Technologie sind die Leistung und Benchmarks nicht der einzige zu berücksichtigende Faktor. Im Gegensatz zu seinen Closed-Source-Peers, die nur über eine API zugänglich sind, bei der das zugrundeliegende Modell ohne Vorwarnung geändert werden kann, ist Llama 3.1-405B eine stabile Plattform, auf der aufgebaut, modifiziert und sogar lokal ausgeführt werden kann. Dieses Maß an Kontrolle und Vorhersehbarkeit ist ein Segen für Forscher, Unternehmen und andere Einrichtungen, die Wert auf Konsistenz und Reproduzierbarkeit legen.
IBM ist wie Meta der Ansicht, dass die Verfügbarkeit praktikabler offener Modelle bessere und sicherere Produkte ermöglicht, Innovationen beschleunigt und zu einem insgesamt gesünderen KI-Markt beiträgt. Der Umfang und die Leistungsfähigkeit eines hochentwickelten Open-Source-Modells mit 405 Milliarden Parametern bieten einzigartige Möglichkeiten und Anwendungsfälle für Organisationen jeder Größe.
Abgesehen von der direkten Nutzung des Modells für Inferenz und Textgenerierung – was angesichts seiner Größe und der entsprechenden Rechenanforderungen Quantisierung oder andere Optimierungsmethoden erfordern könnte, um lokal auf den meisten Hardware-Setups auszulaufen – kann der 405B für Folgendes genutzt werden:
Für einen erfolgreichen Start mit den Llama 3.1-Modellen empfiehlt Meta AI dringend die Verwendung einer Plattform, die wie IBM watsonx Kernfunktionen für die Modellevaluierung, Sicherheitsvorkehrungen und Retrieval Augmented Generation (RAG) bietet.
Das lang erwartete 405B-Modell ist vielleicht der bemerkenswerteste Aspekt der Llama 3.1-Version, aber es ist bei weitem nicht der einzige bemerkenswerte Aspekt. Obwohl die Llama 3.1-Modelle die gleiche Transformer-Architektur wie die Llama 3 teilen, stellen sie in allen Modellgrößen mehrere bedeutende Verbesserungen gegenüber ihren Llama 3-Pendants dar.
Bei allen vortrainierten und auf Anweisungen abgestimmten Llama 3.1-Modellen wurde die Kontextlänge von 8.192 Token in Llama 3 auf 128.000 Token in Llama 3.1 deutlich erweitert – eine Steigerung um sage und schreibe 1.600 %. Damit entspricht die Kontextlänge von Llama 3.1 der Version von GPT-4o, die für Unternehmensnutzer angeboten wird, deutlich größer als die von GPT-4 (oder der Version von GPT-4o in ChatGPT Free) und vergleichbar mit dem 200.000-Token-Fenster von Claude 3. Da Llama 3.1 auf der bevorzugten Hardware oder Cloud-Provider des Nutzers bereitgestellt werden kann, unterliegt seine Kontextlänge während hoher Nachfrage nicht einer vorübergehenden Kürzung. Ebenso unterliegt Llama 3.1 im Allgemeinen keinen weitreichenden Nutzungsbeschränkungen.
Die Kontextlänge eines Modells, alternativ auch Kontextfenster genannt, bezeichnet die Gesamtmenge an Text (in Tokens), die ein LLM zu einem bestimmten Zeitpunkt berücksichtigen oder „merken“ kann. Wenn eine Konversation, ein Dokument oder eine Codebasis die maximale Kontextlänge eines Modells überschreitet, muss sie gekürzt oder zusammengefasst werden, damit das Modell fortfahren kann. Das erweiterte Kontextfenster von Llama 3.1 bedeutet, dass Llama-Modelle jetzt wesentlich längere Konversationen führen können, ohne Details zu vergessen, und während des Trainings und der Inferenz viel größere Dokumente oder Codebeispiele aufnehmen können.
Obwohl die Umwandlung von Text in Token keinen festen Wort-zu-Token-„Wechselkurs“ mit sich bringt, kann man von etwa 1,5 Token pro Wort ausgehen. Das Kontextfenster von Llama 3.1 mit 128.000 Token entspricht somit etwa 85.000 Wörtern. Der Tokenizer Playground auf Hugging Face ist eine einfache Möglichkeit, zu sehen und damit zu experimentieren, wie verschiedene Modelle Texteingaben in Token umwandeln.
Llama 3.1-Modelle profitieren weiterhin von den Vorteilen des neuen Tokenizers, der für Llama 3 eingeführt wurde und die Sprache viel effizienter kodiert als Llama 2.
Im Einklang mit seinem verantwortungsvollen Umgang mit Innovationen ist Meta vorsichtig und gründlich an die erweiterte Kontextlänge herangegangen. Es ist erwähnenswert, dass frühere experimentelle Open-Source-Bemühungen Llama-Derivate mit 128.000 Token-Fenstern oder sogar 1 Million Token-Fenstern hervorgebracht haben. Obwohl diese Projekte ein hervorragendes Beispiel für die Nutzen von Metas Engagement für offene Modelle sind, sollte man sie mit Vorsicht betrachten: Studien deuten darauf hin, dass sehr lange Kontextfenster „eine reichhaltige neue Angriffsfläche für LLMs darstellen“, wenn keine strengen Gegenmaßnahmen getroffen werden.
Glücklicherweise enthält die Llama-Version 3.1 auch eine neue Reihe von Inferenzschutzmechanismen. Neben aktualisierten Versionen von Llama Guard und CyberSec Eval wird die Veröffentlichung durch die Einführung von Prompt Guard unterstützt, das direkte und indirekte Prompt-Injection-Filterung ermöglicht. Meta bietet weitere Risikominderung mit CodeShield, einem robusten Inferenzzeitfilter-Tool, das entwickelt wurde, um die Einführung unsicherer, von LLMs generierter unsicherer Codes in Produktionssysteme zu verhindern.
Wie bei jeder Implementierung generativer KI ist es immer ratsam, Modelle nur auf einer Plattform mit robusten Sicherheits-, Datenschutz- und Sicherheitsmaßnahmen bereitstellen.
Sowohl die vortrainierten als auch die auf Anweisungen abgestimmten Llama 3.1-Modelle werden nun in allen Größen mehrsprachig sein. Neben Englisch beherrschen die Llama 3.1-Modelle weitere Sprachen wie Spanisch, Portugiesisch, Italienisch, Deutsch und Thailändisch. Meta hat darauf hingewiesen, dass sich „einige andere Sprachen“ noch in der Validierungsphase nach dem Training befinden und möglicherweise in Zukunft veröffentlicht werden.
Die Llama 3.1 Instruct-Modelle sind für die „Toolnutzung“ feinabgestimmt, was bedeutet, dass Meta ihre Fähigkeit zur Schnittstelle mit bestimmten Programmen optimiert hat, die die Funktionen des LLM ergänzen oder erweitern. Dies umfasst Schulungen zur Generierung von Toolaufrufen für spezifische Such-, Bildgenerierungs-, Codeausführungs- und mathematische Schlussfolgerungswerkzeuge sowie die Unterstützung für die Zero-Shot-Toolnutzung – also die Fähigkeit zur reibungslosen Integration mit Werkzeugen, die zuvor im Training noch nicht verwendet wurden.
Die neueste Version von Meta ist eine beispiellose Gelegenheit, wirklich hochmoderne generative KI-Modelle auf Ihren speziellen Anwendungsfall abzustimmen und zuzuschneiden.
Die Unterstützung von Llama 3.1 ist Teil von IBMs Engagement, Open-Source-Innovationen im Bereich KI zu fördern und unseren Kunden Zugang zu erstklassigen offenen Modellen in Watsonx zu bieten, einschließlich Modellen von Drittanbietern und der IBM Granite-Modellfamilie.
IBM watsonx® hilft Kunden, die Implementierung von Open Source-Modellen wie Llama 3.1 wirklich individuell anzupassen – von der Flexibilität, Modelle lokal oder in ihrer bevorzugten Cloud bereitzustellen, bis hin zu intuitiven Workflows für Feinabstimmung, Prompt Engineering und Integration mit Unternehmensanwendungen. Erstellen Sie individuelle KI-Anwendungen für Ihr Unternehmen, verwalten Sie alle Datenquellen und beschleunigen Sie verantwortungsvolle KI-Workflows – alles auf einer Plattform.
Llama 3.1-405B ist ab heute in IBM watsonx.ai verfügbar, die Modelle 8B und 70B folgen in Kürze.
Beginnen Sie noch heute mit RAG-Tutorials mit Llama 3.1-405B und watsonx.ai:
[1] Die zitierten Benchmark-Evaluierungen für proprietäre Modelle stammen aus eigenen Angaben von Anthropic vom 20. Juni 2024 (für Claude 3.5 Sonnet und Claude 3 Opus) und vom 4. März 2024 (für Claude 3 Sonnet und Haiku), OpenAI vom 13. Mai 2024 (für GPT-Modelle) und Google Deepmind im Mai 2024 (für Gemini-Modelle).