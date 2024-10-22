Die Veröffentlichung von ChatGPT vor zwei Jahren eröffnete ein neues Kapitel in der KI, angetrieben von Large Language Models von beispielloser Größe und Komplexität. Diese Modelle sind heute führend in Forschung und Wirtschaft, aber viele von ihnen veröffentlichen weder ihre Daten noch das vollständige Handelsrezept oder ihre Kontrollpunkte. Hier kommt die gemeinnützige Unternehmen Allen Institute for Artificial Intelligence (Ai2) ins Spiel. Ai2 wurde 2014 von Microsoft-Mitbegründer Paul Allen ins Leben gerufen. Die Forschungsgruppe arbeitet an Sprachmodellen, multimodalen Modellen und Evaluationsframeworks in Open Source.
Kürzlich hat Ai2 Molmo veröffentlicht – eine Familie hochmoderner multimodaler KI-Modelle, die darauf abzielen, die Lücke zwischen offenen und proprietären Systemen deutlich zu schließen. „Selbst unsere kleineren Modelle übertreffen die Konkurrenz um das Zehnfache ihrer Größe“, sagt Ai2.
Anfang September veröffentlichte Ai2 OlmoE , ein Modell von Experten mit 1 Milliarde aktiven und 7 Milliarden Gesamtparametern, das gemeinsam mit Contextual KI entwickelt wurde. Es wurde auf 5 Billionen Token trainiert und auf einem neuen Datenmix aufgebaut, der Lektionen aus Ai2s Dolma integrierte.
Wir haben nach ihrer Keynote auf der PyTorch-Konferenz in San Francisco mit Hanna Hajishirzi, Senior Director of NLP Research bei Ai2, über Open-Source-Modelle und KI-Kompetenz gesprochen.
Wir haben im September eine kleine Veröffentlichung für OLMoE gemacht. Obwohl es ein kleines Modell ist, funktioniert es bei vielen Aufgaben sehr gut. Seitdem haben wir großen Zuspruch von der Community erhalten. Wir haben außerdem eine App entwickelt, die das Sprachmodell direkt auf Smartphones ausführt, ohne eine Verbindung zu einer GPU herzustellen. Es ist noch in der Entwicklung – wir arbeiten an Sicherheitsfunktionen und verbessern die Benutzeroberfläche –, aber es ist sehr spannend. Wir arbeiten auch an der Ausbildung größerer Modelle.
Es ist keine Überraschung, dass die Kombination von Expertenmodellen so gut funktioniert, wie wir sie in Frontier Models gesehen haben. Der Nutzen einer Mischung von Experten besteht darin, dass man bei gleichem Trainingsaufwand eine höhere Genauigkeit im Vergleich zu dichten Modellen erreicht. Was für uns interessant war, war, das bis zum Extrem zu treiben und das kleinste Modell zu trainieren, das wir konnten, zum Beispiel ein Modell mit 1 Milliarde Parametern, um zu sehen, was passiert. Wir waren von den Ergebnissen begeistert.
Wie sind wir also dorthin gekommen? Zunächst verbessern wir unsere Trainingspipeline. Wir begannen mit einer dichten Modellarchitektur und führten mehrere Experimente durch, bei denen wir diese erfolgreich auf eine Mischung von Expertenmodellen erweiterten. Zweitens haben wir unseren Datenmix verbessert, was zu einem besseren Modell geführt hat. Zusammen haben uns diese beiden Dinge die besten Ergebnisse beschert.
In der KI-Community herrscht ein hohes Maß an Offenheit. Beispielsweise haben Modelle wie ChatGPT von OpenAI ihre APIs geöffnet, aber wer weiß schon, was hinter verschlossenen Türen passiert?
Das sieht alles sehr schick aus, aber dieser Mangel an Transparenz ist das Gegenteil von Förderung der KI-Kompetenz. Die Öffentlichkeit hat kein wirkliches Verständnis dafür, warum sich diese Models so verhalten, wie sie es tun. Es fühlt sich wie Magie an, wenn diese Modelle immer besser zu werden scheinen.
Die KI-Gemeinschaft muss anfangen, mehr Informationen über undurchsichtige Modelle herauszugeben und zu erklären, warum sie bestimmte Antworten geben. Sie könnten zum Beispiel erklären, dass ein Modell auf eine bestimmte Weise reagiert, weil es in seinen Trainingsdaten auf bestimmte Muster stößt.
Es ist wichtig, die Öffentlichkeit darüber aufzuklären. Auch wenn es eine Herausforderung ist, konkrete Entscheidungen mit Datenpunkten so zu verknüpfen, dass sie für die Öffentlichkeit leicht verständlich sind, wäre die Erstellung von Demos, die diesen Prozess darlegen, sehr wirkungsvoll.
Genau! Das ist ein wichtiger Schwerpunkt unseres Projekts: Wir wollen sowohl die Modellgewichte als auch die Trainingsdaten veröffentlichen.
Mithilfe unserer OLMo- und OLMoE-Modelle arbeiten Forscher in der Community daran, wie Modellentscheidungen mit den Daten zusammenhängen. Unser offener Datensatz, Dolma, hat es Forschern ermöglicht, ihn zu analysieren, was zu Veröffentlichungen geführt hat, die erklären, wie bestimmte Datenpunkte zum Modellverhalten beitragen. Diese Transparenz würde auch dazu beitragen, die Öffentlichkeit zu informieren.
Ich kann das aus zwei Perspektiven betrachten. Erstens haben wir bei Beginn dieses Projekts die Gültigkeit der von einigen Unternehmen gemeldeten Zahlen infrage gestellt. Wir wollten sicherstellen, dass diese Zahlen nicht aus selektiven Testreihen oder Benchmarks abgeleitet wurden. Das unterstreicht ein gewisses Maß an Vertrauen innerhalb der Forschung.
Für unser Modell ist das ganz einfach, denn wir bieten Zugang zu unseren Daten und zeigen, wie unsere Modelle ausgewertet werden. Diese Transparenz macht deutlich, was in den Daten enthalten ist und wie die Modelle trainiert werden. Wir geben auch verschiedene Kontrollpunkte frei, die Zwischenstufen des Trainings darstellen. Anhand dieser Kontrollpunkte können Forscher beobachten, wie sich Wissen und Verbesserungen im Laufe der Zeit entwickeln. Und einige Forscher nutzen bereits unsere Kontrollpunkte, um diese Entwicklung zu untersuchen.
Schließlich gilt auch für das öffentliche Vertrauen ein ähnlicher Ansatz. Viele Menschen glauben, dass Sprachmodelle einfach halluzinieren. Indem wir ihre Ausgaben mit Trainingsdaten verknüpfen und Entscheidungsfindung erläutern, können wir die Vertrauenswürdigkeit erhöhen. Auch wenn wir noch nicht so weit sind, bietet die Verbesserung der Transparenz unserer Trainingsdaten erhebliche Möglichkeiten, das Vertrauen der Öffentlichkeit zu stärken.
Ich bin der Überzeugung, dass Open-Source-KI unerlässlich ist, um die Wissenschaft der Sprachmodelle zu ermöglichen und zu beschleunigen. Dank offener Forschung haben wir im Bereich der Sprachmodelle derart große Fortschritte in Forschung und Entwicklung erzielt, und wir sollten weiterhin Anstrengungen unternehmen, um Open Source KI aktiv zu halten und fortzufahren.
