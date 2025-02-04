Das Wettrüsten im Bereich der künstlichen Intelligenz ist nicht mehr nur den milliardenschweren Konzernen vorbehalten.
Unternehmen wie OpenAI, Google und Microsoft dominieren die Schlagzeilen, wenn es um Diskussionen über künstliche Intelligenz geht. Doch eine neue Welle von Open-Source-Innovationen - wie das jüngste DeepSeek-Modell ebnet das Spielfeld. Der Erfolg des Modells unterstreicht einen wachsenden Trend: Kleinere Unternehmen können die bekanntesten KI-Akteure zunehmend herausfordern.
„Das bestätigt nur Dinge, die wir bereits wussten“, sagt David D. Cox, VP of AI Models bei IBM Research. „Wir glauben nicht, dass man Milliarden und Abermilliarden von Dollar braucht, um großartige Modelle zu entwickeln. DeepSeek ist der Beweis dafür, dass Open-Source-Ansätze aufholen – und das ist gut so.“
KI-Forscher befinden sich in einem ständigen Wettlauf darum, Modelle leistungsfähiger zu machen, ohne dabei die Rechenkosten in die Höhe zu treiben. Angesichts der zunehmenden Besorgnis über Hardwarebeschränkungen und Energieverbrauch werden Innovationen, die die Effizienz verbessern, genauso wichtig wie reine Leistungssteigerungen.
„Zu lange war das KI-Rennen ein Skalenspiel, bei dem größere Modelle bessere Ergebnisse bedeuteten“, schrieb IBM CEO Arvind Krishna auf LinkedIn. „Aber es gibt kein Gesetz der Physik, das vorschreibt, dass KI-Modelle groß und teuer bleiben müssen. Die Kosten für Training und Inferenz stellen eine weitere Technologie-Herausforderung dar, die es zu lösen gilt.“
Der Durchbruch von DeepSeek in Sachen KI-Effizienz beruht auf einer neuen Technik namens Multi-Head Latent Attention (MLA). Diese Methode verändert die Art und Weise, wie KI-Modelle ihre Informationen verarbeiten und speichern. Die wichtigste Verbesserung besteht darin, dass MLA die Größe von etwas reduziert, das als KV-Cache bezeichnet wird, was für ein effizientes Arbeiten von KI-Systemen unerlässlich ist. Laut Cox verbrauchen die KI-Systeme dadurch weniger Speicher und können leichter größer werden.
„Sie haben hier wirklich gute Arbeit geleistet“, bemerkt Cox. „Die Reduzierung der KV-Cache-Größe ist entscheidend, da die Modelle dadurch schneller laufen und weniger Ressourcen verbrauchen.“
Unter der Haube von DeepSeek vervielfachten sich die Durchbrüche. Prasanna Sattigeri, Principal Research Scientist bei IBM Research, wies darauf hin, dass es bei den Innovationen des Unternehmens um Effizienzsteigerungen und architektonische Verbesserungen gehe.
„Sie haben die Kommunikation zwischen GPUs optimiert, was bei groß angelegten KI-Trainings oft ein Engpass ist“, sagt Sattigeri. „Dadurch konnten sie effektiv mit älterer Hardware trainieren – eine bemerkenswerte technische Meisterleistung.“
Doch wie bei jedem ehrgeizigen Ingenieurprojekt brachte auch dieser Sprung nach vorne Kosten mit sich. DeepSeek nutzte außerdem Reinforcement Learning (RL)-Techniken, ähnlich denen im O1-Inferenzskalierungsansatz von OpenAI. Diese Methode verbessert die Leistung des Modells, indem erfolgreiche Ausgaben über mehrere Iterationen hinweg verstärkt werden. Cox weist jedoch darauf hin, dass die Implementierung von DeepSeek zu Kompromissen geführt hat, wie schwächeren Funktionen beim Aufrufen von Funktionen und Bedenken hinsichtlich der Sicherheitsabstimmung .
„Es ist ein großer Schritt nach vorn, aber es gibt noch einige raue Ecken“, sagt er. „Das Modell ist bei Denkaufgaben fantastisch, aber andere Bereiche haben darunter gelitten.“
Auch wenn die Fortschritte die Erstellung großer KI-Modelle erleichtern, bleibt eine größere Herausforderung bestehen: die enorme Rechenleistung, die erforderlich ist, um wettbewerbsfähig zu bleiben. Xia „Ben“ Hu, außerordentlicher Professor für Informatik an der Rice University, räumt ein, dass DeepSeek ein effizienterer Schritt vorwärts in der KI-Entwicklung ist. Er merkt jedoch an, dass sich dadurch die Machtverhältnisse in der KI-Infrastruktur nicht grundlegend verändern, wo der Zugang zu riesigen Ressourcen immer noch darüber entscheidet, wer die Führung übernimmt.
„DeepSeek wird von einem großen Risikofonds in China unterstützt und hat Zugriff auf Zehntausende von GPUs“, sagt Hu. „Das ist für viele kleinere Startups immer noch ein großes Hindernis.“
Hu prognostiziert jedoch, dass die bedeutendste Veränderung wahrscheinlich die Einführung von KI in Unternehmen sein wird. „Traditionelle Branchen wie die Öl- und Gasindustrie und die Fertigungsindustrie haben bisher gezögert, eigene KI-Lösungen zu entwickeln“, sagt er. „Nun, da die Kosten sinken und Open-Source-Modelle besser werden, erwägen Unternehmen, die früher auf externe KI-Dienstleistungen angewiesen waren, nun den Aufbau eigener Modelle, die auf ihre spezifischen Bedürfnisse zugeschnitten sind.“
Die Implikationen gehen über ein Modell hinaus. Mit der zunehmenden Zahl von Open-Source-KI-Projekten können nun auch kleinere Startups auf Tools zugreifen, für die früher riesige Rechenzentren und enorme Budgets erforderlich waren. Cox sagte, dass OpenAI und seine Kollegen lange Zeit den Eindruck erweckten, dass nur diejenigen, die viel Geld haben, bei der KI führend sein könnten. Doch mit dem Aufkommen von DeepSeek und anderen Modellen beginnt diese Vorstellung zu bröckeln.
„Wir erleben einen Wandel hin zu einer deutlich größeren Bandbreite an Akteuren, die in diesem Bereich konkurrieren können“, sagt Cox. „Es ist nicht so, dass jemand mit 5 Millionen US-Dollar über Nacht ein erstklassiges Modell entwickeln kann. Aber gut finanzierte Startups und mittelständische Unternehmen? Absolut.“
Forscher konzentrieren sich zudem auf Effizienz statt auf rohe Rechenleistung. Cox und sein Forschungsteam haben sich auf den Mixture of Experts-Ansatz konzentriert, der es der KI ermöglicht, selektiver bei der Verwendung von Verarbeitungsressourcen vorzugehen.
„Mixture of Experts ist nur ein Teil des Puzzles – da kommt noch viel mehr“, sagt er und deutet damit an, dass die Zukunft der KI weniger vom Zugang zu hochentwickelten Chips abhängen könnte, sondern vielmehr von intelligenteren Methoden zur Nutzung vorhandener Hardware.
Sattigeri hob eine solche Innovation hervor: das Aufkommen synthetischer Daten oder künstlich generierter Informationen, die reale Daten nachahmen. „Bei Modellen wie DeepSeek sehen wir eine Verlagerung hin zur Verwendung von KI-generierten synthetischen Daten, um Modelle effizienter zu schulen und zu trainieren“, sagt er. „Dies könnte die Kosten deutlich senken und hochwertige KI mehr Spielern zugänglich machen.“
Die zunehmende Zugänglichkeit der KI-Entwicklung wirft neue Fragen über die Zukunft des Wettbewerbs auf. Werden Infrastruktur und Rechenleistung weiterhin die Gewinner bestimmen, oder wird die Fähigkeit zur Innovation schnell zum wertvollsten Gut werden? Laut Cox ist es eine Mischung aus beidem.
„Man braucht nach wie vor eine solide Infrastruktur und großartige Talente, aber der Vorsprung von OpenAI und Google ist nicht so groß, wie sie es gerne darstellen würden“, sagt er. „In diesem Bereich bleiben Geheimnisse nicht geheim. Ideen verbreiten sich und die Leute bewegen sich. Wir beobachten eine rasante Konvergenz.“
Hu fügte hinzu, dass die KI-Entwicklung noch vier kritische Komponenten benötigt: "Ich nenne es das ABCD-Modell – Algorithmen, Big Data, Compute und Distribution", sagt er. „Die besten KI-Unternehmen verfügen über alle vier. DeepSeek erzielt in den ersten beiden Bereichen zwar Fortschritte, aber Rechenleistung und Datenverteilung verschaffen den großen Anbietern weiterhin einen Vorteil.“
Die wachsende Zahl von KI-Unternehmen, die durch effizientere Techniken ermöglicht wird, ist nicht nur eine Frage des Wettbewerbs – sie könnte eine kreative Revolution auslösen. Wenn mehr Unternehmen KI ohne Milliardenbudgets entwickeln können, wird Innovation von unterschiedlichen Perspektiven angetrieben und nicht von einer Handvoll Unternehmensagenden, sagt Cox. Das bedeutet mehr maßgeschneiderte KI-Lösungen und spezialisierte Modelle sowie einen dynamischeren Markt.
„Innovationen werden schneller, sicherer und inklusiver vonstattengehen“, sagte Cox. „Wenn wir eine Monokultur hinter uns lassen, in der einige wenige Akteure die Bedingungen diktieren, werden wir eine Blütezeit unterschiedlicher Ansätze erleben.“
Cox sagte, dass der Aufstieg von DeepSeek für IBM, das sich der Open-Source-KI verschrieben hat, den Ansatz validiert. „Es ist eigentlich eine gute Sache für uns“, sagt er. „Das beweist, dass offene Modelle funktionieren können und dass es eine Nachfrage danach gibt. Je mehr Menschen beitragen, desto mehr profitieren wir alle.“
Hu weist darauf hin, dass kleinere Firmen zwar an Boden gewinnen, die großen Player sich aber anpassen. „Amazon, Meta und Microsoft werden nicht einfach zusehen, wie Open Source ihnen den Markt wegnimmt“, sagt er. „Sie arbeiten intensiv daran, herauszufinden, wie sich Open-Source-Modelle integrieren lassen, während gleichzeitig die Kontrolle über Infrastruktur und Daten erhalten bleibt.“
Was passiert als Nächstes? Cox und andere Experten sind der Meinung, dass die KI-Entwicklung nicht zum Selbstläufer wird, aber es ist klar, dass kleinere Unternehmen nicht länger der Gnade der Tech-Giganten ausgeliefert sind. Open-Source-Tools beschleunigen den Fortschritt, und es sind die Unternehmen, die diesen Wandel nutzen, die den größten Vorteil davon haben werden.
„Das ist Teil eines anhaltenden Trends“, sagt Cox. „Es begann nicht mit DeepSeek und es wird auch nicht damit enden. Aber es hat definitiv einige Leute aufgeweckt.“
