Ein KI-Beschleuniger ist ein Hardware-Produkt mit einer Grafikverarbeitungseinheit (GPU), das verwendet wird, um Modelle für maschinelles Lernen (ML) und Deep Learning (DL), die Verarbeitung natürlicher Sprache und andere Vorgänge der künstlichen Intelligenz (KI) zu beschleunigen.
Der Begriff KI-Beschleuniger wird jedoch zunehmend zur Beschreibung spezialisierterer KI-Chips wie Neural Processing Units (NPUs) oder Tensor Processing Units (TPUs) verwendet. Während Allzweck-GPUs, die ursprünglich für das Rendern von Bildern und Grafiken entwickelt wurden, als KI-Beschleuniger sehr effektiv sind, bieten andere Arten von speziell entwickelter KI-Hardware möglicherweise eine ähnliche oder bessere Rechenleistung mit verbesserter Energieeffizienz, größerem Durchsatz und anderen wertvollen Optimierungen für KI-Workloads.
Standard-Zentralprozessoren (CPUs) arbeiten in einem linearen Framework, reagieren nacheinander auf Anfragen und haben oft Probleme mit leistungsstarker Datenverarbeitung. GPUs sind anders konstruiert und übertreffen derartige Anforderungen.
Mit mehreren Logikkernen ausgestattet, zerlegen GPUs komplizierte Probleme in kleinere Stücke, die gleichzeitig gelöst werden können. Diese Methode wird als Parallelverarbeitung bezeichnet. Die CUDA-API wurde ursprünglich 2006 von Nvidia entwickelt und hat die beeindruckende parallele Rechenleistung der GPU ins Rollen gebracht. So können Programmierer Nvidia-GPUs für die allgemeine Verarbeitung in Tausenden von Anwendungsfällen verwenden, z. B. bei der Optimierung des Rechenzentrums, der Robotik, der Smartphone-Herstellung, dem Mining von Kryptowährungen und mehr.
Die beeindruckenden Funktionen zur Parallelverarbeitung der GPU haben sich auch für KI-Aufgaben wie das Training großer Sprachmodelle (LLMs) oder neuronaler Netze als äußerst nützlich erwiesen. Mit einer höheren Nachfrage geht jedoch auch ein erhöhter Stromverbrauch einher. Außerdem sind leistungsstarke GPUs bekanntermaßen echte Stromfresser und teuer.
Obwohl GPUs gut für KI-Anwendungen wie die Verarbeitung großer Datensätze geeignet sind, sind sie nicht speziell für den Einsatz in KI-Modellen konzipiert. Als Grafikprozessor weist die durchschnittliche GPU eine bestimmte Anzahl von Logikkernen für grafikbezogene Aufgaben zu. Zu diesen Aufgaben gehören die Videokodierung und -dekodierung, die Berechnung von Farbwerten und verschiedene Rendering-Prozesse, die für Aufgaben wie Videobearbeitung, 3D-Modellierung und Spiele von Bedeutung. Die Chips von KI-Beschleunigern hingegen sind so abgestimmt, dass sie nur die Aufgaben erledigen, die für die KI notwendig sind.
Im Allgemeinen muss eine GPU in der Lage sein, eine sehr große (aber nicht riesige) Datenmenge sehr schnell zu verarbeiten, um komplexe und schnelle Grafiken flüssig in Echtzeit darzustellen. Daher priorisieren GPUs Vorgänge mit geringer Latenz, um eine konstante und gleichbleibend hohe Bildqualität zu gewährleisten.
Während die Geschwindigkeit bei KI-Modellen auch wichtig ist, sind KI-Datensätze viel größer als die durchschnittlichen Anforderungen an die GPU. Im Gegensatz zu GPUs sind KI-Beschleuniger auf eine Optimierung der Bandbreite ausgelegt und bieten daher in der Regel auch eine verbesserte Energieeffizienz.
Obwohl GPUs häufig als KI-Beschleuniger eingesetzt werden, ist ein GPU im Vergleich zu einem spezialisierten KI-Beschleuniger möglicherweise nicht die beste Option. Die Hauptunterschiede zwischen Allzweck-GPUs und spezialisierten KI-Chips liegen in der Spezialisierung, Effizienz, Zugänglichkeit und Nützlichkeit.
Für KI-Anwendungen kann ein Grafikprozessor eine gute Allzwecklösung sein, so wie ein Geländewagen einen guten Mittelweg zwischen einem Sportwagen und einem Sattelschlepper darstellt. Ein Sattelschlepper ist langsamer als ein Sportwagen, kann aber viel mehr Ladung transportieren. Ein Geländewagen kann einiges an Ladung transportieren und ist schneller als ein Sattelschlepper, aber langsamer als ein Sportwagen.
Die GPU ähnelt einem Geländewagen, aber je nach Prioritäten der KI-Anwendung kann ein spezialisierterer KI-Chip, wie z. B. ein spezielleres Fahrzeug, besser geeignet sein.
Grafikprozessoren, manchmal auch Graphical Processing Units genannt, wurden in den 1990er Jahren erfunden, um die Verarbeitungsanforderungen an CPUs zu verringern, als die Computertechnik immer weniger textbasiert wurde und grafische Betriebssysteme und Videospiele an Popularität gewannen.
Seit der Erfindung des modernen Computers in den frühen 1950er Jahren ist die CPU für kritische Rechenaufgaben zuständig, einschließlich aller für das Programm notwendigen Verarbeitungs-, Logik- und Eingabe/Ausgabe-Steuerungen (E/A).
In den 1990er Jahren verlangten Videospiele und Computer-Aided Design (CAD) nach einer effizienteren Methode, um Daten in Bilder umzuwandeln. Diese Herausforderung veranlasste Ingenieure, die ersten GPUs mit einer einzigartigen Chiparchitektur zu entwickeln, die eine parallele Verarbeitung durchführen kann.
Seit Nvidia 2007 die GPU-Programmierplattform CUDA einführte, hat sich das GPU-Design stark verbreitet und Anwendung in allen Branchen gefunden, die weit über die Grafikverarbeitung hinausgehen (obwohl das Rendern von Grafiken immer noch die häufigste Anwendung für die meisten GPUs ist).
Obwohl es Hunderte von GPU-Varianten mit unterschiedlicher Leistung und Effizienz gibt, fällt die große Mehrheit in eine der drei Kategorien:
Während KI-Beschleuniger sich auf jede Form von Hardware beziehen, die zur Beschleunigung von Anwendungen der künstlichen Intelligenz verwendet werden, beschreibt der Begriff KI-Beschleuniger zumeist spezialisierte KI-Chips, die für bestimmte Aufgaben im Zusammenhang mit KI-Modellen optimiert sind.
Obwohl sie als hochspezialisierte Hardware gelten, werden KI-Beschleuniger von etablierten Computerunternehmen wie IBM, Amazon Web Services (AWS) und Microsoft sowie Start-ups wie Cerebras entwickelt und genutzt. Mit zunehmender Reife und zunehmender Beliebtheit von KI werden KI-Beschleuniger und zugehörige Toolkits immer häufiger eingesetzt.
Vor der Erfindung der ersten dedizierten KI-Beschleuniger wurden Allzweck-GPUs (wie auch weiterhin) häufig in KI-Anwendungen verwendet, insbesondere aufgrund ihrer fortschrittlichen Parallelverarbeitungsleistung. Da die KI-Forschung jedoch im Laufe der Jahre Fortschritte gemacht hat, haben Ingenieure nach KI-Beschleunigerlösungen gesucht, die eine verbesserte Energieeffizienz und KI-Nischenoptimierungen bieten.
KI-Beschleuniger variieren sowohl je nach Leistung als auch nach Spezialisierung, wobei einige proprietäre Technologien ausschließlich bestimmten Herstellern vorbehalten sind. Zu den bekannteren Arten von KI-Beschleunigern gehören die folgenden:
Während eine Standard-GPU bestimmte Vorteile bietet (z. B. Verfügbarkeit, Zugänglichkeit), übertreffen spezialisiertere KI-Beschleuniger in der Regel ältere Technologie in drei Schlüsselbereichen: Geschwindigkeit, Effizienz und Design.
Moderne KI-Beschleuniger, sogar GPUs, sind weitaus schneller als CPUs, wenn es um die Datenverarbeitung mit geringer Latenz geht. Für kritische Anwendungen wie autonome Fahrzeugsysteme ist die Geschwindigkeit von besonderer Bedeutung. GPUs sind besser als CPUs, aber ASICs, die für bestimmte Anwendungen wie die Computer Vision in selbstfahrenden Autos entwickelt wurden, sind noch schneller.
KI-Beschleuniger, die für bestimmte Aufgaben entwickelt wurden, können zwischen 100 und 1.000 Mal energieeffizienter sein als GPUs mit ihrem hohen Stromverbrauch. Eine verbesserte Effizienz kann zu drastisch reduzierten Betriebskosten und, was noch wichtiger ist, zu einer weitaus geringeren Umweltbelastung führen.
KI-Beschleuniger verwenden eine Art Chiparchitektur, die als heterogenes Design bekannt ist. Sie ermöglicht die Unterstützung mehrerer Prozessoren für separate Aufgaben und erhöht die Rechenleistung durch hochentwickelte Parallelverarbeitung.
Da GPUs selbst als KI-Beschleuniger gelten, überschneiden sich ihre Anwendungsfälle häufig mit spezialisierter KI-Hardware. Es könnte passieren, dass GPUs in KI-Anwendungen in den Hintergrund treten.
Vielseitige GPUs sind sowohl in der KI als auch in anderen Arten von Anwendungen immer noch weit verbreitet, eine Entwicklung, die ihr Ende noch nicht gefunden hat. GPUs werden für eine Reihe von Anwendungen eingesetzt, die eine erweiterte Parallelität erfordern, darunter die folgenden:
Mit zunehmender Reife der KI-Technologie setzt sich spezialisierte Hardware immer mehr durch. ASIC-KI-Beschleuniger nutzen die parallele Verarbeitungsleistung von GPUs und verzichten dabei auf unnötige Funktionen. So werden sie immer häufiger in Anwendungen eingesetzt, zum Beispiel in den folgenden: