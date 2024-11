Quantisierung ist eine Methode, die in Large Language Models (LLMs) verwendet wird, um Gewichtungen und Aktivierungswerte von Daten mit hoher Genauigkeit – üblicherweise 32-Bit-Gleitkomma (FP32) oder 16-Bit-Gleitkomma (FP16) – in Daten mit niedrigerer Genauigkeit, wie 8-Bit-Ganzzahl (INT8), umzurechnen. Daten mit hoher Genauigkeit (bezogen auf FP32 und FP16) haben ihren Namen, weil Modelle, die diese Datentypen verwenden, in der Regel eine höhere Genauigkeit aufweisen. Dies liegt daran, dass die Daten, wenn sie in etwas wie INT8 komprimiert werden, auf eine kleinere Größe komprimiert werden. Dies führt effektiv zu einer geringeren Genauigkeit, was auch als Quantisierungsfehler bezeichnet wird. Ein Aktivierungswert ist eine Zahl (zwischen Null und Eins), die dem künstlichen Neuron des neuronalen Netzes zugewiesen wird. Diese zugewiesene Nummer wird als ihr Aktivierungswert bezeichnet. Eine 8-Bit-Quantisierung ist im Allgemeinen das Ziel, aber auch quantisierte Daten von 4-Bit-Ganzzahlen (INT4) und niedriger wurden bereits erfolgreich erreicht. Im Wesentlichen handelt es sich um den Quantisierungsprozess unter Verwendung von Kompressionstechniken in einem neuronalen Netz, um eine große Anzahl von Bits in eine kleine Anzahl von Bits umzuwandeln. 1

Der Rechenleistungsbedarf beim Betrieb eines LLM mit FP32 kann enorm sein. Neben dem erhöhten Rechenleistungsbedarf kann auch die Inferenz (der Vorgang, bei dem ein LLM eine Antwort auf die Abfrage eines Benutzers generiert) verlangsamt werden. Die Quantisierung kann ein großartiges Optimierungstool sein, um sowohl den Rechenaufwand zu reduzieren als auch gleichzeitig die Inferenzgeschwindigkeit eines LLM zu erhöhen. Der Quantisierungsprozess basiert auf der Prämisse, die Gewichte in einen Datentyp mit geringerer Präzision zu konvertieren, während die Leistung des Modells nahezu identisch bleibt. Die Konvertierung von Gewichten in einen Datentyp mit geringerer Genauigkeit führt zu geringeren Rechenkosten, da bei jedem Durchlauf des Modells weniger Bits verarbeitet werden müssen. Wenn weniger Bits verarbeitet werden, wird auch jede Abfrage an das LLM schneller verarbeitet.