La quantizzazione è una tecnica utilizzata all'interno dei modelli linguistici di grandi dimensioni (LLM) per convertire pesi e valori di attivazione di dati ad alta precisione, solitamente in virgola mobile a 32 bit (FP32) o 16 bit (FP16), in dati a precisione inferiore, come un intero a 8 bit (INT8). I dati ad alta precisione (riferiti a FP32 e FP16) prendono questo nome perché i modelli che utilizzano questi tipi di dati hanno in genere una precisione maggiore. Questo perché quando i dati vengono compressi in un formato come INT8, vengono ridotti a dimensioni più piccole. Ne risulta una minore precisione, nota anche come errore di quantizzazione. Un valore di attivazione è un numero (compreso tra zero e uno) assegnato al neurone artificiale della rete neurale. Questo numero assegnato è indicato come valore di attivazione. La quantizzazione a 8 bit è generalmente l'obiettivo, ma i dati quantizzati con numeri interi a 4 bit (INT4) e inferiori sono stati raggiunti con successo. Essenzialmente, il processo di quantizzazione utilizza tecniche di compressione su una rete neurale per convertire un numero di bit elevato in uno più ridotto. 1

I requisiti computazionali per l'utilizzo di un LLM utilizzando FP32 possono essere immensi. Insieme all'aumento dei requisiti computazionali, anche l'inferenza (il processo di un LLM che genera una risposta alla query di un utente) può essere rallentata. La quantizzazione può essere un ottimo strumento di ottimizzazione sia per ridurre il carico computazionale che per aumentare la velocità di inferenza di un LLM. Il processo di quantizzazione ruota attorno alla premessa di convertire i pesi in un tipo di dati di precisione inferiore, lasciando quasi invariate le prestazioni del modello. La conversione dei pesi in un tipo di dati di precisione inferiore comporterà una riduzione dei costi di calcolo perché il numero di bit che deve essere elaborato ogni volta che il modello viene eseguito è inferiore. Un minor numero di bit elaborati porterà anche a un'elaborazione più rapida di ogni query all'LLM.