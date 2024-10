Existem cerca de 4 bilhões de valores dentro do conjunto de valores possíveis do FP32 que variam de -3,4 1038 a 3,4 1038 . Já com o INT8, vemos apenas 256 valores dentro do conjunto de valores possíveis, variando de -128 a 128. Como o último conjunto de valores é significativamente menor, a multiplicação de matrizes pode ocorrer muito mais rapidamente. Devido ao imenso custo computacional dos modelos baseados em deep learning, algoritmos precisos e eficientes são essenciais.

O processo de quantização ocorre primeiro determinando a rota ideal da projeção dos valores de ponto flutuante de 32 bits no campo INT8. Para isso, há vários algoritmos para quantizar o modelo. Daremos uma olhada em dois métodos de quantização, Absolute Max e Affine Quantization.



Quantização máxima absoluta

Para calcular o mapeamento entre o número de ponto flutuante e seu número INT8 correspondente na quantização máxima absoluta, você deve primeiro dividir pelo valor máximo absoluto do tensor e, em seguida, multiplicar pelo intervalo total do tipo de dados.

Por exemplo, aplicaremos o algoritmo de quantização máxima absoluta ao seguinte vetor [1,6, -0,7, -3,4, 1,7, -2,9, 0,5, 2,3, 6,2]. Você extrai o máximo absoluto dele, que é 6,2 nesse caso. O INT8 tem um intervalo de [-127, 127], então dividimos 127 por 6,2 e obtemos 20,5 para o fator de escala. Portanto, multiplicando o vetor original por ele, obtém-se o vetor de dados quantizado [33, -14, -70, 35, -59, 10, 47, 127]. Devido a esses números serem arredondados, haverá alguma perda de precisão. 5

Quantização afim

Para implementar o algoritmo de quantização afim, definiremos nosso intervalo de valores de ponto flutuante de 32 bits como [a, b]. O algoritmo de quantização afim é o seguinte:

𝑥𝑞 = round ((1/𝑆)𝑥+𝑍)

- 𝑥𝑞 é o valor INT8 quantizado que corresponde ao valor de ponto flutuante de 32 bits x.

- S é um fator de escala FP32 e é um ponto flutuante positivo de 32 bits.

- Z é o ponto zero. Esse será o valor INT8 que corresponde a zero no campo de ponto flutuante de 32 bits.

- round se refere ao arredondamento do valor resultante para o número inteiro mais próximo.

Para estabelecer o [mín., máx.] dos nossos valores de ponto flutuante de 32 bits, precisamos levar em consideração quaisquer valores discrepantes. Ignorar esses valores discrepantes pode fazer com que eles sejam mapeados como mínimo ou máximo, o que pode distorcer a precisão do modelo quantizado. Para reagir a isso, o modelo pode ser quantizado em blocos. Os pesos podem ser divididos em grupos de 64 ou 128. Em seguida, esses grupos são quantizados para levar em conta os valores discrepantes e minimizar o risco de redução da precisão. 6