Quantification post-entraînement (PTQ)

La quantification post-entraînement se produit lorsque la quantification est appliquée à un modèle existant. Le modèle passe ainsi d’une représentation en virgule flottante à une représentation en virgule fixe de moindre précision, sans qu’il soit nécessaire de procéder à un nouvel entraînement. Cette méthode ne nécessite pas autant de données que l’entraînement de quantification et il est beaucoup plus rapide. Cependant, comme un modèle déjà existant est essentiellement converti en un modèle de taille plus petite, la quantification post-entraînement peut entraîner une dégradation des performances. Un exemple d’utilisation du PTQ consiste par exemple à augmenter la rapidité et l’efficacité d’un modèle fonctionnel dont vous disposez déjà. En effet, le PTQ a lieu après l’entraînement d’un modèle (c’est-à-dire un modèle déjà existant), de sorte qu’une grande quantité de données d’entraînement n’est pas nécessaire pour ce processus. 7

Formation en fonction de la quantification (QAT)

L’entraînement tenant compte de la quantification tient compte de la conversion des pondérations lors du pré-entraînement ou de la mise au point d’un LLM. Cela permet d’améliorer les performances, mais nécessite une grande puissance de calcul et des données d’apprentissage représentatives. Dans l’ensemble, l’apprentissage par quantification produit généralement un modèle plus performant, mais il est plus coûteux et nécessite une puissance de calcul beaucoup plus importante. Un exemple de cas d’utilisation de la QAT serait de disposer d’une quantité adéquate de données d’entraînement et d’un budget plus conséquent. Il est également bon de rappeler que ce processus a lieu pendant la phase d’entraînement du modèle et qu’il n’est donc pas logique d’utiliser cette méthode avec un modèle déjà entraîné. 7

Quantification dynamique et techniques de quantification statiques

Le but de ces deux techniques est de savoir comment la plage d’écrêtage, souvent appelé calibrage, sera sélectionnée. Au cours de cette quantification dynamique, la plage d’écrêtage est calculée dynamiquement pour chaque activation. En général, ce type de technique de quantification se traduit par une plus grande précision. Comme son nom l’indique, la quantification statique utilise une plage d’écrêtage fixe pour toutes les entrées. Cette forme de quantification est plus souvent utilisée comme quantification dynamique et peut être très coûteuse.