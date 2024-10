En machine learning, les « dimensions » des données ne se réfèrent pas aux dimensions familières et intuitives de l’espace physique. Dans l’espace vectoriel, chaque dimension correspond à une caractéristique individuelle des données, de la même manière que la longueur, la largeur et la profondeur sont des caractéristiques d’un objet dans l’espace physique.

Les plongements vectoriels concernent généralement des données à haute dimensionnalité. Dans la pratique, la plupart des informations non numériques sont de grande dimension. Par exemple, même une simple petite image en noir et blanc de 28x28 pixels d'un chiffre manuscrit du jeu de données MNIST peut être représentée comme un vecteur à 784 dimensions, dans lequel chaque dimension correspond à un pixel individuel dont la valeur en niveaux de gris est comprise entre 0 (pour le noir) et 1 (pour le blanc).

Cependant, toutes ces dimensions ne renferment pas nécessairement des informations utiles. Dans l’exemple de MNIST, le chiffre lui-même ne représente qu’une petite portion de l’image, tandis que le reste n’est qu’un arrière-plan vide ou du « bruit ». Il est donc plus exact de dire que nous « intégrons une représentation de l'image dans un espace à 784 dimensions » plutôt que de dire que nous « représentons 784 caractéristiques différentes de l’image ».

Les plongements vectoriels efficaces pour des données à haute dimensionnalité impliquent souvent une certaine réduction de la dimensionnalité : la compression des données dans un espace à dimensions inférieures, en éliminant les informations non pertinentes ou redondantes.

La réduction de la dimensionnalité améliore la vitesse et l'efficacité des modèles, bien qu’au prix de possibles pertes de précision ou d’exactitude, car les vecteurs plus petits nécessitent moins de ressources pour les calculs. Elle permet également de réduire le risque de surajustement des données d'entraînement. Différentes méthodes de réduction dimensionnelle, telles que les autoencodeurs, les convolutions, l’analyse en composantes principales (PCA) ou l’intégration stochastique des voisins distribués en T (t-SNE), sont adaptées à différents types de données et de tâches.

Alors que les dimensions des vecteurs pour les données d’image sont relativement objectives et intuitives, la détermination des caractéristiques pertinentes pour d’autres modalités, comme les significations sémantiques et les relations contextuelles dans le langage, est plus abstraite ou subjective. Dans ces cas, les caractéristiques spécifiques représentées par les dimensions des plongements vectoriels peuvent être définies soit manuellement, par une ingénierie des caractéristiques, soit, plus couramment à l'ère de l'apprentissage profond, déterminées implicitement lors de l'entraînement d’un modèle à prédire avec précision.