La réduction de la dimensionnalité est une technique de science des données utilisée dans l’étape de prétraitement du machine learning.6 Au cours de ce processus, les données non pertinentes et redondantes sont supprimées tout en conservant les informations pertinentes du jeu de données d’origine.
Les caractéristiques peuvent être considérées comme les attributs d’un objet de données. Par exemple, dans un jeu de données sur des animaux, vous pouvez vous attendre à certaines caractéristiques numériques (âge, taille, poids) et caractéristiques catégorielles (couleur, espèces, race). L’extraction de caractéristiques fait partie de l’architecture de réseau neuronal du modèle, telle qu’un réseau neuronal convolutif (CNN).
Tout d’abord, le modèle prend en compte les données d’entrée, puis l’extracteur de caractéristiques transforme les données en une représentation numérique qui peut être utilisée pour calculer les méthodes de réduction de la dimensionnalité pour l’extraction de caractéristiques. Ces représentations sont stockées dans des vecteurs de caractéristiques pour que le modèle exécute des algorithmes de réduction des données.
Après l’extraction, il est parfois nécessaire de normaliser les données à l’aide de la normalisation des caractéristiques, en particulier lorsque vous utilisez certains algorithmes qui sont sensibles à la magnitude et à l’échelle des variables (algorithmes de descente basés sur les gradients, clustering k-means).
Différentes méthodes peuvent être suivies pour obtenir certains résultats en fonction des tâches. Toutes les méthodes visent à simplifier les données tout en préservant les informations les plus précieuses.
La plupart des modèles d’IA modernes effectuent l’extraction automatique des caractéristiques, mais il est toujours utile de comprendre les différents moyens de la gérer. Voici quelques méthodes d’extraction de caractéristiques courantes utilisées pour la dimension :
Analyse en composantes principales (PCA) : cette technique réduit le nombre de caractéristiques dans les grands jeux de données aux composantes principales ou aux nouvelles caractéristiques à utiliser par le classificateur du modèle pour ses tâches spécifiques.
La PCA est populaire en raison de sa capacité à créer des données originales qui ne sont pas corrélées, ce qui signifie que les nouvelles dimensions créées par l’IA sont indépendantes les unes des autres.7 La PCA est donc une solution efficace pour le surajustement en raison du manque de redondance des données, car chaque caractéristique est unique.
Analyse discriminante linéaire (LDA) : cette technique est couramment utilisée dans le machine learning supervisé pour séparer plusieurs classes et caractéristiques afin de résoudre les problèmes de classification.
Cette technique est couramment utilisée pour optimiser les modèles de machine learning. Les nouveaux points de données sont classés à l’aide de statistiques bayésiennes pour modéliser la distribution des données pour chaque classe.
t-SNE (T-distributed stochastic neighbor embedding) : cette technique de machine learning est couramment appliquée à des tâches telles que la visualisation de caractéristiques dans l’apprentissage profond.8 Ceci est particulièrement utile lorsqu’il s’agit de visualiser des données à haute dimension en 2D ou en 3D.
Cette méthode est couramment utilisée pour analyser les modèles et les relations dans la science des données. En raison de sa nature non linéaire, le t-SNE est coûteux en calcul et n’est couramment utilisé que pour les tâches de visualisation.
Fréquence des termes et fréquence inverse des documents (TF-IDF) : cette méthode statistique évalue l’importance des mots en fonction de leur fréquence d’apparition. La fréquence du terme dans un document spécifique est pondérée par la fréquence à laquelle il apparaît dans tous les documents d’une collection ou d’un corpus.9
Cette technique est couramment utilisée dans le NLP pour la classification, le cluster et la récupération d’informations. Le Bag of words (BoW) est une technique similaire mais au lieu de tenir compte de la pertinence du terme, elle traite efficacement tous les mots de la même manière.