Qu’est-ce que la sélection des caractéristiques ?

18 mars 2025

Auteurs

Ivan Belcic

Staff writer

Cole Stryker

Editorial Lead, AI Models

La sélection des fonctionnalités est le processus qui consiste à choisir les fonctionnalités les plus pertinentes d’un jeu de données à utiliser lors de la création et de l’entraînement d’un modèle de machine learning (ML). En réduisant l’espace de fonctionnalité à un sous-ensemble sélectionné, la sélection de fonctionnalité améliore les performances du modèle IA tout en réduisant ses exigences de calcul.

Une « fonctionnalité » désigne une propriété ou un attribut mesurable d’un point de données : un élément spécifique des données qui aide à décrire le phénomène observé. Un jeu de données sur le logement peut comporter des fonctionnalités telles que « nombre de chambres » et « année de construction ». 

La sélection des fonctionnalités fait partie du processus d’ingénierie des fonctionnalités, au cours duquel les data scientists préparent les données et constituent un ensemble de fonctionnalités pour les algorithmes de machine learning. La sélection de fonctionnalités est la partie de l’ingénierie des fonctionnalités qui concerne le choix des fonctionnalités à utiliser pour le modèle.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets. 

Les avantages de la sélection des caractéristiques

Le processus de sélection des fonctionnalités rationalise un modèle en identifiant les fonctionnalités les plus importantes, les plus influentes et les moins redondantes du jeu de données. La réduction du nombre de fonctionnalités améliore l’efficacité du modèle et augmente ses performances. 

La sélection des fonctionnalités présente les avantages suivants : 

  • Meilleures performances du modèle : les fonctionnalités non pertinentes affaiblissent les performances du modèle. À l’inverse, choisir le bon ensemble de fonctionnalités pour un modèle le rend plus précis et lui confère un meilleur rappel. Les fonctionnalités des données influencent la manière dont les modèles configurent leurs pondérations pendant l’entraînement, ce qui se répercute sur les performances. Cela diffère du réglage des hyperparamètres, qui a lieu avant l’entraînement.  

  • Réduction du surajustement : le surajustement se produit lorsqu’un modèle ne peut pas généraliser au-delà de ses données d’entraînement. La suppression des fonctionnalités redondantes réduit le surajustement et permet au modèle de mieux généraliser à de nouvelles données. 

  • Des temps d’entraînement plus courts : en se concentrant sur un sous-ensemble plus restreint de fonctionnalités, l’entraînement des algorithmes est plus rapide. Les créateurs de modèles peuvent tester, valider et déployer leurs modèles plus rapidement avec un ensemble plus restreint de fonctionnalités sélectionnées. 

  • Réduction des coûts de calcul : un jeu de données plus petit composé des meilleures fonctionnalités permet de créer des modèles prédictifs plus simples qui occupent moins d’espace de stockage. Leurs exigences de calcul sont inférieures à celles de modèles plus complexes. 

  • Meilleure interprétabilité : l’IA explicable vise à créer des modèles que les humains peuvent comprendre. À mesure que les modèles deviennent plus complexes, il devient de plus en plus difficile d’interpréter leurs résultats. Les modèles plus simples sont plus faciles à surveiller et à expliquer. 

  • Mise en œuvre plus fluide : les modèles plus simples et plus petits sont plus faciles à utiliser par les développeurs lors de la création d’applications d’IA, telles que celles employées dans la visualisation des données

  • Réduction de la dimensionnalité : avec un plus grand nombre de variables d’entrée, les points de données s’éloignent les uns des autres dans l’espace du modèle. Les données à haute dimensionnalité comportent davantage d’espaces vides, ce qui complique l’identification des modèles et la formulation de prédictions fiables par l’algorithme de machine learning. 

    La collecte d’un plus grand nombre de données peut atténuer le problème de la malédiction de la dimensionnalité, mais la sélection des fonctionnalités les plus importantes est plus réalisable et plus rentable. 

Que sont les caractéristiques ?

Une fonctionnalité est une qualité définissable des éléments d’un jeu de données. Les fonctionnalités sont également appelées variables, car leurs valeurs peuvent changer d’un point de données à l’autre, et attributs, car elles caractérisent les points de données dans le jeu de données. Différentes fonctionnalités décrivent les points de données de différentes manières. 

Les fonctionnalités peuvent être des variables indépendantes, des variables dépendantes qui tirent leur valeur de variables indépendantes ou des attributs combinés qui sont compilés à partir de plusieurs autres fonctionnalités.

L’objectif de la sélection des fonctionnalités est d’identifier les variables d’entrée les plus importantes que le modèle peut utiliser pour prédire les variables dépendantes. La variable cible est la variable dépendante que le modèle est chargé de prédire. 

Ainsi, dans une base de données d’employés, les fonctionnalités d’entrée peuvent inclure l’âge, le lieu de travail, le salaire, le titre, les indicateurs de performance et l’ancienneté. Un employeur peut se servir de ces variables pour générer un attribut combiné cible représentant la probabilité qu’un employé quitte l’entreprise pour une meilleure offre. Il peut ensuite déterminer comment encourager ces employés à rester. 

Les fonctionnalités peuvent être classées en deux catégories principales : les variables numériques et les variables catégorielles. 

  • Les variables numériques sont quantifiables, telles que la longueur, la taille, l’âge et la durée. 

  • Les variables catégorielles sont tout ce qui n’est pas numérique, comme les noms, les intitulés de poste et les lieux. 

Avant la sélection des fonctionnalités, le processus d’extraction des fonctionnalités transforme les données brutes en fonctionnalités numériques que les modèles de machine learning peuvent exploiter. Cette extraction simplifie les données et réduit les besoins en puissance de calcul nécessaires à leur traitement.

Mixture of Experts | 25 avril, épisode 52

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Méthodes de sélection supervisée des caractéristiques

La sélection des fonctionnalités d’apprentissage supervisé utilise la variable cible pour déterminer les fonctionnalités les plus importantes. Les fonctionnalités des données étant déjà identifiées, il s’agit alors d’identifier les variables d’entrée qui ont l’impact le plus direct sur la variable cible. La corrélation est le critère principal utilisé pour évaluer les fonctionnalités les plus importantes. 

Les méthodes de sélection supervisée des fonctionnalités comprennent : 

  • Méthodes de filtrage

  • Méthodes d’encapsulation 

  • Méthodes d’intégration

Il est également possible d’employer des méthodes hybrides combinant plusieurs méthodes de sélection supervisée des fonctionnalités.

Méthodes de filtrage

Les méthodes de filtrage constituent un ensemble de techniques de sélection des fonctionnalités qui se concentrent uniquement sur les données elles-mêmes et ne tiennent pas directement compte de l’optimisation des performances du modèle. Les variables d’entrée sont évaluées indépendamment par rapport à la variable cible afin d’identifier celles qui présentent la corrélation la plus élevée. Les méthodes qui testent les fonctionnalités une par une sont appelées méthodes de sélection univariée des fonctionnalités. 

Souvent utilisées comme outil de prétraitement des données, les méthodes de filtrage sont des algorithmes de sélection de fonctionnalités rapides et efficaces qui excellent dans la réduction de la redondance et la suppression des fonctionnalités non pertinentes du jeu de données. Divers tests statistiques permettent d’évaluer la corrélation de chaque variable d’entrée. Cependant, d’autres méthodes sont plus efficaces pour prédire les performances du modèle. 

Disponibles dans des bibliothèques de machine learning populaires telles que Scikit-Learn (Sklearn), voici quelques méthodes de filtrage courantes : 

  • Gain d’information : mesure l’importance de la présence ou de l’absence d’une fonctionnalité dans la détermination de la variable cible en fonction du degré de réduction de l’entropie. 

  • Information mutuelle : évalue la dépendance entre les variables en mesurant les informations obtenues sur l’une par l’intermédiaire de l’autre. 

  • Test du khi-deux (ou khi-carré) : évalue la relation entre deux variables catégorielles en comparant les valeurs observées aux valeurs attendues. 

  • Score de Fisher : utilise des dérivées pour calculer l’importance relative de chaque fonctionnalité pour la classification des données. Un score élevé indique une influence plus importante. 

  • Coefficient de corrélation de Pearson : quantifie la relation entre deux variables continues avec un score compris entre -1 et 1. 

  • Seuil de variance : supprime toutes les fonctionnalités qui se situent en dessous d’un degré minimum de variance, car les fonctionnalités présentant plus de variances sont susceptibles de contenir davantage d’informations utiles. La différence absolue moyenne (DAM) est une méthode similaire. 

  • Ratio de valeurs manquantes : calcule le pourcentage d’instances dans un jeu de données pour lesquelles une certaine fonctionnalité est manquante ou a une valeur nulle. Si une fonctionnalité est manquante dans trop d’instances, elle n’est probablement pas utile. 

  • Ratio de dispersion : ratio entre la variance et la valeur moyenne d’une fonctionnalité. Une dispersion plus élevée indique davantage d’informations. Une dispersion plus élevée indique davantage d’informations. 

  • Analyse de variance (ANOVA) : détermine si différentes valeurs de fonctionnalités influencent la valeur de la variable cible.

Méthodes d’encapsulation

Les méthodes d’encapsulation entraînent l’algorithme de machine learning avec divers sous-ensembles de fonctionnalités, en ajoutant ou en supprimant des fonctionnalités et en testant les résultats à chaque itération. L’objectif de toutes les méthodes d’encapsulation est de trouver l’ensemble de fonctionnalités qui permet d’obtenir les meilleures performances du modèle. 

Les méthodes d’encapsulation qui testent toutes les combinaisons de fonctionnalités possibles sont appelées algorithmes gloutons. La recherche du meilleur ensemble de fonctionnalités global est une opération chronophage et gourmande en ressources informatiques. Elle est donc plus adaptée aux jeux de données avec des espaces de fonctionnalités plus petits. 

Les data scientists peuvent configurer l’algorithme pour qu’il s’arrête lorsque les performances du modèle diminuent ou lorsqu’un nombre cible de fonctionnalités est atteint. 

Les méthodes d’encapsulation comprennent : 

  • Sélection ascendante : commence avec un ensemble de fonctionnalités vide et ajoute progressivement de nouvelles fonctionnalités jusqu’à ce que l’ensemble optimal soit trouvé. La sélection du modèle a lieu lorsque les performances de l’algorithme ne s’améliorent plus après une itération spécifique. 

  • Sélection descendante : entraîne un modèle avec toutes les fonctionnalités d’origine et supprime de manière itérative la fonctionnalité la moins importante de l’ensemble de fonctionnalités. 

  • Sélection exhaustive des fonctionnalités : teste toutes les combinaisons possibles de fonctionnalités afin de trouver la meilleure configuration globale en optimisant un indicateur de performance donné. Un modèle de régression logistique qui emploie la sélection exhaustive des fonctionnalités teste toutes les combinaisons possibles de tous les nombres possibles de fonctionnalités. 

  • Élimination récursive des fonctionnalités (ERC) : type de sélection descendante qui commence par un espace de fonctionnalités initial et élimine ou ajoute des fonctionnalités après chaque itération en fonction de leur importance relative. 

  • Élimination récursive des fonctionnalités avec validation croisée : variante de l’élimination récursive qui utilise la validation croisée, qui teste un modèle sur des données inconnues, afin de sélectionner l’ensemble de fonctionnalités le plus performant. La validation croisée est une technique d’évaluation couramment employée pour les grands modèles de langage (LLM).

Méthodes d’intégration

Les méthodes d’intégration incorporent la sélection des fonctionnalités dans le processus d’entraînement du modèle. Au fur et à mesure que le modèle est entraîné, il utilise divers mécanismes pour détecter les fonctionnalités peu performantes et les éliminer des itérations futures. 

De nombreuses méthodes d’intégration s’articulent autour de la régularisation, qui pénalise les fonctionnalités en fonction d’un seuil de coefficient prédéfini. Les modèles sacrifient une partie de leur exactitude au profit d’une plus grande précision. Les modèles sont donc légèrement moins performants pendant l’entraînement, mais deviennent plus généralisables en réduisant le surajustement. 

Les méthodes d’intégration comprennent : 

  • Régression LASSO (régression L1) : ajoute une pénalité à la fonction de perte pour les coefficients corrélés de grande valeur, les rapprochant d’une valeur de 0. Les coefficients ayant une valeur de 0 sont supprimés. Plus la pénalité est importante, plus le nombre de fonctionnalités supprimées de l’espace des fonctionnalités est élevé. Pour employer efficacement LASSO, il faut trouver le juste équilibre afin de supprimer suffisamment de fonctionnalités non pertinentes tout en conservant toutes les fonctionnalités importantes. 

  • Importance de la forêt d’arbres décisionnels : construit des centaines de decision trees, chacun contenant une sélection aléatoire de points de données et de fonctionnalités. Chaque arbre est évalué en fonction de sa capacité à diviser les points de données. Plus les résultats sont bons, plus la ou les fonctionnalités de cet arbre sont considérées comme importantes. Les classificateurs mesurent l’« impureté » des regroupements à l’aide de l’impureté de Gini ou du gain d’information, tandis que les modèles de régression ont recours à la variance. 

  • Boosting de gradient : ajoute des prédicteurs en séquence à un ensemble, chaque itération corrigeant les erreurs de la précédente. Cela permet d’identifier les fonctionnalités qui mènent le plus directement à des résultats optimaux.

Méthodes de sélection non supervisée des caractéristiques

Avec l’apprentissage non supervisé, les modèles déterminent eux-mêmes les fonctionnalités, les modèles et les relations des données. L’adaptation des variables d’entrée en fonction d’une variable cible connue n’est pas possible. Les méthodes de sélection non supervisée des fonctionnalités s’appuient sur d’autres techniques pour simplifier et rationaliser l’espace des fonctionnalités. 

L’analyse en composantes principales (ACP) est une méthode de sélection de fonctionnalités non supervisée. L’ACP réduit la dimensionnalité des grands jeux de données en transformant les variables potentiellement corrélées en un ensemble plus petit de variables. Ces composantes principales conservent la plupart des informations contenues dans le jeu de données d’origine. L’ACP permet de contourner le problème de la dimensionnalité et réduit également le surajustement. 

Parmi celles-ci, citons l’analyse en composantes indépendantes (ACI), qui sépare les données multivariées en composantes individuelles statistiquement indépendantes, et les auto-encodeurs

Largement utilisé avec les architectures transformatrices, un auto-encodeur est un type de réseau de neurones qui apprend à compresser puis à reconstruire des données. Ce faisant, les auto-encodeurs découvrent des variables latentes, c’est-à-dire celles qui ne sont pas directement observables, mais qui influencent fortement la distribution des données.

Choisir une méthode de sélection des caractéristiques

Le type de sélection de fonctionnalités utilisé dépend de la nature des variables d’entrée et de sortie. Celles-ci déterminent également la nature du défi posé par le machine learning, qu’il s’agisse d’un problème de classification ou d’une tâche de régression. 

  • Entrée numérique, sortie numérique : lorsque les entrées et les sorties sont toutes deux numériques, cela indique un problème de prédiction de régression. Les modèles linéaires produisent des prédictions numériques continues, en générant une variable cible qui est un nombre compris dans une plage de valeurs possibles. Dans ces cas, les coefficients de corrélation, tels que le coefficient de corrélation de Pearson, constituent une méthode idéale de sélection des fonctionnalités. 

  • Entrée numérique, sortie catégorielle : les modèles de régression logistique classent les entrées en sorties catégorielles discrètes. Dans ce problème de classification, il est possible d’employer des méthodes de sélection des fonctionnalités basées sur la corrélation qui prennent en charge les variables cibles catégorielles. Celles-ci incluent l’ANOVA pour les modèles de régression linéaire et le coefficient de corrélation de rang de Kendall pour les tâches non linéaires. 

  • Entrée catégorielle, sortie numérique : ce type de défi rare peut également être résolu à l’aide de méthodes de corrélation compatibles avec les variables catégorielles. 

  • Entrée catégorielle, sortie catégorielle : les problèmes de classification avec des entrées et des variables cibles catégorielles se prêtent bien à la méthode du khi-deux ou aux techniques de gain d’information. 

D’autres facteurs à prendre en compte sont la taille du jeu de données et de l’espace des fonctionnalités, la complexité des fonctionnalités et le type de modèle. Les méthodes de filtrage permettent d’éliminer rapidement une grande partie des fonctionnalités non pertinentes, mais elles ont du mal à gérer les interactions complexes entre les fonctionnalités. Dans ces cas, les méthodes d’encapsulation et d’intégration peuvent être plus adaptées.

Pourquoi les caractéristiques sont-elles importantes ?

La sélection des fonctionnalités consiste essentiellement à identifier celles qui doivent être privilégiées. Certaines fonctionnalités sont très utiles pour la modélisation, tandis que d’autres peuvent conduire à des résultats médiocres. Outre leur influence sur les variables cibles, l’importance des fonctionnalités est déterminée par : 

  • Une modélisation facile : si une fonctionnalité est facile à modéliser, le processus global de machine learning est plus simple et plus rapide, avec moins de risques d’erreurs. 

  • Une régularisation simple : les fonctionnalités qui se prêtent bien à la régularisation seront plus efficaces à exploiter. 

  • Une causalité claire : séparer les facteurs causaux d’une fonctionnalité observable permet d’identifier les facteurs sous-jacents qui l’influencent.

Solutions connexes
IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct