Le machine learning fonctionne selon une logique mathématique. Les caractéristiques pertinentes de chaque point de données doivent donc être exprimées numériquement, afin que les données puissent être incorporées dans un algorithme mathématique qui « apprendra » à associer une entrée donnée à la sortie souhaitée.
En machine learning, les points de données sont généralement représentés sous forme vectorielle : chaque élément (ou dimension) de la représentation vectorielle du point de données correspond à la valeur numérique associée à une caractéristique particulière. Pour les modalités de données intrinsèquement numériques, telles que les données financières ou les coordonnées géospatiales, cela est relativement simple.
Mais de nombreuses modalités de données, telles que le texte, les images, les données des graphiques sur les réseaux sociaux ou le comportement des utilisateurs d’applications, ne sont pas intrinsèquement numériques et impliquent donc une ingénierie des caractéristiques moins intuitive pour être exprimées d’une manière compatible avec le ML.
Le processus (souvent manuel) qui consiste à choisir les aspects des données à utiliser dans les algorithmes de machine learning est appelé sélection des caractéristiques.
Les techniques d’extraction des caractéristiques permettent d’affiner les données en ne retenant que les dimensions les plus pertinentes et les plus significatives. Les deux sont des branches de l’ingénierie des caractéristiques, le prétraitement des données brutes à utiliser dans le machine learning.
L’une des particularités de l’apprentissage profond est qu’il s’appuie généralement sur des données brutes et qu’il automatise une grande partie du processus d’ingénierie des caractéristiques, ou du moins leur extraction. Cela rend l’apprentissage profond plus évolutif, bien que moins interprétable que le machine learning traditionnel.
Paramètres et optimisation des modèles de machine learning
Prenons un exemple pratique. Prenons l’exemple d’un algorithme de régression linéaire simple pour prédire les prix de vente immobiliers basé sur une combinaison pondérée de trois variables : la superficie, l’âge de la maison et le nombre de chambres.
Chaque maison est représentée sous la forme d’un embedding à 3 dimensions : [square footage, bedrooms, age]
. Une maison de 30 ans de 175 mètres carrés comportant 4 chambres peut être représentée comme [1900, 4, 30]
(bien qu’à des fins mathématiques, ces chiffres puissent d’abord être mis à l’échelle, ou normalisés, dans une fourchette plus uniforme).
L’algorithme est une fonction mathématique simple :
Prix = (A * superficie) + (B * nombre de chambres) – (C * âge) + prix de base
Ici, , et sont les paramètres du modèle : ils permettent d’ajuster le poids de chaque variable dans le modèle. L’objectif du machine learning est de trouver les valeurs optimales pour ce type de paramètres de modèle : en d’autres termes, les valeurs qui permettent à la fonction globale de produire des résultats précis.
Bien que la plupart des applications concrètes du machine learning impliquent des algorithmes plus complexes, avec un plus grand nombre de variables d’entrée, le principe reste le même : optimiser les paramètres ajustables de l’algorithme pour obtenir une plus grande précision.