Collecte des données et prétraitement : la première étape consiste à recueillir un nombre important et varié d’images pour chaque groupe. Les données doivent être étiquetées, puis normalisées. La normalisation et d’autres techniques d’augmentation des données comprennent le redimensionnement des images pour obtenir des dimensions fixes, la normalisation de la valeur des pixels, etc.
Sélection du modèle : la prochaine étape du workflow est la sélection du modèle. L’architecture sélectionnée est très probablement un CNN. Comme nous l’avons vu précédemment, le CNN détecte les caractéristiques les plus complexes à mesure que les données se déplacent dans ses couches.
Entraînement et validation des modèles : après la sélection, les images étiquetées sont divisées en jeux de données d’entraînement, de validation et de test. Le réseau utilise ces jeux pour optimiser et ajuster ses poids de manière répétée, en minimisant les erreurs entre les étiquettes prédites et les étiquettes réelles. La prévention du surapprentissage est assistée par les données de validation, et ce processus d’entraînement peut continuer jusqu’à ce que les résultats atteignent une norme prédéterminée.
Au cours de cette étape, un jeu de données d’images annotées par des humains, comme ImageNet, peut être appliqué. ImageNet est une collection énorme, de plus de 14 millions d’images. Ces images sont toutes organisées et étiquetées pour apprendre aux ordinateurs à reconnaître les objets dans les images. Chaque image de la base de données est étiquetée avec des catégories appelées « synsets ». Ces synsets incluent des éléments tels que « chien », « voiture » ou « pomme », et utilisent un cadre appelé WordNet.
Extraction des caractéristiques : lors de cette étape, contrairement à la classification d’images basée sur des règles, les modèles d’apprentissage profond apprennent les caractéristiques à partir des données d’image brutes extraites. Cette approche permet au réseau d’établir des descriptions internes pour distinguer les groupes ou les classes.
Évaluation et déploiement : ensuite, le modèle est évalué sur la base des données de test, et affiné si nécessaire. Le modèle est alors déployé pour faire des prédictions sur de nouvelles images dans un environnement réel, si les indicateurs attendus sont respectés.