Une fois le modèle choisi, il convient de l’entraîner. La phase d’entraînement consiste à exécuter le modèle sur des données d’entraînement spécifiques à une tâche de vision par ordinateur, à mesurer sa performance par rapport à la vérité terrain et à optimiser ses paramètres pour améliorer la performance au fil du temps.
Les CNN se composent de trois types de couches : une couche de convolution, une couche de pooling et une couche entièrement connectée. La couche de convolution est l’endroit où se produit l’extraction des caractéristiques. L’extraction des caractéristiques consiste à déterminer et à capturer des attributs visuels clés à partir de données d’image brutes, tels que les couleurs, les bordures, les formes et les textures. Dans le cas d’images radiographiques de pneumonie, les caractéristiques à extraire comprennent les contours pulmonaires asymétriques, les régions claires qui indiquent une inflammation ou la présence de liquide (par opposition aux régions sombres remplies d’air), les zones pulmonaires nuageuses ou opaques, et les textures grossières ou inégales.4 L’extraction des caractéristiques permet aux algorithmes de distinguer des modèles et des relations significatives dans les données visuelles.
Une image aux rayons X est traitée comme une matrice de valeurs de pixels. Une autre matrice de pondération (paramètres qui contrôlent l’influence d’une fonctionnalité sur la production du modèle), appelée filtre ou noyau, est appliquée à une zone de l’image radiographique, avec un produit scalaire calculé entre les valeurs de pixel d’entrée. Le filtre se déplace, ou « convolue », sur l’image pour extraire les caractéristiques et l’ensemble du processus est connu sous le nom de convolution. La production finale de la série de produits scalaires est appelée carte d’activation ou carte des caractéristiques. Chaque filtre est réglé pour répondre à des modèles spécifiques, tels que des bordures, des formes ou des textures, ce qui permet au CNN d’acquérir plusieurs caractéristiques visuelles simultanément.
La carte des caractéristiques est introduite dans une couche de pooling pour réduire davantage la taille de la carte et compresser ses dimensions. Un autre filtre balaie toute l’entrée, en prenant les valeurs maximales ou moyennes d’un groupe de cellules de la carte des caractéristiques. Les caractéristiques les plus essentielles sont ainsi conservées, ce qui permet au modèle de concentrer son attention sur elles.
Le fait de se déplacer sur une image pour extraire des caractéristiques, réduire les dimensions et produire une classification est connu sous le nom de passage avant. Après ce transfert, le modèle applique une fonction de perte pour calculer son erreur ou la différence entre sa classification prédite et la classification réelle.
Pour minimiser la fonction de perte, la rétropropagation est utilisée. La rétropropagation est un passage en arrière pour calculer le gradient de la fonction de perte par rapport à chaque poids. Ensuite, la technique de descente de gradient est mise en œuvre pour mettre à jour les poids du modèle et l’optimiser.
Enfin, la couche entièrement connectée effectue la tâche de classification en fonction des caractéristiques extraites à partir des couches précédentes et de leurs différents filtres. Le CNN génère ensuite ses sorties, qui sont des probabilités pour chaque classe (dans ce cas, normal versus pneumonie). Pour la tâche de classification des radiographies thoraciques, cette sortie indiquera soit une image normale, soit, si la probabilité dépasse un seuil prédéterminé, une positive pour une pneumonie.