Qu’est-ce que la classification d’images ?

Qu’est-ce que la classification d’images ?

La classification d’images consiste à classer les images dans des catégories prédéfinies. En machine learning, les modèles apprennent à reconnaître et à classer les images.

Les humains classent les images dès le plus jeune âge. Lorsqu’un enseignant demande à des élèves de maternelle de classer des images de plantes et d’animaux en piles, ils utilisent les caractéristiques qu’ils ont apprises sur chaque catégorie pour mener à bien leur tâche. Chacune de ces catégories possède des fonctionnalités différentes qui différencient les plantes des animaux. Les adultes ne se souviennent peut-être pas d’avoir appris les caractéristiques distinctes qui distinguent les deux catégories, car une grande partie de la façon dont nous savons les classer vient naturellement.

Apprendre à un modèle d’intelligence artificielle (IA) à effectuer la même tâche peut être beaucoup plus difficile. La principale différence ici est que les modèles d’IA doivent apprendre à « voir », alors que les humains naissent avec cette capacité. Ainsi, dès le départ, l’humain peut faire la distinction entre une chaussure et un être vivant. La classification d’images basée sur des règles s’appuie sur des étiquettes ou des annotations pour créer ces distinctions. La classification statistique des images consiste à entraîner les modèles à reconnaître les schémas intégrés dans les images, éliminant ainsi une grande partie du travail d’étiquetage manuel.

Qu’est-ce que la vision par ordinateur ?

La vision par ordinateur est la branche plus générale de l’IA dans laquelle s’inscrit la classification d’images. Elle utilise le machine learning et, souvent, les réseau de neurones pour permettre aux ordinateurs d’interpréter les données visuelles telles que les images et les vidéos. Si les premières expériences en matière de vision par ordinateur datent des années 1950, la plupart des experts s’accordent à dire que ce n’est qu’en 1970 que cette technique a commencé à être utilisée à des fins commerciales.

La vision par ordinateur permet aux ordinateurs d’extraire des données utiles de ce qu’ils voient. Ce processus leur permet également de réagir en faisant des recommandations ou même en prenant des mesures lorsqu’ils détectent des problèmes ou des anomalies dans les données visuelles. Le domaine de la reconnaissance d’images fait également partie de la vision par ordinateur. Ce terme général est utilisé pour décrire la capacité d’un ordinateur à interpréter une ou plusieurs images. Pour récapituler, la vision par ordinateur est la catégorie dont relèvent les tâches de reconnaissance d’images et encore plus précisément, la classification d’images.

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Types de classification d’images

Classification d’images basée sur des règles

Cette méthode repose sur un processus de collecte et d’étiquetage d’images strictement développé pour correspondre à une tâche ou à un objectif de classification. Ce processus est effectué manuellement par des experts qui sélectionnent les caractéristiques de l’image offrant le plus d’informations visuelles. La classification d’images basée sur des règles regroupe les clusters de pixels similaires en classes en appliquant ces règles, qui sont construites à partir de connaissances spécialisées. Elle permet également une classification interprétable et personnalisable, sans s’appuyer sur des modèles de machine learning complexes.

Imaginez une boîte de photos que vous devez ranger. La collection contient des photographies de lacs, de chiens et de voitures. Comme vous n’avez aucun outil de pointe à votre disposition avec cette méthode, vous devez créer une liste. 

La liste peut ressembler à ce qui suit :

  • Pour les « voitures », vous recherchez des pneus, des portières et des rétroviseurs.

  • Pour les « chiens », vous regardez s’ils ont des oreilles tombantes, la queues qui remue pendantes et un long museau.

  • Pour les « lacs », cherchez les photos avec beaucoup d’eau et un littoral.

Cet exemple montre que la classification basée sur des règles repose sur des règles prédéfinies et des outils créés par les humains. Cette méthode s’oppose à celle qui consiste à laisser un ordinateur « apprendre » de nouvelles règles par lui-même. Cette forme de classification d’images peut inclure des techniques telles que la mise en correspondance des templates et le seuillage.

La mise en correspondance des templates consiste à faire glisser une image template sur une image d’entrée plus grande et à calculer le degré de similarité à chaque position pour trouver les régions qui correspondent à l’image template.

Le seuillage segmente les images en convertissant les valeurs de pixel en binaire en fonction d’une valeur limite définie. Cette méthode différencie les caractéristiques de l’arrière-plan en fonction de leur intensité.

Combinées à l’apprentissage par renforcement basé sur des règles, ces techniques favorisent des systèmes de classification d’images robustes et interprétables. La classification basée sur des règles peut être effectuée en implémentant des algorithmes des k plus proches voisins ou de forêt aléatoire.

Mixture of Experts | 12 décembre, épisode 85

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Classification statistique des images 

Cette méthode de classification est un peu plus complexe que la méthode de classification d’images basée sur des règles. La classification statistique des images est conçue pour apprendre et reconnaître automatiquement les schémas dans les images. Pour classer efficacement les images, cette méthode repose en grande partie sur de grands jeux de données étiquetés et sur des architectures puissantes, généralement des réseaux de neurones convolutifs (CNN). Ces CNN utilisent trois types de couches de complexité croissante pour identifier des parties de l’image. Au fur et à mesure que les données se déplacent dans les différentes couches du CNN, un nombre croissant de composants sont reconnus jusqu’à ce que l’image puisse être classée.

Diagramme détaillé illustrant un réseau neuronal convolutif (CNN) traitant une image d’un zèbre.
Schéma d’un réseau de neurones convolutifs (CNN)

Méthodes avec distribution

Les techniques traditionnelles basées sur la distribution reposent sur des hypothèses claires concernant les propriétés statistiques des données d’image. Des méthodes telles que l’estimation par maximum de vraisemblance (MLE) et les classifieurs bayésiens analysent les distributions de probabilité des intensités de pixel ou des caractéristiques pour attribuer des classes. Dans la classification d’images, la méthode MLE attribue chaque pixel à la classe dont le modèle statistique explique le mieux les données collectées. La classification bayésienne utilise le théorème de Bayes pour calculer la probabilité qu’une image appartienne à une certaine classe, en fonction des connaissances antérieures et des données collectées. Le théorème permet « d’inverser » les probabilités conditionnelles. Il combine les probabilités préalables des classes avec la vraisemblance des caractéristiques observées pour prédire la classe la plus probable pour un segment d’image donné. Ces algorithmes nécessitent une modélisation statistique de chaque classe et effectuent la classification en estimant la probabilité qu’un pixel ou un segment appartienne à chaque classe sur la base de ces modèles.

Formule de calcul de la probabilité conditionnelle
Formule de calcul de la probabilité conditionnelle

L’estimation par maximum de vraisemblance (MLE) est une méthode statistique utilisée pour estimer les paramètres d’un modèle en trouvant les valeurs qui rendent les données observées les plus probables. Dans la classification d’images, la méthode MLE attribue chaque pixel ou segment à la classe dont le modèle statistique maximise la probabilité de générer les données observées.

Méthodes sans distribution

Les réseaux de neurones convolutifs (CNN) représentent une approche plus moderne, sans distribution, qui apprend les caractéristiques directement à partir des données, sans s’appuyer sur des règles statistiques clairement énoncées. Les CNN comportent plusieurs couches qui détectent progressivement les caractéristiques de l’image, des plus simples aux plus complexes. Ils utilisent des opérations telles que les convolutions et le pooling. Dans ce cas, une convolution est l’opération mathématique utilisée par le CNN pour extraire des caractéristiques à partir des données et images d’entrée. Cette opération utilise un filtre ou un noyau qui glisse sur l’entrée. Le pooling applique également un filtre à l’ensemble de l’entrée, mais contrairement à la convolution, ce filtre ne contient pas de paramètres pondérés. L’entraînement des CNN exige de grands jeux de données étiquetés et des ressources informatiques, mais permet souvent d’améliorer considérablement la précision grâce à leur capacité à extraire automatiquement des caractéristiques hiérarchiques à partir des données d’images brutes.

Image triangulaire divisée en trois sections, chacune avec des icônes de vélos stylisées. La pyramide est composée de différents tons de bleu, créant un effet dégradé. La conception met l’accent sur la simplicité et les formes géométriques, sans texte ni valeurs numériques visibles.
Diagramme hiérarchique
Représentation visuelle du filtrage matriciel appliqué à une grille numérique. L’image d’entrée affiche une grille 3 x 3 avec des nombres, tandis que le filtre et la matrice de production présentent le processus de transformation.
Diagramme d’une matrice de réseau neuronal convolutif (CNN)

Comment fonctionne la classification statistique d’images ?

Collecte des données et prétraitement : la première étape consiste à recueillir un nombre important et varié d’images pour chaque groupe. Les données doivent être étiquetées, puis normalisées. La normalisation et d’autres techniques d’augmentation des données comprennent le redimensionnement des images pour obtenir des dimensions fixes, la normalisation de la valeur des pixels, etc.

Sélection du modèle : la prochaine étape du workflow est la sélection du modèle. L’architecture sélectionnée est très probablement un CNN. Comme nous l’avons vu précédemment, le CNN détecte les caractéristiques les plus complexes à mesure que les données se déplacent dans ses couches.

Entraînement et validation des modèles : après la sélection, les images étiquetées sont divisées en jeux de données d’entraînement, de validation et de test. Le réseau utilise ces jeux pour optimiser et ajuster ses poids de manière répétée, en minimisant les erreurs entre les étiquettes prédites et les étiquettes réelles. La prévention du surapprentissage est assistée par les données de validation, et ce processus d’entraînement peut continuer jusqu’à ce que les résultats atteignent une norme prédéterminée.

Au cours de cette étape, un jeu de données d’images annotées par des humains, comme ImageNet, peut être appliqué. ImageNet est une collection énorme, de plus de 14 millions d’images. Ces images sont toutes organisées et étiquetées pour apprendre aux ordinateurs à reconnaître les objets dans les images. Chaque image de la base de données est étiquetée avec des catégories appelées « synsets ». Ces synsets incluent des éléments tels que « chien », « voiture » ou « pomme », et utilisent un cadre appelé WordNet.

Extraction des caractéristiques : lors de cette étape, contrairement à la classification d’images basée sur des règles, les modèles d’apprentissage profond apprennent les caractéristiques à partir des données d’image brutes extraites. Cette approche permet au réseau d’établir des descriptions internes pour distinguer les groupes ou les classes.

Évaluation et déploiement : ensuite, le modèle est évalué sur la base des données de test, et affiné si nécessaire. Le modèle est alors déployé pour faire des prédictions sur de nouvelles images dans un environnement réel, si les indicateurs attendus sont respectés.

Modèles et algorithmes de classification d’images

Divers modèles et algorithmes ont été développés pour la classification d’images. Ils vont des approches comme les K plus proches voisins (KNN), les forêts aléatoires et les machines à vecteurs de support (SVM), aux architectures telles qu’AlexNet, GoogLeNet et ResNet. Chaque méthode offre des degrés différents de précision, d’évolutivité et de complexité. Ces options permettent aux utilisateurs de choisir entre les classifieurs les plus simples et les réseaux neuronaux convolutifs (CNN) hautement avancés, capable d’apprendre les caractéristiques hiérarchiques profondes à partir des images. Nous examinerons ces algorithmes et modèles plus en détail.

  • K plus proches voisins (KNN) : cet algorithme est un classifieur d’apprentissage supervisé largement utilisé pour les tâches de classification d’images. Il utilise la distance euclidienne pour mesurer la similarité des nouveaux points de données avec tous les autres points de données existants dans chaque jeu de données. Dans la classification d’images, chaque image est d’abord représentée sous la forme d’un vecteur de caractéristique. Ce dernier peut inclure des valeurs de pixels brutes, des histogrammes de couleurs ou tout descripteur numérique qui capte les caractéristiques visuelles importantes de l’image. L’image est classée en la comparant aux « k » images les plus similaires dans le jeu d’entraînement étiqueté et en attribuant l’étiquette la plus courante parmi ces voisins. Il utilise ensuite la distance euclidienne, mentionnée précédemment, pour mesurer la similarité.

  • Forêt aléatoire : un autre classifieur d’images supervisé, connu pour sa flexibilité et sa facilité d’utilisation. L’algorithme de classification est composé de plusieurs arbres de décision. Chaque sortie de ces arbres de décision est calculée en moyenne, puis combinée pour obtenir la sortie finale. La forêt aléatoire classe les images en créant un ensemble d’arbres de décision, chacun entraîné sur différents échantillons d’images et sous-ensembles de caractéristiques provenant des données. Pour une nouvelle image, chaque arbre prédit une étiquette de classe, et la classe qui obtient le plus de votes est finalement attribuée à cette image.

  • Machine à vecteurs de support (SVM) : couramment utilisé pour résoudre les problèmes de classification, cet algorithme de machine learning identifie la limite idéale pour maximiser la marge entre les points de données les plus proches des classes adverses.

  • AlexNet : pionnier dans le monde des CNN d’apprentissage profond, ce modèle a gagné en popularité grâce à sa conception simple et à des couches profondes. Ce modèle utilise ReLU comme fonction d’activation au lieu de la fonction sigmoïde.


  • GoogLeNet/Inception : créé par Google, ce modèle utilise des modules Inception. Chaque module Inception contient 4 chemins avec des tailles de filtre différentes, et GoogLeNet a 4 modules Inception parallèles les uns aux autres. Les résultats de chaque module Inception sont ensuite combinés pour former une seule sortie. Les chercheurs ont constaté que le réglage fin d’un modèle pré-entraîné comme Inception donnait des résultats plus précis.

  • ResNet : ce modèle introduit des connexions résiduelles, ou des raccourcis, permettant aux données de prendre un autre chemin et de sauter certaines couches du réseau. ResNet a permis d’entraîner des réseaux plus profonds avec une performance satisfaisante sur des réseaux comportant jusqu’à 152 couches.

  • Modèle personnalisé TensorFlow : une autre option consiste à créer des modèles de A à Z en utilisant TensorFlow et Keras. Cette approche consiste à construire des couches telles que Conv2D, MaxPooling2D et Dense. En outre, les fonctions d’activation permettant de créer un pipeline d’apprentissage profond capable de classer les images après l’entraînement sur des exemples étiquetés.
ML traditionnel et apprentissage profond
ML traditionnel et apprentissage profond

Cas d’utilisation de la classification d’images

Secteur automobile : la classification d’images et la détection d’objets sont de plus en plus présentes dans les véhicules. La détection d’objets permet aux conducteurs d’obtenir des informations en temps réel sur leur environnement. Cette fonctionnalité peut s’avérer utile dans les zones inconnues ou à fort trafic. L’efficacité de la détection d’objets dépend fortement de la capacité de ce CNN à classer les images.

Classification des maladies des plantes par image foliaire : des chercheurs ont développé un modèle capable de détecter 13 maladies des plantes sur des feuilles saines. Ce modèle est également capable de distinguer une feuille ou des feuilles de son environnement. Un tel modèle pourrait être primordial pour déterminer si un environnement a été infecté par exemple par la maladie des feuilles de hêtre.

Imagerie médicale et de santé : la classification des images par apprentissage profond (CNN) peut fournir des images radiographiques de poumons infectés par une pneumonie. Les médecins et les techniciens médicaux peuvent être en mesure d’identifier les cas de pneumonie plus rapidement et plus précisément tout en le faisant de manière plus rentable.

Conclusion :

La classification d’images est un composant clé de la vision par ordinateur. Elle permet aux machines de donner un sens au monde visuel de la même manière que le font les humains. Des méthodes de classification des images basées sur des règles qui reposent sur la sélection manuelle des fonctionnalités à la classification statistique avancée des images avec des CNN capables de reconnaître des modèles subtils avec une grande précision, ce domaine continue d’évoluer rapidement. Son impact est déjà ressenti dans les secteurs de la santé, de l’automobile et de l’environnement. Cet outil permet aux utilisateurs d’accélérer leur prise de décision et d’améliorer la sécurité globale. À mesure que les modèles de classification des images deviennent plus sophistiqués, ils amélioreront non seulement les applications existantes, mais ouvriront également la porte à des possibilités entièrement nouvelles.

Solutions connexes
IBM Maximo Visual Inspection

Exploitez toute la puissance de la vision par ordinateur no-code pour l'automatisation des inspections visuelles.

Explorez Maximo Visual Inspection
Conseil et services en Intelligence Artificielle (IA)

IBM Consulting et ses services d'IA accompagnent les entreprises dans la redéfinition de leurs activités avec l'intelligence artificielle pour mener leur transformation.

Découvrez les services d’intelligence artificielle
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise grâce à l’expertise de pointe d’IBM en matière d’IA et à son portefeuille de solutions.

Découvrir les solutions d’IA
Passez à l’étape suivante

IBM Maximo Visual Inspection met la puissance de la vision par ordinateur basée sur l’IA entre les mains de vos équipes en charge du contrôle qualité et des inspections. Libérez tout le potentiel de la vision par ordinateur no-code pour automatiser vos inspections visuelles.

Explorez Maximo Visual Inspection Découvrir le produit