My IBM Se connecter S’abonner

Qu’est-ce que la reconnaissance optique de caractères (OCR) ?

18 avril 2024

Qu’est-ce que l’OCR ?

La reconnaissance optique de caractères (OCR) est une technologie qui extrait automatiquement les données pour convertir rapidement les images de texte dans un format lisible par les machines.

Parfois appelé « reconnaissance de texte », l’OCR permet d’extraire et de réaffecter les données à partir de documents numérisés, d’images prises avec un appareil photo et de fichiers PDF contenant uniquement des images. Le logiciel OCR distingue les lettres figurant dans les images, forme des mots, puis des phrases pour permettre l’accès au contenu d’origine, ainsi que sa modification. Il élimine les tâches de saisie manuelle répétitives.

Les systèmes OCR associent matériel et logiciel pour convertir les documents imprimés sur supports physiques en texte lisible par les machines. Le matériel, tel qu’un scanner optique ou une carte de circuit imprimé spécialisée, copie ou lit le texte, puis le logiciel se charge du traitement avancé.

Les logiciels OCR peuvent exploiter l’intelligence artificielle (IA) pour appliquer des méthodes de reconnaissance intelligente de caractères (ICR) plus avancées et identifier ainsi les langues ou l’écriture manuscrite. Les entreprises font souvent appel à l’OCR pour convertir les documents juridiques ou historiques imprimés au format PDF. Les utilisateurs peuvent ainsi modifier, mettre en forme et interroger les documents comme s’ils avaient été créés avec un logiciel de traitement de texte.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

L’histoire de l’OCR

En 1974, Ray Kurzweil a lancé Kurzweil Computer Products, Inc. et son produit OCR omni-police capable de reconnaître les textes imprimés, quelle que soit la police utilisée. Convaincu que la meilleure application de cette technologie serait un appareil de machine learning (ML) pour les malvoyants, il a créé une machine capable de lire les textes à haute voix dans un format Text to Speech. En 1980, Kurzweil a vendu son entreprise à Xerox, qui souhaitait explorer davantage la conversion des textes papier au format numérique.

La technologie OCR s’est popularisée au début des années 1990, avec la numérisation des journaux historiques. Depuis lors, cette technologie ne cesse de s’améliorer. Aujourd’hui, les produits offrent une précision OCR proche de la perfection. Ces méthodes avancées permettent d’automatiser les workflows de traitement de documents les plus complexes.

Avant l’arrivée de la technologie OCR, la seule option pour formater numériquement les documents était de saisir les textes manuellement. En plus d’être répétitive et chronophage, cette tâche entraîne inévitablement des inexactitudes et des erreurs de frappe. Aujourd’hui, les services OCR sont largement accessibles au public. Par exemple, Google Cloud Vision OCR permet la numérisation et le stockage des documents sur votre smartphone.

Groupe d’experts | Podcast

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l'actualité et des dernières tendances dans le domaine de l’IA.

L’OCR : comment ça marche ?

Le logiciel OCR utilise un scanner pour retraiter la forme physique d’un document en texte numérique modifiable. Il peut fonctionner comme un programme autonome, une interface de programmation des applications OCR ou un service Web.

Acquisition d’images : toutes les pages du document sont copiées, puis le moteur OCR convertit le document numérique en version bicolore ou noir et blanc. L’image numérisée ou le bitmap est analysé pour déterminer les parties claires et foncées. Le programme identifie ensuite les parties sombres comme des caractères qui doivent être reconnus, tandis que les zones claires sont identifiées comme un arrière-plan.

Prétraitement : l’image numérique est nettoyée pour éliminer les pixels superflus. Il peut s’agir de corriger l’alignement de l’image lors de la numérisation, de supprimer les règles graphiques et les cases figurant dans l’image imprimée et de déterminer si un texte de script est inclus.

Reconnaissance de texte : les parties sombres sont traitées pour identifier les lettres, les chiffres ou les symboles. Cette étape consiste généralement à cibler un caractère, un mot ou un bloc de texte à la fois. Les caractères sont ensuite identifiés à l’aide de l’un de ces deux algorithmes : la reconnaissance de motifs ou la reconnaissance de caractéristiques.

  • Reconnaissance de motifs (ou correspondance de motifs) : le programme OCR a été entraîné au préalable sur des exemples de texte dans différents formats et polices pour reconnaître les caractères en les comparant à un modèle présent dans le document numérisé ou dans le fichier image. Chaque combinaison de formes, d’échelles et de polices est appelée glyphe. Pour que cela fonctionne, les caractères doivent afficher la police sur laquelle le programme OCR a été entraîné. Compte tenu du nombre de polices disponibles et de langues qui utilisent des caractères différents, comme l’arabe, le chinois, l’anglais, le français, l’allemand, le grec, le japonais, le coréen et l’espagnol, entraîner le programme sur chaque combinaison de polices et de langues représenterait une énorme charge de travail pour le système.


  • Reconnaissance des caractéristiques (détection ou extraction) : fonctionnalité utilisée lorsque le programme OCR analyse une police sur laquelle il n’a pas été entraîné. L’OCR applique les règles associées aux caractéristiques d’une lettre ou d’un chiffre donnés pour reconnaître les caractères dans le document numérisé. Ces caractéristiques comprennent le nombre de lignes angulaires, d’intersections de lignes, de boucles ou de courbes présentes dans un caractère. Par exemple, la lettre « A » majuscule est stockée sous la forme de deux lignes diagonales qui se rejoignent avec une ligne horizontale au milieu. Les caractères identifiés sont convertis en code ASCII (American Standard Code for Information Interchange), sur lequel les systèmes informatiques s’appuient pour gérer les manipulations ultérieures.

Reconnaissance de la mise en page : les programmes OCR plus complets analysent également la structure des images contenues dans le document. Ils divisent la page en éléments (par exemple, blocs de texte, tableaux ou images). Les lignes sont divisées en mots, puis en caractères. Une fois les caractères isolés, le programme les compare avec un ensemble d’images de motifs. Après avoir traité toutes les correspondances probables, le programme renvoie le texte reconnu.

Post-traitement : les informations recueillies sont stockées au format numérique : fichier modifiable ou PDF. Certains systèmes conservent simultanément l’image d’entrée et les versions post-OCR pour faciliter la comparaison et une gestion plus complète des documents.

Types d’OCR

Il existe quatre types de programmes OCR, avec des niveaux de complexité différents :

OCR simple : l’analyse consiste à mettre en correspondance les modèles caractère par caractère, en comparant les caractères numérisés aux glyphes stockés. Vu le nombre important de combinaisons de polices et de langues possibles, les types de documents qui peuvent être analysés sont limités.

Reconnaissance optique de marques (OMR) : ce type de programme permet d’identifier les cases cochées, ainsi que d’ autres marques comme les bulles dans les sondages ou une signature sur un formulaire, mais aussi les logos, les symboles et les filigranes. Pour être identifiés, ces éléments sont comparés aux images stockées, comme avec un programme OCR simple.
 
Reconnaissance intelligente de caractères (ICR) : comme mentionné précédemment, l’ICR exploite la puissance de l’IA. Grâce au ML ou à l’apprentissage profond, le programme OCR apprend à lire comme un humain, grâce à une pratique et à un entraînement continus. Un réseau neuronal examine le texte de manière répétée à la recherche d’attributs distinctifs : emplacement des courbes, intersections, lignes et boucles.

Reconnaissance intelligente des mots  : dans la continuité de la reconnaissance ICR, l’IA est désormais entraînée à reconnaître les mots dans une image pour accélérer le processus.

Les avantages de l’OCR

Voici quelques-uns des avantages de la technologie OCR :

  • Réduire les coûts en diminuant ou en éliminant les tâches répétitives de saisie manuelle.

  • Rationaliser les workflows grâce à la saisie de documents pré-imprimés ou de formulaires écrits, et accélérer la recherche grâce aux données numériques interrogeables.

  • Automatiser l’acheminement des documents, le traitement du contenu et la préparation à des fins d’exploration de texte.

  • Éviter les dépenses liées au stockage des documents papier.

  • Centraliser et sécuriser les jeux de données pour les protéger contre le risque d’incendie, d’effraction et de perte (documents stockés dans les coffres-forts des banques).

  • Faciliter l’accès aux données aux personnes malvoyantes (personnel et clients).

  • Améliorer le service en fournissant aux équipes des informations exactes et à jour.

Cas d’utilisation de l’OCR

Le cas d’utilisation le plus connu de l’OCR est la conversion des documents papier imprimés en documents texte lisibles par les machines. Une fois le document papier numérisé soumis au traitement OCR, son texte peut être modifié à l’aide d’un logiciel de traitement de texte comme Microsoft Word ou Google Docs. Les différents cas d’utilisation permettent d’accélérer les workloads de nombreux secteurs : éducation, finance, santé, logistique, transport, traitement et récupération des documents de prêt, dossiers médicaux, formulaires d’assurance, étiquettes, factures et reçus.

Souvent discrète, la technologie OCR alimente de nombreux systèmes et services bien connus de notre quotidien. Parmi les cas d’utilisation moins connus, mais non moins importants de la technologie OCR, citons l’automatisation de la saisie de données, l’assistance aux personnes aveugles ou malvoyantes, l’indexation des documents pour les moteurs de recherche (passeports, plaques d’immatriculation, factures, relevés bancaires, traitement et transcription des chèques, cartes de visite) et la reconnaissance automatique des plaques d’immatriculation.

L’OCR permet d’optimiser la modélisation des big data en convertissant les documents papier et les images numérisées en fichiers PDF lisibles par les machines et interrogeables. Le traitement et la récupération d’informations importantes impliquent tout d’abord l’application de l’OCR aux documents où les calques de texte ne sont pas déjà présents.

Grâce à la reconnaissance de texte OCR, les documents numérisés peuvent être intégrés dans un système de big data qui est ensuite capable de lire les données clients à partir de relevés bancaires, de contrats et d’autres documents imprimés importants. Au lieu de demander aux équipes d’examiner d’innombrables documents image et d’introduire manuellement les entrées dans un workflow de traitement du big data automatisé, les entreprises peuvent s’appuyer sur l’OCR pour automatiser ce processus lors de l’étape de saisie de l’exploration des données. Les logiciels OCR ont été conçus pour extraire le texte présent dans les images, enregistrer le fichier texte et prendre en charge plusieurs formats, notamment jpg, jpeg, png, bmp, tiff et pdf.

Dernières avancées en matière d’OCR

La technologie OCR a considérablement progressé au-delà des premiers systèmes d’entreprise en 1974 et les progrès se poursuivent. Des programmes OCR de qualité supérieure peuvent permettre d’extraire des informations clés à partir de documents dans des conditions sous-optimales, telles que des polices irrégulières, une résolution insuffisante, un mauvais éclairage dû à la capture mobile et des couleurs et arrière-plans variés.

En associant vision par ordinateur, traitement automatique du langage naturel, représentation améliorée de l’information et optimisation des modèles, les entreprises s’offrent désormais un niveau de compréhension des documents inégalé. Parmi les améliorations apportées, citons l’analyse de la mise en page et de l’ordre de lecture dans les documents complexes, la compréhension des visuels et leur représentation sous forme de graphiques et de diagrammes. Certains programmes OCR sont désormais alimentés par l’IA générative pour structurer les données des documents encore plus rapidement. Une technologie « ancienne » continue d’apprendre de nouvelles astuces.

Solutions connexes

Solutions connexes

IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise grâce à l’expertise de pointe d’IBM en matière d’IA et à son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct