Qu’est-ce que la reconnaissance automatique de la parole ?

14 octobre 2024

 

 

Auteurs

Charlotte Hu

IBM Content Contributor

Amanda Downie

Editorial Strategist, AI Productivity & Consulting

Qu’est-ce que la reconnaissance automatique de la parole ?

La reconnaissance automatique de la parole est le processus qui permet d’analyser des mots prononcés oralement et de les convertir sous forme de texte. Cette technologie est principalement disponible en tant que logiciel-service (SaaS).

Elle associe généralement une technologie de reconnaissance de la parole basée sur l’intelligence artificielle (IA) à la transcription. Un programme informatique capte l’audio sous forme de vibrations d’ondes sonores et utilise des algorithmes linguistiques pour convertir l’entrée audio en caractères numériques, mots et phrases.

Le machine learning, le deep learning et les grands modèles de langage tels que Generative Pre-Trained Transformer (GPT) d’OpenAI ont fait progresser les logiciels de reconnaissance automatique de la parole, car ils sont capables de dégager des schémas dans le langage parlé à partir d’un grand volume d’échantillons audio et de texte.

L’IA générative peut être intégrée aux logiciels de reconnaissance automatique de la parole afin de mettre au point des assistants capables d’aider les clients lors d’un appel téléphonique ou d’interagir avec des applications à commande vocale. L’IA générative peut également reconvertir du texte en parole avec une voix réaliste et naturelle. On parle alors de synthèse vocale.

Comment fonctionne la reconnaissance automatique de la parole ?

Les logiciels de reconnaissance automatique de la parole se composent de plusieurs éléments :

  • Une entrée vocale : un microphone capte les mots prononcés.

  • L’extraction des caractéristiques : l’ordinateur identifie les hauteurs et les modèles distinctifs dans la parole.

  • Un décodeur : l’algorithme fait correspondre les caractéristiques de la parole aux caractères et aux mots à l’aide d’un modèle linguistique.

  • Une sortie mot : le texte final est formaté en respectant la ponctuation et la casse afin qu’il soit lisible par les humains.

En règle générale, le processus de reconnaissance automatique de la parole se compose des étapes suivantes :

  • Le prétraitement audio : une fois les enregistrements audio saisis, ils sont prétraités afin d’améliorer la qualité et la précision de la reconnaissance. Il s’agit notamment de supprimer les bruits de fond et les fréquences non pertinentes, de stabiliser le niveau de volume, de segmenter la séquence pour faciliter le traitement et de convertir le fichier audio dans un format standard.

  • L’analyse des sons et l’extraction des caractéristiques : les signaux vocaux sont souvent représentés sous forme de spectrogrammes (lien externe à ibm.com), c’est-à-dire des représentations visuelles des fréquences dans le temps1. Les parties pertinentes des enregistrements audio sont décomposées en une séquence de phonèmes, qui sont le plus petit élément du langage parlé permettant de différencier un mot d’un autre. Les principales classes de phonèmes sont les voyelles et les consonnes (lien externe à ibm.com)2. Les modèles linguistiques et les décodeurs font correspondre les phonèmes aux mots, puis aux phrases. Les modèles acoustiques basés sur le deep learning sont capables de prédire quels caractères et quels mots sont susceptibles d’apparaître ensuite en fonction du contexte.

La reconnaissance de la parole se décline en trois grandes méthodes : synchrone, asynchrone et en continu.

  • La reconnaissance synchrone consiste à convertir immédiatement la parole en texte. Cette méthode permet de traiter uniquement les fichiers audio d’une durée inférieure à une minute. Elle est utilisée pour le sous-titrage en direct à la télévision.

  • La reconnaissance en continu correspond au traitement de fichiers audio en temps réel, de sorte que des textes fragmentés peuvent apparaître alors que l’utilisateur est encore en train de parler.

  • La reconnaissance asynchrone désigne le traitement de fichiers audio préenregistrés de grande taille en vue de leur transcription. Ils peuvent être mis en file d’attente pour être traités et restitués ultérieurement.

Des entreprises telles que Google3 (lien externe à ibm.com), Microsoft4 (lien externe à ibm.com), Amazon5 (lien externe à ibm.com) et IBM proposent des logiciels de reconnaissance automatique de la parole sous forme d’API dans le cloud, ce qui leur permet d’être utilisés de concert avec d’autres applications, outils et appareils.

Les iPhones d’Apple disposent d’une fonctionnalité de dictée (lien externe à ibm.com) qui s’appuie sur la reconnaissance automatique de la parole6. Les utilisateurs d’Android disposent d’applications telles que Gboard (lien externe à ibm.com). Certains appareils Pixel permettent aux utilisateurs de saisir du texte en parlant par l’intermédiaire de l’Assistant7. Il existe différentes options de logiciels open source et propriétaires en matière de reconnaissance automatique de parole.

Design 3D de balles roulant sur une piste

The latest AI News + Insights 


Expertly curated insights and news on AI, cloud and more in the weekly Think Newsletter. 

L’évolution des systèmes de reconnaissance automatique de la parole

À leurs débuts, les logiciels de reconnaissance de la parole s’appuyaient sur une banque de vocabulaire limitée. Leur adoption récente par des secteurs allant de l’automobile à la santé a été favorisée par les progrès de la science des données, du deep learning et de l’intelligence artificielle.

Dans les années 1950, les Laboratoires Bell (Bell Labs) ont proposé la première configuration de reconnaissance de la parole (lien externe à ibm.com) appelée « AUDREY », capable de reconnaître les chiffres énoncés oralement8. Puis en 1962, IBM a lancé « Shoebox », qui pouvait reconnaître des chiffres et pas moins de 16 mots différents.

Au cours de ces décennies (lien externe à ibm .com), les informaticiens ont mis au point des modèles de reconnaissance des phonèmes et des modèles statistiques tels que les modèles de Markov cachés, qui restent des algorithmes populaires dans le domaine de la reconnaissance de la parole9. Vers les années 1970, un programme de Carnegie Mellon appelé « HARPY » a permis aux ordinateurs de reconnaître un millier de mots.

Dans les années 1980, le système de transcription Tangora d’IBM s’est appuyé sur des méthodes statistiques pour reconnaître jusqu’à 20 000 mots. Il a été utilisé pour la première dictée vocale destinée aux employés de bureau et a jeté les bases des logiciels modernes de reconnaissance automatique de la parole. Ce type de logiciel a continué à être développé et amélioré jusqu’à sa commercialisation dans les années 2000.

Lorsque les algorithmes de machine learning et de deep learning ont fait leur apparition, ils ont remplacé les modèles statistiques et amélioré la précision de la reconnaissance, ce qui a permis de faire évoluer les applications. Le deep learning saisit mieux les nuances et les expressions informelles. Les grands modèles de langage (LLM) peuvent ajouter du contexte, ce qui est utile en cas d’ambigüité dans le choix des mots ou de variations d’accent dans la prononciation. Lorsque les assistants virtuels et les haut-parleurs intelligents ont fait leur apparition, la reconnaissance automatique de la parole a pu intégrer des grands modèles de langage, le traitement automatique du langage naturel (TALN) ainsi que d’autres services cloud.

Les modèles de deep learning de bout en bout tels que les transformers sont essentiels aux grands modèles de langage. Ils sont entraînés sur de grands ensembles de données non étiquetées de paires audio/texte pour apprendre à faire correspondre les signaux audio aux transcriptions.

Au cours de cet entraînement, le modèle apprend implicitement comment les mots sonnent et quels mots sont susceptibles d’apparaître ensemble dans une séquence. Le modèle peut également déduire des règles de grammaire et de construction linguistique à appliquer de manière autonome. Le deep learning regroupe certaines des étapes les plus fastidieuses des techniques traditionnelles de reconnaissance automatique de la parole.

Utilisations de la reconnaissance automatique de la parole

Il existe plusieurs cas d’utilisation pour les logiciels de reconnaissance automatique de la parole :

  1. Analyse en centre d’appel et agent conversationnel
  2. Services de transcription et de traduction en temps réel
  3. Reconnaissance de la voix
  4. Applications de saisie et de dictée vocales
  5. Surveillance de contenu

    Analyse en centre d’appel et agent conversationnel

    Les logiciels de reconnaissance automatique de la parole sont capables de transcrire automatiquement les interactions avec les clients, d’acheminer les appels en fonction des besoins, d’extraire des informations à partir des conversations avec les clients et d’analyser les sentiments.

    Exemple : dans les centres d’appels de service client, les assistants vocaux IA utilisent la reconnaissance automatique de la parole pour traiter les questions plus faciles et plus répétitives des clients et orienter les demandes plus complexes vers des agents humains.

        Services de transcription et de traduction en temps réel

        Cette technologie peut transcrire des compte-rendus de réunion en ligne ou de webinaire et créer des sous-titres, des légendes ou des doublages sur des vidéos. Elle peut également être utilisée par un logiciel de traduction pour offrir des transcriptions de documents en plusieurs langues. Des applications spécialisées offrent des capacités de transcription dans les secteurs de la santé, du droit et de l’éducation.

        Exemple : Amazon (lien externe à ibm.com) propose un service de transcription médicale qui utilise la reconnaissance automatique de la parole pour transcrire les conversations entre le médecin et le patient pour les notes cliniques, et sous-titrer les consultations de télésanté10.

        Reconnaissance de la voix

        Grâce au traitement automatique du langage naturel, la reconnaissance de la voix peut déduire le sens du texte transcrit et en tirer des commandes exploitables et les exécuter. Les utilisateurs peuvent ainsi émettre des commandes vocales pour passer des appels téléphoniques, effectuer des recherches sur le Web ou contrôler les lumières, les thermostats et d’autres appareils connectés dans une maison intelligente par l’intermédiaire de chatbots ou d’assistants numériques tels qu’Alexa, Cortana, Google Assistant et Siri.

        Exemple : Alexa d’Amazon (lien externe à ibm.com) utilise désormais la reconnaissance automatique de la parole et la synthèse vocale pour allumer les lumières, régler la température d’une pièce ou suggérer des recettes en fonction de vos achats récents de produits alimentaires11.

        Applications de saisie et de dictée vocales

        Les personnes handicapées peuvent utiliser ces applications pour interagir avec les ordinateurs et les smartphones sans avoir à saisir de texte physiquement. À la place, elles peuvent dicter des messages textuels, des notes, des e-mails et bien plus encore.

        Exemple : Les étudiants qui souffrent de dyslexie ou d’une blessure récente au bras peuvent continuer à saisir des notes en utilisant leur voix sur un ordinateur Microsoft (lien externe à ibm.com)12. Cette capacité est assurée par les services Azure Speech.

        Surveillance de contenu

        L’IA peut passer au peigne fin les transcriptions de vidéos et de clips audio pour détecter les contenus inappropriés et agir en tant que modérateur pour signaler les documents contestables afin qu’ils soient examinés par des humains.

        Exemple : Vatis Tech (lien externe à ibm.com) propose un outil qui utilise la reconnaissance automatique de la parole pour surveiller les réseaux sociaux dans le domaine du marketing. Les marques peuvent ainsi identifier les tendances et les intentions qui se cachent derrière les interactions avec les clients13.

        Notes de bas de page

        1. From Sound to Images, Part 1: A deep dive on spectrogram creation (lien externe à ibm.com), Cornell Lab Macaulay Library, 19 juillet 2021

        2. Lecture 12: An Overview of Speech Recognition (lien externe à ibm.com), University of Rochester Computer Science

        3. Transformez des paroles en texte grâce à l’IA de Google (lien externe à ibm.com), Google Cloud

        4. API REST de reconnaissance vocale (lien externe à ibm.com), Microsoft

        5. Amazon Transcribe API reference (lien externe à ibm.com), AWS

        6. Guide d’utilisation de l’iPhone (lien externe à ibm.com), Apple

        7. Dicter du texte (lien externe à ibm.com), Aide Google

        8. Audrey, Alexa, Hal, and more (lien externe à ibm.com), Computer History Museum, 9 juin 2021

        9. Speech Recognition: Past, Present, Future (lien externe à ibm.com), Carnegie Mellon University Computer Science

        10. Amazon Transcribe Medical (lien externe à ibm.com), AWS

        11. Alexa unveils new speech recognition, text-to-speech technologies (lien externe à ibm.com), Amazon, 20 septembre 2023

        12. Utiliser la saisie vocale pour parler au lieu de taper sur votre PC (lien externe à ibm.com), Microsoft

        13. Media Monitoring Intelligence - Turn any Audio to Insights (lien externe à ibm.com), Vatis Tech

        Solutions connexes IBM Watson Speech to Text

        Convertissez la parole en texte en utilisant la reconnaissance vocale et la transcription alimentées par l’IA

        watsonx Orchestrate

        Créez votre assistant IA avec Orchestrate pour rationaliser les efforts de votre équipe et récupérer des heures dans votre journée.

        IBM Watson Speech Libraries for Embed

        Associez-vous à IBM pour intégrer des fonctionnalités vocales à vos solutions

        Ressources

        Convertissez la parole en texte et extrayez des informations importantes à partir des données
        Tutoriel

        Découvrir le tutoriel

        IBM watsonx Orchestrate
        Essai

        Essayer watsonx

        Au-delà du battage médiatique – Comment les assistants IA génèrent une réelle valeur commerciale
        Rapport

        Lancez-vous

        Learn to Build with GenAI
        Webinaire

        Regarder à la demande

        Passez à l’étape suivante

        Commencez rapidement avec nos modèles avancés de machine learning ou personnalisez-les en fonction de votre cas d’utilisation.

        En savoir plus sur Watson Speech to Text