Également appelée reconnaissance automatique de la parole, reconnaissance de la parole par ordinateur ou synthèse vocale, la reconnaissance vocale est une fonctionnalité qui utilise le traitement du langage naturel pour transcrire la parole humaine dans un format écrit. Bien qu'elle soit communément confondue avec la reconnaissance vocale, la reconnaissance de la parole se concentre sur la traduction d'une parole d'une forme verbale en un texte tandis que la reconnaissance vocale cherche uniquement à identifier la voix d'un utilisateur individuel.
IBM a joué un rôle de premier plan dans la reconnaissance vocale depuis sa création, avec le lancement de sa « Shoebox » en 1962. Cette machine était capable de reconnaître 16 mots différents, marquant ainsi un progrès par rapport aux premiers travaux de recherche de Bell Labs dans les années 1950. Toutefois, IBM ne s'est pas arrêtée là, mais a continué à innover au fil des ans, lançant l'application VoiceType Simply Speaking en 1996. Ce logiciel de reconnaissance vocale possédait un vocabulaire de 42 000 mots ainsi qu'un dictionnaire orthographique de 100 000 mots, et prenait en charge l'anglais et l'espagnol. La technologie de la reconnaissance vocale avait un vocabulaire limité à ses débuts, mais elle est aujourd'hui utilisée dans un grand nombre de secteurs comme l'automobile, les technologies et les soins de santé. Son adoption n'a cessé de s'accélérer au cours des dernières années en raison des progrès de l'apprentissage en profondeur et du big data. La recherche (lien externe à ibm.com) montre que ce marché devrait atteindre 24,9 milliards de dollars d'ici 2025.
IBM Watson Speech to Text
IBM Watson Text to Speech
De nombreuses applications et de nombreux dispositifs de reconnaissance vocale sont disponibles, mais les solutions plus avancées utilisent l'intelligence artificielle et l'apprentissage automatique. Elles intègrent la grammaire, la syntaxe, la structure et la composition des signaux audio et vocaux pour comprendre et traiter le discours humain. Idéalement, elles apprennent progressivement, en faisant évoluer leurs réponses à chaque interaction.
Les meilleurs systèmes permettent également aux organisations de personnaliser et d'adapter la technologie à leurs besoins spécifiques, qu'il s'agisse de la langue, des nuances de la parole ou de la reconnaissance des marques. Par exemple :
Pendant ce temps, la reconnaissance vocale continue d'avancer. Les entreprises, telles qu'IBM, font des incursions dans plusieurs domaines, pour mieux améliorer l'interaction des machines.
Les aléas de la parole humaine ont rendu le développement difficile. Le développement dans ce domaine est considéré comme l'un des plus complexes de l'informatique, faisant entrer en jeu la linguistique, les mathématiques et les statistiques. Les outils de reconnaissance vocale comprennent plusieurs composants, tels que le traitement du signal vocal, l'extraction de fonctions, les vecteurs acoustiques, un décodeur et une sortie lexicale. Le décodeur exploite des modèles acoustiques, un dictionnaire de prononciation et des modèles linguistiques pour déterminer la sortie appropriée.
La technologie de reconnaissance vocale est évaluée en fonction de son taux de précision, c.-à-d. le taux d'erreur de mot (WER) et la vitesse. Un certain nombre de facteurs peuvent affecter le taux d'erreur de mot, tels que la prononciation, l'accent, le ton de la voix, le volume et les bruits de fond. Atteindre la parité humaine, c'est-à-dire un taux d'erreur comparable à celui de deux personnes conversant, a longtemps été l'objectif des systèmes de reconnaissance vocale. La Research from Lippmann (lien externe à ibm.com) (PDF, 352 Ko) estime que le taux d'erreur de mot avoisine les 4 %, mais il est difficile de répliquer les résultats de ce document.
En savoir plus sur la manière dont IBM a progressé à cet égard, atteignant des records industriels dans le domaine de la reconnaissance vocale.
Divers algorithmes et techniques de calcul sont utilisés pour retranscrire la parole en texte et améliorer l'exactitude de la transcription. Vous trouverez ci-dessous de brèves explications sur certaines des méthodes les plus couramment utilisées :
Un grand nombre de secteurs industriels utilisent différentes applications de technologie vocale aujourd'hui, ce qui aide les entreprises et les consommateurs à économiser du temps, voire à sauver des vies. Quelques exemples :
Automobile : les dispositifs de reconnaissance vocale améliorent la sécurité du conducteur en intégrant des systèmes de navigation et des fonctionnalités de recherche à reconnaissance vocale sur les autoradios.
Technologie : les agents virtuels sont de plus en plus intégrés à notre quotidien, notamment sur nos appareils mobiles. Nous utilisons des commandes vocales pour y accéder via nos smartphones, comme via Google Assistant ou Siri sur Apple, pour effectuer des tâches telles que la recherche vocale, ou via nos haut-parleurs, avec Alexa sur Amazon ou Cortana sur Microsoft, pour écouter de la musique. Ils continueront à s'intégrer dans les produits du quotidien que nous utilisons, alimentant le mouvement de l'« Internet des objets ».
Santé : les médecins et les infirmières exploitent les applications de dictée pour enregistrer et consigner les diagnostics des patients et les ordonnances.
Ventes : la technologie de la reconnaissance vocale a un certain nombre d'applications dans les ventes. Elle permet, par exemple, à un centre d'appels de transcrire des milliers d'appels téléphoniques entre les clients et les agents pour identifier des modèles et des problèmes courants. Les agents conversationnels à intelligence artificielle peuvent également discuter avec des personnes via une page Web, répondre à des questions courantes et résoudre des problèmes basiques sans nécessiter d'attendre la disponibilité d'un agent du centre d'appels. Dans les deux exemples, les systèmes de reconnaissance vocale aident à réduire le temps de résolution des problèmes du consommateur.
Sécurité : bien que la technologie s'intègre dans notre quotidien, les protocoles de sécurité deviennent une priorité croissante. L'authentification vocale ajoute un niveau de sécurité viable.
Convertissez la parole en texte à l'aide de la reconnaissance vocale et de la transcription optimisées par l'IA.
Convertissez du texte en langage naturel dans une grande variété de langues et de voix.
Logiciel cloud hybride optimisé par l'IA.
Utilisez la transcription vocale rapide et précise dans plusieurs langues pour une variété de cas d'utilisation, y compris, mais sans s'y limiter, le libre-service client, l'assistance des agents et l'analyse vocale.
Découvrez comment Lingmo améliore la reconnaissance vocale et l'entraînement des modèles avec moins de données.
Apprenez à suivre le rythme, à repenser la façon d'utiliser des technologies comme le cloud, l'IA et l'automatisation pour accélérer l'innovation et répondre à l'évolution des attentes des clients.