Également appelée reconnaissance automatique de la parole, reconnaissance de la parole par ordinateur ou synthèse vocale, la reconnaissance de la parole est une fonctionnalité qui utilise le traitement du langage naturel pour transcrire la parole humaine dans un format écrit. Bien qu'elle soit communément confondue avec la reconnaissance vocale, la reconnaissance de la parole se concentre sur la traduction d'une parole d'une forme verbale en un texte tandis que la reconnaissance vocale cherche uniquement à identifier la voix d'un utilisateur individuel.
IBM a joué un rôle de premier plan au sein de la reconnaissance vocale depuis sa création, en publiant la « Shoebox » en 1962. Cette machine avait la possibilité de reconnaître 16 mots différents, faisant ainsi progresser le travail initial de Bell Labs dans les années 1950. Cependant, IBM ne s'est pas arrêté là, mais a continué à innover au fil des ans, en lançant l'application VoiceType Simply Speaking en 1996. Ce logiciel de reconnaissance vocale contenait un dictionnaire de 42 000 mots, pris en charge en anglais et en espagnol, et comprenait un dictionnaire orthographique de 100 000 mots. Bien que la technologie de la parole ait un vocabulaire limité à ses débuts, elle utilisait un grand nombre des secteurs industriels actuels, tels que l'automobile, la technologie et la santé. Son adoption n'a fait qu'accélérer ces dernières années en raison des progrès de l'apprentissage en profondeur et des mégadonnées. La recherche (le lien réside en dehors d'ibm.com) montre que ce marché devrait atteindre 24,9 milliards de dollars d'ici 2025.
De nombreuses applications et dispositifs de reconnaissance vocale sont disponibles, mais les solutions plus avancées utilisent l'intelligence artificielle et l'apprentissage automatique. Ils intègrent la grammaire, la syntaxe, la structure et la composition des signaux audio et vocaux pour comprendre et traiter la parole humaine. Idéalement, ils apprennent progressivement : des réponses évolutives avec chaque interaction.
Le meilleur type de systèmes permet également d'autoriser les organisations à personnaliser et à adapter la technologie à leurs exigences spécifiques : tout, de la langue et des nuances de la parole à la reconnaissance de la marque. Par exemple :
Pendant ce temps, la reconnaissance vocale continue d'avancer. Les entreprises, telles qu'IBM, font des incursions dans plusieurs domaines, pour mieux améliorer l'interaction des machines.
Les aléas de la parole humaine ont rendu le développement difficile. Il est considéré comme l'un des domaines les plus complexes de l'informatique, impliquant la linguistique, les mathématiques et les statistiques. Les dispositifs de reconnaissance vocale sont constitués de quelques composants, tels que la saisie de la parole, l'extraction des caractéristiques, les vecteurs de caractéristiques, un décodeur et un la sortie de mots. Le décodeur exploite des modèles acoustiques, un dictionnaire de prononciation et des modèles linguistiques pour déterminer la sortie appropriée.
La technologie de reconnaissance vocale est évaluée en fonction de son taux de précision, c.-à-d. le taux d'erreur de mot (WER) et la vitesse. Un certain nombre de facteurs impacte le taux d'erreur de mot, notamment la prononciation, l'accent, le niveau, le volume et le bruit de fond. Atteindre la parité humaine, ce qui signifie un taux d'erreur comparable à celui de deux humains en conversation, a longtemps été l'objectif des systèmes reconnaissance vocale. La Research from Lippmann (le lien réside en dehors d'ibm.com) (PDF, 344 ko) estime que le taux d'erreur de mot avoisine les 4 %, mais il est difficile de répliquer les résultats de ce document.
En savoir plus sur la manière dont IBM a progressé dans ce domaine, atteignant des records industriels dans le domaine de la reconnaissance vocale.
Divers algorithmes et techniques de calcul sont utilisés pour retranscrire la parole en texte et améliorer l'exactitude de la transcription. Vous trouverez ci-dessous de brèves explications sur certaines des méthodes les plus couramment utilisées :
Une grand nombre de secteurs industriels utilisent différentes applications de technologie vocale aujourd'hui, ce qui aide les entreprises et les consommateurs à économiser du temps voire à sauver des vies. Quelques exemples :
Automobile : les dispositifs de reconnaissance vocale améliorent la sécurité du conducteur en intégrant des systèmes de navigation et des fonctionnalités de recherche à reconnaissance vocale sur les autoradios.
Technologie : les agents virtuels sont de plus en plus intégrés à notre quotidien, notamment sur nos appareils mobiles. Nous utilisons les commandes vocales pour y accéder via nos smartphones, notamment via l'Assistant Google ou Siri d'Apple, pour des tâches telles que la recherche vocale ou via nos haut-pareurs, par l'intermédiaire d'Alexa pour Amazon ou de Cortana chez Microsoft, pour écouter de la musique. Ils continueront à s'intégrer dans les produits du quotidien que nous utilisons, alimentant le mouvement de l'« Internet des objets ».
Santé : les médecins et les infirmières exploitent les applications de dictée pour enregistrer et consigner les diagnostics des patients et les ordonnances.
Ventes : la technologie de la reconnaissance vocale a un certain nombre d'applications dans les ventes. Elle peut aider un call center à transcrire des milliers d'appels téléphoniques entre les clients et les agents pour identifier des modèles d'appel et des problèmes communs. Les agents conversationnels à intelligence artificielle peuvent également discuter avec des personnes via une page Web, répondre à des questions courantes et résoudre des problèmes basiques sans nécessiter d'attendre la disponibilité d'un agent du centre d'appel. Dans les deux exemples, les systèmes de reconnaissance vocale aident à réduire le temps de résolution des problèmes du consommateur.
Sécurité : bien que la technologie s'intègre dans notre quotidien, les protocoles de sécurité deviennent une priorité croissante. L'authentification vocale ajoute un niveau de sécurité viable.
IBM a été le pionnier du développement des outils et des services de reconnaissance vocale qui permettent aux organisations d'automatiser leurs processus commerciaux complexes tout en obtenant des informations commerciales essentielles.
Pour plus informations sur la mise en route avec la technologie de reconnaissance vocale, consultez IBM Watson Speech to Text et IBM Watson Text to Speech.
Convertissez la parole en texte à l'aide de la reconnaissance vocale et de la transcription optimisées par l'IA.
Convertissez du texte en langage naturel dans diverses langues et voix.
Logiciel cloud hybride alimenté par l'IA.