Également connue sous le nom d’ASR, de reconnaissance de la parole par ordinateur ou de speech-to-text, la reconnaissance automatique de la parole est une fonctionnalité qui permet à un programme de traiter la parole humaine dans un format écrit.
Bien que la reconnaissance automatique de la parole soit souvent confondue avec la reconnaissance vocale, elle se concentre sur la conversion de la parole d’un format verbal à un format textuel, tandis que la reconnaissance vocale cherche simplement à identifier la voix d’un utilisateur.
IBM joue un rôle de premier plan dans le domaine de la reconnaissance vocale depuis sa création, avec la sortie de « Shoebox » en 1962. Cette machine avait la capacité de reconnaître 16 mots différents, faisant ainsi progresser les travaux initiaux des laboratoires Bell dans les années 1950. Cependant, IBM ne s’est pas arrêté là, et a continué à innover au fil des années, en lançant l’application Simply Speaking en 1996. Ce logiciel de reconnaissance vocale avait un vocabulaire de 42 000 mots, prenait en charge l'anglais et l'espagnol, et comprenait un dictionnaire d'orthographe de 100 000 mots.
Alors que la technologie vocale avait un vocabulaire limité à ses débuts, elle est utilisée dans de nombreux secteurs aujourd'hui, tels que l'automobile, la technologie et la santé. Son adoption ne cesse de se renforcer ces dernières années grâce aux progrès réalisés dans le domaine de l'apprentissage profond et du big data. Une étude (lien externe à ibm.com) montre que ce marché devrait représenter 24,9 milliards de dollars d’ici 2025.
Découvrez l'e-book gratuit d'O'Reilly pour apprendre à vous lancer avec Presto, le moteur SQL open source destiné à l'analyse des données.
Obtenir le guide sur les modèles de fondation
De nombreuses applications et appareils de reconnaissance vocale sont disponibles, mais les solutions les plus avancées utilisent l’IA et le machine learning. Elles intègrent la grammaire, la syntaxe, la structure et la composition des signaux audio et vocaux pour comprendre et traiter la reconnaissance vocale. Idéalement, elles apprennent au fur et à mesure, en adaptant leurs réponses à chaque interaction.
Les meilleurs systèmes permettent également aux organisations de personnaliser et d’adapter la technologie à leurs besoins spécifiques, qu’il s’agisse du langage, des nuances dans la voix ou de la reconnaissance de la marque. Par exemple :
Pendant ce temps, la reconnaissance vocale continue de progresser. Des entreprises, comme IBM, font des percées dans plusieurs domaines, afin d'améliorer l'interaction entre l'homme et la machine.
Les nombreux aléas de la parole humaine en ont rendu le développement difficile. Ce domaine est considéré comme l’un des plus complexes de l’informatique, car il fait appel à la fois à la linguistique, aux mathématiques et aux statistiques. Les systèmes de reconnaissance vocale sont constitués de quelques composants, tels que l’entrée vocale, l’extraction des caractéristiques, les vecteurs de caractéristiques, un décodeur et une sortie mot. Le décodeur utilise des modèles acoustiques, un dictionnaire de prononciation et des modèles linguistiques pour déterminer la sortie appropriée.
La technologie de reconnaissance vocale est évaluée sur son taux de précision, c’est-à-dire le taux d’erreur sur les mots (« Word Rate Error » ou WER), et sa vitesse. Un certain nombre de facteurs peuvent avoir un impact sur le taux d’erreur sur les mots, notamment la prononciation, l’accent, la hauteur, le volume et le bruit de fond. Atteindre la parité avec les humains, c’est-à-dire un taux d’erreur égal à celui de deux humains qui parlent entre eux, est depuis longtemps l’objectif des systèmes de reconnaissance vocale. Une étude de Lippmann (lien externe à ibm.com) estime que le taux d’erreur sur les mots est d’environ 4 %, mais les résultats n’ont pas pu être confirmés.
Différents algorithmes et techniques de calcul sont utilisés pour reconnaître la parole dans le texte et améliorer la précision de la transcription. Vous trouverez ci-dessous de brèves explications de certaines des méthodes les plus couramment utilisées :
Un grand nombre de secteurs utilisent aujourd’hui différentes applications de la technologie vocale, ce qui permet aux entreprises et aux consommateurs de gagner du temps, voire des vies. Voici quelques exemples :
Secteur automobile : les systèmes de reconnaissance vocale améliorent la sécurité des conducteurs en activant les systèmes de navigation à commande vocale et les capacités de recherche dans les radios des voitures.
Technologie : les agents conversationnels sont de plus en plus présents dans notre vie quotidienne, notamment sur nos appareils mobiles. Nous utilisons des commandes vocales pour y accéder, par exemple sur nos smartphones (avec Google Assistant ou Siri d’Apple pour des tâches comme la recherche vocale) ou sur des haut-parleurs (avec Alexa d’Amazon ou Cortana de Microsoft pour écouter de la musique). Ces agents continueront à s’intégrer aux produits que nous utilisons au quotidien et contribueront ainsi au mouvement de « l’Internet des objets ».
Soins de santé : les médecins et les infirmiers utilisent des applications de dictée pour capturer et consigner les diagnostics des patients et les notes de traitement.
Ventes : la technologie de reconnaissance vocale a quelques applications dans le domaine des ventes. Elle peut aider un centre d’appels à transcrire des milliers d’appels téléphoniques entre des clients et des agents afin d’identifier des modèles d’appels et des problèmes courants. Les chatbots IA peuvent également communiquer avec les consommateurs via une page Web, répondant aux questions courantes et résolvant les demandes de base sans avoir à attendre qu’un agent du centre d’appel soit disponible. Dans les deux cas, les systèmes de reconnaissance vocale contribuent à réduire le temps de résolution des problèmes des consommateurs.
Sécurité : avec l’intégration de la technologie dans notre quotidien, les protocoles de sécurité deviennent une priorité croissante. L’authentification vocale ajoute un niveau de sécurité viable.
Convertissez la parole en texte en utilisant la reconnaissance vocale et la transcription alimentées par l’IA
Convertissez du texte en parole naturelle dans plusieurs langues et avec plusieurs identités vocales
Logiciel de cloud hybride alimenté par l’IA.
Activez la transcription vocale en plusieurs langues pour une variété de cas d’utilisation, y compris, mais sans s’y limiter, le libre-service pour les clients, l’assistance aux agents et l’analyse vocale.
Découvrez comment suivre le rythme, repenser l’utilisation de technologies telles que le cloud, l’IA et l’automatisation pour accélérer l’innovation et répondre aux attentes changeantes des clients.