Qu'est-ce que la reconnaissance vocale ?

Également appelée reconnaissance automatique de la parole, reconnaissance de la parole par ordinateur ou synthèse vocale, la reconnaissance vocale est une fonctionnalité qui utilise le traitement du langage naturel pour transcrire la parole humaine dans un format écrit. Bien qu'elle soit communément confondue avec la reconnaissance vocale, la reconnaissance de la parole se concentre sur la traduction d'une parole d'une forme verbale en un texte tandis que la reconnaissance vocale cherche uniquement à identifier la voix d'un utilisateur individuel.

IBM a joué un rôle de premier plan dans la reconnaissance vocale depuis sa création, avec le lancement de sa « Shoebox » en 1962. Cette machine était capable de reconnaître 16 mots différents, marquant ainsi un progrès par rapport aux premiers travaux de recherche de Bell Labs dans les années 1950. Toutefois, IBM ne s'est pas arrêtée là, mais a continué à innover au fil des ans, lançant l'application VoiceType Simply Speaking en 1996. Ce logiciel de reconnaissance vocale possédait un vocabulaire de 42 000 mots ainsi qu'un dictionnaire orthographique de 100 000 mots, et prenait en charge l'anglais et l'espagnol. La technologie de la reconnaissance vocale avait un vocabulaire limité à ses débuts, mais elle est aujourd'hui utilisée dans un grand nombre de secteurs comme l'automobile, les technologies et les soins de santé. Son adoption n'a cessé de s'accélérer au cours des dernières années en raison des progrès de l'apprentissage en profondeur et du big data. La recherche (lien externe à ibm.com) montre que ce marché devrait atteindre 24,9 milliards de dollars d'ici 2025.

Produits présentés

IBM Watson Speech to Text

IBM Watson Text to Speech

Principales caractéristiques d'une solution performante de reconnaissance vocale

De nombreuses applications et de nombreux dispositifs de reconnaissance vocale sont disponibles, mais les solutions plus avancées utilisent l'intelligence artificielle et l'apprentissage automatique. Elles intègrent la grammaire, la syntaxe, la structure et la composition des signaux audio et vocaux pour comprendre et traiter le discours humain. Idéalement, elles apprennent progressivement, en faisant évoluer leurs réponses à chaque interaction.

Les meilleurs systèmes permettent également aux organisations de personnaliser et d'adapter la technologie à leurs besoins spécifiques, qu'il s'agisse de la langue, des nuances de la parole ou de la reconnaissance des marques. Par exemple :

La pondération linguistique : améliore la précision des mots prononcés fréquemment (notamment les noms de produits et le jargon industriel), au-delà des termes déjà dans le vocabulaire de base.
L'étiquetage des interlocuteurs : produit une transcription qui cite ou étiquette les contributions de chaque interlocuteur dans une conversation à plusieurs participants.
L'entraînement acoustique : traite de la dimension acoustique. Entraîne le système à s'adapter à un environnement acoustique (tel que le bruit ambiant dans un centre d'appels) et aux styles d'interlocuteur (par ex. la voix, le volume et la vitesse).
Le filtrage des grossièretés : utilise des filtres pour identifier certains mots ou expressions et assainit la sortie de la parole.

Pendant ce temps, la reconnaissance vocale continue d'avancer. Les entreprises, telles qu'IBM, font des incursions dans plusieurs domaines, pour mieux améliorer l'interaction des machines.

Algorithmes de reconnaissance vocale

Les aléas de la parole humaine ont rendu le développement difficile. Le développement dans ce domaine est considéré comme l'un des plus complexes de l'informatique, faisant entrer en jeu la linguistique, les mathématiques et les statistiques. Les outils de reconnaissance vocale comprennent plusieurs composants, tels que le traitement du signal vocal, l'extraction de fonctions, les vecteurs acoustiques, un décodeur et une sortie lexicale. Le décodeur exploite des modèles acoustiques, un dictionnaire de prononciation et des modèles linguistiques pour déterminer la sortie appropriée.

La technologie de reconnaissance vocale est évaluée en fonction de son taux de précision, c.-à-d. le taux d'erreur de mot (WER) et la vitesse. Un certain nombre de facteurs peuvent affecter le taux d'erreur de mot, tels que la prononciation, l'accent, le ton de la voix, le volume et les bruits de fond. Atteindre la parité humaine, c'est-à-dire un taux d'erreur comparable à celui de deux personnes conversant, a longtemps été l'objectif des systèmes de reconnaissance vocale. La Research from Lippmann (lien externe à ibm.com) (PDF, 352 Ko) estime que le taux d'erreur de mot avoisine les 4 %, mais il est difficile de répliquer les résultats de ce document.

En savoir plus sur la manière dont IBM a progressé à cet égard, atteignant des records industriels dans le domaine de la reconnaissance vocale.

Divers algorithmes et techniques de calcul sont utilisés pour retranscrire la parole en texte et améliorer l'exactitude de la transcription. Vous trouverez ci-dessous de brèves explications sur certaines des méthodes les plus couramment utilisées :

Traitement automatique du langage naturel (NLP) : bien que le traitement automatique du langage naturel ne soit pas nécessairement un algorithme caractéristique utilisé dans la reconnaissance vocale, c'est le domaine de l'intelligence artificielle qui se concentre sur l'interaction entre les humains et les machines via le langage grâce à la parole et au texte. De nombreux terminaux mobiles intègrent la reconnaissance vocale dans leurs systèmes pour effectuer une recherche vocale (comme Siri) ou fournir une meilleure accessibilité au niveau des SMS.
Modèles de Markov cachés (HMM) : les modèles de Markov cachés s'appuient sur le modèle de chaîne de Markov, qui stipule que les probabilités d'un état donné dépendent de l'état en cours, et non de ses états antérieurs. Alors qu'un modèle de chaîne de Markov est utile pour les événements observables, tels que les entrées de texte, les modèles de Markov cachés permettent d'incorporer des événements cachés, tels que des libellés de parties de discours, dans un modèle probabiliste. Ils sont utilisés comme des modèles de séquence dans le cadre de la reconnaissance vocale, en attribuant des libellés à chaque unité, c'est-à-dire des mots, des syllabes, des phrases, etc., au sein de la séquence. Ces étiquettes créent un mappage avec la saisie fournie, lui permettant de déterminer la séquence d'étiquettes la plus appropriée.
N-grammes : il s'agit du type le plus simple de modèle de langue (LM) qui attribue des probabilités aux phrases ou expressions. Un N-gramme est une séquence de N-mots. Par exemple, "commande la pizza" est un trigramme ou 3-grammes et "commande la pizza s'il te plaît" est un 6-grammes. La grammaire et la probabilité de certaines séquences de mots sont utilisées pour améliorer la reconnaissance et l'exactitude.
Réseaux neuronaux : principalement utilisés pour les algorithmes d'apprentissage en profondeur, les réseaux neuronaux traitent les données d'entraînement en imitant l'interconnectivité du cerveau humain par le biais de différentes couches de nœuds. Chaque nœud est constitué d'entrées, de poids, d'un biais (ou d'un seuil) et d'une sortie. Si cette valeur de sortie dépasse un seuil donné, elle "déclenche" ou active le nœud, en transmettant les données à la couche suivante du réseau. Les réseaux neuronaux apprennent cette fonction de mappage par un apprentissage supervisé, en s'ajustant sur la base de la fonction de perte par le processus de descente de gradient. Alors que les réseaux neuronaux ont tendance à être plus précis et peuvent accepter plus de données, cela a un impact sur les performances car ils ont tendance à être plus lents à entraîner que les modèles de langage classiques.
Diarisation du locuteur (SD) : les algorithmes de diarisation du locuteur identifient et segmentent la parole par identité de locuteur. Cela aide les programmes à mieux distinguer les individus dans une conversation, et est fréquemment appliqué dans les centres d'appels pour faire la distinction entre les clients et les agents de ventes.

Cas d'utilisation de la reconnaissance vocale

Un grand nombre de secteurs industriels utilisent différentes applications de technologie vocale aujourd'hui, ce qui aide les entreprises et les consommateurs à économiser du temps, voire à sauver des vies. Quelques exemples :

Automobile : les dispositifs de reconnaissance vocale améliorent la sécurité du conducteur en intégrant des systèmes de navigation et des fonctionnalités de recherche à reconnaissance vocale sur les autoradios.

Technologie : les agents virtuels sont de plus en plus intégrés à notre quotidien, notamment sur nos appareils mobiles. Nous utilisons des commandes vocales pour y accéder via nos smartphones, comme via Google Assistant ou Siri sur Apple, pour effectuer des tâches telles que la recherche vocale, ou via nos haut-parleurs, avec Alexa sur Amazon ou Cortana sur Microsoft, pour écouter de la musique. Ils continueront à s'intégrer dans les produits du quotidien que nous utilisons, alimentant le mouvement de l'« Internet des objets ».

Santé : les médecins et les infirmières exploitent les applications de dictée pour enregistrer et consigner les diagnostics des patients et les ordonnances.

Ventes : la technologie de la reconnaissance vocale a un certain nombre d'applications dans les ventes. Elle permet, par exemple, à un centre d'appels de transcrire des milliers d'appels téléphoniques entre les clients et les agents pour identifier des modèles et des problèmes courants. Les agents conversationnels à intelligence artificielle peuvent également discuter avec des personnes via une page Web, répondre à des questions courantes et résoudre des problèmes basiques sans nécessiter d'attendre la disponibilité d'un agent du centre d'appels. Dans les deux exemples, les systèmes de reconnaissance vocale aident à réduire le temps de résolution des problèmes du consommateur.

Sécurité : bien que la technologie s'intègre dans notre quotidien, les protocoles de sécurité deviennent une priorité croissante. L'authentification vocale ajoute un niveau de sécurité viable.

Solutions connexes

IBM Watson® Speech to Text

Convertissez la parole en texte à l'aide de la reconnaissance vocale et de la transcription optimisées par l'IA.

Explorer IBM Watson Speech to Text

IBM Watson® Text to Speech

Convertissez du texte en langage naturel dans une grande variété de langues et de voix.

Explorer IBM Watson Text to Speech

Solutions IBM Cloud Pak®

Logiciel cloud hybride optimisé par l'IA.

Explorer les solutions Cloud Pak

Ressources

Découvrez comment la technologie IBM Watson Speech to Text utilise la reconnaissance vocale et la transcription alimentées par l'IA

Utilisez la transcription vocale rapide et précise dans plusieurs langues pour une variété de cas d'utilisation, y compris, mais sans s'y limiter, le libre-service client, l'assistance des agents et l'analyse vocale.

L'application de traduction atteint une précision de 95 %

Découvrez comment Lingmo améliore la reconnaissance vocale et l'entraînement des modèles avec moins de données.

IBM Cloud Paks - la transition vers la transformation numérique

Apprenez à suivre le rythme, à repenser la façon d'utiliser des technologies comme le cloud, l'IA et l'automatisation pour accélérer l'innovation et répondre à l'évolution des attentes des clients.

Passer à l'étape suivante

IBM a été la pionnière du développement des outils et services de reconnaissance vocale qui permettent aux entreprises d'automatiser des processus métier complexes, tout en obtenant des informations essentielles.IBM Watson Speech to Text est une solution cloud native qui utilise des algorithmes d'IA d'apprentissage en profondeur pour appliquer des connaissances sur la grammaire, la structure du langage et la composition du signal audio/vocal afin de créer une reconnaissance vocale personnalisable permettant une transcription optimale des textes.

Essayer IBM Watson Speech to Text dès aujourd'hui