Reconnaissance vocale

menu icon

Reconnaissance vocale

Découvrez l'histoire de la reconnaissance vocale et ses diverses applications dans le monde actuel

Qu'est-ce que la reconnaissance vocale ?

La reconnaissance vocale, aussi connue sous le nom de reconnaissance automatique de la parole (RAP), reconnaissance de la parole par ordinateur, ou conversion voix en texte, est une fonction qui permet à un programme de traiter la parole humaine et de la convertir en un format écrit. Bien qu'elle soit souvent confondue avec la technique qui permet simplement d'identifier la voix d'un utilisateur, la reconnaissance vocale consiste avant tout à convertir en texte un discours verbal.

IBM a joué un rôle de premier plan dans la reconnaissance vocale depuis sa création, avec le lancement de sa "Shoebox” en 1962. Cette machine était capable de reconnaître 16 mots différents, marquant ainsi un progrès par rapport aux premiers travaux de recherche de Bell Labs dans les années 1950. Toutefois, IBM ne s'est pas arrêtée là mais a continué à innover au fil des ans, lançant l'application VoiceType Simply Speaking en 1996. Ce logiciel de reconnaissance vocale possédait un vocabulaire de 42 000 mots ainsi qu'un dictionnaire orthographique de 100 000 mots, et prenait en charge l'anglais et l'espagnol. La technologie de la reconnaissance vocale avait un vocabulaire limité à ses débuts, mais elle est aujourd'hui utilisée dans un grand nombre de secteurs comme l'automobile, les technologies et les soins de santé. Son adoption n'a cessé de s'accélérer au cours des dernières années en raison des progrès de l'apprentissage en profondeur et du big data. Des travaux de recherche (lien externe à IBM) indiquent que ce marché devrait valoir 24,9 milliards de dollars d'ici 2025.

Principales caractéristiques d'une solution performante de reconnaissance vocale

Il existe un grand nombre d'applications et d'appareils de reconnaissance vocale, mais les solutions les plus avancées utilisent l'IA et l'apprentissage automatique. Elles intègrent la grammaire, la syntaxe, la structure et la composition des signaux audio et vocaux pour comprendre et traiter le discours humain. Dans l'idéal, elles apprennent au fur et à mesure et affinent les réponses suite à chaque interaction.

Les systèmes les plus efficaces permettent aussi aux entreprises de personnaliser et d'adapter la technologie à leurs exigences spécifiques, qu'il s'agisse de la langue, des nuances de discours ou de la reconnaissance de la marque. Exemples :

  • Pondération linguistique : Améliore la précision en pondérant certains mots fréquemment utilisés (tels que les noms de produits ou le jargon professionnel), en plus des termes figurant déjà dans le vocabulaire de base.
  • Étiquetage des locuteurs : Génération d'une transcription qui cite ou étiquette les contributions de chaque interlocuteur d'une conversation multi-participants.
  • Formation acoustique : Traite de la dimension acoustique. Forme le système à s'adapter à un environnement acoustique (par exemple le bruit de fond dans un centre d'appels) et aux différents types de locuteurs (tonalité et volume de la voix, vitesse d'élocution).
  • Filtrage des termes argotiques : Utilise des filtres pour identifier certains mots ou expressions et les éliminer du résultat.

La reconnaissance de la parole continue encore à progresser. Des entreprises comme IBM font des percées dans plusieurs domaines pour améliorer l'interaction entre humains et machines.

Algorithmes de reconnaissance vocale

Les caprices du discours humain ont compliqué le développement. Le développement dans ce domaine est considéré comme l'un des plus complexes de l'informatique, faisant entrer en jeu la linguistique, les mathématiques et les statistiques. Les outils de reconnaissance vocale comprennent plusieurs composants, tels que le traitement du signal vocal, l'extraction de fonctions, les vecteurs acoustiques, un décodeur et une sortie lexicale. Le décodeur utilise des modèles acoustiques, un dictionnaire de prononciation et des modèles de langage pour déterminer la sortie appropriée.

La technologie de reconnaissance vocale est évaluée selon son taux d'exactitude, c'est-à-dire le taux d'erreur de mot (WER) et sa vitesse. Un certain nombre de facteurs peuvent affecter le taux d'erreur de mot, tels que la prononciation, l'accent, le ton de la voix, le volume et les bruits de fond. Atteindre la parité humaine, c'est-à-dire un taux d'erreur comparable à celui de deux personnes conversant, a longtemps été l'objectif des systèmes de reconnaissance vocale. Les travaux de recherche de Lippmann (lien externe à IBM, PDF, 344 ko) estiment que le taux d'erreur est d'environ 4 %, mais il a été difficile de reproduire les résultats de ce rapport.

Plus d'infos pour découvrir comment IBM a énormément progressé dans ce domaine.

Plusieurs algorithmes et techniques de calcul sont utilisés pour convertir la parole en texte et améliorer l'exactitude de la transcription. De brèves explications de certaines des méthodes les plus couramment utilisées sont présentées ci-dessous :

  • Traitement automatique du langage naturel (NLP) : Même si le traitement automatique du langage naturel n'est pas nécessairement un algorithme spécifique utilisé en reconnaissance vocale, il constitue cependant le domaine de l'intelligence artificielle, qui privilégie l'interaction entre les humains et les machines par le biais du langage, sous ses formes vocale et textuelle. Une multitude d'appareils mobiles intègrent la reconnaissance vocale à leurs systèmes pour effectuer des recherches vocales, comme Siri, ou pour fournir une plus grande accessibilité au texte.
  • Modèles de Markov caché (MMC) : Les modèles de Markov cachés s'appuient sur le modèle de chaîne de Markov, qui stipule que la probabilité d'un état donné dépend de l'état actuel, et non de ses états antérieurs. Alors qu'un modèle de chaîne de Markov est utile pour les événements observables, tels que les entrées de texte, les modèles de Markov cachés permettent d'incorporer des événements cachés, tels que des libellés de parties de discours, dans un modèle probabiliste. Ils sont utilisés comme des modèles de séquence dans le cadre de la reconnaissance vocale, en attribuant des libellés à chaque unité, c'est-à-dire des mots, des syllabes, des phrases, etc., au sein de la séquence. Ces libellés créent un mappage avec l'entrée fournie, ce qui lui permet de déterminer la séquence de libellé la plus appropriée.
  • N-grammes : Il s'agit du type de modèle de langage le plus simple, qui attribue des probabilités à des phrases ou des expressions. Un N-gramme est une séquence de N-mots. Par exemple, "commande la pizza" est un trigramme ou 3-grammes et "commande la pizza s'il te plaît" est un 6-grammes. La grammaire et la probabilité de certaines séquences de mots sont utilisées pour améliorer la reconnaissance et l'exactitude.
  • Réseaux neuronaux : Principalement mis à profit pour les algorithmes de l'apprentissage en profondeur, les réseaux neuronaux traitent les données d'entraînement en imitant l'interconnectivité du cerveau humain par le biais de couches de nœuds. Chaque nœud est constitué d'entrées, de poids, d'un biais (ou d'un seuil) et d'une sortie. Si cette valeur de sortie dépasse un seuil donné, elle "déclenche" ou active le nœud, en transmettant les données à la couche suivante du réseau. Les réseaux neuronaux apprennent cette fonction de mappage grâce à un apprentissage supervisé, en effectuant des ajustements à l'aide d'une fonction de perte qui utilise le processus de descente de gradient.Les réseaux neuronaux tendent à avoir une plus grande exactitude et peuvent accepter davantage de données, mais au détriment de l'efficacité des performances, car leur entraînement demande plus de temps que celui des modèles de langage traditionnels.
  • Diarisation des locuteurs : Les algorithmes de diarisation des locuteurs identifient et segmentent le discours en fonction de l'identité des locuteurs. Ils permettent aux programmes de mieux distinguer les individus dans une conversation et sont souvent utilisés dans les centres d'appels pour différencier les clients et les agents de vente.

Lisez le Blog Watson pour découvrir comment IBM utilise des modèles de diarisation des locuteurs dans ses services de conversion parole-texte.

Cas d'utilisation de la reconnaissance vocale

Un grand nombre de secteurs d'activité utilisent aujourd'hui différentes applications de la technologie de reconnaissance vocale qui aident les entreprises et les consommateurs à gagner du temps, et parfois même à sauver des vies. Quelques exemples :

Secteur automobile : Les outils de reconnaissance vocale améliorent la sécurité des conducteurs en proposant des systèmes de navigation et des fonctions de recherche à commande vocale dans les radios des véhicules.

Technologie : Les assistants virtuels sont de plus en plus intégrés à notre vie quotidienne, en particulier sur nos appareils mobiles. Nous utilisons des commandes vocales pour y accéder via nos smartphones, comme via Google Assistant ou Siri sur Apple, pour effectuer des tâches telles que la recherche vocale, ou via nos haut-parleurs, avec Alexa sur Amazon ou Cortana sur Microsoft, pour écouter de la musique. Ces outils vont continuer à s'intégrer aux produits que nous utilisons tous les jours, alimentant ainsi le mouvement de l'Internet des objets (IoT).

Secteur de la santé : Médecins et infirmiers utilisent des applications de dictée pour saisir et consigner les diagnostics et les traitements des patients.

Ventes : La technologie de reconnaissance vocale a plusieurs applications dans le secteur des ventes. Elle permet, par exemple, à un centre d'appels de transcrire des milliers d'appels téléphoniques entre les clients et les agents pour identifier des modèles et des problèmes courants. Les bots cognitifs peuvent également converser avec des utilisateurs sur une page Web, répondre à des questions courantes et résoudre des demandes simples sans qu'il soit nécessaire d'attendre qu'un agent du centre de contact soit disponible. Dans les deux cas, les systèmes de reconnaissance vocale contribuent à accélérer la résolution des problèmes des consommateurs.

Sécurité : Face à l'intégration de la technologie à notre vie quotidienne, les protocoles de sécurité sont une priorité croissante. L'authentification vocale ajoute un niveau viable de sécurité supplémentaire.

Découvrez comment des entreprises, telles qu'Audioburst, tirent parti des logiciels de reconnaissance vocale pour indexer les signaux audio des stations de radio et des podcasts en temps réel sur notre blog ici

Reconnaissance vocale et IBM

IBM a été la pionnière du développement des outils et services de reconnaissance vocale qui permettent aux entreprises d'automatiser des processus métier complexes, tout en obtenant des informations essentielles.

  • IBM Watson Speech to Text est une solution native cloud qui utilise des algorithmes d'IA d'apprentissage en profondeur pour appliquer des connaissances sur la grammaire, la structure de langage et la composition des signaux audio/vocaux. Cette solution peut ainsi créer une reconnaissance vocale personnalisable permettant une transcription de texte optimale.
  • IBM Watson Text to Speech génère des signaux proches de la voix humaine à partir d'un texte écrit, et renforce le suivi et la satisfaction des clients en améliorant l'accessibilité dans les langues et les différentes modalités d'interaction.

Pour savoir comment démarrer avec la technologie de reconnaissance vocale, informez-vous sur IBM Watson Speech to Text et IBM Watson Text to Speech.

Inscrivez-vous pour obtenir un IBMid et créer votre compte IBM Cloud.