Reconnaissance vocale
Intelligence artificielle
Computer generated abstract images that show a lot of colorful lines in a swirl.
Reconnaissance vocale

Découvrez l'histoire de la reconnaissance vocale et ses différentes applications dans le monde actuel

Produits à la une

IBM Watson Speech to Text

IBM Watson Text to Speech


Qu'est-ce que la reconnaissance vocale ?

Également appelée reconnaissance automatique de la parole, reconnaissance de la parole par ordinateur ou synthèse vocale, la reconnaissance de la parole est une fonctionnalité qui utilise le traitement du langage naturel pour transcrire la parole humaine dans un format écrit. Bien qu'elle soit communément confondue avec la reconnaissance vocale, la reconnaissance de la parole se concentre sur la traduction d'une parole d'une forme verbale en un texte tandis que la reconnaissance vocale cherche uniquement à identifier la voix d'un utilisateur individuel.

IBM a joué un rôle de premier plan au sein de la reconnaissance vocale depuis sa création, en publiant la « Shoebox » en 1962. Cette machine avait la possibilité de reconnaître 16 mots différents, faisant ainsi progresser le travail initial de Bell Labs dans les années 1950. Cependant, IBM ne s'est pas arrêté là, mais a continué à innover au fil des ans, en lançant l'application VoiceType Simply Speaking en 1996. Ce logiciel de reconnaissance vocale contenait un dictionnaire de 42 000 mots, pris en charge en anglais et en espagnol, et comprenait un dictionnaire orthographique de 100 000 mots. Bien que la technologie de la parole ait un vocabulaire limité à ses débuts, elle utilisait un grand nombre des secteurs industriels actuels, tels que l'automobile, la technologie et la santé. Son adoption n'a fait qu'accélérer ces dernières années en raison des progrès de l'apprentissage en profondeur et des mégadonnées. La recherche (le lien réside en dehors d'ibm.com) montre que ce marché devrait atteindre 24,9 milliards de dollars d'ici 2025.


Principales caractéristiques d'une reconnaissance vocale efficace

De nombreuses applications et dispositifs de reconnaissance vocale sont disponibles, mais les solutions plus avancées utilisent l'intelligence artificielle et l'apprentissage automatique. Ils intègrent la grammaire, la syntaxe, la structure et la composition des signaux audio et vocaux pour comprendre et traiter la parole humaine. Idéalement, ils apprennent progressivement : des réponses évolutives avec chaque interaction.

Le meilleur type de systèmes permet également d'autoriser les organisations à personnaliser et à adapter la technologie à leurs exigences spécifiques : tout, de la langue et des nuances de la parole à la reconnaissance de la marque. Par exemple :

  • Pondération linguistique : améliorer la précision des mots prononcés fréquemment (notamment les noms de produits et le jargon industriel), au-delà des termes déjà dans le vocabulaire de base.
  • Étiquetage des locuteurs : produire une transcription qui cite ou étiquette les contributions de chaque locuteur dans une conversation à plusieurs participants.
  • Entraînement acoustique : attelez-vous au côté acoustique de l'entreprise. Entraînez le système à s'adapter à un environnement acoustique (tel que le bruit ambiant dans un call center) et aux styles de locuteur (par ex. la voix, le volume et la vitesse).
  • Filtrage des grossièretés : utilisez des filtres pour identifier certains mots ou expressions et assainissez la sortie de parole.

Pendant ce temps, la reconnaissance vocale continue d'avancer. Les entreprises, telles qu'IBM, font des incursions dans plusieurs domaines, pour mieux améliorer l'interaction des machines.

 


Algorithmes de reconnaissance vocale

Les aléas de la parole humaine ont rendu le développement difficile. Il est considéré comme l'un des domaines les plus complexes de l'informatique, impliquant la linguistique, les mathématiques et les statistiques. Les dispositifs de reconnaissance vocale sont constitués de quelques composants, tels que la saisie de la parole, l'extraction des caractéristiques, les vecteurs de caractéristiques, un décodeur et un la sortie de mots. Le décodeur exploite des modèles acoustiques, un dictionnaire de prononciation et des modèles linguistiques pour déterminer la sortie appropriée.

La technologie de reconnaissance vocale est évaluée en fonction de son taux de précision, c.-à-d. le taux d'erreur de mot (WER) et la vitesse. Un certain nombre de facteurs impacte le taux d'erreur de mot, notamment la prononciation, l'accent, le niveau, le volume et le bruit de fond. Atteindre la parité humaine, ce qui signifie un taux d'erreur comparable à celui de deux humains en conversation, a longtemps été l'objectif des systèmes reconnaissance vocale. La Research from Lippmann (le lien réside en dehors d'ibm.com) (PDF, 344 ko) estime que le taux d'erreur de mot avoisine les 4 %, mais il est difficile de répliquer les résultats de ce document.

En savoir plus sur la manière dont IBM a progressé dans ce domaine, atteignant des records industriels dans le domaine de la reconnaissance vocale.

Divers algorithmes et techniques de calcul sont utilisés pour retranscrire la parole en texte et améliorer l'exactitude de la transcription. Vous trouverez ci-dessous de brèves explications sur certaines des méthodes les plus couramment utilisées :

  • Traitement automatique du langage naturel (NLP) : bien que le traitement automatique du langage naturel ne soit pas nécessairement un algorithme caractéristique utilisé dans la reconnaissance vocale, c'est le domaine de l'intelligence artificielle qui se concentre sur l'interaction entre les humains et les machines via le langage grâce à la parole et au texte. De nombreux terminaux mobiles intègrent la reconnaissance vocale dans leurs systèmes pour effectuer recherche vocale (comme Siri) ou fournir plus d'accessibilité au niveau des SMS. 
  • Modèles de Markov cachés (HMM) : les modèles de Markov cachés générés sur le modèle de chaîne de Markov, qui stipule que les probabilités d'un état donné dépendent de l'état en cours, et non de ses états antérieurs. Bien que le modèle de chaîne de Markov soit utile pour les événements observables, les modèles de Markov cachés nous permettent d'intégrer les événements cachés, tels que des étiquettes d'une partie de la parole, dans un modèle probabiliste. Ils sont utilisés comme modèles de séquence dans la reconnaissance vocale, en attribuant des étiquettes à chaque unité (c'est-à-dire des mots, des syllabes, des phrases, etc) dans la séquence. Ces étiquettes créent un mappage avec la saisie fournie, lui permettant de déterminer la séquence d'étiquettes la plus appropriée.
  • N-grammes : il s'agit du type le plus simple de modèle de langue (LM) qui attribue des probabilité aux phrases ou expressions. Un N-gramme est une séquence de N-mots. Par exemple, « commander la pizza » est un trigramme ou 3-grammes et « commander la pizza merci » est un 4-grammes. La grammaire et la probabilité de certaines séquences de mots sont utilisées pour améliorer la reconnaissance et l'exactitude.
  • Réseaux neuronaux : principalement utilisés pour les algorithmes d'apprentissage en profondeur, les réseaux neuronaux traitent les données d'entraînement en imitant l'interconnectivité du cerveau humain par le biais de différentes couches de nœuds. Chaque nœud est composé d'entrées, de pondérations, d'un biais (ou d'un seuil) et d'une sortie. Si cette valeur de sortie dépasse un seuil donné, elle « déclenche » ou active le nœud, transmettant les données à la couche suivante du réseau. Les réseaux neuronaux apprennent cette fonction de mappage par un apprentissage supervisé, en s'ajustant sur la base de la fonction de perte par le processus de descente de gradient.  Alors que les réseaux neuronaux ont tendance à être plus précis et peuvent accepter plus de données, cela a un impact sur les performances car ils ont tendance à être plus lents à entraîner que les modèles de langage classiques.
  • Diarisation du locuteur (SD) : les algorithmes de diarisation du locuteur identifient et segmentent la parole par identité de locuteur. Cela aide les programmes à mieux distinguer les individus dans une conversation, et est fréquemment appliqué dans les call centers pour faire la distinction entre les clients et les agents de ventes.

Cas d'utilisation de la reconnaissance vocale

Une grand nombre de secteurs industriels utilisent différentes applications de technologie vocale aujourd'hui, ce qui aide les entreprises et les consommateurs à économiser du temps voire à sauver des vies. Quelques exemples :

Automobile : les dispositifs de reconnaissance vocale améliorent la sécurité du conducteur en intégrant des systèmes de navigation et des fonctionnalités de recherche à reconnaissance vocale sur les autoradios.

Technologie : les agents virtuels sont de plus en plus intégrés à notre quotidien, notamment sur nos appareils mobiles. Nous utilisons les commandes vocales pour y accéder via nos smartphones, notamment via l'Assistant Google ou Siri d'Apple, pour des tâches telles que la recherche vocale ou via nos haut-pareurs, par l'intermédiaire d'Alexa pour Amazon ou de Cortana chez Microsoft, pour écouter de la musique. Ils continueront à s'intégrer dans les produits du quotidien que nous utilisons, alimentant le mouvement de l'« Internet des objets ».

Santé : les médecins et les infirmières exploitent les applications de dictée pour enregistrer et consigner les diagnostics des patients et les ordonnances.

Ventes : la technologie de la reconnaissance vocale a un certain nombre d'applications dans les ventes. Elle peut aider un call center à transcrire des milliers d'appels téléphoniques entre les clients et les agents pour identifier des modèles d'appel et des problèmes communs. Les agents conversationnels à intelligence artificielle peuvent également discuter avec des personnes via une page Web, répondre à des questions courantes et résoudre des problèmes basiques sans nécessiter d'attendre la disponibilité d'un agent du centre d'appel. Dans les deux exemples, les systèmes de reconnaissance vocale aident à réduire le temps de résolution des problèmes du consommateur.

Sécurité : bien que la technologie s'intègre dans notre quotidien, les protocoles de sécurité deviennent une priorité croissante. L'authentification vocale ajoute un niveau de sécurité viable.


Reconnaissance vocale et IBM

IBM a été le pionnier du développement des outils et des services de reconnaissance vocale qui permettent aux organisations d'automatiser leurs processus commerciaux complexes tout en obtenant des informations commerciales essentielles.

  • IBM Watson Speech to Text est une solution cloud natif qui utilise des algorithmes d'IA d'apprentissage en profondeur pour appliquer des connaissances sur la grammaire, la structure du langage et la composition du signal audio/vocal pour créer une reconnaissance vocale personnalisable pour une transcription optimale des textes.
  • IBM Watson Text to Speech génère un audio semblable à l'humain à partir d'un texte écrit, augmentant l'engagement et la satisfaction des clients en améliorant l'accessibilité parmi les langue et les modalités d'interaction.

Pour plus informations sur la mise en route avec la technologie de reconnaissance vocale, consultez  IBM Watson Speech to Text et IBM Watson Text to Speech.

Inscrivez-vous pour obtenir un identifiant IBM et créer votre compte IBM Cloud.

Solutions connexes

IBM Watson Speech to Text

Convertissez la parole en texte à l'aide de la reconnaissance vocale et de la transcription optimisées par l'IA.


IBM Watson Text to Speech

Convertissez du texte en langage naturel dans diverses langues et voix.


Solutions Cloud Pak

Logiciel cloud hybride alimenté par l'IA.