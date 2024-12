À leurs débuts, les logiciels de reconnaissance de la parole s’appuyaient sur une banque de vocabulaire limitée. Leur adoption récente par des secteurs allant de l’automobile à la santé a été favorisée par les progrès de la science des données, du deep learning et de l’intelligence artificielle.

Dans les années 1950, les Laboratoires Bell (Bell Labs) ont proposé la première configuration de reconnaissance de la parole (lien externe à ibm.com) appelée « AUDREY », capable de reconnaître les chiffres énoncés oralement8. Puis en 1962, IBM a lancé « Shoebox », qui pouvait reconnaître des chiffres et pas moins de 16 mots différents.

Au cours de ces décennies (lien externe à ibm .com), les informaticiens ont mis au point des modèles de reconnaissance des phonèmes et des modèles statistiques tels que les modèles de Markov cachés, qui restent des algorithmes populaires dans le domaine de la reconnaissance de la parole9. Vers les années 1970, un programme de Carnegie Mellon appelé « HARPY » a permis aux ordinateurs de reconnaître un millier de mots.

Dans les années 1980, le système de transcription Tangora d’IBM s’est appuyé sur des méthodes statistiques pour reconnaître jusqu’à 20 000 mots. Il a été utilisé pour la première dictée vocale destinée aux employés de bureau et a jeté les bases des logiciels modernes de reconnaissance automatique de la parole. Ce type de logiciel a continué à être développé et amélioré jusqu’à sa commercialisation dans les années 2000.

Lorsque les algorithmes de machine learning et de deep learning ont fait leur apparition, ils ont remplacé les modèles statistiques et amélioré la précision de la reconnaissance, ce qui a permis de faire évoluer les applications. Le deep learning saisit mieux les nuances et les expressions informelles. Les grands modèles de langage (LLM) peuvent ajouter du contexte, ce qui est utile en cas d’ambigüité dans le choix des mots ou de variations d’accent dans la prononciation. Lorsque les assistants virtuels et les haut-parleurs intelligents ont fait leur apparition, la reconnaissance automatique de la parole a pu intégrer des grands modèles de langage, le traitement automatique du langage naturel (TALN) ainsi que d’autres services cloud.

Les modèles de deep learning de bout en bout tels que les transformers sont essentiels aux grands modèles de langage. Ils sont entraînés sur de grands ensembles de données non étiquetées de paires audio/texte pour apprendre à faire correspondre les signaux audio aux transcriptions.

Au cours de cet entraînement, le modèle apprend implicitement comment les mots sonnent et quels mots sont susceptibles d’apparaître ensemble dans une séquence. Le modèle peut également déduire des règles de grammaire et de construction linguistique à appliquer de manière autonome. Le deep learning regroupe certaines des étapes les plus fastidieuses des techniques traditionnelles de reconnaissance automatique de la parole.