Depuis des centaines de milliers d’années, les humains utilisent la parole pour communiquer rapidement et efficacement des idées et des émotions complexes. La parole seule, cependant, est très difficile à analyser sans d’abord produire une trace écrite, ce qui nécessite du temps et des ressources.
La technologie de reconnaissance vocale vise à changer cela en convertissant automatiquement la parole en un texte écrit qui peut être analysé. Depuis plus de trente ans, Cedat85 élabore des solutions de Speech to Text innovantes et permet à ses clients des secteurs des médias, du gouvernement, des finances, des assurances, de la technologie, des départements marketing et des centres d’appel de répondre à des demandes de plus en plus complexes.
Enrico Giannotti, directeur général de Cedat85, explique : « La parole est un phénomène très sophistiqué. Nous parlons en utilisant des langues, des dialectes et des modèles linguistiques différents. La parole est très dynamique : chaque jour, de nouvelles expressions sont inventées et le sens des mots existants évolue. Le développement de solutions de reconnaissance vocale est donc un travail périlleux. »
Depuis 2002, Cedat85 conçoit des réseaux neuronaux sophistiqués pour soutenir ses solutions de Speech to Text, ses algorithmes devenant plus complexes et plus précis au fil du temps. Pour franchir une nouvelle étape dans le développement, l’entreprise souhaitait accélérer les cycles d’entraînement des modèles. Auparavant, en raison des limitations de l’infrastructure, il fallait à Cedat85 des semaines, voire des mois, pour entraîner un modèle de réseau neuronal. Ce processus était risqué et prenait beaucoup de temps, car il ne permettait pas de connaître la précision du modèle tant que l’entraînement n’était pas terminée.
« Nous entraînons nos modèles à l’aide de grandes quantités de données », commente M. Giannotti. « Même si nous avions augmenté notre infrastructure avec des GPU pour accélérer le traitement, il fallait toujours beaucoup de temps pour obtenir des résultats. Chaque projet était tellement chronophage et gourmand en ressources que nous avons dû reporter des opportunités. Avec la popularité croissante des solutions analytiques et vocales, de nouveaux marchés émergent en permanence pour la technologie Speech to Text. Pour ne pas nous laisser distancer par nos concurrents, nous étions déterminés à avancer plus vite. »