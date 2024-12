All'inizio della sua evoluzione, il software di riconoscimento vocale si basava su un vocabolario limitato. La sua recente adozione da parte di svariati settori, dall'automotive alla sanità, è stata aiutata dai progressi nella data science, nel deep learning e nell'AI.

Negli anni 1950, i Bell Laboratories idearono il primo sistema di riconoscimento vocale (link esterno a ibm.com), chiamato AUDREY, in grado di riconoscere i numeri pronunciati.8 Poi, IBM ha proposto Shoebox nel 1962, che poteva riconoscere numeri e 16 parole diverse.

Durante questi decenni (link esterno a ibm.com), gli informatici hanno elaborato modelli di riconoscimento dei fonemi e modelli statistici come gli Hidden Markov Models, che rimangono algoritmi popolari per il riconoscimento vocale.9 Intorno agli anni 1970, un programma della Carnegie Mellon chiamato HARPY permise ai computer di riconoscere 1.000 parole.

Negli anni 1980, il sistema di trascrizione Tangora di IBM utilizzava metodi statistici per riconoscere fino a 20.000 parole. Fu utilizzato nel primo sistema di dettatura ad attivazione vocale per gli impiegati e gettò le basi per il moderno software di speech to text. Questo tipo di software continuò ad essere sviluppato e migliorato fino a quando non è stato commercializzato negli anni 2000.

Quando sono arrivati gli algoritmi di machine learning e deep learning, questi hanno sostituito i modelli statistici e migliorato la precisione del riconoscimento, consentendo così di scalare le applicazioni. Il deep learning sarebbe più efficace per rilevare le sfumature e le espressioni informali. I modelli linguistici di grandi dimensioni (LLM) possono essere utilizzati per aggiungere contesto, il che può essere d'aiuto quando le scelte delle parole sono più ambigue o se ci sono variazioni di accento nella pronuncia. Con l'arrivo degli assistenti virtuali e degli altoparlanti intelligenti, sono stati in grado di integrare la speech to text con modelli linguistici di grandi dimensioni, l'elaborazione del linguaggio naturale (NLP) e altri servizi basati su cloud.

I modelli di deep learning end-to-end, come i trasformatori, sono fondamentali per i modelli linguistici di grandi dimensioni. Sono addestrati su grandi set di dati non etichettati di coppie audio-testo per imparare a far corrispondere i segnali audio alle trascrizioni.

Durante questo addestramento, il modello impara implicitamente come suonano le parole e quali parole possono apparire in sequenza insieme. Il modello può anche dedurre regole grammaticali e di struttura linguistica da applicare autonomamente. Il deep learning consolida alcuni dei passaggi più ripetitivi delle tecniche di speech to text tradizionali.