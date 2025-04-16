Il riconoscimento automatico del linguaggio (ASR), noto anche come riconoscimento vocale o speech-to-text, è la tecnologia che converte il linguaggio parlato in testo scritto. Vari algoritmi di machine learning e tecniche di elaborazione dell'intelligenza artificiale vengono utilizzati per convertire il discorso in testo. La tecnologia di riconoscimento vocale si è evoluta notevolmente dai suoi inizi, a metà del ventesimo secolo, fino ad oggi.

Negli anni '60, per analizzare il parlato furono inizialmente utilizzati gli spettrogrammi. Nei decenni successivi si è verificato un passaggio ai modelli statistici. Sono comparsi così i modelli di Markov nascosti (HMM) che divennero dominanti per la modellazione di sequenze di piccole unità sonore note come fonemi in linguistica. L'architettura dei sistemi ASR era composta da tre componenti separate: un modello acustico, un modello linguistico e un decoder.

Negli anni 2010, i progressi del deep learning hanno iniziato a influenzare l'architettura dei sistemi di riconoscimento vocale tradizionali. I modelli encoder-decoder possono utilizzare un'architettura di rete neurale ricorrente (RNN) o di rete neurale convoluzionale (CNN) dove un encoder elabora i dati in input e un decoder genera output in base alla rappresentazione dell'encoder. I modelli possono essere addestrati su grandi set di dati non etichettati di coppie audio-testo per imparare a far corrispondere i segnali audio alle trascrizioni. I modelli ASR più popolari includono DeepSpeech e Wav2Vec.

Oggi, assistenti virtuali come Siri di Apple, Alexa di Amazon o Cortana di Microsoft utilizzano la tecnologia ASR per elaborare il discorso umano in tempo reale. Sono inoltre in grado di integrare lo speech to text con modelli linguistici di grandi dimensioni (LLM) ed elaborazione del linguaggio naturale (NLP). Gli LLM possono essere usati per aggiungere contesto, il che aiuta quando le scelte di parole sono più ambigue o se c'è variabilità nei modelli di linguaggio umano.