Il riconoscimento vocale, noto anche come riconoscimento vocale automatico (ASR), riconoscimento vocale informatico o speech to text, è una funzionalità che consente a un programma di elaborare il linguaggio umano in un formato scritto.
Sebbene il riconoscimento vocale sia comunemente confuso con il riconoscimento vocale, il riconoscimento vocale si concentra sulla traduzione del parlato da un formato verbale a uno testuale mentre il riconoscimento vocale cerca solo di identificare la voce di un singolo utente.
IBM ha avuto un ruolo di primo piano nel riconoscimento vocale sin dalla sua nascita, con il rilascio di "Shoebox" nel 1962. Questa macchina era in grado di riconoscere 16 parole diverse, migliorando il lavoro iniziale dei Bell Labs degli anni '50. Tuttavia, IBM non si è fermata qui, ma ha continuato a innovare nel corso degli anni, lanciando l'applicazione VoiceType Simply Speaking nel 1996. Questo software di riconoscimento vocale aveva un vocabolario di 42.000 parole, supportava l'inglese e lo spagnolo e includeva un dizionario di ortografia di 100.000 parole.
Sebbene la tecnologia vocale avesse un vocabolario limitato all'inizio, oggi viene utilizzata in un ampio numero di settori, come quello automobilistico, tecnologico e sanitario. La sua adozione ha continuato ad accelerare negli ultimi anni grazie ai progressi nel deep learning e nei big data. La ricerca (link esterno a ibm.com) prevede che questo mercato raggiungerà un valore di 24,9 miliardi di dollari entro il 2025.
Sono disponibili molte applicazioni e dispositivi di riconoscimento vocale, ma le soluzioni più avanzate utilizzano l'AI e il machine learning. Integrano la grammatica, la sintassi, la struttura e la composizione dei segnali audio e vocali per comprendere ed elaborare il parlato umano. Idealmente, imparano man mano, migliorando le loro risposte a ogni interazione.
I migliori sistemi consentono inoltre alle organizzazioni di personalizzare e adattare la tecnologia ai loro requisiti specifici, dalla lingua e le sfumature del parlato al riconoscimento dei marchi. Per esempio:
Nel frattempo, il riconoscimento vocale continua a progredire. Le aziende, come IBM, si stanno facendo strada in diverse aree, per migliorare l'interazione tra uomo e macchina.
Le particolarità del linguaggio umano hanno reso difficile lo sviluppo. Questa è considerata una delle aree più complesse dell'informatica, che coinvolge la linguistica, la matematica e la statistica. I riconoscitori vocali sono costituiti da alcuni componenti, ad esempio l'input vocale, l'estrazione delle caratteristiche, i vettori di caratteristiche, un decodificatore e un output di parole. Il decodificatore sfrutta i modelli acustici, un dizionario di pronuncia e i modelli linguistici per determinare l'output appropriato.
La tecnologia di riconoscimento vocale viene valutata in base al tasso di precisione, ovvero al tasso di errore delle parole (WER) e alla velocità. Una serie di fattori può influire sul tasso di errore delle parole, come la pronuncia, l'accento, l'intonazione, il volume e il rumore di fondo. Raggiungere la parità umana, ovvero un tasso di errore pari a quello di due esseri umani che parlano, è stato a lungo l'obiettivo dei sistemi di riconoscimento vocale. Una ricerca di Lippmann (link esterno a ibm.com) stima che il tasso di errore verbale sia di circa il 4 per cento, ma è stato difficile replicare i risultati di questo articolo.
Per tradurre il parlato in testo e migliorare l'accuratezza della trascrizione, vengono utilizzati diversi algoritmi e tecniche di calcolo. Di seguito sono riportate brevi spiegazioni di alcuni dei metodi più comunemente utilizzati:
Oggi un gran numero di settori utilizza diverse applicazioni della tecnologia vocale, aiutando le aziende e i consumatori a risparmiare tempo e persino vite umane. Ecco alcuni esempi:
Settore automobilistico: i riconoscitori vocali migliorano la sicurezza del conducente abilitando i sistemi di navigazione ad attivazione vocale e le funzionalità di ricerca nelle autoradio.
Tecnologia: gli agenti virtuali sono sempre più integrati nella nostra vita quotidiana, in particolare sui nostri dispositivi mobili. Utilizziamo i comandi vocali per accedervi tramite i nostri smartphone, ad esempio tramite Google Assistant o Siri di Apple, per attività, come la ricerca vocale, o attraverso i nostri altoparlanti, tramite Alexa di Amazon o Cortana di Microsoft, per riprodurre musica. Continueranno a integrarsi nei prodotti di uso quotidiano che utilizziamo, sostendendo il movimento "Internet of Things".
Assistenza sanitaria: medici e infermieri utilizzano le applicazioni di dettatura per acquisire e registrare le diagnosi dei pazienti e le note sul trattamento.
Vendite: la tecnologia di riconoscimento vocale presenta un paio di applicazioni nelle vendite. Può aiutare un call center a trascrivere migliaia di telefonate tra clienti e agenti per identificare modelli di chiamata e problemi comuni. Anche gli ai chatbot possono parlare con le persone tramite una pagina web, rispondere a domande comuni e risolvere le richieste di base senza dover aspettare la disponibilità di un agente del centro di contatto. In entrambi i casi, i sistemi di riconoscimento vocale aiutano a ridurre i tempi di risoluzione dei problemi dei consumatori.
Sicurezza: Con l'integrazione della tecnologia nella nostra vita quotidiana, i protocolli di sicurezza sono una priorità crescente. L'autenticazione vocale aggiunge un valido livello di sicurezza.
Converti il parlato in testo utilizzando il riconoscimento vocale e la trascrizione basati sull'intelligenza artificiale.
Converti il testo in parlato dal suono naturale in diverse lingue e voci.
Software di hybrid cloud basato sull'AI.