Riconoscimento Vocale

menu icon

Riconoscimento Vocale

Scopri la storia del riconoscimento vocale e le sue varie applicazioni nel mondo di oggi

Cos'è il riconoscimento vocale?

Il riconoscimento vocale, noto anche come riconoscimento automatico del discorso (ASR), riconoscimento vocale del computer o Speech-to-text, è una funzionalità che permette a un programma di elaborare il discorso umano in un formato scritto. Anche se è comunemente confuso con il riconoscimento della voce, il riconoscimento vocale si concentra sulla traduzione del discorso da un formato verbale a uno testuale, mentre il riconoscimento della voce cerca solo di identificare la voce di un singolo utente.

IBM ha avuto un ruolo di primo piano nel riconoscimento vocale fin dal suo inizio, con il rilascio di “Shoebox” nel 1962. Questa macchina aveva la capacità di riconoscere 16 parole diverse, anticipando il lavoro iniziale dei Bell Labs degli anni '50. Tuttavia, IBM non si è fermata lì, ma ha continuato a innovare nel corso degli anni, lanciando l'applicazione VoiceType Simply Speaking nel 1996. Questo software di riconoscimento vocale aveva un vocabolario di 42.000 parole, supportava l'inglese e lo spagnolo, e includeva un dizionario ortografico di 100.000 parole. Mentre la tecnologia vocale aveva un vocabolario limitato nei primi tempi, oggi è utilizzata in un ampio numero di industrie, come automobilistica, tecnologica e sanitaria. La sua adozione ha soltanto continuato ad accelerare negli ultimi anni a causa dei progressi nel deep learning e nei big data. Research (link esterno a IBM) mostra che questo mercato dovrebbe valere 24,9 miliardi di dollari entro il 2025.

Caratteristiche principali di un riconoscimento vocale efficace

Sono disponibili molte applicazioni e dispositivi di riconoscimento vocale, ma le soluzioni più avanzate utilizzano l'AI e il machine learning. Integrano la grammatica, la sintassi, la struttura e la composizione dei segnali audio e vocali per comprendere ed elaborare il discorso umano. Idealmente, apprendono man mano che vanno avanti - evolvendo le risposte con ogni interazione.

I migliori sistemi permettono anche alle organizzazioni di personalizzare e adattare la tecnologia ai loro requisiti specifici - tutto, dalla lingua e dalle sfumature del discorso al riconoscimento del marchio. Ad esempio:

  • Ponderazione della lingua: migliorare la precisione ponderando parole specifiche che sono parlate frequentemente (come i nomi dei prodotti o il gergo industriale), oltre ai termini già presenti nel vocabolario di base.
  • Etichettatura dello speaker: produrre una trascrizione che cita o etichetta i contributi di ciascuno speaker in una conversazione a più partecipanti.
  • Formazione acustica: occuparsi del lato acustico del business. Addestrare il sistema ad adattarsi a un ambiente acustico (come il rumore ambientale in un call center) e agli stili degli speaker (come il tono della voce, il volume e il ritmo).
  • Filtraggio delle volgarità: utilizzare i filtri per identificare certe parole o frasi e ripulire l'output del discorso.

Nel frattempo, il riconoscimento vocale continua a progredire. Le aziende, come IBM, si stanno facendo strada in diverse aree, per migliorare l'interazione tra uomo e macchina.

Algoritmi di riconoscimento vocale

Le imprevedibilità del discorso umano hanno reso lo sviluppo impegnativo. È considerata una delle aree più complesse dell'informatica - coinvolgendo linguistica, matematica e statistica. I riconoscitori vocali sono costituiti da alcuni componenti, come l'input del discorso, l'estrazione delle caratteristiche, i vettori di caratteristiche, un decodificatore e un output di parole. Il decodificatore sfrutta modelli acustici, un dizionario di pronuncia e modelli linguistici per determinare l'output appropriato.

La tecnologia di riconoscimento vocale viene valutata in base al suo tasso di precisione, cioè il tasso di errore di parola (WER) e la velocità. Un certo numero di fattori può influenzare il tasso di errore delle parole, come la pronuncia, l'accento, l'intonazione, il volume e il rumore di fondo. Raggiungere la parità umana - cioè un tasso di errore pari a quello di due umani che parlano - è stato a lungo l'obiettivo dei sistemi di riconoscimento vocale. Research di Lippmann (link esterno a IBM) (PDF, 344 KB) stima che il tasso di errore delle parole sia intorno al 4%, ma è stato difficile replicare i risultati di questo lavoro.

Ulteriori informazioni su come IBM ha fatto passi da gigante in questo senso, raggiungendo record di settore nel campo del riconoscimento vocale.

Vari algoritmi e tecniche di calcolo sono utilizzati per la conversione del parlato in testo e per migliorare l'accuratezza della trascrizione. Qui di seguito ci sono brevi spiegazioni di alcuni dei metodi più comunemente usati:

  • Natural language processing (NLP): mentre NLP non è necessariamente un algoritmo specifico utilizzato nel riconoscimento vocale, è l'area dell'intelligenza artificiale che si concentra sull'interazione tra gli esseri umani e le macchine attraverso il linguaggio e il discorso e il testo. Molti dispositivi mobili incorporano il riconoscimento vocale nei loro sistemi per effettuare ricerche vocali, ad es. Siri, o per fornire una maggiore accessibilità per quanto riguarda la scrittura di messaggi.
  • Modelli Hidden Markov (HMM): i modelli Hidden Markov si basano sul modello a catena di Markov, che stabilisce che la probabilità di un dato stato dipende dallo stato attuale, non dai suoi stati precedenti. Mentre un modello a catena di Markov è utile per eventi osservabili, come gli input di testo, i modelli hidden di markov ci permettono di incorporare eventi nascosti, come i tag part-of-speech, in un modello probabilistico. Sono utilizzati come modelli di sequenza all'interno del riconoscimento vocale, assegnando etichette ad ogni unità - cioè parole, sillabe, frasi, ecc. - nella sequenza. Queste etichette creano una mappatura con l'input fornito, permettendo di determinare la sequenza di etichette più appropriata.
  • N-grams: questo è il tipo più semplice di modello linguistico (LM), che assegna probabilità a frasi o espressioni. Un N-gram è una sequenza di N parole. Ad esempio, "ordina la pizza" è un trigramma o 3-gramma e "per favore ordina la pizza" è un 5-gramma. La grammatica e la probabilità di certe sequenze di parole sono utilizzate per migliorare il riconoscimento e la precisione.
  • Reti neurali: principalmente sfruttate per algoritmi di deep learning, le reti neurali elaborano i dati di addestramento imitando la interconnessione del cervello umano attraverso livelli di nodi. Ogni nodo è composto da input, punteggi, un limite (o soglia) e un output. Se questo valore di output supera una data soglia, "accende" o attiva il nodo, passando i dati allo livello successivo della rete. Le reti neurali apprendono questa funzione di mappatura attraverso l'apprendimento supervisionato, regolandosi in base alla funzione di dispersione attraverso il processo di discesa del livello di gradiente. Mentre le reti neurali tendono ad essere più accurate e possono accettare più dati, questo ha un costo in termini di efficienza delle prestazioni, poiché tendono ad essere più lente da addestrare rispetto ai modelli linguistici tradizionali.
  • Diarizzazione dell'altoparlante (SD): gli algoritmi di Speaker Diarization identificano e segmentano il discorso in base all'identità dello speaker. Questo aiuta i programmi a distinguere meglio gli individui in una conversazione ed è spesso applicato nei call center per distinguere i clienti e gli agenti di vendita.

Leggi sul Blog Watson come IBM sfrutta i modelli SD all'interno dei loro servizi Speech to Text.

Casi di utilizzo del riconoscimento vocale

Un gran numero di industrie sta utilizzando diverse applicazioni della tecnologia vocale oggi, aiutando le imprese e i consumatori a risparmiare tempo e persino risorse umane. Alcuni esempi includono:

Settore automobilistico: i riconoscitori vocali migliorano la sicurezza del conducente consentendo sistemi di navigazione ad attivazione vocale e capacità di ricerca nelle autoradio.

Tecnologia: gli assistenti virtuali sono sempre più integrati nella nostra vita quotidiana, in particolare sui nostri dispositivi mobili. Usiamo i comandi vocali per accedervi attraverso i nostri smartphone, come attraverso Google Assistant o Siri di Apple, per attività come la ricerca vocale, o attraverso i nostri speaker, tramite Alexa di Amazon o Cortana di Microsoft, per riprodurre musica. Continueranno a integrarsi nei prodotti di uso quotidiano che utilizziamo, alimentando il fenomeno dell'"Internet delle cose".

Assistenza sanitaria: medici e infermieri sfruttano le applicazioni di dettatura per acquisire e registrare le diagnosi dei pazienti e le indicazioni di trattamento.

Vendite: la tecnologia di riconoscimento vocale ha un paio di applicazioni nelle vendite. Può aiutare un call center a trascrivere migliaia di telefonate tra clienti e agenti per identificare i motivi e i problemi comuni delle chiamate. I bot cognitivi possono anche parlare con le persone tramite una pagina web, rispondendo a domande comuni e risolvendo richieste di base senza bisogno di aspettare che un agente del contact center sia disponibile. In entrambi i casi, i sistemi di riconoscimento vocale aiutano a ridurre il tempo di risoluzione dei problemi dei consumatori.

Sicurezza: man mano che la tecnologia si integra nella nostra vita quotidiana, i protocolli di sicurezza sono una priorità crescente. L'autenticazione basata sulla voce aggiunge un valido livello di sicurezza.

Scopri di più sul modo in cui aziende come Audioburst sfruttano il software di riconoscimento vocale per indicizzare l'audio delle stazioni radio e dei podcast in tempo reale sul nostro blog qui

Riconoscimento vocale e IBM

IBM è stata pioniera nello sviluppo di strumenti e servizi di riconoscimento vocale che consentono alle organizzazioni di automatizzare i loro complessi processi di business, ottenendo al contempo informazioni essenziali per il business.

  • IBM Watson Speech to Text è una soluzione cloud-native che utilizza algoritmi di AI di deep learning per applicare la conoscenza della grammatica, della struttura del linguaggio e della composizione del segnale audio/voce per creare un riconoscimento vocale personalizzabile per una trascrizione ottimale del testo.
  • IBM Watson Text to Speech genera un audio simile a quello umano dal testo scritto, aumentando il coinvolgimento e la soddisfazione del cliente migliorando la fruibilità in tutte le lingue e le modalità di interazione.

Per ulteriori informazioni su come iniziare con la tecnologia di riconoscimento vocale, esplora IBM Watson Speech to Text e IBM Watson Text to Speech.

Registrati per un IBMid e crea il tuo account IBM Cloud.