My IBM Accedi Iscriviti

Home

topics

Riconoscimento vocale

Cos'è il riconoscimento vocale?

Cos'è il riconoscimento vocale?

Esplora la soluzione di riconoscimento vocale di IBM Iscriviti per ricevere gli aggiornamenti sull'AI
Illustrazione con collage di pittogrammi di cloud, grafici a torta, pittogrammi grafici su quanto segue
Cos'è il riconoscimento vocale?

Cos'è il riconoscimento vocale?

Il riconoscimento vocale, noto anche come riconoscimento vocale automatico (ASR), riconoscimento vocale informatico o speech to text, è una funzionalità che consente a un programma di elaborare il linguaggio umano in un formato scritto.

Sebbene il riconoscimento vocale sia comunemente confuso con il riconoscimento vocale, il riconoscimento vocale si concentra sulla traduzione del parlato da un formato verbale a uno testuale mentre il riconoscimento vocale cerca solo di identificare la voce di un singolo utente.

IBM ha avuto un ruolo di primo piano nel riconoscimento vocale sin dalla sua nascita, con il rilascio di "Shoebox" nel 1962. Questa macchina era in grado di riconoscere 16 parole diverse, migliorando il lavoro iniziale dei Bell Labs degli anni '50. Tuttavia, IBM non si è fermata qui, ma ha continuato a innovare nel corso degli anni, lanciando l'applicazione VoiceType Simply Speaking nel 1996. Questo software di riconoscimento vocale aveva un vocabolario di 42.000 parole, supportava l'inglese e lo spagnolo e includeva un dizionario di ortografia di 100.000 parole.

Sebbene la tecnologia vocale avesse un vocabolario limitato all'inizio, oggi viene utilizzata in un ampio numero di settori, come quello automobilistico, tecnologico e sanitario. La sua adozione ha continuato ad accelerare negli ultimi anni grazie ai progressi nel deep learning e nei big data. La ricerca (link esterno a ibm.com) prevede che questo mercato raggiungerà un valore di 24,9 miliardi di dollari entro il 2025.

Imparare e utilizzare Presto

Leggi l’ebook gratuito di O’Reilly per imparare a muovere i primi passi con Presto, il motore SQL open source per l’analisi dei dati.

Contenuti correlati Registrati per leggere la guida sui foundation model
Caratteristiche principali di un riconoscimento vocale efficace

Caratteristiche principali di un riconoscimento vocale efficace

Sono disponibili molte applicazioni e dispositivi di riconoscimento vocale, ma le soluzioni più avanzate utilizzano l'AI e il machine learning. Integrano la grammatica, la sintassi, la struttura e la composizione dei segnali audio e vocali per comprendere ed elaborare il parlato umano. Idealmente, imparano man mano, migliorando le loro risposte a ogni interazione.

I migliori sistemi consentono inoltre alle organizzazioni di personalizzare e adattare la tecnologia ai loro requisiti specifici, dalla lingua e le sfumature del parlato al riconoscimento dei marchi. Per esempio:

  • Ponderazione linguistica: migliora la precisione ponderando parole specifiche pronunciate frequentemente (come i nomi dei prodotti o il gergo del settore), oltre ai termini già presenti nel vocabolario di base.
  • Speaker labeling: produce una trascrizione che cita o etichetta i contributi di ciascun oratore in una conversazione con più partecipanti.
  • Acoustics training: si occupa del lato acustico del business. Addestra il sistema ad adattarsi a un ambiente acustico (come il rumore ambientale in un call center) e agli stili degli altoparlanti (come il tono della voce, il volume e il ritmo).
  • Filtraggio delle volgarità: utilizza i filtri per identificare determinate parole o frasi e sanificare l'output vocale.

Nel frattempo, il riconoscimento vocale continua a progredire. Le aziende, come IBM, si stanno facendo strada in diverse aree, per migliorare l'interazione tra uomo e macchina.

 

Algoritmi di riconoscimento vocale

Algoritmi di riconoscimento vocale

Le particolarità del linguaggio umano hanno reso difficile lo sviluppo. Questa è considerata una delle aree più complesse dell'informatica, che coinvolge la linguistica, la matematica e la statistica. I riconoscitori vocali sono costituiti da alcuni componenti, ad esempio l'input vocale, l'estrazione delle caratteristiche, i vettori di caratteristiche, un decodificatore e un output di parole. Il decodificatore sfrutta i modelli acustici, un dizionario di pronuncia e i modelli linguistici per determinare l'output appropriato.

La tecnologia di riconoscimento vocale viene valutata in base al tasso di precisione, ovvero al tasso di errore delle parole (WER) e alla velocità. Una serie di fattori può influire sul tasso di errore delle parole, come la pronuncia, l'accento, l'intonazione, il volume e il rumore di fondo. Raggiungere la parità umana, ovvero un tasso di errore pari a quello di due esseri umani che parlano, è stato a lungo l'obiettivo dei sistemi di riconoscimento vocale. Una ricerca di Lippmann (link esterno a ibm.com) stima che il tasso di errore verbale sia di circa il 4 per cento, ma è stato difficile replicare i risultati di questo articolo.

Per tradurre il parlato in testo e migliorare l'accuratezza della trascrizione, vengono utilizzati diversi algoritmi e tecniche di calcolo. Di seguito sono riportate brevi spiegazioni di alcuni dei metodi più comunemente utilizzati:

  • Elaborazione del linguaggio naturale (NLP): sebbene l'NLP non sia necessariamente un algoritmo specifico utilizzato nel riconoscimento vocale, è l'area dell'intelligenza artificiale che si concentra sull'interazione tra gli esseri umani e le macchine attraverso il linguaggio tramite il parlato e il testo. Molti dispositivi mobili incorporano il riconoscimento vocale nei loro sistemi per condurre ricerche vocali, ad esempio Siri, o per fornire una maggiore accessibilità agli SMS. 
  • I modelli di Markov nascosti (HMM): i modelli di Markov nascosti si basano sul modello della catena di Markov, che stabilisce che la probabilità di un certo stato dipende dallo stato attuale, non dai suoi stati precedenti. Mentre un modello a catena di Markov è utile per eventi osservabili, come gli input di testo, i modelli di Markov nascosti consentono di incorporare eventi nascosti, come i tag part-of-speech, in un modello probabilistico. Sono utilizzati come modelli di sequenza all'interno del riconoscimento vocale e assegnano etichette a ciascuna unità, ad esempio parole, sillabe, frasi, ecc. — nella sequenza. Queste etichette creano una mappatura con l'input fornito, consentendo di determinare la sequenza di etichette più appropriata.
  • N-grammi: questo è il tipo più semplice di modello linguistico (LM), che assegna le probabilità alle frasi. Un N-gramma è una sequenza di N-parole. Ad esempio, "ordina la pizza" è un trigramma o 3 grammi e "per favore ordina la pizza" è un 5 grammi. Per migliorare il riconoscimento e la precisione si ricorre alla grammatica e alla probabilità di determinate sequenze di parole.
  • Reti neurali: sfruttate principalmente per algoritmi di deep learning, le reti neurali elaborano i dati di addestramento imitando l'interconnessione del cervello umano attraverso strati di nodi. Ciascun nodo è costituito da input, pesi, distorsioni (soglia) e output. Se il valore di output supera una determinata soglia, "innesca" o attiva il nodo, passando i dati al livello successivo della rete. Le reti neurali apprendono questa funzione di mappatura attraverso l'apprendimento supervisionato, regolandosi in base alla funzione di perdita attraverso il processo di discesa del gradiente.  Sebbene le reti neurali tendano a essere più precise e ad accettare un maggior numero di dati, ciò comporta un costo in termini di efficienza delle prestazioni, in quanto tendono a essere più lente da addestrare rispetto ai modelli linguistici tradizionali.
  • Diarizzazione del parlante (SD): gli algoritmi di diarizzazione del parlante identificano e segmentano il parlato in base all'identità del parlante. Questo aiuta i programmi a distinguere meglio gli individui in una conversazione e viene spesso applicato nei call center per distinguere clienti e agenti di vendita.
Casi d'uso del riconoscimento vocale

Casi d'uso del riconoscimento vocale

Oggi un gran numero di settori utilizza diverse applicazioni della tecnologia vocale, aiutando le aziende e i consumatori a risparmiare tempo e persino vite umane. Ecco alcuni esempi:

Settore automobilistico: i riconoscitori vocali migliorano la sicurezza del conducente abilitando i sistemi di navigazione ad attivazione vocale e le funzionalità di ricerca nelle autoradio.

Tecnologia: gli agenti virtuali sono sempre più integrati nella nostra vita quotidiana, in particolare sui nostri dispositivi mobili. Utilizziamo i comandi vocali per accedervi tramite i nostri smartphone, ad esempio tramite Google Assistant o Siri di Apple, per attività, come la ricerca vocale, o attraverso i nostri altoparlanti, tramite Alexa di Amazon o Cortana di Microsoft, per riprodurre musica. Continueranno a integrarsi nei prodotti di uso quotidiano che utilizziamo, sostendendo il movimento "Internet of Things".

Assistenza sanitaria: medici e infermieri utilizzano le applicazioni di dettatura per acquisire e registrare le diagnosi dei pazienti e le note sul trattamento.

Vendite: la tecnologia di riconoscimento vocale presenta un paio di applicazioni nelle vendite. Può aiutare un call center a trascrivere migliaia di telefonate tra clienti e agenti per identificare modelli di chiamata e problemi comuni. Anche gli ai chatbot possono parlare con le persone tramite una pagina web, rispondere a domande comuni e risolvere le richieste di base senza dover aspettare la disponibilità di un agente del centro di contatto. In entrambi i casi, i sistemi di riconoscimento vocale aiutano a ridurre i tempi di risoluzione dei problemi dei consumatori.

Sicurezza: Con l'integrazione della tecnologia nella nostra vita quotidiana, i protocolli di sicurezza sono una priorità crescente. L'autenticazione vocale aggiunge un valido livello di sicurezza.

Soluzioni correlate

Soluzioni correlate

IBM® Watson Speech to Text

Converti il parlato in testo utilizzando il riconoscimento vocale e la trascrizione basati sull'intelligenza artificiale.

Esplora IBM Watson Speech to Text
IBM® Watson Text to Speech

Converti il testo in parlato dal suono naturale in diverse lingue e voci.

Esplora IBM Watson Text to Speech
Soluzioni IBM® Cloud Pak

Software di hybrid cloud basato sull'AI.

Esplora le soluzioni Cloud Pak
Risorse

Risorse

Scopri come la tecnologia IBM Watson Speech to Text utilizza il riconoscimento vocale e la trascrizione basati sull'AI

Abilita la trascrizione vocale in più lingue per una varietà di casi d’uso, tra cui, ma non solo, il self-service dei clienti, l’assistenza agli agenti e l’analytics vocale.

IBM Cloud Paks: un percorso verso la trasformazione digitale

Impara come stare al passo, ripensare a come utilizzare tecnologie come il cloud, l’AI e l’automazione per accelerare l’innovazione e soddisfare le aspettative in evoluzione dei clienti.

Fai il passo successivo

IBM watsonx Assistant aiuta le organizzazioni a fornire una migliore esperienza al cliente con un AI chatbot che comprende il linguaggio del business, si connette ai sistemi di assistenza clienti esistenti e può essere implementato ovunque con sicurezza e scalabilità di livello aziendale. Watsonx Assistant automatizza le attività ripetitive e utilizza il machine learning per risolvere i problemi del supporto clienti in modo rapido ed efficiente.

Scopri watsonx Assistant Prenota una demo live