Cos'è il Text to Speech?

Autori

IBM Content Contributor

Staff Editor

IBM Think

Il Text to Speech (TTS) è un tipo di tecnologia che converte il testo su un'interfaccia digitale in un audio dal suono naturale. Può anche essere definita tecnologia di "lettura ad alta voce", sintesi vocale generata dal computer o sintesi vocale. La maggior parte delle aziende offre la tecnologia Text to Speech sotto forma di Application Programming Interface (API).

Originariamente, i sistemi TTS sono stati sviluppati come tecnologia assistiva in grado di rendere determinati servizi più accessibili agli utenti con disabilità visive e difficoltà di apprendimento, come ad esempio la dislessia. Attualmente i generatori vocali basati sull'intelligenza artificiale consentono al software Text to Speech di imitare meglio il linguaggio umano, generando un'ondata di nuovi casi d'uso come la risposta alle chiamate del servizio clienti, i podcast generati dall'AI, il doppiaggio e la narrazione di audiolibri.

Evoluzione del Text to Speech

I primi sintetizzatori vocali elettrici sono apparsi intorno agli anni '30¹. Le prime macchine erano limitate ed erano complicate da utilizzare.

Con l'arrivo dei computer, a partire dalla fine degli anni '50 i programmatori lavorarono su algoritmi che potevano accedere a un grande database di file audio, utilizzati come suoni sorgente. Questi algoritmi potevano trovare corrispondenze sonore per le unità di testo e mettere insieme elementi di un discorso. All'inizio, la voce generata sembrava robotica, ma via via che il lavoro di modellazione caratterizzava meglio il linguaggio, gli algoritmi per trasformare il testo in voce sono migliorati.

Quando sono emerse le tecniche di deep learning e le reti neurali negli anni 2000, i programmatori hanno iniziato a modellare le forme d'onda direttamente con le registrazioni vocali, il che ha portato a voci di alta qualità che sembravano più realistiche. Parallelamente, gli informatici stavano perfezionando il software di riconoscimento vocale e l'elaborazione del linguaggio naturale. Lo sviluppo dell'AI conversazionale si è basato sulla combinazione delle tecnologie Speech to Text e Text to Speech.

Sebbene l'AI e l'apprendimento automatico abbiano reso più facile la generazione di un parlato dal suono naturale, hanno introdotto anche nuovi aspetti controversi, come i deepfake. Le aziende tecnologiche stanno lavorando allo sviluppo di sistemi di analisi vocale in tempo reale per rilevare i deepfake audio.

Rimani aggiornato sulle ultime novità dal mondo della tecnologia

Ricevi insight settimanali, ricerche e opinioni degli esperti su AI, sicurezza, cloud e molto altro nella newsletter Think.

Come funziona il Text to Speech?

Le tecniche di deep learning consentono ai modelli di sintesi vocale di analizzare più dati e comprendere meglio la relazione tra le parole e le loro caratteristiche acustiche; tutto ciò rende il suono della voce AI più naturale. La conversione Text to Speech è un processo in più fasi che coinvolge sia l'analisi linguistica che la sintesi vocale.

I componenti principali della conversione Text to Speech sono:

Analisi linguistica
Sintesi vocale

Analisi linguistica

Nel modello, alle reti neurali vengono forniti set di dati audio con le relative trascrizioni in inglese e, talvolta, in altre lingue. Questo aiuta il sistema a capire come le parole si abbinano al parlato, così come gli accenti, l'intonazione, il volume, il tono, il ritmo e molto altro. Dopo avere ricevuto un input, il modello Text to Speech analizza le parole, la punteggiatura e la struttura delle frasi. Può espandere abbreviazioni ed espressioni, calcolare la durata delle parole, trovare le pronunce corrispondenti e tracciare la prosodia di frasi e locuzioni.

Sintesi vocale

Dopo che il testo è stato analizzato, il modello utilizza un processo in due fasi per trasformarlo in un output vocale.

Fase 1: il modello trasforma il testo in elementi allineati nel tempo, come uno spettrogramma, utilizzato per mappare la variazione delle frequenze nel tempo. Questo cattura le caratteristiche dettagliate del discorso e i fattori nelle pronunce, negli accenti e nei tempi delle parole dipendenti dal contesto.
Fase 2: una rete di codifica vocale (vocoder) può trasformare le funzioni allineate nel tempo in forme d'onda audio che i computer possono convertire in voce dal suono naturale. Alcuni modelli Text to Speech consentono agli utenti di modificare il volume, l'intonazione e la velocità, così come di scegliere tra diverse lingue, accenti e stili di conversazione.

Molti dispositivi, come gli smartphone, sono dotati di sistemi Text to Speech integrati. Il Text to Speech è disponibile anche sotto forma di programmai software, estensioni del browser, strumenti basato su web o app scaricabili.

Mixture of Experts | 12 dicembre, episodio 85

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Guarda tutti gli episodi di Mixture of Experts

Utilizzi del Text to Speech

La tecnologia Text to Speech è stata originariamente sviluppata per aumentare l'accessibilità a una tipologia più ampia di utenti, al fine di consentire alle persone con disabilità visive o di lettura di interagire con i testi tramite computer e altri dispositivi. Stephen Hawkings, ad esempio, utilizzava un tipo di tecnologia Text to Speech.

Da allora il Text to Speech si è evoluto verso una gamma più ampia di casi d'uso, principalmente quelli in cui la lettura non è pratica o si potrebbe fare risparmiare tempo a un operatore umano. Di seguito sono riportate alcune delle principali applicazioni di questa tecnologia.

Contenuti audio
Formazione
Chatbot e assistenti virtuali
Navigazione
Comunicazione multilingue e apprendimento linguistico
Media e intrattenimento
Assistenza sanitaria

Contenuti audio

Il software Text to Speech può leggere ad alta voce testi digitali, libri, lezioni, guide, istruzioni e altro per facilitare l'e-learning e la formazione online. Le agenzie di stampa possono utilizzare questa tecnologia anche per convertire gli articoli in formato audio.

Formazione

Le funzionalità Text to Speech possono aiutare gli studenti a prestare più attenzione e a leggere il testo scritto mentre lo ascoltano, associando così le parole alle pronunce. Può anche migliorare la comprensione e il coinvolgimento della lettura via via che gli studenti vengono esposti a nuove strutture grammaticali o a nuovi vocaboli. Può anche aiutare coloro che hanno difficoltà visive o difficoltà di apprendimento come la dislessia. La funzione Text to Speech consente anche di leggere ad alta voce i lavori scritti prodotti dagli studenti, aiutandoli a correggere i temi che scrivono.

Chatbot e assistenti virtuali

Gli assistenti virtuali come Siri di Apple o Cortana di Microsoft abbinano il Text to Speech allo Speech to Text per comprendere le richieste degli utenti e interagire con loro in modo naturale e conversazionale. Possono anche trasmettere notifiche e leggere testi quando gli utenti sono, ad esempio, alla guida.

In contesti aziendali, i sistemi TTS possono migliorare la qualità delle esperienze degli utenti rendendo il servizio clienti più interattivo e naturale. I sistemi TTS possono rispondere alle chiamate, presentare opzioni e rispondere agli utenti. Sono una parte fondamentale dei sistemi telefonici automatizzati.

Navigazione

Le funzionalità Text to Speech sono ciò che consente al GPS e ad altre app di mappatura di trasmettere le indicazioni stradali ai guidatori in tempo reale. Prima del Text to Speech, i dispositivi di navigazione si basavano su voci preregistrate e prompt predefiniti come "girare a sinistra" o "girare a destra". Con il Text to Speech, le istruzioni di guida sono diventate più personalizzate. Ad esempio, il GPS può indicare la strada esatta in cui si deve svoltare a sinistra.

Comunicazione multilingue e apprendimento linguistico

Il Text to Speech può aiutare gli utenti a comunicare in diverse lingue, ad esempio attraverso un'applicazione come Google Translate. Questo tipo di funzione dell'app può tradurre l'audio da una lingua all'altra, consentendo di utilizzarlo per doppiare contenuti video. Può aiutare a esporre gli studenti di lingue a un discorso naturale, il che può aiutarli a capire come si pronunciano le diverse parole.

Media e intrattenimento

Con il progresso della tecnologia TTS, è possibile risparmiare sui costi di produzione dei media. Ad esempio, la tecnologia potrebbe generare commenti e narrazioni nei videogiochi, nonché doppiaggi per i personaggi. Alcuni studi cinematografici collaborano con i doppiatori umani per migliorare le prestazioni delle loro voci AI.

Assistenza sanitaria

Le organizzazioni sanitarie utilizzano la tecnologia Text to Speech per comunicare con i pazienti in modo accessibile. Ciò include l'aggiunta di versioni audio dei contenuti e dei testi pubblicati sulle loro pagine web o sui social media. Alcune istituzioni aggiungeranno anche istruzioni audioguidate su come utilizzare determinati dispositivi medici. Le interfacce vocali basate su AI generativa possono anche aiutare a ricordare ai pazienti gli appuntamenti imminenti tramite chiamate o ad avvisarli in merito a notizie o aggiornamenti delle loro cartelle cliniche. Questo può essere particolarmente importante per i pazienti con disabilità visive, problemi di linguaggio, limitazioni motorie e difficoltà di apprendimento.

Note a piè di pagina

¹Text-to-Speech Technology (Speech Synthesis), American National Standards Institute, 7 dicembre 2015

Oltre il clamore: come gli assistenti AI generano un valore aziendale reale

Esplora i principali casi d'uso per l'utilizzo degli assistenti AI per capire il potenziale impatto della gen AI e della tecnologia di automazione sulla tua azienda e scopri come iniziare.