Il Text to Speech (TTS) è un tipo di tecnologia che converte il testo su un'interfaccia digitale in un audio dal suono naturale. Può anche essere definita tecnologia di "lettura ad alta voce", sintesi vocale generata dal computer o sintesi vocale. La maggior parte delle aziende offre la tecnologia Text to Speech sotto forma di Application Programming Interface (API).
Originariamente, i sistemi TTS sono stati sviluppati come tecnologia assistiva in grado di rendere determinati servizi più accessibili agli utenti con disabilità visive e difficoltà di apprendimento, come ad esempio la dislessia. Attualmente i generatori vocali basati sull'intelligenza artificiale consentono al software Text to Speech di imitare meglio il linguaggio umano, generando un'ondata di nuovi casi d'uso come la risposta alle chiamate del servizio clienti, i podcast generati dall'AI, il doppiaggio e la narrazione di audiolibri.
I primi sintetizzatori vocali elettrici sono apparsi intorno agli anni '301. Le prime macchine erano limitate ed erano complicate da utilizzare.
Con l'arrivo dei computer, a partire dalla fine degli anni '50 i programmatori lavorarono su algoritmi che potevano accedere a un grande database di file audio, utilizzati come suoni sorgente. Questi algoritmi potevano trovare corrispondenze sonore per le unità di testo e mettere insieme elementi di un discorso. All'inizio, la voce generata sembrava robotica, ma via via che il lavoro di modellazione caratterizzava meglio il linguaggio, gli algoritmi per trasformare il testo in voce sono migliorati.
Quando sono emerse le tecniche di deep learning e le reti neurali negli anni 2000, i programmatori hanno iniziato a modellare le forme d'onda direttamente con le registrazioni vocali, il che ha portato a voci di alta qualità che sembravano più realistiche. Parallelamente, gli informatici stavano perfezionando il software di riconoscimento vocale e l'elaborazione del linguaggio naturale. Lo sviluppo dell'AI conversazionale si è basato sulla combinazione delle tecnologie Speech to Text e Text to Speech.
Sebbene l'AI e l'apprendimento automatico abbiano reso più facile la generazione di un parlato dal suono naturale, hanno introdotto anche nuovi aspetti controversi, come i deepfake. Le aziende tecnologiche stanno lavorando allo sviluppo di sistemi di analisi vocale in tempo reale per rilevare i deepfake audio.
Le tecniche di deep learning consentono ai modelli di sintesi vocale di analizzare più dati e comprendere meglio la relazione tra le parole e le loro caratteristiche acustiche; tutto ciò rende il suono della voce AI più naturale. La conversione Text to Speech è un processo in più fasi che coinvolge sia l'analisi linguistica che la sintesi vocale.
I componenti principali della conversione Text to Speech sono:
Analisi linguistica
Sintesi vocale
Nel modello, alle reti neurali vengono forniti set di dati audio con le relative trascrizioni in inglese e, talvolta, in altre lingue. Questo aiuta il sistema a capire come le parole si abbinano al parlato, così come gli accenti, l'intonazione, il volume, il tono, il ritmo e molto altro. Dopo avere ricevuto un input, il modello Text to Speech analizza le parole, la punteggiatura e la struttura delle frasi. Può espandere abbreviazioni ed espressioni, calcolare la durata delle parole, trovare le pronunce corrispondenti e tracciare la prosodia di frasi e locuzioni.
Dopo che il testo è stato analizzato, il modello utilizza un processo in due fasi per trasformarlo in un output vocale.
Fase 1: il modello trasforma il testo in elementi allineati nel tempo, come uno spettrogramma, utilizzato per mappare la variazione delle frequenze nel tempo. Questo cattura le caratteristiche dettagliate del discorso e i fattori nelle pronunce, negli accenti e nei tempi delle parole dipendenti dal contesto.
Fase 2: una rete di codifica vocale (vocoder) può trasformare le funzioni allineate nel tempo in forme d'onda audio che i computer possono convertire in voce dal suono naturale. Alcuni modelli Text to Speech consentono agli utenti di modificare il volume, l'intonazione e la velocità, così come di scegliere tra diverse lingue, accenti e stili di conversazione.
Molti dispositivi, come gli smartphone, sono dotati di sistemi Text to Speech integrati. Il Text to Speech è disponibile anche sotto forma di programmai software, estensioni del browser, strumenti basato su web o app scaricabili.
La tecnologia Text to Speech è stata originariamente sviluppata per aumentare l'accessibilità a una tipologia più ampia di utenti, al fine di consentire alle persone con disabilità visive o di lettura di interagire con i testi tramite computer e altri dispositivi. Stephen Hawkings, ad esempio, utilizzava un tipo di tecnologia Text to Speech.
Da allora il Text to Speech si è evoluto verso una gamma più ampia di casi d'uso, principalmente quelli in cui la lettura non è pratica o si potrebbe fare risparmiare tempo a un operatore umano. Di seguito sono riportate alcune delle principali applicazioni di questa tecnologia.
Contenuti audio
Formazione
Chatbot e assistenti virtuali
Navigazione
Comunicazione multilingue e apprendimento linguistico
Media e intrattenimento
Assistenza sanitaria
Il software Text to Speech può leggere ad alta voce testi digitali, libri, lezioni, guide, istruzioni e altro per facilitare l'e-learning e la formazione online. Le agenzie di stampa possono utilizzare questa tecnologia anche per convertire gli articoli in formato audio.
Le funzionalità Text to Speech possono aiutare gli studenti a prestare più attenzione e a leggere il testo scritto mentre lo ascoltano, associando così le parole alle pronunce. Può anche migliorare la comprensione e il coinvolgimento della lettura via via che gli studenti vengono esposti a nuove strutture grammaticali o a nuovi vocaboli. Può anche aiutare coloro che hanno difficoltà visive o difficoltà di apprendimento come la dislessia. La funzione Text to Speech consente anche di leggere ad alta voce i lavori scritti prodotti dagli studenti, aiutandoli a correggere i temi che scrivono.
Gli assistenti virtuali come Siri di Apple o Cortana di Microsoft abbinano il Text to Speech allo Speech to Text per comprendere le richieste degli utenti e interagire con loro in modo naturale e conversazionale. Possono anche trasmettere notifiche e leggere testi quando gli utenti sono, ad esempio, alla guida.
In contesti aziendali, i sistemi TTS possono migliorare la qualità delle esperienze degli utenti rendendo il servizio clienti più interattivo e naturale. I sistemi TTS possono rispondere alle chiamate, presentare opzioni e rispondere agli utenti. Sono una parte fondamentale dei sistemi telefonici automatizzati.
Le funzionalità Text to Speech sono ciò che consente al GPS e ad altre app di mappatura di trasmettere le indicazioni stradali ai guidatori in tempo reale. Prima del Text to Speech, i dispositivi di navigazione si basavano su voci preregistrate e prompt predefiniti come "girare a sinistra" o "girare a destra". Con il Text to Speech, le istruzioni di guida sono diventate più personalizzate. Ad esempio, il GPS può indicare la strada esatta in cui si deve svoltare a sinistra.
Il Text to Speech può aiutare gli utenti a comunicare in diverse lingue, ad esempio attraverso un'applicazione come Google Translate. Questo tipo di funzione dell'app può tradurre l'audio da una lingua all'altra, consentendo di utilizzarlo per doppiare contenuti video. Può aiutare a esporre gli studenti di lingue a un discorso naturale, il che può aiutarli a capire come si pronunciano le diverse parole.
Con il progresso della tecnologia TTS, è possibile risparmiare sui costi di produzione dei media. Ad esempio, la tecnologia potrebbe generare commenti e narrazioni nei videogiochi, nonché doppiaggi per i personaggi. Alcuni studi cinematografici collaborano con i doppiatori umani per migliorare le prestazioni delle loro voci AI.
Le organizzazioni sanitarie utilizzano la tecnologia Text to Speech per comunicare con i pazienti in modo accessibile. Ciò include l'aggiunta di versioni audio dei contenuti e dei testi pubblicati sulle loro pagine web o sui social media. Alcune istituzioni aggiungeranno anche istruzioni audioguidate su come utilizzare determinati dispositivi medici. Le interfacce vocali basate su AI generativa possono anche aiutare a ricordare ai pazienti gli appuntamenti imminenti tramite chiamate o ad avvisarli in merito a notizie o aggiornamenti delle loro cartelle cliniche. Questo può essere particolarmente importante per i pazienti con disabilità visive, problemi di linguaggio, limitazioni motorie e difficoltà di apprendimento.
1 Text-to-Speech Technology (Speech Synthesis), American National Standards Institute, 7 dicembre 2015
Progetta facilmente assistenti e agenti di AI scalabili, automatizza le attività ripetitive e semplifica i processi complessi con IBM watsonx Orchestrate.
Accelera il valore aziendale dell'intelligenza artificiale con un portfolio potente e flessibile di librerie, servizi e applicazioni.
Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.