Che cos'è lo speech to text?

14 ottobre 2024

 

 

Autori

Charlotte Hu

IBM Content Contributor

Amanda Downie

Editorial Content Strategist, IBM

Che cos'è lo speech to text?

Speech to text è il processo di conversione delle parole pronunciate in una trascrizione testuale. A volte denominato "voice to text", è disponibile principalmente come servizio basato su software (SaaS).

In genere combina la tecnologia di riconoscimento vocale basata sull'AI, nota anche come riconoscimento vocale automatico, con la trascrizione. Un programma per computer capta l'audio sotto forma di vibrazioni delle onde sonore e utilizza algoritmi linguistici per convertire l'input audio in caratteri, parole e frasi digitali.

Il machine learning, il deep learning e i modelli linguistici di grandi dimensioni, come il Generative Pre-Trained Transformer (GPT) di OpenAI, hanno reso il software di speech to text più avanzato ed efficiente perché possono ricavare modelli nella lingua parlata da un grande volume di campioni audio e di testo.

L'AI generativa può essere integrata con il software di speech to text per creare assistenti in grado di aiutare i clienti in una telefonata o di interagire con app vocali. L'AI generativa può anche riconvertire il testo in voce, procedura altrimenti nota come text to speech, con una voce realistica e dal suono naturale.

Come funziona lo speech to text?

Il software di speech to text contiene diversi componenti. Eccone alcune:

  • Input vocale: un microfono cattura le parole pronunciate

  • Estrazione delle caratteristiche: il computer identifica toni e schemi distintivi nel discorso

  • Decodificatore: l'algoritmo abbina le caratteristiche del parlato ai caratteri e alle parole attraverso un modello linguistico.

  • Output: viene formattato il testo finale con la punteggiatura e le maiuscole corrette in modo che sia leggibile dall'uomo

In genere, il processo di speech to text è composto dai passaggi seguenti:

  • Pre-elaborazione audio: Dopo l'acquisizione delle registrazioni audio, queste vengono pre-elaborate per migliorare la qualità e l'accuratezza del riconoscimento. Questo include la rimozione dei rumori di fondo e delle frequenze irrilevanti, la stabilizzazione del livello del volume, la segmentazione della clip per un'elaborazione più semplice e la conversione del file audio in un formato standard.

  • Analisi del suono ed estrazione delle caratteristiche: i segnali vocali sono spesso rappresentati come spettrogrammi (link esterno a ibm.com), che sono rappresentazioni visive delle frequenze nel tempo.1 Le parti rilevanti delle registrazioni audio sono suddivise in una sequenza di fonemi, che sono la più piccola unità di parola che distingue una parola da un'altra. Le principali classi di fonemi sono vocali e consonanti (link esterno a ibm.com).2 I modelli linguistici e i decodificatori possono abbinare i fonemi alle parole e quindi alle frasi. I modelli acustici basati sul deep learning possono prevedere quali caratteri e parole potrebbero comparire successivamente in base al contesto.

Esistono tre metodi principali per eseguire il riconoscimento vocale: sincrono, asincrono e in streaming.

  • Il riconoscimento sincrono avviene quando c'è una conversione immediata dell'audio in testo. Questo metodo è in grado di elaborare solo file audio di durata inferiore a un minuto. Viene utilizzato nei sottotitoli in diretta per le trasmissioni televisive.

  • Il riconoscimento in streaming avviene quando l'audio in streaming viene elaborato in tempo reale, quindi testi frammentati potrebbero apparire mentre l'utente sta ancora parlando.

  • Il riconoscimento asincrono avviene quando file audio preregistrati di grandi dimensioni vengono inviati per la trascrizione. Potrebbe essere messo in coda per essere elaborato e completato in un secondo momento.

Aziende come Google3 (link esterno a ibm.com), Microsoft(like esterno a ibm.com), Amazon(link esterno a ibm.com) e IBM offrono software di speech to text sotto forma di API tramite il cloud, il che ne consente l'utilizzo insieme ad altre applicazioni, strumenti e dispositivi.

Gli iPhone Apple hanno una funzione di dettatura (link esterno a ibm.com), che integra la tecnologia di sintesi vocale integrata nel suo iOS.6 Gli utenti Android possono scaricare app come Gboard (link esterno a ibm.com) per le funzioni di speech to text. Alcuni dispositivi pixel consentono agli utenti di digitare con la voce tramite l'Assistente.7 Esistono varie opzioni di software speech to text, sia open source che proprietario.

Progettazione 3D di palline che rotolano su una pista

The latest AI News + Insights 


Expertly curated insights and news on AI, cloud and more in the weekly Think Newsletter. 

L'evoluzione dei sistemi di speech to text

All'inizio della sua evoluzione, il software di riconoscimento vocale si basava su un vocabolario limitato. La sua recente adozione da parte di svariati settori, dall'automotive alla sanità, è stata aiutata dai progressi nella data science, nel deep learning e nell'AI.

Negli anni 1950, i Bell Laboratories idearono il primo sistema di riconoscimento vocale (link esterno a ibm.com), chiamato AUDREY, in grado di riconoscere i numeri pronunciati.8 Poi, IBM ha proposto Shoebox nel 1962, che poteva riconoscere numeri e 16 parole diverse.

Durante questi decenni (link esterno a ibm.com), gli informatici hanno elaborato modelli di riconoscimento dei fonemi e modelli statistici come gli Hidden Markov Models, che rimangono algoritmi popolari per il riconoscimento vocale.9 Intorno agli anni 1970, un programma della Carnegie Mellon chiamato HARPY permise ai computer di riconoscere 1.000 parole.

Negli anni 1980, il sistema di trascrizione Tangora di IBM utilizzava metodi statistici per riconoscere fino a 20.000 parole. Fu utilizzato nel primo sistema di dettatura ad attivazione vocale per gli impiegati e gettò le basi per il moderno software di speech to text. Questo tipo di software continuò ad essere sviluppato e migliorato fino a quando non è stato commercializzato negli anni 2000.

Quando sono arrivati gli algoritmi di machine learning e deep learning, questi hanno sostituito i modelli statistici e migliorato la precisione del riconoscimento, consentendo così di scalare le applicazioni. Il deep learning sarebbe più efficace per rilevare le sfumature e le espressioni informali. I modelli linguistici di grandi dimensioni (LLM) possono essere utilizzati per aggiungere contesto, il che può essere d'aiuto quando le scelte delle parole sono più ambigue o se ci sono variazioni di accento nella pronuncia. Con l'arrivo degli assistenti virtuali e degli altoparlanti intelligenti, sono stati in grado di integrare la speech to text con modelli linguistici di grandi dimensioni, l'elaborazione del linguaggio naturale (NLP) e altri servizi basati su cloud.

I modelli di deep learning end-to-end, come i trasformatori, sono fondamentali per i modelli linguistici di grandi dimensioni. Sono addestrati su grandi set di dati non etichettati di coppie audio-testo per imparare a far corrispondere i segnali audio alle trascrizioni.

Durante questo addestramento, il modello impara implicitamente come suonano le parole e quali parole possono apparire in sequenza insieme. Il modello può anche dedurre regole grammaticali e di struttura linguistica da applicare autonomamente. Il deep learning consolida alcuni dei passaggi più ripetitivi delle tecniche di speech to text tradizionali.

Utilizzi dello speech to text

Esistono vari casi d'uso del software di speech to text:

  1. Insight sul call center e assistenza per gli agenti
  2. Servizi di trascrizione e traduzione in tempo reale
  3. Riconoscimento vocale
  4. App per la digitazione vocale e la dettatura
  5. Monitoraggio dei contenuti

    Insight sul call center e assistenza per gli agenti

    Il software di speech to text può trascrivere automaticamente le interazioni con i clienti, indirizzare le chiamate in base alla necessità, ricavare insight dalle conversazioni con i clienti ed eseguire un'analisi del sentiment.

    Esempio: per i call center del servizio clienti, gli assistenti vocali con AI possono utilizzare lo speech to text per gestire le domande più semplici e ripetitive dei clienti e indirizzare le richieste più complesse agli agenti umani.

        Servizi di trascrizione e traduzione in tempo reale

        Può trascrivere i verbali di riunioni online o di webinar e creare sottotitoli, didascalie o doppiaggi sui video. Può anche essere utilizzato con un software di traduzione per offrire documenti di trascrizione in più lingue. Le applicazioni per scopi speciali possono consentire la trascrizione per applicazioni sanitarie, legali e di formazione.

        Esempio: Amazon (link esterno a ibm.com) offre un servizio di trascrizione medica che utilizza lo speech to text per trascrivere le conversazioni di medici e pazienti per le note cliniche e sottotitolare le consulenze di telemedicina.10

        Riconoscimento vocale

        Attraverso l'elaborazione del linguaggio naturale, il riconoscimento vocale può ricavare un significato dal testo trascritto ed estrarre comandi attuabili ed eseguirli. Questo può aiutare gli utenti a impartire comandi vocali, come effettuare telefonate, eseguire ricerche sul web o controllare le luci, i termostati e altri dispositivi connessi in una casa intelligente tramite chatbot o assistenti digitali come Alexa, Cortana, Google Assistant e Siri.

        Esempio: Alexa di Amazon (link esterno a ibm.com) ora utilizza lo speech to text e text to speech per accendere le luci, regolare la temperatura in una determinata stanza o suggerire ricette in base agli acquisti recenti di generi alimentari dell'utente.11

        App per la digitazione vocale e la dettatura

        Le persone con disabilità possono utilizzare queste app per interagire con computer e smartphone senza dover digitare fisicamente. Possono così dettare messaggi di testo, note, e-mail e altro ancora.

        Esempio: gli studenti con dislessia o che hanno recentemente subito lesioni alle braccia possono digitare appunti usando la voce su un computer Microsoft (link esterno a ibm.com).12 Questa funzionalità è supportata dai servizi Azure Speech.

        Monitoraggio dei contenuti

        L'AI può esaminare le trascrizioni di video e clip audio per cercare contenuti inappropriati e fungere da moderatore per segnalare materiali discutibili per la recensione umana.

        Esempio: Vatis Tech (link esterno a ibm.com) offre uno strumento che utilizza la speech to text per il monitoraggio dei social media nel marketing, in modo da aiutare i marchi a identificare le tendenze e l'intento alla base delle interazioni con i clienti.13

        Note a piè di pagina

        1. From Sound to Images, Part 1: A deep dive on spectrogram creation (link esterno a ibm.com), Cornell Lab Macaulay Library, 19 luglio 2021

        2. Lecture 12: An Overview of Speech Recognition (link esterno a ibm.com), University of Rochester Computer Science

        3. Turn speech into text using Google AI (link esterno a ibm.com), Google Cloud

        4. Speech to text REST API (link esterno a ibm.com), Microsoft

        5. Amazon Transcribe API reference (link esterno a ibm.com), AWS

        6. iPhone User Guide (link esterno a ibm.com), Apple

        7. Type with your voice (link esterno a ibm.com), Google Support

        8. Audrey, Alexa, Hal, and more (link esterno a ibm.com), Computer History Museum, 9 giugno 2021

        9. Speech Recognition: Past, Present, Future (link esterno a ibm.com), Carnegie Mellon University Computer Science

        10. Amazon Transcribe Medical (link esterno a ibm.com), AWS

        11. Alexa unveils new speech recognition, text-to-speech technologies (link esterno a ibm.com), Amazon, 20 settembre 2023

        12. Use voice typing to talk instead of type on your PC (link esterno a ibm.com), Microsoft

        13. Media Monitoring Intelligence - Turn any Audio to Insights (link esterno a ibm.com), Vatis Tech

        Soluzioni correlate IBM Watson Speech to Text

        Converti il parlato in testo utilizzando il riconoscimento vocale e la trascrizione basati sull'intelligenza artificiale

        watsonx Orchestrate

        Crea il tuo assistente AI con Orchestrate per ottimizzare l'attività del tuo team e riappropriarti delle tue giornate.

        IBM Watson Speech Libraries for Embed

        Collabora con IBM per integrare le funzionalità vocali nelle tue soluzioni

        Risorse

        Converti lo speech to text ed estrai insight significativi dai dati
        Supporto didattico

        Esplora il tutorial

        IBM watsonx Orchestrate
        Prova

        Prova watsonx

        Oltre l'hype: come gli assistenti AI generano un valore aziendale reale
        Report

        Inizia ora

        Impara a costruire con GenAI
        Webinar

        Guarda on-demand

        Fasi successive

        Inizia subito con i nostri modelli avanzati di machine learning o personalizzali per il tuo caso d'uso.

        Scopri di più su Watson Speech to Text