Per centinaia e migliaia di anni, gli esseri umani hanno usato il linguaggio per comunicare idee ed emozioni complesse in modo rapido ed efficace. Tuttavia, è molto difficile analizzare il parlato senza prima produrre una documentazione scritta, che richiede tempo e risorse.
La tecnologia di riconoscimento vocale mira a cambiare questa situazione, convertendo automaticamente il parlato in testo scritto che può essere analizzato. Da oltre trent'anni, Cedat 85 è all'avanguardia nelle soluzioni speech to text e aiuta i clienti nei settori dei media, della pubblica amministrazione, dei servizi finanziari, delle assicurazioni, della tecnologia, del marketing e dei contact center a soddisfare richieste sempre più complesse.
Enrico Giannotti, Managing Director di Cedat 85, spiega: “Il parlato è un fenomeno molto sofisticato. Parliamo di lingue, dialetti e modelli linguistici diversi. Poiché il parlato è così dinamico, con nuove frasi inventate e parole esistenti che cambiano significato ogni giorno, sviluppare soluzioni di riconoscimento vocale può essere come colpire un bersaglio in movimento”.
Dal 2002, Cedat 85 costruisce sofisticate reti neurali per supportare le sue soluzioni speech to text, utilizzando algoritmi che sono diventati sempre più complessi e accurati nel tempo. Per fare un salto di qualità nello sviluppo, l'azienda mirava ad accelerare i cicli di addestramento dei modelli. In precedenza, a causa dei limiti dell’infrastruttura, Cedat 85 poteva impiegare anche settimane, o addirittura mesi, per addestrare un modello di rete neurale. Potendo accedere solo a pochissime informazioni sulla precisione di un modello fino al completamento dell'addestramento, questo processo si rivelava molto lungo e rischioso.
"Addestriamo i nostri modelli utilizzando grandi quantità di dati", commenta Giannotti. "Nonostante avessimo potenziato la nostra infrastruttura con le GPU per accelerare l'elaborazione, ci è voluto ancora molto tempo per ottenere risultati. Ogni progetto richiedeva così tanto tempo e risorse che abbiamo dovuto rimandare delle opportunità. Con la crescente popolarità delle soluzioni vocali e di analytics, stanno emergendo sempre nuovi mercati per la tecnologia speech-to-text. Per essere sicuri di non perdere terreno rispetto ai concorrenti, eravamo determinati ad agire più in fretta”.