Cos'è la traduzione automatica

Autore

Jacob Murel Ph.D.

Senior Technical Content Creator

Joshua Noble

Data Scientist

Definizione di traduzione automatica

La traduzione automatica è un'attività di elaborazione del linguaggio naturale (NLP) per mappare il testo tra le lingue. I metodi di traduzione spaziano da semplici euristiche a modelli linguistici di grandi dimensioni (LLM).

La ricerca sull'apprendimento automatico spesso affronta la traduzione automatica come un processo stocastico.1 Dalla loro nascita, verso la metà del XX secolo, i sistemi di traduzione automatica sono passati da semplici algoritmi euristici ad approcci di deep learning basati su reti neurali.

Traduzione assistita

La traduzione automatica si distingue dalla traduzione assistita da computer (CAT). Quest'ultima si riferisce all'uso di software di traduzione automatica o altri strumenti di traduzione digitale per assistere i traduttori umani. Questi strumenti possono includere dizionari digitali, un correttori ortografici o strumenti di memoria di traduzione, come database di coppie terminologiche per parole comuni. La differenza fondamentale tra CAT e traduzione automatica è che nel primo caso, la traduzione vera e propria è svolta dagli esseri umani.

Traduzione automatica

La distinzione tra traduzione automatica (machine translation in inglese) e automated translation non è chiara. Alcune fonti utilizzano machine translation e automatic translation in modo intercambiabile, ma le distinguono dall'automated translation, mentre altre distinguono la prima dalle ultime due. In genere, queste distinzioni considerano la machine translation come comprendente qualsiasi metodologia di traduzione che incorpori strumenti di machine learning, in particolare l'intelligenza artificiale,inclusa la CAT.

L'automated translation, al contrario, è una forma di traduzione automatica che automatizza le fasi di un workflow, come la modifica preliminare del testo di partenza o la modifica postuma dell'output. I sistemi di gestione dei contenuti possono spesso includere strumenti di gestione delle traduzioni per automatizzare le attività di traduzione più comuni. Le fonti che si distinguono in questo modo allineano la traduzione automatica a quella CAT.

Le ultime tendenze in materia di AI, proposte da esperti

Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.

Problemi di traduzione

Gli strumenti di traduzione automatica affrontano molti degli stessi problemi della traduzione umana. Gli sviluppi nella traduzione automatica implicano metodi sempre più sofisticati per affrontare questi problemi, una panoramica di alcuni problemi centrali è utile per il contesto.

Un problema fondamentale è l'ambiguità delle parole. Un esempio illustrativo è la frase: Mi puoi passare quella ciabatta?. Qui, ciabatta potrebbe riferirsi alla calzatura o a una presa di corrente multipla. Questo è un esempio di come le parole polisemiche e sinonime influiscano sulla traduzione. Un altro esempio significativo di tale ambiguità sono le espressioni idiomatiche. "In bocca al lupo", ad esempio, non ha nulla a che fare con il lupo. Anche i pronomi possono rimanere ambigui in molte frasi, in particolare se trattati isolatamente.2

Anche i cambiamenti nelle regole linguistiche, come la sintassi e la grammatica, tra le diverse lingue influiscono sulla traduzione. Ad esempio, gli aggettivi in inglese compaiono prima del sostantivo e solitamente dopo in italiano, mentre l'ordine delle parole è irrilevante in latino. Ciò spiega le differenze nei metodi di traduzione tra i traduttori professionisti. In alcuni casi, la traduzione linguistica è letterale, mentre altri approcci mirano a catturare il senso e l'importanza culturale del testo attraverso traduzioni libere.3

I testi poetici rappresentano una sfida unica per la creazione di traduzioni accurate. La metrica, la rima e l'allitterazione sono tutte sfide che influenzano in modo unico la qualità della traduzione poetica.4 La ricerca sulla traduzione automatica si concentra solitamente sul testo in prosa. Questa panoramica introduce alcune delle problematiche del processo di traduzione umana che si riscontrano anche nella tecnologia della traduzione automatica.

Mixture of Experts | 28 agosto, episodio 70

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Tipi di traduzione automatica

Non esiste un unico processo per tutti i tipi di traduzione automatica. Il modo in cui un sistema traduce il testo dipende dal tipo di traduzione automatica. Sebbene i ricercatori esaminino un'ampia varietà di sistemi, i seguenti tre sono tra i più popolari

Traduzione automatica basata su regole

Come suggerisce il nome, la traduzione automatica basata su regole (RBMT) fornisce un insieme di regole che specificano come utilizzare le informazioni linguistiche memorizzate per la traduzione. Ad esempio, ciò può comportare un elenco di combinazioni linguistiche a livello di parola ed etichettature di parti del discorso che aiutano il computer a combinare le parole in strutture grammaticalmente coerenti. L'utente può quindi creare una serie di regole che istruiscono il computer su come le parole e altri gruppi testuali di una lingua vengono mappati su quelli di un'altra.5

La complessità dei sistemi RBMT dipende dal livello di analisi linguistica implementato. La letteratura spesso illustra questi livelli di analisi linguistica con un diagramma chiamato triangolo di Vauquois:

Diagramma dei diversi approcci alla traduzione automatica

Questo diagramma illustra tre approcci all'RBMT:

  • Traduzione diretta. Questo approccio utilizza generalmente un dizionario predefinito per generare traduzioni parola per parola del testo di partenza. Dopo questo passaggio, una serie di regole tenta di riordinare il testo di arrivo nell'ordine delle parole della lingua di destinazione. Queste regole non comportano alcuna analisi sintattica dei testi di partenza o di arrivo.

  • Trasferimento. Questo approccio adotta un grado limitato di analisi sintattica. I metodi più comuni di tale analisi includono l'etichettatura di parti del discorso, la disambiguazione del senso delle parole e l'analisi morfologica (utilizzata nella lemmatizzazione). Attraverso questi metodi, il sistema può utilizzare la conoscenza linguistica delle lingue di partenza e di arrivo per generare traduzioni più idiomatiche e meno letterali rispetto agli approcci diretti.

  • Interlingua. Questo approccio utilizza una rappresentazione intermedia formalizzata e artificiale tra il testo di partenza e quello tradotto. Questo intermediario è, essenzialmente, una versione ancora più astratta di quella prodotta nei sistemi di trasferimento attraverso l'analisi morfologica. Il sistema codifica il testo di partenza in questo linguaggio artificiale astratto che poi decodifica nella lingua di arrivo.6

Per adattarsi efficacemente ai casi del mondo reale, gli approcci RBMT richiedono dizionari di grandi dimensioni. Inoltre, le lingue naturali non seguono un insieme immutabile di regole: ciò che è permesso in una cultura, in un periodo o in un dialetto non si applica linguisticamente ad un'altra. Data la natura sempre crescente e mutevole dei linguaggi naturali, l'RBMT non offre una soluzione completa per la traduzione automatica. I metodi di traduzione basati sulla statistica sono un tentativo di adattarsi alla natura in continua evoluzione della lingua.

Traduzione automatica statistica

La traduzione automatica statistica (SMT) è un approccio che crea modelli statistici a partire dai dati di addestramento delle combinazioni linguistiche. Un set di dati di formazione SMT è composto da parole o n-grammi in una lingua abbinati a parole corrispondenti e n-grammi in una o più lingue. A partire da questi dati, gli approcci SMT costruiscono due modelli di apprendimento automatico che dividono il processo di traduzione in due fasi.

Il primo modello è un modello di traduzione. Utilizza i dati di addestramento per apprendere le coppie linguistiche con le distribuzioni di probabilità. Quando viene fornito un n-gramma nella lingua di partenza, il modello restituisce potenziali n-grammi nella lingua di arrivo con valori di probabilità. Questi valori indicano la probabilità, in base a ciò che il modello ha appreso dai dati di addestramento, che l'n-gramma di arrivo sia una traduzione appropriata dell'n-gramma di partenza. Per esempio, un modello di traduzione latino-inglese potrebbe produrre questo output per il trigramma sorgente mihi canes placent:

tabella comparativa traduzione del latino mihi canes placent

In questo output ipotetico, il modello predice le potenziali traduzioni in inglese per la frase latina mihi canes placent. L'inglese I like dogs ha il valore di probabilità più alto di 0,8. Ciò significa che, in base a ciò che il modello ha appreso dagli abbinamenti latino-inglese, è probabile che questa sia la migliore traduzione in inglese.

Il secondo modello è un modello monolingue per la lingua di arrivo. Questo modello prevede essenzialmente la probabilità che gli output n-gramma del modello di traduzione appaiano nella lingua di arrivo. Ad esempio, prendiamo l'output ipotetico I like dogs del nostro modello di traduzione. Il modello monolingue prevede la probabilità che dogs appaia dopo I like in base ai dati di addestramento in lingua inglese forniti. In questo modo, il modello monolingue può essere pensato come un approccio stocastico al post-editing che mira a confermare il senso e l'adeguatezza di una traduzione.7

Sebbene l'SMT migliori i metodi basati su regole, presenta molti problemi comuni ai modelli di apprendimento automatico. Ad esempio, dati di addestramento overfitting o underfitting. Il primo può ostacolare in particolare la capacità di un sistema SMT di gestire termini non presenti nel vocabolario, espressioni idiomatiche e diversi ordini di parole. I sistemi SMT pre-elaborano sequenze di testo in lunghezze fisse di n parole.

Traduzione automatica neurale

La traduzione con reti neurali (NMT) fornisce una traduzione più flessibile che si adatta testi di partenza e arrivo di lunghezza variabile. Proprio come i sistemi SMT, gli approcci NMT possono essere suddivisi in due fasi generali. Innanzitutto, un modello legge il testo di partenza e lo contestualizza all'interno di una struttura di dati che lo riepiloga. Questa rappresentazione contestuale è spesso un modello vettoriale, come nei modelli bag of words, ma può anche assumere altre forme, come i tensori. Una rete neurale ricorrente o convoluzionale legge questa rappresentazione e genera una frase nella lingua di arrivo.8 Più recentemente, i ricercatori si sono rivolti alle architetture trasformative per NMT. Un esempio chiave è mBART, un trasformatore addestrato su dati multilingue per il recupero di lacune artificiali e poi messo a punto per la traduzione.9

Gli approcci NMT hanno anche adottato modelli linguistici di grandi dimensioni (LLM). Nello specifico, anziché mettere a punto una rete neurale o un trasformatore per la traduzione, i ricercatori hanno esplorato la possibilità di ricorrere a modelli linguistici generativi di grandi dimensioni per la traduzione. Uno di questi studi esamina i modelli GPT per la traduzione automatica. I sistemi NMT sono costituiti dall'architettura encoder-decoder descritta in precedenza addestrata su grandi quantità di dati multilingue. I modelli GPT, al contrario, sono costituiti solo da configurazioni di decodifica addestrate principalmente su dati inglesi. Lo studio, condotto in diverse lingue, tra cui inglese, francese, spagnolo, tedesco, cinese e russo, suggerisce che gli approcci ibridi dei modelli NMT e GPT producono traduzioni di alta qualità e all'avanguardia.10

Ciò suggerisce che i sistemi NMT, in particolare se combinati con LLM e modelli generativi, sono in grado di gestire meglio espressioni idiomatiche e termini non presenti nel vocabolario rispetto ai metodi SMT. Inoltre, mentre gli SMT elaborano gli n-grammi, gli NMT elaborano l'intera frase del testo di partenza. Quindi gestisce meglio le caratteristiche linguistiche come la discontinuità che richiedono l'approccio delle frasi come unità. L'ambiguità nei pronomi, tuttavia, può rimanere un problema per gli NMT.11

Casi d’uso

I servizi di traduzione automatica sono ampiamente disponibili e un motore di traduzione automatica basato su neuroni è Watson Language Translator di IBM.

Un'area chiave in cui la traduzione automatica può aiutare a superare le barriere linguistiche è la traduzione vocale, potenzialmente in tempo reale. Studi recenti hanno esplorato applicazioni congiunte del riconoscimento vocale automatico e degli NMT basati su trasformatori per la traduzione del parlato con risultati positivi,12 dato che i sistemi di traduzione vocale generalmente richiedono la trascrizione del parlato e poi la traduzione del testo risultante. Uno studio recente esamina la concatenazione di voce e testo durante la pre-elaborazione per la traduzione multimodale con risultati promettenti.13

Soluzioni correlate
IBM watsonx Orchestrate

Progetta facilmente assistenti e agenti di AI scalabili, automatizza le attività ripetitive e semplifica i processi complessi con IBM watsonx Orchestrate.

Scopri watsonx Orchestrate
Strumenti di elaborazione del linguaggio naturale e API

Accelera il valore aziendale dell'intelligenza artificiale con un portfolio potente e flessibile di librerie, servizi e applicazioni.

Esplora le soluzioni NLP
Consulenza e servizi sull'AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Progetta facilmente assistenti e agenti di AI scalabili, automatizza le attività ripetitive e semplifica i processi complessi con IBM watsonx Orchestrate.

Scopri watsonx Orchestrate Esplora le soluzioni NLP
Note a piè di pagina

1 Miles Osborne, “Statistical Machine Translation,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

2 Philipp Koehn, Neural Machine Translation, Cambridge University Press, 2020.

3 Thierry Poibeau, Machine Translation, MIT Press, 2017.

4 Translating poetry essay

5 Dorothy Kenny, “Human and machine translation,” Machine translation for everyone: Empowering users in the age of artificial intelligence, Language Science Press, 2022.

6 Thierry Poibeau, Machine Translation, MIT Press, 2017.

7 Dorothy Kenny, “Human and machine translation,” Machine translation for everyone: Empowering users in the age of artificial intelligence, Language Science Press, 2022.

8 Ian Goodfellow, Yoshua Bengio, and Aaron Courville, Deep Learning, MIT Press, 2016.

9 Yinhan Liu, Jiatao Gu, Naman Goyal, Xian Li, Sergey Edunov, Marjan Ghazvininejad, Mike Lewis, and Luke Zettlemoyer, "Multilingual Denoising Pre-training for Neural Machine Translation," Transactions of the Association for Computational Linguistics, Vol. 8, 2020, https://aclanthology.org/2020.tacl-1.47/ (link esterno a ibm.com).

10 Amr Hendy, Mohamed Abdelrehim, Amr Sharaf, Vikas Raunak, Mohamed Gabr, Hitokazu Matsushita, Young Jin Kim, Mohamed Afify, and Hany Hassan Awadalla, “How Good Are GPT Models at Machine Translation? A Comprehensive Evaluation," https://arxiv.org/abs/2302.09210 (link esterno a ibm.com).

11 Dorothy Kenny, "Human and machine translation," Machine translation for everyone: Empowering users in the age of artificial intelligence, Language Science Press, 2022.

12 Yi Ren, Jinglin Liu, Xu Tan, Chen Zhang, Tao Qin, Zhou Zhao, and Tie-Yan Liu, “SimulSpeech: End-to-End Simultaneous Speech to Text Translation,” Atti della 58a riunione annuale dell'Associazione per la linguistica computazionale, 2020, https://aclanthology.org/2020.acl-main.350/ (link esterno a ibm.com). Parnia Bahar, Patrick Wilken, Tamer Alkhouli, Andreas Guta, Pavel Golik, Evgeny Matusov, and Christian Herold, "Start-Before-End and End-to-End: Neural Speech Translation by AppTek and RWTH Aachen University", Atti della 17a conferenza internazionale sulla traduzione in lingua parlata, 2020, https://aclanthology.org/2020.iwslt-1.3/ (link esterno a ibm.com).

13 Linlin Zhang, Kai Fan, Boxing Chen, and Luo Si, “A Simple Concatenation can Effectively Improve Speech Translation", Atti della 61a riunione annuale dell'Associazione per la linguistica computazionale, 2023, https://aclanthology.org/2023.acl-short.153/ (link esterno a ibm.com).