Apa itu penerjemahan mesin?

Penulis

Jacob Murel Ph.D.

Senior Technical Content Creator

Joshua Noble

Data Scientist

Definisi penerjemahan mesin

Penerjemahan mesin adalah tugas pemrosesan bahasa alami (NLP) untuk memetakan teks di berbagai bahasa. Metode penerjemahan berkisar dari heuristik sederhana hingga model bahasa besar (LLM).

Penelitian machine learning sering kali mengatasi terjemahan mesin sebagai proses stokastik.1 Sejak peluncurannya pada pertengahan abad kedua puluh, sistem penerjemahan mesin telah berkembang dari algoritma heuristik sederhana ke pendekatan pembelajaran mendalam yang didukung oleh neural networks.

Penerjemahan berbantuan komputer

Penerjemahan mesin berbeda dengan penerjemahan berbantuan komputer (CAT). Yang disebutkan terakhir mengacu pada penggunaan perangkat lunak penerjemahan mesin atau alat penerjemahan digital lainnya untuk membantu penerjemah manusia. Alat bantu tersebut dapat berupa kamus digital, pemeriksa tata bahasa, atau alat memori penerjemahan, seperti basis data pasangan bahasa untuk berbagai kata umum. Perbedaan utama antara CAT dan penerjemahan mesin adalah bahwa dalam CAT tugas penerjemahan sebenarnya dilakukan oleh manusia.

Penerjemahan otomatis

Perbedaan antara penerjemahan mesin dan otomatis tidak terbatas. Beberapa sumber menggunakan penerjemahan mesin dan penerjemahan otomatis secara bergantian, namun membedakannya dengan penerjemahan otomatis, sementara sumber lain membedakan penerjemahan mesin dari penerjemahan otomatis. Secara umum, perbedaan ini menganggap penerjemahan mesin sebagai mencakup semua metodologi penerjemahan yang menyertakan alat machine learning, khususnya kecerdasan buatan, dan dengan demikian termasuk CAT.

Sebaliknya, penerjemahan otomatis adalah satu bentuk penerjemahan mesin yang mengotomatiskan langkah-langkah dalam alur kerja penerjemahan, seperti prapengeditan teks sumber, atau pasca-pengeditan teks output. Sistem manajemen konten sering kali dapat mencakup alat manajemen penerjemahan untuk membantu mengotomatiskan tugas penerjemahan umum. Sumber yang membedakan cara ini menyelaraskan penerjemahan otomatis serta CAT.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

Masalah dalam terjemahan

Alat penerjemahan mesin menghadapi banyak masalah yang sama seperti terjemahan manusia. Perkembangan dalam penerjemahan mesin melibatkan metode yang semakin canggih untuk mengatasi masalah ini, gambaran umum tentang sejumlah masalah utama akan sangat membantu untuk memberikan konteks.

Salah satu masalah utama adalah ambiguitas kata. Contoh ilustrasi klasik adalah kalimat Ayamnya siap disantap. Di sini, ayam bisa merujuk pada hewan hidup atau dagingnya yang sudah dimasak. Ini adalah salah satu contoh bagaimana kata-kata polisem dan sinonim memengaruhi terjemahan. Contoh penting lain dari ambiguitas semacam itu adalah ekspresi idiomatik. "Beat around the bush", misalnya, tidak ada hubungannya dengan semak-semak. Kata ganti juga dapat tetap ambigu dalam banyak kalimat, terutama jika diperlakukan secara terpisah.2

Perubahan aturan linguistik, seperti sintaks dan tata bahasa, antara bahasa yang berbeda juga memengaruhi terjemahan. Misalnya, kata kerja dalam bahasa Jerman dapat sering kali muncul di akhir kalimat, sementara dalam bahasa Inggris sering kali muncul di tengah, sementara urutan kata tidak relevan dalam bahasa Latin. Ini menjelaskan berbagai perbedaan dalam metode penerjemahan di kalangan penerjemah profesional. Dalam beberapa kasus, penerjemahan bahasa dilakukan kata per kata, sementara pendekatan lain bertujuan untuk menangkap makna dan penyampaian budaya dari suatu teks melalui penerjemahan yang lepas.3

Teks puisi menimbulkan tantangan unik untuk menghasilkan terjemahan yang akurat. Pola ritme, rima, dan aliterasi adalah masalah yang secara unik memengaruhi kualitas terjemahan puitis.4 Penelitian penerjemahan mesin biasanya berfokus pada teks prosa. Gambaran umum ini menyajikan beberapa masalah dalam proses penerjemahan manusia yang juga ada dalam teknologi penerjemahan mesin.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Jenis penerjemahan mesin

Tidak ada satu proses pasti untuk semua jenis penerjemahan mesin. Bagaimana sistem menerjemahkan teks tergantung pada jenis penerjemahan mesin. Meskipun para peneliti menguji berbagai macam sistem, tiga sistem berikut adalah yang paling populer

Penerjemahan mesin berbasis aturan

Sesuai namanya, penerjemahan mesin berbasis aturan (RBMT) memberikan sekumpulan aturan yang menentukan cara memanfaatkan informasi linguistik yang disimpan untuk terjemahan. Sebagai contoh, hal ini dapat melibatkan daftar pasangan bahasa tingkat kata dan tag bagian dari ucapan yang membantu komputer menggabungkan kata-kata ke dalam struktur tata bahasa yang koheren. Pengguna kemudian dapat membuat seperangkat aturan yang menginstruksikan komputer bagaimana kata-kata dan kelompok tekstual lainnya dari satu bahasa dipetakan ke dalam bahasa lain.5

Kompleksitas sistem RBMT tergantung pada tingkat analisis linguistik yang diterapkan. Literatur sering menggambarkan tingkat analisis linguistik ini dengan diagram yang disebut segitiga Vauquois:

diagram pendekatan yang berbeda pada penerjemahan mesin

Diagram ini menggambarkan tiga pendekatan pada RBMT:

  • Penerjemahan langsung. Pendekatan ini umumnya menggunakan kamus yang telah ditentukan sebelumnya untuk menghasilkan terjemahan kata demi kata dari teks sumber. Setelah langkah ini, serangkaian aturan mencoba menyusun ulang teks output ke dalam urutan kata bahasa target. Semua aturan ini tidak melibatkan analisis sintaksis apa pun pada teks sumber atau teks target.

  • Transfer. Pendekatan ini mengadopsi tingkat analisis sintaksis yang terbatas. Metode umum dari analisis tersebut mencakup penandaan bagian ucapan, disambiguasi pengertian kata, dan analisis morfologi (seperti yang digunakan dalam lematisasi). Dengan demikian, sistem dapat memanfaatkan pengetahuan linguistik bahasa sumber dan bahasa sasaran untuk menghasilkan terjemahan yang lebih idiomatis dan tidak terlalu harfiah dibandingkan dengan pendekatan langsung.

  • Interlingua. Pendekatan ini menggunakan representasi perantara formal dan buatan antara teks sumber dan terjemahan. Perantara ini pada dasarnya merupakan versi yang lebih abstrak daripada yang dihasilkan dalam sistem transfer melalui analisis morfologi. Sistem mengodekan teks sumber ke dalam bahasa buatan abstrak ini yang kemudian diuraikan ke dalam bahasa target.6

Untuk mengakomodasi kasus dunia nyata secara efektif, pendekatan RBMT memerlukan kamus besar. Selain itu, bahasa alami tidak mengikuti sekumpulan aturan yang tidak berubah-ubah—sesuatu yang diperbolehkan dalam satu budaya, periode waktu, atau dialek tidak berlaku secara linguistik pada budaya lain. Mengingat sifat bahasa alami yang terus berkembang dan berubah-ubah, RBMT tidak menawarkan solusi yang komprehensif untuk penerjemahan mesin. Metode berbasis statistik pada penerjemahan adalah salah satu upaya untuk mengakomodasi sifat bahasa yang selalu berubah.

Penerjemahan mesin statistik

Penerjemahan Mesin Statistik (SMT) adalah sebuah pendekatan yang membangun model statistik dari data pelatihan pasangan bahasa. Kumpulan data pelatihan SMT terdiri dari kata-kata atau n-gram dalam satu bahasa yang dipasangkan dengan kata-kata dan n-gram yang sesuai dalam satu bahasa atau lebih. Dari data ini, pendekatan SMT membangun dua model machine learning yang membagi proses penerjemahan ke dalam dua tahap.

Model pertama adalah model penerjemahan. Model ini menggunakan data pelatihan untuk mempelajari pasangan linguistik dengan distribusi probabilitas. Ketika diberikan n-gram dalam bahasa sumber, model akan memberikan output n-gram bahasa target potensial dengan nilai probabilitas. Semua nilai ini menunjukkan kemungkinan, berdasarkan apa yang dipelajari model dari data pelatihan, bahwa n-gram target adalah terjemahan yang tepat dari n-gram sumber. Sebagai contoh, model penerjemahan bahasa Latin-Inggris dapat menghasilkan output ini untuk sumber tri-gram mihi canes placent:

tabel perbandingan terjemahan bahasa Latin mihi canes placent

Dalam output hipotetis ini, model memprediksi potensi terjemahan bahasa Inggris untuk frasa Latin mihi canes placent. Bahasa Inggris I like dogs memiliki nilai probabilitas tertinggi, yaitu 0,8. Ini berarti bahwa berdasarkan apa yang dipelajari model dari pasangan bahasa Latin-Inggris, terdapat kemungkinan sebesar 80% bahwa ini adalah terjemahan bahasa Inggris terbaik.

Model kedua adalah model monolingual untuk bahasa target. Model ini pada dasarnya memprediksi kemungkinan output n-gram model penerjemahan muncul dalam bahasa target. Misalnya, ambil contoh output hipotetis I like dogs dari model terjemahan kita. Model monolingual memprediksi probabilitas kemunculan kata dogs setelah kata I like berdasarkan data pelatihan bahasa Inggris yang disediakan. Dengan cara ini, model monolingual dapat dianggap sebagai pendekatan stokastik terhadap pasca-pengeditan yang bertujuan untuk mengonfirmasi makna dan kesesuaian terjemahan.7

Meskipun kinerja SMT meningkat pada metode berbasis aturan, pendekatan ini memiliki banyak masalah yang biasa muncul pada model machine learning. Misalnya, data pelatihan yang overfitting atau underfitting. Overfitting terutama dapat menghalangi kemampuan sistem SMT untuk mengatasi istilah di luar kosakata, ekspresi idiomatik, dan urutan kata yang berbeda. Sistem SMT melakukan prapemrosesan pada urutan teks dalam panjang n kata yang tetap.

Penerjemahan mesin neural

Penerjemahan neural networks (NMT) menyediakan terjemahan yang lebih fleksibel yang mengakomodasi input dan output dengan panjang yang bervariasi. Sama seperti sistem SMT, pendekatan NMT dapat dibagi menjadi dua langkah umum. Pertama, model membaca teks input dan menyesuaikannya dengan konteks dalam struktur data yang merangkum input. Representasi kontekstual ini sering kali merupakan model vektor—seperti dalam model bag of words—tetapi juga dapat memiliki bentuk lain, seperti tensor. Neural networks berulang atau konvolusional membaca representasi ini dan menghasilkan kalimat dalam bahasa target.8 Baru-baru ini, para peneliti telah beralih ke arsitektur transformator untuk NMT. Salah satu contoh utama adalah mBART, sebuah transformator yang dilatih dengan data multibahasa untuk memulihkan celah buatan yang kemudian disempurnakan untuk penerjemahan.9

Pendekatan NMT juga telah mengadopsi model bahasa besar (LLM). Khususnya, alih-alih menyempurnakan neural networks atau transformator untuk penerjemahan, para peneliti telah menjelajahi model bahasa besar generatif yang memberikan prompt untuk penerjemahan. Salah satu studi tersebut meneliti model GPT untuk penerjemahan mesin. Sistem NMT terdiri dari arsitektur encoder-decoder yang telah dijelaskan sebelumnya, yang dilatih pada data multibahasa dalam jumlah besar. Sebaliknya, model GPT hanya terdiri dari pengaturan decoder yang dilatih terutama pada data bahasa Inggris. Diuji di berbagai bahasa, termasuk bahasa Inggris, Prancis, Spanyol, Jerman, Mandarin, dan Rusia, penelitian ini menunjukkan bahwa pendekatan gabungan antara model NMT dan GPT menghasilkan terjemahan yang berkualitas tinggi dan mutakhir.10

Hal ini menunjukkan bahwa sistem NMT, terutama ketika dikombinasikan dengan LLM dan model generatif, dapat menangani ekspresi idiomatik dan istilah di luar kosakata dengan lebih baik daripada metode SMT. Selain itu, sementara SMT memproses n-gram, NMT memproses kalimat dengan sumber lengkap. Karena itulah metode ini menangani fitur linguistik dengan lebih baik, seperti diskontinuitas yang membutuhkan pendekatan pada kalimat sebagai unit. Namun, ambiguitas dalam kata ganti dapat tetap menjadi masalah bagi NMT.11

Contoh penggunaan

Layanan penerjemahan mesin tersedia luas dan salah satu mesin penerjemahan mesin berbasis neural adalah Watson Language Translator dari IBM.

Bidang utama di mana penerjemahan mesin dapat membantu melewati hambatan bahasa adalah penerjemahan ucapan ke ucapan, yang berpotensi dilakukan secara real-time. Penelitian terbaru telah menjelajahi aplikasi gabungan antara pengenalan ucapan otomatis dan NMT berbasis transformator untuk penerjemahan ucapan ke ucapan dengan hasil positif.12 Karena sistem penerjemahan ucapan pada umumnya perlu mentranskripsikan ucapan kemudian menerjemahkan teks yang dihasilkan. Sebuah penelitian baru-baru ini meneliti penggabungan ucapan dan teks selama prapemrosesan untuk penerjemahan multimodal dengan hasil yang menjanjikan.13

Solusi terkait
IBM watsonx Orchestrate

Rancang asisten dan agen AI yang dapat diskalakan dengan mudah, otomatiskan tugas berulang, dan sederhanakan proses kompleks dengan IBM watsonx Orchestrate.

Temukan watsonx Orchestrate
Alat dan API pemrosesan bahasa alami

Mempercepat nilai bisnis kecerdasan buatan dengan portofolio pustaka, layanan, dan aplikasi yang kuat dan fleksibel.

Jelajahi solusi NLP
Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Rancang asisten dan agen AI yang dapat diskalakan dengan mudah, otomatiskan tugas berulang, dan sederhanakan proses kompleks dengan IBM watsonx Orchestrate.

Temukan watsonx Orchestrate Jelajahi solusi NLP
Catatan kaki

1 Miles Osborne, “Statistical Machine Translation,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

2 Philipp Koehn, Neural Machine Translation, Cambridge University Press, 2020.

3 Thierry Poibeau, Machine Translation, MIT Press, 2017.

4 Translating poetry essay

5 Dorothy Kenny, “Human and machine translation,” Machine translation for everyone: Empowering users in the age of artificial intelligence, Language Science Press, 2022.

6 Thierry Poibeau, Machine Translation, MIT Press, 2017.

7 Dorothy Kenny, “Human and machine translation,” Machine translation for everyone: Empowering users in the age of artificial intelligence, Language Science Press, 2022.

8 Ian Goodfellow, Yoshua Bengio, dan Aaron Courville, Deep Learning, MIT Press, 2016.

9 Yinhan Liu, Jiatao Gu, Naman Goyal, Xian Li, Sergey Edunov, Marjan Ghazvininejad, Mike Lewis, dan Luke Zettlemoyer, “Multilingual Denoising Pre-training for Neural Machine Translation,” Transactions of the Association for Computational Linguistics, Vol. 8, 2020, https://aclanthology.org/2020.tacl-1.47/ (tautan berada di luar ibm.com).

10 Amr Hendy, Mohamed Abdelrehim, Amr Sharaf, Vikas Raunak, Mohamed Gabr, Hitokazu Matsushita, Young Jin Kim, Mohamed Afify, dan Hany Hassan Awadalla, “How Good Are GPT Models at Machine Translation? A Comprehensive Evaluation,” https://arxiv.org/abs/2302.09210 (tautan berada di luar ibm.com).

11 Dorothy Kenny, “Human and machine translation,” Machine translation for everyone: Empowering users in the age of artificial intelligence, Language Science Press, 2022.

12 Yi Ren, Jinglin Liu, Xu Tan, Chen Zhang, Tao Qin, Zhou Zhao, dan Tie-Yan Liu, “SimulSpeech: End-to-End Simultaneous Speech to Text Translation,” Prosiding Pertemuan Tahunan ke-58 Asosiasi untuk Linguistik Komputasi, 2020, https://aclanthology.org/2020.acl-main.350/ (tautan berada di luar ibm.com). Parnia Bahar, Patrick Wilken, Tamer Alkhouli, Andreas Guta, Pavel Golik, Evgeny Matusov, dan Christian Herold, “Start-Before-End and End-to-End: Neural Speech Translation by AppTek and RWTH Aachen University,” Prosiding Konferensi Internasional ke-17 tentang Penerjemahan Bahasa Lisan, 2020, https://aclanthology.org/2020.iwslt-1.3/ (tautan berada di luar ibm.com).

13 Linlin Zhang, Kai Fan, Boxing Chen, dan Luo Si, “A Simple Concatenation can Effectively Improve Speech Translation,” Prosiding Pertemuan Tahunan ke-61 Asosiasi untuk Linguistik Komputasi, 2023, https://aclanthology.org/2023.acl-short.153/ (tautan berada di luar ibm.com).