ما المقصود بالترجمة الآلية؟

مؤلف

Jacob Murel Ph.D.

Senior Technical Content Creator

Joshua Noble

Data Scientist

ما المقصود بالترجمة الآلية؟

الترجمة الآلية هي مهمة من مهام معالجة اللغة الطبيعية (NLP) تهدف إلى تحويل النصوص عبر اللغات. تتنوع طرق الترجمة بين الطرق البسيطة القائمة على القواعد والخوارزميات ووصولًا إلى النماذج اللغوية الكبيرة (LLMs).

غالبًا ما يتعامل البحث في التعلم الآلي مع الترجمة الآلية على أنها عملية عشوائية.1 منذ نشأتها في منتصف القرن العشرين، تطورت أنظمة الترجمة الآلية من خوارزميات إرشادية بسيطة إلى أساليب التعلم العميق المدعومة بالشبكات العصبية.

الترجمة بمساعدة الكمبيوتر

تختلف الترجمة الآلية عن الترجمة بمساعدة الكمبيوتر (CAT). يشير هذا المصطلح الأخير إلى استخدام برامج الترجمة الآلية أو أدوات الترجمة الرقمية الأخرى لمساعدة المترجمين البشريين. قد تكون هذه الأدوات قاموسًا رقميًا أو مدققًا نحويًا أو أداة ذاكرة للترجمة، مثل قاعدة بيانات أزواج اللغات للكلمات الشائعة. يتمثل الاختلاف الرئيسي بين الترجمة بمساعدة الكمبيوتر (CAT) والترجمة الآلية في أن المهمة الفعلية للترجمة في الأولى يقوم بها البشر.

الترجمة المؤتمتة

الفارق بين الترجمة الآلية والترجمة المؤتمتة غير محدد بوضوح. بعض المصادر تستخدم الترجمة الآلية والترجمة التلقائية بالتبادل مع التمييز بينهما وبين الترجمة المؤتمتة، بينما تميّز مصادر أخرى بين الأولى والاثنتين الأخريين. بشكل عام، تعتبر هذه التمييزات أن الترجمة الآلية تشمل أي منهجية ترجمة تستخدم أدوات التعلم الآلي -وبشكل خاص الذكاء الاصطناعي- وبالتالي تشمل الترجمة بمساعدة الكمبيوتر(CAT).

الترجمة المؤتمتة، بالمقابل، هي شكل من أشكال الترجمة الآلية يعمل على أتمتة خطوات في سير عمل الترجمة، مثل التعديل المسبق للنص المصدر أو التعديل اللاحق للنص الناتج. يمكن أن تتضمن أنظمة إدارة المحتوى في كثير من الأحيان أدوات إدارة الترجمة للمساعدة على أتمتة مهام الترجمة الشائعة. المصادر التي تميّز هذه الطريقة تضع الترجمة المؤتمتة في نفس مستوى الترجمة بمساعدة الكمبيوتر (CAT).

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! لقد اشتركت بنجاح.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

مشكلات في الترجمة

تواجه أدوات الترجمة الآلية العديد من المشكلات نفسها التي تواجهها الترجمة البشرية. تنطوي التطورات في مجال الترجمة الآلية على أساليب متطورة بشكل متزايد لمعالجة هذه المشكلات، ومن المفيد إلقاء نظرة عامة على بعض المشكلات المركزية في هذا السياق.

إحدى القضايا الأساسية هو غموض الكلمات. مثال توضيحي كلاسيكي؛ جملة: الدجاج جاهز للأكل. يمكن أن تشير كلمة الدجاج هنا إلى الحيوان الحي أو إلى لحمه المطهو. هذا مثال على كيفية تأثير الكلمات متعددة المعاني والمترادفة في الترجمة. مثال آخر بارز على هذا الغموض هو التعبيرات الاصطلاحية. على سبيل المثال، عبارة "Beat around the bush" ليست لها أي علاقة بالأشجار أو الشجيرات. يمكن أن تظل الضمائر غامضة في العديد من الجمل، خاصةً عند التعامل معها بشكل منفصل.2

تؤثِّر التغييرات في القواعد اللغوية، مثل النحو والصرف، بين اللغات المختلفة أيضًا على الترجمة. على سبيل المثال، غالبًا ما تأتي الأفعال في اللغة الألمانية في نهاية الجملة، بينما تظهر عادةً في منتصف الجملة في الإنجليزية، أما ترتيب الكلمات فليست له أهمية في اللاتينية. وهذا يفسِّر الاختلافات في طرق الترجمة بين المترجمين المحترفين. في بعض الحالات، تكون الترجمة حرفية، بينما تهدف أساليب أخرى إلى نقل المعنى والمضمون الثقافي للنص من خلال ترجمات غير دقيقة.3

تشكِّل النصوص الشعرية تحديًا فريدًا أمام تحقيق ترجمات دقيقة. الإيقاع والقافية والجناس كلها عوامل تؤثِّر بشكل فريد على جودة الترجمة الشعرية.4 تركِّز أبحاث الترجمة الآلية عادةً على النصوص النثرية. تقدِّم هذه النظرة العامة بعض المخاوف في عملية الترجمة البشرية التي توجد أيضًا في تقنية الترجمة الآلية.

Mixture of Experts | 28 أغسطس، الحلقة 70

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

أنواع الترجمة الآلية

لا توجد عملية واحدة لجميع أنواع الترجمة الآلية. تعتمد كيفية ترجمة النظام للنص على نوع الترجمة الآلية. بينما يفحص الباحثون مجموعة متنوعة من الأنظمة، فإن الثلاثة التالية هي من بين أكثرها شيوعًا.

الترجمة الآلية القائمة على القواعد

وفقًا لاسمها، توفّر الترجمة الآلية القائمة على القواعد (RBMT) مجموعة من القواعد التي تحدِّد كيفية الاستفادة من المعلومات اللغوية المخزَّنة للترجمة. على سبيل المثال، قد يتضمن ذلك قائمة بأزواج اللغات على مستوى الكلمات وجزءًا من علامات الكلام التي تساعد الكمبيوتر على دمج الكلمات في هياكل متماسكة نحويًا. يمكن للمستخدم بعد ذلك إنشاء مجموعة من القواعد التي توجِّه الكمبيوتر بشأن كيفية تعيين الكلمات والمجموعات النصية الأخرى من لغة واحدة إلى تلك الخاصة بلغة أخرى.5

تعتمد درجة تعقيد أنظمة الترجمة الآلية القائمة على القواعد (RBMT) على مستوى التحليل اللغوي المطبق. غالبًا ما توضِّح الأدبيات هذه المستويات من التحليل اللغوي من خلال رسم بياني يُعرَف بمثلث Vauquois:

رسم تخطيطي للأساليب المختلفة للترجمة الآلية

يوضِّح هذا الرسم البياني ثلاثة أساليب للترجمة الآلية القائمة على القواعد (RBMT):

  • الترجمة المباشرة. يستخدم هذا النهج بشكل عام قاموسًا محددًا مسبقًا لإنشاء ترجمات كلمة بكلمة للنص المصدر. بعد هذه الخطوة، تحاول سلسلة من القواعد إعادة ترتيب نص الإخراج في ترتيب الكلمات للغة الهدف. لا تتضمن هذه القواعد أي تحليل نحوي للنصوص المصدر أو الهدف.

  • النقل. يعتمد هذا النهج درجة محدودة من التحليل النحوي. تشمل الطرق الشائعة لمثل هذا التحليل وضع علامات على أجزاء من الكلام، وتحديد معنى الكلمة في السياق، والتحليل الصرفي (كما يُستخدَم في التصريف إلى الجذر). من خلال هذه الأساليب، يمكن للنظام الاستفادة من المعرفة اللغوية للغة المصدر واللغة الهدف لإنتاج ترجمات أكثر اصطلاحية وأقل حرفية مقارنةً بالطرق المباشرة.

  • اللغة الوسيطة. يستخدم هذا النهج تمثيلًا وسيطًا مصطنعًا ورسميًا بين النص المصدر والنص المترجم. هذا التمثيل الوسيط هو، في الأساس، نسخة أكثر تجريدًا من تلك التي يتم إنتاجها في أنظمة النقل عبر التحليل الصرفي. يعمل النظام على ترميز النص المصدر إلى هذه اللغة الاصطناعية المجردة، ثم يفك ترميزها إلى اللغة الهدف.6

كي تتعامل بفاعلية مع الحالات الواقعية، تتطلب أساليب الترجمة القائمة على القواعد (RBMT) قواميس كبيرة. علاوةً على ذلك، اللغات الطبيعية لا تتَّبِع مجموعة ثابتة من القواعد - ما يُسمح به في ثقافة أو فترة زمنية أو لهجة معينة لا ينطبق لغويًا على غيرها. نظرًا للطبيعة المتغيرة والمتقلبة للغات الطبيعية، لا تقدِّم أساليب الترجمة الآلية القائمة على القواعد (RBMT) حلًا شاملًا للترجمة الآلية. تُعَد طرق الترجمة القائمة على الإحصاء إحدى المحاولات لاستيعاب طبيعة اللغة المتغيرة باستمرار.

الترجمة الآلية الإحصائية

الترجمة الآلية الإحصائية (SMT) هي نهج يبني نماذج إحصائية من بيانات التدريب لأزواج اللغات. تتألف مجموعة بيانات تدريب الترجمة الإحصائية (SMT) من كلمات أو مجموعات كلمات (n-grams) بلغة واحدة مرتبطة بالكلمات والمجموعات المقابلة لها في لغة واحدة أو أكثر. استنادًا إلى هذه البيانات، تبني أساليب الترجمة الإحصائية (SMT) نموذجين للتعلم الآلي يقسِّمان عملية الترجمة إلى مرحلتين.

النموذج الأول هو نموذج الترجمة. يستخدم بيانات التدريب لتعلُّم أزواج لغوية مع توزيع احتمالي. عند تزويده بـ n-gram في اللغة المصدر، ينتج النموذج n-grams محتملة في اللغة الهدف مع قيم احتمالية. تُشير هذه القيم إلى مدى احتمال أن يكون الـ n-gram في اللغة الهدف ترجمة مناسبة للـ n-gram في اللغة المصدر، استنادًا إلى ما تعلَّمه النموذج من بيانات التدريب. على سبيل المثال، قد يُنتج نموذج الترجمة من اللاتينية إلى الإنجليزية هذا الناتج للـ tri-gram المصدر mihi canes placent:

جدول يقارن ترجمات العبارة اللاتينية mihi canes placent

في هذا الناتج الافتراضي، يتنبأ النموذج بالترجمات الإنجليزية المحتملة للعبارة اللاتينية mihi canes placent. وتحمل الترجمة الإنجليزية I like dogs أعلى قيمة احتمالية وهي 0.8. هذا يعني أنه استنادًا إلى ما تعلَّمه النموذج من أزواج اللاتينية-الإنجليزية، من المرجح بنسبة 80% أن تكون هذه هي أفضل ترجمة إنجليزية.

النموذج الثاني هو نموذج أحادي اللغة للغة الهدف. يتنبأ هذا النموذج بشكل أساسي باحتمالية ظهور نواتج الـ n-gram الخاصة بنموذج الترجمة في اللغة الهدف. على سبيل المثال، لنأخذ الناتج الافتراضي I like dogs من نموذج الترجمة الخاص بنا. يتنبأ النموذج أحادي اللغة باحتمالية ظهور كلمة dogs بعد I like وفقًا لبيانات التدريب المقدمة باللغة الإنجليزية. بهذه الطريقة، يمكن اعتبار النموذج أحادي اللغة نهجًا احتماليًا للتحرير اللاحق يهدف إلى التأكد من صحة المعنى وملاءمة الترجمة.7

رغم أن الترجمة الإحصائية (SMT) تحقِّق تحسينًا على الطرق القائمة على القواعد، فإنها تواجه العديد من المشكلات المشتركة بين نماذج التعلم الآلي. على سبيل المثال، فرط التكيف أو ضعف التكيف مع بيانات التدريب. يمكن أن يعيق الأول بشكل خاص قدرة نظام SMT على التعامل مع المصطلحات غير المدرجة في القاموس، والتعابير الاصطلاحية، وترتيبات الكلمات المختلفة. تعمل أنظمة SMT على تهيئة تسلسلات النصوص بطول ثابت مكوّن من n من الكلمات.

الترجمة الآلية العصبية

توفِّر ترجمة الشبكات العصبية (NMT) ترجمة أكثر مرونة تستوعب المدخلات والمخرجات ذات الأطوال المتغيرة. على غرار أنظمة SMT، يمكن تقسيم أساليب NMT إلى خطوتين عامتين. أولًا، يقرأ النموذج نص الإدخال ويضعه في سياقه داخل بنية بيانات تلخِّص الإدخال. غالبًا ما يكون التمثيل السياقي نموذجًا متجهيًا -كما في نماذج حقيبة الكلمات (Bag of words)- ولكنه قد يتخذ أيضًا أشكالًا أخرى، مثل التنسروات (tensors). تعمل شبكة عصبية متكررة أو تلافيفية على قراءة هذا التمثيل وإنتاج جملة في اللغة الهدف.8 في الآونة الأخيرة، تحول الباحثون إلى بنى المحول للترجمة الآلية العصبية. أحد الأمثلة الرئيسية هو mBART، وهو نموذج محول مدرَّب على بيانات متعددة اللغات لاستعادة الفجوات الاصطناعية، ثم تم تحسينه خصيصًا للترجمة.9

اعتمدت أساليب NMT أيضًا نماذج لغوية كبيرة (LLMs). على وجه التحديد، بدلًا من ضبط شبكة عصبية أو محول للترجمة بشكل دقيق، استكشَف الباحثون إمكانية توجيه نماذج لغوية توليدية كبيرة للترجمة. إحدى هذه الدراسات تبحث في نماذج GPT لأغراض الترجمة الآلية. تتألف أنظمة الترجمة الآلية العصبية (NMT) من بنية الترميز-فك الترميز التي تم وصفها سابقًا، والمدرَّبة على كميات كبيرة من البيانات متعددة اللغات. بالمقابل، تتكون نماذج GPT من إعدادات فك الترميز فقط، ومدرَّبة أساسًا على بيانات باللغة الإنجليزية. بعد الاختبار عبر عدة لغات، بما في ذلك الإنجليزية والفرنسية والإسبانية والألمانية والصينية والروسية، تُشير الدراسة إلى أن النهج الهجيني بين نماذج NMT وGPT يُنتج ترجمات عالية الجودة ووفق أحدث المعايير.10

يُشير ذلك إلى أن أنظمة الترجمة الآلية العصبية (NMT)، خاصةً عند دمجها مع النماذج اللغوية الكبيرة (LLMs) والنماذج التوليدية، قادرة على التعامل بشكل أفضل مع التعابير الاصطلاحية والكلمات غير الموجودة في القاموس مقارنةً بأساليب الترجمة الآلية الإحصائية (SMT). علاوةً على ذلك، بينما تعالج أنظمة SMT الـ n-grams، تعمل أنظمة NMT على معالجة الجملة المصدر بالكامل. لذلك، فهي تتعامل بشكل أفضل مع الخصائص اللغوية مثل الانقطاع، والتي تتطلب النظر إلى الجمل كوحدات كاملة. مع ذلك، قد يظل الغموض في الضمائر مشكلة لأنظمة الترجمة الآلية العصبية.11

حالات الاستخدام

تتوفر خدمات الترجمة الآلية على نطاق واسع، ومن بين محركات الترجمة الآلية القائمة على الشبكات العصبية يوجد IBM® Watson Language Translator.

أحد المجالات الرئيسية التي يمكن أن تساعد فيها الترجمة الآلية على تجاوز حواجز اللغة هو الترجمة من كلام إلى كلام، وربما في الوقت الفعلي. استكشفت الدراسات الحديثة التطبيقات المشتركة للتعرُّف التلقائي على الكلام (ASR) ونماذج الترجمة الآلية العصبية القائمة على المحولات للترجمة من كلام إلى كلام، وأسفرت عن نتائج إيجابية.12 ويرجع ذلك إلى أن أنظمة الترجمة الصوتية عادةً ما تتطلب أولًا تحويل الكلام إلى نص ثم ترجمة النص الناتج. درست دراسة حديثة دمج الصوت والنص أثناء مرحلة ما قبل المعالجة للترجمة متعددة الوسائط، وأسفرت عن نتائج واعدة.13

حلول ذات صلة
IBM watsonx Orchestrate

يمكنك بسهولة تصميم مساعدي ووكلاء الذكاء الاصطناعي القابلين للتوسع وأتمتة المهام المتكررة وتبسيط العمليات المعقدة باستخدام IBM watsonx Orchestrate.

استكشف watsonx Orchestrate
أدوات معالجة اللغة الطبيعية وواجهات برمجة التطبيقات

تسريع قيمة الأعمال باستخدام مجموعة قوية ومرنة من مكتبات وخدمات وتطبيقات الذكاء الاصطناعي.

استكشف حلول معالجة اللغة الطبيعية
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

يمكنك بسهولة تصميم مساعدي ووكلاء الذكاء الاصطناعي القابلين للتوسع وأتمتة المهام المتكررة وتبسيط العمليات المعقدة باستخدام IBM watsonx Orchestrate.

استكشف watsonx Orchestrate استكشف حلول معالجة اللغة الطبيعية
الحواشي

1 Miles Osborne, “Statistical Machine Translation,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

2 Philipp Koehn, Neural Machine Translation, Cambridge University Press, 2020.

3 Thierry Poibeau, Machine Translation, MIT Press, 2017.

4 ترجمة مقال شعري

5 Dorothy Kenny, “Human and machine translation,” Machine translation for everyone: Empowering users in the age of artificial intelligence, Language Science Press, 2022.

6 Thierry Poibeau, Machine Translation, MIT Press, 2017.

7 Dorothy Kenny, “Human and machine translation,” Machine translation for everyone: Empowering users in the age of artificial intelligence, Language Science Press, 2022.

8 Ian Goodfellow, Yoshua Bengio, and Aaron Courville, Deep Learning, MIT Press, 2016.

9 Yinhan Liu, Jiatao Gu, Naman Goyal, Xian Li, Sergey Edunov, Marjan Ghazvininejad, Mike Lewis, and Luke Zettlemoyer, “Multilingual Denoising Pre-training for Neural Machine Translation,” Transactions of the Association for Computational Linguistics, Vol. 8, 2020, https://aclanthology.org/2020.tacl-1.47/ (الرابط موجود خارج موقع ibm.com).

10 Amr Hendy, Mohamed Abdelrehim, Amr Sharaf, Vikas Raunak, Mohamed Gabr, Hitokazu Matsushita, Young Jin Kim, Mohamed Afify, and Hany Hassan Awadalla, “How Good Are GPT Models at Machine Translation? A Comprehensive Evaluation,” https://arxiv.org/abs/2302.09210 (link resides outside of ibm.com).

11 Dorothy Kenny, “Human and machine translation,” Machine translation for everyone: Empowering users in the age of artificial intelligence, Language Science Press, 2022.

12 Yi Ren, Jinglin Liu, Xu Tan, Chen Zhang, Tao Qin, Zhou Zhao, and Tie-Yan Liu, “SimulSpeech: End-to-End Simultaneous Speech to Text Translation,” Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020, https://aclanthology.org/2020.acl-main.350/ (الرابط موجود خارج موقع ibm.com). Parnia Bahar, Patrick Wilken, Tamer Alkhouli, Andreas Guta, Pavel Golik, Evgeny Matusov, and Christian Herold, “Start-Before-End and End-to-End: Neural Speech Translation by AppTek and RWTH Aachen University,” Proceedings of the 17th International Conference on Spoken Language Translation, 2020, https://aclanthology.org/2020.iwslt-1.3/ (الرابط موجود خارج موقع ibm.com).

13 Linlin Zhang, Kai Fan, Boxing Chen, and Luo Si, “A Simple Concatenation can Effectively Improve Speech Translation,” Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics, 2023, https://aclanthology.org/2023.acl-short.153/ (الرابط موجود خارج موقع ibm.com).