ما نموذج التشفير/فك التشفير؟

المؤلفون

Jacob Murel Ph.D.

Senior Technical Content Creator

Joshua Noble

Data Scientist

نموذج التشفير/فك التشفير هو نوع من بنية الشبكة العصبية المستخدمة لمعالجة البيانات وتوليدها.

في التعلم العميق، تُعد بنية نموذج التشفير/فك التشفير نوعًا من الشبكات العصبية المرتبطة على نطاق واسع ببنية المحول وتُستخدَم في التعلم من تسلسل إلى تسلسل. وبالتالي، تشير الأدبيات إلى نماذج التشفير/فك التشفير في بعض الأحيان كشكل من أشكال نموذج التسلسل إلى التسلسل ( نموذجseq2seq). يركز الكثير من أبحاث التعلم الآلي على نماذج التشفير/فك التشفير لمهام معالجة اللغة الطبيعية (NLP) التي تنطوي على نماذج لغوية كبيرة (LLMs).

تُستخدم نماذج التشفير/فك التشفير للتعامل مع البيانات المتسلسلة، وتحديدًا تعيين تسلسلات الإدخال إلى تسلسلات الإخراج ذات الأطوال المختلفة، مثل الترجمة الآلية العصبية، وتلخيص النصوص، وترجمة الصور، والتعرف على الكلام. وفي مثل هذه المهام، غالبًا ما يكون تعيين رمز مميز في الإدخال إلى واحد في الإخراج غير مباشر. على سبيل المثال، الترجمة الآلية: في بعض اللغات، يظهر الفعل بالقرب من بداية الجملة (كما هو الحال في اللغة الإنجليزية)، وفي لغات أخرى في النهاية (مثل الألمانية) وفي بعض اللغات، قد يكون موقع الفعل أكثر تغيرًا (على سبيل المثال، اللاتينية). تولد شبكة نموذج تشفير/فك تشفير تسلسلات إخراج متغيرة الطول ولكنها مناسبة للسياق لتتوافق مع تسلسل إدخال معين.1

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! لقد اشتركت بنجاح.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

بنية نموذج التشفير/فك التشفير

كما يمكن استنتاج ذلك من اسم كل منهما، تقوم بنية التشفير بتشفير إدخال معين إلى تمثيل متجه، وتقوم بنية فك التشفير بفك تشفير هذا المتجه إلى نوع البيانات نفسه مثل مجموعة البيانات الأصلية.

يُعدّ كلُ من بينة التشفير وفك التشفير شبكتين عصبيتين منفصلتين ومتصلتين بالكامل. قد تكونان شبكات عصبية متكررة (RNNs)- بالإضافة إلى متغيراتها مثل الذاكرة طويلة المدى القصيرة (LSTM)، ووحدات متكررة مغلقة (GRUs) - وشبكات عصبية الالتفافية (CNNs)، بالإضافة إلى نماذج المحولات. يحتوي نموذج التشفير/فك التشفير عادةً على عدة مشفرات وعدة مفككات تشفير.

رسم تخطيطي لبنية نموذج تشفير/فك تشفير

يتكون كل مشفِر من طبقتين: طبقة الانتباه الذاتي (أو آلية الانتباه الذاتي) والشبكة العصبية أمامية التغذية. تقوم الطبقة الأولى بتوجيه المشفِر في المسح والتركيز على الكلمات الأخرى ذات الصلة في إدخال معين، حيث يقوم بتشفير كلمة واحدة محددة فيه. تعالج الشبكة العصبية أمامية التغذية الترميزات بحيث تكون مقبولة لطبقات المشفِر أو فاك التشفير اللاحقة.

يتألف جزء فاك التشفير أيضًا من طبقة انتباه ذاتية وشبكة عصبية أمامية التغذية، بالإضافة إلى طبقة ثالثة إضافية: طبقة انتباه نموذج التشفير/فك التشفير. تركز هذه الطبقة انتباه الشبكة على أجزاء معينة من مخرجات المشفِر. وبالتالي، تقوم طبقة الاهتمام متعدد الرؤوس بربط الرومز المميزة من تسلسلين مختلفين.2

رسم تخطيطي يوضح أجزاء من مجموعات مشفِر وفاك تشفير

كيفية عمل نماذج التشفير/فك التشفير

تُقدَّم نماذج التشفير/فك التشفير في الأدبيات العلمية على نطاق واسع بوصفها تتكوّن من ثلاثة عناصر: التشفير، ومتجه السياق، وفك التشفير.3

المشفِر

العنصر الرئيسي للمشفِر هو آلية الانتباه الذاتي. تحدد آلية الانتباه الذاتي أوزان الرموز المميزة في إدخال النص لتعكس العلاقات بين الرموز. على عكس التضمين التقليدي الذي يتجاهل ترتيب الكلمات، تُعالج آلية الانتباه الذاتي تسلسل النص المُدخل بأكمله لحساب متوسط تضمين كل رمز مميز، مع مراعاة بُعده عن جميع الرموز المميزة الأخرى في التسلسل. وتحسب هذه الآلية متوسط التضمين كتركيبة خطية لجميع التضمينات في تسلسل الإدخال وفقًا للصيغة التالية:

توضح صيغة التسلسل الرياضي للإدخال في المشفِر أن x prime sub i يساوي مجموع w sub j i مضروبًا في x sub j من j = 1 إلى n

هنا، xj هو رمز إدخال معين في الموضع j ضمن تسلسل نص الإدخال، وxi هو الرمز المميز المقابل في المخرجات في الموضع i ضمن نفس تسلسل نص الإدخال. أما المعامل wij فهو وزن الانتباه ، الذي يُحسب باستخدام ما يُسمى دالة softmax، ويمثل مدى أهمية هذا الرمز المميز في نص المخرجات بالنسبة لتسلسل المصدر المقابل. بعبارة أخرى، يشير هذا المعامل إلى مقدار الانتباه الذي يجب أن يوجهه المشفِر لكل رمز مميز في نص المخرجات بناءً على أهمية الرمز المميز الأصلي في نص المصدر.4

رسم تخطيطي يوضح دمج تضمينات الكلمات مع الترميز الموضعي لإنشاء تضمينات مدمجة تحتوي على إشارة زمنية لثلاث كلمات: للأسف، مسكين، يوريك

يقوم المشفِر بتمرير هذا التضمين الرمزي إلى طبقة التغذية الأمامية التي تضيف ترميزًا موضعيًا (أو تضمينًا موضعيًا) إلى التضمين الرمزي. يمثل هذا الترميز الموضعي ترتيب الرموز المميزة في النص، وتحديدًا المسافة بين الرموز المميزة. يشكل هذا التضمين الرمزي والتضمين الموضعي معًا الحالة المخفية التي يتم تمريرها إلى فاك التشفير.5

متجه السياق

تطلق الأدبيات العلمية على نطاق واسع على الحالة المخفية النهائية للمشفِر اسم متجه السياق. إنه تمثيل رقمي مكثف لنص الإدخال الأولي للمشفِر. بشكل أكثر بساطة، هو التضمين والترميز الموضعي الذي ينتجه المشفر لكل كلمة في تسلسل الإدخال.

غالبًا ما تحدد الأدبيات العلمية متجه السياق باستخدام الدالة التالية، حيث يتم تعريف متجه السياق X على أنه كل رمز مميز (x) في الموضع i في تسلسل الإدخال:6

صيغة دالة متجه السياق التي توضح أن C يساوي تسلسل قيم x من 1 إلى n sub x

فاك التشفير

يشبه إلى حد كبير المشفِر، إذ يتكون فاك التشفير من طبقة اهتمام ذاتي وشبكة أمامية التغذية. وبين هاتين الطبقتين، يحتوي فاك التشفير على طبقة الانتباه متعدد الرؤوس المتخفية. وهذا يمثل الفرق بين المشفِر وفاك التشفير. في حين أن المشفِر يُنشئ تضمينات رمز مميز سياقية في وقت واحد، تستخدم طبقة الانتباه متعدد الرؤوس في فاك التشفير إخفاءً ذاتي الانحدار.

أولًا، يستقبل فاك التشفير متجه السياق من المشفِر. ويستخدم فاك التشفير هذه التضمينات الموضعية لحساب درجات الانتباه لكل رمز مميز. وتحدد درجات الانتباه هذه إلى أي درجة سيؤثر كل رمز مميز من تسلسل الإدخال على الرموز المميزة اللاحقة فيه؛ بعبارة أخرى، تحدد الدرجات مقدار الوزن الذي يتمتع به كل رمز مميز في تحديدات الرموز المميزة الأخرى عند توليد تسلسلات المخرجات.

ومع ذلك، فإن ميزة مهمة في هذا الأمر هي أن فاك التشفير لن يستخدم الرموز المميزة المستقبلية لتحديد الرموز المميزة السابقة في التسلسل نفسه. تعتمد مخرجات كل رمز مميز على الرموز التي تم إنشاؤها فقط على الرموز التي تسبقها؛ بمعنى آخر، عند توليد مخرجات الرمز المميز، لا يأخذ فاك الشفير في الاعتبار الكلمات أو الرموز المميزة التالية بعد الرمز المميز الحالي. كما هو الحال مع العديد من تقنيات الذكاء الاصطناعي، يهدف هذا إلى تقليد الفهم التقليدي لكيفية معالجة البشر للمعلومات، وتحديدًا اللغة. ويسمى هذا النهج في معالجة المعلومات الانحدار الذاتي.7

رسم تخطيطي يوضح لإخفاء الانحداري الذاتي لاقتباس لهاملت

لماذا استخدام نماذج التشفير وفك التشفير في البرمجة اللغوية العصبية؟

تتمثل إحدى أهم مزايا نماذج التشفير/فك التشفير لمهام معالجة اللغة الطبيعية النهائية مثل تحليل المشاعر أو نمذجة اللغة المتخفية في إنتاجها لعمليات تضمين سياقية. تختلف هذه التضمينات عن التضمينات الثابتة المستخدمة في نماذج bag of words .

أولًا، لا تأخذ التضمينات الثابتة في الاعتبار ترتيب الكلمات. وبالتالي تتجاهل العلاقات بين الرموز المميزة في تسلسل نصي. ومع ذلك، فإن التضمينات السياقية تمثل ترتيب الكلمات عبر الترميزات الموضعية. علاوة على ذلك، تحاول التضمينات التقاط العلاقة بين الرموز المميزة من خلال آلية الانتباه التي تأخذ في الاعتبار المسافة بين الرموز المميزة في تسلسل معين عند إنتاج التضمين.

تنشئ التضمينات الثابتة تضمينًا واحدًا لرمز مميز معين، ما يؤدي إلى خلط جميع مثيلات هذا الرمز المميز. تنتج نماذج التشفير/فك التشفير تضمين سياقي لكل مثيل رمزي من الرمز المميز. ونتيجة لذلك، فإن التضمين السياقي يتعامل بمهارة أكبر مع الكلمات متعددة المعاني، أي الكلمات ذات المعاني المتعددة. فعلى سبيل المثال، كلمة عين قد تشير إلى عضو من أعضاء الجسم أو إلى مصدر الماء في الطبيعة. يقوم تضمين الكلمة الثابتة بتضمين كلمة ثابتة بجمع الدلالات المتعددة لهذه الكلمة من خلال إنشاء تضمين واحد للرمز المميز أو الكلمة. لكن نموذج التشفير/فك التشفير يولد تضمينات سياقية فردية لكل ظهور لكلمة عين، وبالتالي يلتقط تعدد معانيها من خلال تضمينات متعددة ومتميزة.8

Mixture of Experts | 28 أغسطس، الحلقة 70

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

أنواع متغيرات نماذج التشفير/فك التشفير

كما هو متوقع، فإن بنية نموذج التشفير/فك التشفير لها العديد من المتغيرات، ولكل منها حالات استخدام أساسية خاصة بها في علم البيانات والتعلم الآلي.

نماذج التشفير فقط. تستخدم هذه النماذج (الموصوفة أيضًا باسم نماذج التشفير التلقائي) مجموعة المشفِر فقط، وتجنب فاك التشفير. وبالتالي فإن هذه النماذج تفتقر إلى النمذجة المقنعة الانحدارية التلقائية ولديها إمكانية الوصول إلى جميع الرموز المميزة في الإدخال الأولي. على هذا النحو، توصف هذه النماذج بأنها ثنائية الاتجاه، حيث أنها تستخدم جميع الرموز المميزة المحيطة - السابقة واللاحقة - لوضع تنبؤات لرمز مميز معين. نماذج التشفير المعروفة هي عائلة نماذج BERT، مثل BERT،9 وRoBERTa،10 وELECTRA،11 وكذلك نماذج Slate من IBM. غالبًا ما يتم استخدام نماذج التشفير فقط للمهام التي تتطلب فهم نص كامل، مثل تصنيف نص أو named entity recognition.

وحدة فك التشفير فقط. تستخدم هذه النماذج (وتسمى أيضا نماذج الانحدار الذاتي) مجموعة فقط ، مع التخلي عن أي برامج تشفير. وبالتالي، عند وضع تنبؤات الرمز المميز، يمكن لطبقات انتباه النموذج الوصول فقط إلى تلك الرموز التي تسبق الرمز المميز قيد النظر. غالبًا ما تُستخدم نماذج فك التشفير فقط في مهام توليد النصوص مثل الإجابة عن الأسئلة، أو كتابة الأكواد، أو روبوت المحادثة مثل ChatGPT. ومن الأمثلة على النماذج التي تعتمد على فك التشفير فقط عائلةنماذج IBM Granite الأساسية.12

حلول ذات صلة
IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا
الحواشي

Jurafsky, D. and Martin, J.,  “Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition”, Third edition, 2023.

Telmo, P., Lopes, A. V., Assogba, Y. and Setiawan, H. “One Wide Feedforward Is All You Need” , 2023.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L. and Polosukhin I. “Attention Is All You Need”, 2017.
Tunstall, L., Werra, L. and Wolf and T. “Natural Language Processing with Transformers”, Revised Edition, O’Reilly, 2022

3 Goodfellow, I., Bengio, Y. and Courville, A. “Deep Learning”, MIT Press, 2016.
Jurafsky, D. and Martin, J. “Speech and Language Processing”, Third Edition, 2023.
Tunstall, L., Werra, L. and Wolf and T. “Natural Language Processing with Transformers”, Revised Edition, O’Reilly, 2022.

4 Tunstall, L., Werra, L. and Wolf and T. “Natural Language Processing with Transformers”, Revised Edition, O’Reilly, 2022.
Goldberg, Y. “Neural network methods for Natural Language Processing”, Springer, 2022.

5 Alammar, J. and Grootendorst, M. “Hands-on Large Language Models”, O’Reilly, 2024.

6
Goodfellow, I., Bengio, Y. and Courville, A. “Deep Learning”, MIT Press, 2016.
Jurafsky, D. and Martin, J. “Speech and Language Processing”, Third Edition, 2023.

7 Foster, D. “Generative Deep Learning”, Second Edition, O’Reilly, 2023.
Rothman, D. “Transformers for Natural Language Processing”, Second Edition, 2022. 
Jurafsky, D. and Martin, J. Speech and Language Processing”, Third Edition, 2023.

8 Tunstall, L., Werra, L. and Wolf and T. “Natural Language Processing with Transformers”, Revised Edition, O’Reilly, 2022. 

9 Devlin, J. et all. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”, 2019.

10 Liu, Y., Ott, M., Goyal, N., Du, J.,  Joshi, M., Chen,  D., Levy, O., Lewis, M. ,  Zettlemoyer,  L.  and Stoyanov, V. “RoBERTa: A Robustly Optimized BERT Pretraining Approach”,  2019.

11 Clark, K. et all. “ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators”,  2020.

12 Mayank, M. et all. “Granite Code Models: A Family of Open Foundation Models for Code Intelligence” 2024.
Ruiz, A. “IBM Granite Large Language Models Whitepaper” 2024.