ما هي تضمينات الكلمات؟

المؤلفين

Joel Barnard

Writer

ما هي تضمينات الكلمات؟

تضمينات الكلمات هي طريقة لتمثيل الكلمات كمتجهات في مساحة متعددة الأبعاد، حيث تعكس المسافة والاتجاه بين المتجهات التشابه والعلاقات بين الكلمات المتناظرة.

لقد لعب تطوير التضمين لتمثيل النص دورًا حاسمًا في تطوير تطبيقات معالجة اللغة الطبيعية (NLP) والتعلم الآلي (ML). أصبحت تضمينات الكلمات جزءًا لا يتجزأ من مهام مثل تصنيف النصوص وتحليل المشاعر والترجمة الآلية والمزيد.

تمثّل الطرق التقليدية لتمثيل الكلمات بطريقة يمكن للآلات فهمها، مثل الترميز الأحادي، كل كلمة كمتجه متناثر بأبعاد تساوي حجم المفردات. هنا، عنصر واحد فقط من المتجه هو "ساخن" (تم ضبطه على 1) للإشارة إلى وجود تلك الكلمة. على الرغم من بساطته، إلا أن هذا النهج يعاني من لعنة الأبعاد، ويفتقر إلى المعلومات الدلالية ولا يلتقط العلاقات بين الكلمات.

من ناحية أخرى، تُعد تضمينات الكلمات عبارة عن متجهات كثيفة ذات قيم مستمرة يتم تدريبها باستخدام تقنيات التعلم الآلي، والتي غالبًا ما تعتمد على الشبكات العصبية. تكمن الفكرة في تعلم التمثيلات التي ترمز إلى المعنى الدلالي والعلاقات بين الكلمات. يتم تدريب عمليات تضمين الكلمات من خلال تعريض النموذج لكمية كبيرة من البيانات النصية وتعديل تمثيلات المتجهات بناءً على السياق الذي تظهر فيه الكلمات.

إحدى الطرق الشائعة للتدريب على تضمين الكلمات هي Word2Vec، والتي تستخدم شبكة عصبية للتنبؤ بالكلمات المحيطة بالكلمة المستهدفة في سياق معين. هناك نهج آخر يُستخدم على نطاق واسع وهو GloVE (Global Vectors for Word Representation)، والذي يستفيد من الإحصاءات العالمية لإنشاء عمليات تضمين.

لقد أثبتت عمليات تضمين الكلمات أنها ذات قيمة لا تقدر بثمن لمهام معالجة اللغة الطبيعية، حيث إنها تسمح لخوارزميات التعلم الآلي بفهم العلاقات الدلالية بين الكلمات ومعالجتها بطريقة أكثر دقة مقارنة بالطرق التقليدية.

الرسالة الإخبارية الخاصة بالمجال

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

كيفية استخدام عمليات تضمين الكلمات

تُستخدم عمليات تضمين الكلمات في مجموعة متنوعة من مهام معالجة اللغة الطبيعية لتعزيز تمثيل الكلمات والتقاط العلاقات الدلالية، بما في ذلك:

تصنيف النص

غالبًا ما تُستخدم تضمينات الكلمات كسمات في مهام تصنيف النصوص، مثل تحليل المشاعر وكشف الرسائل غير المرغوب فيها وتصنيف المواضيع.

التعرف على الكيانات المسماة (NER)

لتحديد الكيانات وتصنيفها بدقة (على سبيل المثال، أسماء الأشخاص والمجموعات والمواقع) في النص، تساعد عمليات تضمين الكلمات النموذج على فهم السياق والعلاقات بين الكلمات.

ترجمة آلية

في أنظمة الترجمة الآلية، تساعد عمليات تضمين الكلمات في تمثيل الكلمات بطريقة لا تعتمد على اللغة، مما يسمح للنموذج بفهم العلاقات الدلالية بين الكلمات في اللغتين المصدر والهدف.

استرجاع المعلومات

في أنظمة استرجاع المعلومات، يمكن أن تتيح تضمين الكلمات مطابقة أكثر دقة لاستعلامات المستخدم مع المستندات ذات الصلة، مما يحسن فعالية محركات البحث وأنظمة التوصيات.

الإجابة عن الأسئلة

تساهم عمليات تضمين الكلمات في نجاح أنظمة الإجابة على الأسئلة من خلال تعزيز فهم السياق الذي يتم فيه طرح الأسئلة والعثور على الإجابات.

التشابه الدلالي والتجميع

تتيح تضمينات الكلمات قياس التشابه الدلالي بين الكلمات أو المستندات لمهام مثل تجميع المقالات ذات الصلة أو العثور على مستندات متشابهة أو التوصية بعناصر مماثلة بناء على محتواها النصي.

توليد النص

في مهام إنشاء النص، مثل نمذجة اللغة والتشفير التلقائي، غالبًا ما تُستخدم عمليات تضمين الكلمات لتمثيل نص الإدخال وإنشاء تسلسلات مخرجات متماسكة وذات صلة بالسياق.

التشابه والتشبيه

يمكن استخدام تضمينات الكلمات لأداء مهام تشابه الكلمات (على سبيل المثال، العثور على كلمات مشابهة لكلمة معينة) ومهام تشبيه الكلمات (على سبيل المثال، "الملك" إلى "الملكة" كما "الرجل" إلى "امرأة").

النماذج المدربة مسبقًا

تعمل عمليات تضمين الكلمات المدربة مسبقًا كأساس للتدريب المسبق على نماذج تمثيل اللغة الأكثر تقدمًا، مثل BERT (تمثيلات التشفير ثنائية الاتجاه من المحولات) و GPT (المحول التوليدي المدرب مسبقًا).

Mixture of Experts | 12 ديسمبر، الحلقة 85

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

شاهد جميع حلقات برنامج Mixture of Experts

نبذة مختصرة عن تاريخ عمليات تضمين الكلمات

في العقد الأول من القرن الحادي والعشرين، بدأ الباحثون في استكشف النماذج اللغوية العصبية (NLMs)، والتي تستخدم الشبكة العصبية لنمذجة العلاقات بين الكلمات في مساحة مستمرة. أرست هذه النماذج المبكرة الأساس للتطوير اللاحق لتضمينات الكلمات.

قدم Bengio وآخرون (2003) شبكات عصبية تغذية أمامية لنمذجة اللغة. كانت هذه النماذج قادرة على التقاط تمثيلات موزعة للكلمات، لكنها كانت محدودة في قدرتها على التعامل مع المفردات الكبيرة.

قام الباحثون، ومنهم Mnih و Hinton (2009)، باستكشاف النماذج الاحتمالية لتعلم التمثيلات الموزعة للكلمات. ركزت هذه النماذج على التقاط العلاقات الدلالية بين الكلمات وكانت خطوة مهمة نحو تضمين الكلمات.

شكّل نموذج Word2Vec، الذي قدمه Tomas Mikolov وزملاؤه في Google في عام 2013، إنجازًا كبيرًا. يستفيد Word2Vec من نموذجين هما نموذج Bag of Words (CBOW) ونموذج Continuous Skip-gram، واللذان يتعلمان بكفاءة تضمين الكلمات من مجموعات كبيرة من الكلمات وقد أصبحا معتمدين على نطاق واسع بسبب بساطتهما وفعاليتهما.

يعتمد GloVe (Global Vectors for Word Representation)، الذي قدمه Pennington وآخرون في عام 2014، على فكرة استخدام الإحصائيات العالمية (ترددات التكرار المشترك للكلمات) لتعلم تمثيلات المتجهات للكلمات. لقد تم استخدامه في العديد من تطبيقات معالجة اللغة الطبيعية وهو معروف بقدرته على التقاط العلاقات الدلالية.

واليوم، مع ظهور التعلم العميق، أصبحت طبقات التضمين عنصرًا قياسيًا في بنيات الشبكة العصبية معالجة اللغة الطبيعية. تستخدم عمليات التضمين الآن ليس فقط للكلمات ولكن أيضا للكيانات والعبارات والوحدات اللغوية الأخرى. إلى حد كبير، سمحت تضمينات الكلمات لنماذج اللغة مثل الشبكات العصبية المتكررة (RNNs)، وشبكات الذاكرة الطويلة قصيرة المدى (LSTM)، والتضمينات من نماذج اللغة (ELMo)، و BERT، و ALBERT (light BERT)، و GPT بالتطور بهذه السرعة المذهلة.

كيفية إنشاء عمليات تضمين الكلمات

الهدف الأساسي من تضمين الكلمات هو تمثيل الكلمات بطريقة تجسد علاقاتها الدلالية ومعلوماتها السياقية. هذه المتجهات عبارة عن تمثيلات رقمية في مساحة متجهة مستمرة، حيث تعكس المواضع النسبية للمتجهات أوجه التشابه الدلالية والعلاقات بين الكلمات.

السبب في استخدام المتجهات لتمثيل الكلمات هو أن معظم خوارزميات التعلم الآلي، بما في ذلك الشبكات العصبية، غير قادرة على معالجة النص العادي في شكله الخام. إنهم يحتاجون إلى الأرقام كمدخلات لأداء أي مهمة.

تتضمن عملية إنشاء تضمينات الكلمات تدريب نموذج على مجموعة كبيرة من النصوص (على سبيل المثال، ويكيبيديا أو Google News). تتم معالجة مجموعة النصوص مسبقًا عن طريق ترميز النص إلى كلمات، وإزالة كلمات التوقف وعلامات الترقيم، وإجراء مهام أخرى لتنظيف النص.

يتم تطبيق نافذة سياق منزلقة على النص، وبالنسبة لكل كلمة مستهدفة، يتم اعتبار الكلمات المحيطة داخل النافذة كلمات سياقية. ويتم تدريب نموذج تضمين الكلمة على التنبؤ بالكلمة المستهدفة بناءً على سياقها أو العكس.

يسمح هذا للنماذج بالتقاط أنماط لغوية متنوعة وتخصيص متجه فريد لكل كلمة، والذي يمثل موضع الكلمة في مساحة متجهة مستمرة. يتم وضع الكلمات ذات المعاني المتشابهة بالقرب من بعضها البعض، وتقوم المسافة والاتجاه بين المتجهات بترميز درجة التشابه.

تتضمن عملية التدريب تعديل معلمات نموذج التضمين لتقليل الفرق بين الكلمات المتوقعة والفعلية في السياق.

فيما يلي مثال مبسَّط على تضمينات الكلمات لمجموعة صغيرة جدًّا من النصوص (6 كلمات)، حيث يتم تمثيل كل كلمة كمتجه ثلاثي الأبعاد:

قطة          [0.2, -0.4, 0.7]
    كلب [0.6, 0.1, 0.5]
    تفاحة [0.8, -0.2, -0.3]
    برتقالي [0.7, -0.1, -0.6]
    سعيد [-0.5, 0.9, 0.2]
    حزين [0.4, -0.7, -0.5]

في هذا المثال ، ترتبط كل كلمة (على سبيل المثال ، "قطة" أو "كلب" أو "تفاحة") بمتجه فريد. والقيم الموجودة في المتجه تمثل موضع الكلمة في مساحة متجهة ثلاثية الأبعاد مستمرة. ومن المتوقع أن تكون للكلمات ذات المعاني أو السياقات المتشابهة تمثيلات متجهة متشابهة. فمثلاً، المتجهات الخاصة بكلمتي "قطة" و"كلب" قريبة من بعضها، وهو ما يشير إلى وجود علاقة دلالية بينهما. وبالمثل، فإن متجهات "سعيد" و "حزين" لها اتجاهين متعاكسين، مما يشير إلى معانيهما المتناقضة.

المثال أعلاه مبسط للغاية لأغراض التوضيح. عادة ما يكون لتضمين الكلمات الفعلية مئات الأبعاد لالتقاط المزيد من العلاقات المعقدة والفروق الدقيقة في المعنى.

الجوانب الأساسية لعمليات تضمين الكلمات

أصبحت عمليات تضمين الكلمات أداة أساسية في معالجة اللغة الطبيعية، مما يوفر أساسًا لفهم اللغة وتمثيلها بطريقة تتوافق مع الدلالات الأساسية للكلمات والعبارات.

فيما يلي بعض المفاهيم والتطورات الرئيسية التي جعلت من استخدام تضمين الكلمات تقنية قوية في المساعدة في تطوير معالجة اللغة الطبيعية.

فرضية التوزيع

تفترض فرضية التوزيع أن الكلمات ذات المعاني المتشابهة تميل إلى الظهور في سياقات متشابهة. يشكل هذا المفهوم الأساس للعديد من نماذج تضمين الكلمات، لأنها تهدف إلى التقاط العلاقات الدلالية من خلال تحليل أنماط تكرار الكلمات.

تخفيض الأبعاد

على عكس الترميز التقليدي الأحادي، فإن تضمين الكلمات عبارة عن متجهات كثيفة ذات أبعاد أقل. هذا يقلل من التعقيد الحوسبي ومتطلبات الذاكرة، مما يجعلها مناسبة لتطبيقات معالجة اللغة الطبيعية واسعة النطاق.

التمثيل الدلالي

تلتقط عمليات تضمين الكلمات العلاقات الدلالية بين الكلمات، مما يسمح للنماذج بفهم الكلمات وتمثيلها في مساحة متجهة مستمرة حيث تكون الكلمات المتشابهة قريبة من بعضها البعض. يتيح هذا التمثيل الدلالي فهمًا أكثر دقة للغة.

المعلومات السياقية

تقوم عمليات تضمين الكلمات بالتقاط المعلومات السياقية من خلال النظر في الكلمات التي تتكرر في سياق معين. وهذا يساعد النماذج على فهم معنى الكلمة بناءً على الكلمات المحيطة بها، مما يؤدي إلى تمثيل أفضل للعبارات والجمل.

التعميم

تعمم تضمينات الكلمات بشكل جيد على الكلمات غير المرئية أو الكلمات النادرة لأنها تتعلم تمثيل الكلمات بناءً على سياقها. وهذا مفيد بشكل خاص عند العمل مع مفردات متنوعة ومتطورة.

نهجان لعمليات تضمين الكلمات

تمثل طرق التضمين القائمة على التكرار والتنبؤ فئتين رئيسيتين من الأساليب في سياق تضمين الكلمات. تختلف هذه الطرق بشكل أساسي في كيفية إنشاء تمثيلات متجهة للكلمات.

التضمينات المستندة إلى التكرار

تشير التضمينات المستندة إلى التكرار إلى تمثيلات الكلمات المشتقة من تكرار الكلمات في المجموعة. هذه التضمينات مبنية على فكرة أن أهمية أو معنى كلمة ما يمكن استنتاجه من مدى تكرار ظهورها في النص.

أحد الأمثلة على التضمينات المستندة إلى التكرار هو تكرار المصطلح-تكرار المستند العكسي (TF-IDF). تم تصميم TF-IDF لتسليط الضوء على الكلمات المتكررة في وثيقة معينة والنادرة نسبيًا عبر المجموعة بأكملها، مما يساعد على تحديد المصطلحات المهمة لوثيقة معينة.

يتم حساب درجة TF-IDF لمصطلح (كلمة) في مستند باستخدام الصيغة التالية:

TF-IDF (t,d,D) = TF(t,d) x IDF(t, D)

تشمل تطبيقات TF-IDF استرجاع المعلومات وترتيب الوثائق وتلخيص النصوص واستخراج النصوص.

على الرغم من أن التضمينات المستندة إلى التكرار مباشرة وسهلة الفهم، إلا أنها تفتقر إلى عمق المعلومات الدلالية والوعي بالسياق الذي توفره التضمينات الأكثر تقدمًا المستندة إلى التنبؤ.

التضمينات المستندة إلى التنبؤ

التضمينات المستندة إلى التنبؤ هي تمثيلات للكلمات مشتقة من النماذج التي تم تدريبها على التنبؤ بجوانب معينة من سياق الكلمة أو الكلمات المجاورة. على عكس التضمينات المستندة إلى التكرار التي تركز على إحصائيات تكرار الكلمات، تلتقط عمليات التضمين المستندة إلى التنبؤ العلاقات الدلالية والمعلومات السياقية، مما يوفر تمثيلات أكثر ثراءً لمعاني الكلمات.

يمكن أن تفرق التضمينات المستندة إلى التنبؤ بين المرادفات وتتعامل مع تعدد الدلالات (المعاني المتعددة للكلمة) بشكل أكثر فعالية. تتيح خصائص مساحة المتجه للتضمينات المستندة إلى التنبؤ مهام مثل قياس تشابه الكلمات وحل المقارنات. يمكن أيضًا أن تعمم التضمينات المستندة إلى التنبؤ جيًدا على الكلمات أو السياقات غير المرئية، مما يجعلها قوية في التعامل مع المصطلحات خارج المفردات.

أصبحت الأساليب المستندة إلى التنبؤ، لا سيما تلك مثل Word2Vec و GloVe (التي تمت مناقشتها أدناه)، مهيمنة في مجال تضمين الكلمات نظرا لقدرتها على التقاط المعنى الدلالي الغني والتعميم بشكل جيد على مهام معالجة اللغة الطبيعية المختلفة.

Word2Vec

طوّر فريق من الباحثين في Google، منهم Tomas Mikolov، Word2Vec (Word to Vector) في عام 2013، وقد أصبح تقنية أساسية لتعلم تضمين الكلمات في نماذج معالجة اللغة الطبيعية (NLP) ونماذج التعلم الآلي.

يتكون Word2Vec من نموذجين رئيسيين لتوليد تمثيلات المتجهات: Continuous Bag of Words (CBOW) و Continuous Skip-gram.

في سياق Word2Vec، يهدف نموذج Continuous Bag of Words (CBOW) إلى التنبؤ بالكلمة المستهدفة بناءً على كلمات السياق المحيطة بها ضمن نافذة معينة. يستخدم كلمات السياق للتنبؤ بالكلمة المستهدفة، كما أن التضمينات المكتسبة تعكس العلاقات الدلالية بين الكلمات.

من ناحية أخرى، يأخذ نموذج Continuous Skip-gram كلمة الهدف كإدخال ويهدف إلى التنبؤ بكلمات السياق المحيطة.

كيف يتم تدريب النماذج

بالنظر إلى تسلسل الكلمات في الجملة، يأخذ نموذج CBOW عددًا ثابتًا من كلمات السياق (الكلمات المحيطة بالكلمة الهدف) كإدخال. يتم تمثيل كل كلمة سياق كتضمين (متجه) من خلال طبقة تضمين مشتركة. يتم تعلم هذه التضمينات خلال عملية التدريب.

يتم تجميع عمليات تضمين كلمات السياق الفردية، عادةً عن طريق جمعها أو حساب متوسطها. يعمل هذا التمثيل المجمع كإدخال للطبقة التالية.

ثم يتم استخدام التمثيل المجمع للتنبؤ بالكلمة المستهدفة باستخدام دالة تنشيط softmax. يتم تدريب النموذج على تقليل الفرق بين توزيع الاحتمالات المتوقع على المفردات والتوزيع الفعلي (تمثيل مشفر أحادي) للكلمة المستهدفة.

يتم تدريب نموذج CBOW من خلال تعديل عوامل ترجيح طبقة التضمين بناءً على قدرتها على التنبؤ بالكلمة المستهدفة بدقة.

يستخدم نموذج Continuous Skip-gram بيانات التدريب للتنبؤ بكلمات السياق بناءً على تضمين الكلمة الهدف. على وجه التحديد، فإنه يخرج توزيعًا احتماليًا على المفردات، مما يشير إلى احتمالية وجود كل كلمة في السياق بالنظر إلى الكلمة المستهدفة.

هدف التدريب هو تعظيم احتمالية ظهور كلمات السياق الفعلية بالنظر إلى الكلمة المستهدفة. يتضمن ذلك ضبط عوامل ترجيح طبقة التضمين لتقليل الفرق بين الاحتمالات المتوقعة والتوزيع الفعلي لكلمات السياق. يسمح النموذج أيضًا بحجم نافذة سياق مرن. ويمكن تعديله بناءً على المتطلبات المحددة للمهمة، مما يسمح للمستخدمين بالتقاط كل من علاقات السياق المحلي والعالمي.

يقوم نموذج Skip-gram بشكل أساسي "بتخطي" من الكلمة الهدف للتنبؤ بسياقها، مما يجعله فعالاً بشكل خاص في التقاط العلاقات الدلالية وأوجه التشابه بين الكلمات.

المزايا والقيود

كلا النموذجين اللذين يستخدمهما Word2Vec لهما مزايا وقيود خاصة بهما. يعمل Skip-gram بشكل جيد مع التعامل مع كميات هائلة من البيانات النصية ووُجد أنه يمثل الكلمات النادرة بشكل جيد. من ناحية أخرى، فإن CBOW أسرع ولديه تمثيلات أفضل للكلمات الأكثر تكرارًا.

فيما يتعلق بالقيود، قد لا يتعامل Word2Vec بشكل فعال مع تعدد الدلالات، حيث يكون للكلمة الواحدة معاني متعددة. "قد يقوم النموذج بتجميع أو مزج تمثيلات معاني مختلفة للكلمة متعددة المعاني." يتعامل Word2Vec أيضًا مع الكلمات كوحدات ذرية ولا يلتقط معلومات الكلمات الفرعية.

تناول بعض هذه القيود هو الدافع لتطوير نماذج أكثر تقدمًا، مثل FastText و GloVe والنماذج القائمة على المحولات (التي ستتم مناقشتها أدناه)، والتي تهدف إلى التغلب على بعض أوجه القصور في Word2Vec.

GloVe

GloVe (Global Vectors for Word Representation) هو نموذج تضمين الكلمات المصمم لالتقاط المعلومات الإحصائية العالمية حول أنماط تكرار الكلمات في مجموعة من النصوص.

تم تقديم نموذج GloVe من قِبل Jeffrey Pennington و Richard Socher و Christopher D. Manning في عام 2014، ويختلف نموذج GloVe عن Word2Vec من خلال التركيز على استخدام المعلومات العالمية بدلًا من التركيز فقط على السياق المحلي.

يعتمد GloVe على فكرة أن الإحصائيات العالمية لتواجد الكلمات عبر المجموعة بأكملها ضرورية لالتقاط دلالات الكلمات. ويأخذ في الاعتبار مدى تكرار تزامن الكلمات مع بعضها البعض في مجموعة البيانات وليس فقط في السياق المحلي للكلمات الفردية.

"يهدف النموذج إلى تقليل الفرق بين احتمالات التواجد المتوقعة واحتمالات التواجد الفعلية المستمدة من إحصاءات النص.

يتسم GloVe بالكفاءة الحاسوبية مقارنةً ببعض الطرق الأخرى، حيث إنه يعتمد على الإحصائيات العالمية ويستخدم تقنيات تحليل المصفوفات لتعلم متجهات الكلمات. يمكن تدريب النموذج على مجموعات كبيرة دون الحاجة إلى موارد حاسوبية واسعة النطاق.

يقدم GloVe أوزانا عددية لأزواج الكلمات للتحكم في تأثير أزواج الكلمات المختلفة على عملية التدريب. تساعد هذه الأوزان في التخفيف من تأثير أزواج الكلمات المتكررة جدًا أو النادرة على التضمينات المكتسبة.

آلية التدريب

على عكس نماذج Word2Vec (CBOW و Skip-gram)، التي تركز على التنبؤ بكلمات السياق التي تعطى كلمة مستهدفة أو العكس، يستخدم GloVe نهجًا مختلفًا يتضمن تحسين متجهات الكلمات بناء على احتمالات التكرار المشترك. تم تصميم عملية التدريب لتعلم التضمينات التي تلتقط بشكل فعال العلاقات الدلالية بين الكلمات.

تتمثل الخطوة الأولى في إنشاء مصفوفة التكرار المشترك التي تمثل عدد المرات التي تظهر فيها الكلمات معًا في المجموعة.

التالي هو صياغة دالة موضوعية تصف العلاقة بين متجهات الكلمات واحتمالات تكرارها المشترك.

تم تحسين دالة الهدف باستخدام الانحدار التدرجي أو خوارزميات التحسين الأخرى. الهدف هو ضبط متجهات الكلمات والتحيزات لتقليل الفرق التربيعي بين احتمالات الحدوث اللوغاريتمي المتوقعة والفعلية.

التطبيقات وحالات الاستخدام

يمكن للمستخدمين تنزيل تضمينات GloVe المدرّبة مسبقًا والضبط الدقيق لها لتطبيقات محددة أو استخدامها مباشرةً.

تُستخدم تضمينات GloVe على نطاق واسع في مهام معالجة اللغة الطبيعية، مثل تصنيف النص وتحليل المشاعر والترجمة الآلية والمزيد.

يتفوق GloVe في السيناريوهات التي يكون فيها التقاط العلاقات الدلالية العالمية وفهم السياق العام للكلمات والاستفادة من إحصائيات التكرار المشترك أمرًا حساسًا لنجاح مهام معالجة اللغة الطبيعية.

ما وراء Word2Vec وGloVe

وقد ألهم نجاح Word2Vec و GloVe المزيد من الأبحاث حول نماذج تمثيل لغوي أكثر تطوراً، مثل FastText و BERT و GPT. تستفيد هذه النماذج من تضمينات الكلمات الفرعية وآليات الانتباه والمحولات لمعالجة تضمينات الأبعاد الأعلى بفعالية.

عمليات تضمين الكلمات الفرعية

تمثل عمليات تضمين الكلمات الفرعية، مثل FastText، الكلمات كمجموعات من وحدات الكلمات الفرعية، مما يوفر مزيدًا من المرونة والتعامل مع الكلمات النادرة أو الخارجة عن المفردات. تعمل عمليات تضمين الكلمات الفرعية على تحسين متانة وتغطية عمليات تضمين الكلمات.

على عكس GloVe، يقوم FastText بتضمين الكلمات من خلال التعامل مع كل كلمة على أنها تتكون من حرف n-grams بدلًا من كلمة كاملة. تمكّنه هذه الميزة ليس فقط من تعلم الكلمات النادرة ولكن أيضًا الكلمات خارج مفرداته.

آليات الانتباه والمحولات

تأخذ آليات الانتباه ونماذج المحولات في الاعتبار المعلومات السياقية والعلاقات ثنائية الاتجاه بين الكلمات، مما يؤدي إلى تمثيلات لغوية أكثر تقدمًا.

تم تقديم آليات الانتباه لتحسين قدرة الشبكات العصبية على التركيز على أجزاء محددة من تسلسل المدخلات عند إجراء التنبؤات. وبدلاً من التعامل مع جميع أجزاء الإدخال بالتساوي، تسمح آليات الانتباه للنموذج بالاهتمام بشكل انتقائي بالأجزاء ذات الصلة من الإدخال.

أصبحت المحولات العمود الفقري للعديد من النماذج الحديثة في معالجة اللغة الطبيعية، بما في ذلك BERT و GPT و T5 (محول نقل النص إلى نص) وغيرها. إنهم يتفوقون في مهام مثل نمذجة اللغة والترجمة الآلية وتوليد النص والإجابة على الأسئلة.

تستخدم المحولات آلية الانتباه الذاتي لالتقاط العلاقات بين الكلمات المختلفة في التسلسل. تتيح هذه الآلية لكل كلمة الانتباه إلى جميع الكلمات الأخرى في التسلسل، مما يلتقط التبعيات طويلة المدى.

تسمح المحولات بمزيد من التوازي أثناء التدريب مقارنة بالشبكات العصبية المتكررة (RNNs) وهي فعالة من الناحية الحاسوبية.

هل منظمتك جاهزة للاستفادة من الذكاء الاصطناعي التوليدي؟

تعرف على القدرات التنسيقية الخمسة الرئيسية التي يمكن أن تساعد المؤسسات على مواجهة تحديات تنفيذ الذكاء الاصطناعي التوليدي بفعالية.

الموارد

استكشف IBM Granite

IBM® ™Granite هي مجموعة من نماذج الذكاء الاصطناعي المفتوحة والموثوقة وذات الأداء العالي والتي صُمِمَت خصيصًا للأعمال وجرى الارتقاء بها على النحو الأمثل لتوسيع نطاق تطبيقات الذكاء الاصطناعي لديك. استكشف خيارات اللغة والتعليمات البرمجية والسلاسل الزمنية وضوابط الحماية.

دليل المبتدئين إلى معالجة اللغة الطبيعية

اكتشف كيف يمكن أن تساعدك معالجة اللغة الطبيعية على التحدث بشكل أكثر طبيعية مع أجهزة الكمبيوتر.

AI in Action 2024

لقد قمنا باستطلاع آراء 2000 مؤسسة حول مبادرات الذكاء الاصطناعي لديها لمعرفة ما ينجح وما لا ينجح وكيف يمكنك المضي قدمًا.

تعزيز تطبيقاتك باستخدام الذكاء الاصطناعي القابل للتضمين من IBM

استكشف الموقع الإلكتروني لمطوري IBM للوصول إلى المدونات والمقالات والنشرات الإخبارية وتعرف على المزيد عن الذكاء الاصطناعي القابل للتضمين من IBM.

التدريب العملي باستخدام الذكاء الاصطناعي التوليدي

تعلّم المفاهيم الأساسية وطوّر مهاراتك من خلال المختبرات العملية والدورات التدريبية والمشاريع الموجهة والتجارب وغيرها.