الهدف الأساسي من تضمين الكلمات هو تمثيل الكلمات بطريقة تجسد علاقاتها الدلالية ومعلوماتها السياقية. هذه المتجهات عبارة عن تمثيلات رقمية في مساحة متجهة مستمرة، حيث تعكس المواضع النسبية للمتجهات أوجه التشابه الدلالية والعلاقات بين الكلمات.
السبب في استخدام المتجهات لتمثيل الكلمات هو أن معظم خوارزميات التعلم الآلي، بما في ذلك الشبكات العصبية، غير قادرة على معالجة النص العادي في شكله الخام. إنهم يحتاجون إلى الأرقام كمدخلات لأداء أي مهمة.
تتضمن عملية إنشاء تضمينات الكلمات تدريب نموذج على مجموعة كبيرة من النصوص (على سبيل المثال، ويكيبيديا أو Google News). تتم معالجة مجموعة النصوص مسبقًا عن طريق ترميز النص إلى كلمات، وإزالة كلمات التوقف وعلامات الترقيم، وإجراء مهام أخرى لتنظيف النص.
يتم تطبيق نافذة سياق منزلقة على النص، وبالنسبة لكل كلمة مستهدفة، يتم اعتبار الكلمات المحيطة داخل النافذة كلمات سياقية. ويتم تدريب نموذج تضمين الكلمة على التنبؤ بالكلمة المستهدفة بناءً على سياقها أو العكس.
يسمح هذا للنماذج بالتقاط أنماط لغوية متنوعة وتخصيص متجه فريد لكل كلمة، والذي يمثل موضع الكلمة في مساحة متجهة مستمرة. يتم وضع الكلمات ذات المعاني المتشابهة بالقرب من بعضها البعض، وتقوم المسافة والاتجاه بين المتجهات بترميز درجة التشابه.
تتضمن عملية التدريب تعديل معلمات نموذج التضمين لتقليل الفرق بين الكلمات المتوقعة والفعلية في السياق.
فيما يلي مثال مبسَّط على تضمينات الكلمات لمجموعة صغيرة جدًّا من النصوص (6 كلمات)، حيث يتم تمثيل كل كلمة كمتجه ثلاثي الأبعاد:
قطة [0.2, -0.4, 0.7]
كلب [0.6, 0.1, 0.5]
تفاحة [0.8, -0.2, -0.3]
برتقالي [0.7, -0.1, -0.6]
سعيد [-0.5, 0.9, 0.2]
حزين [0.4, -0.7, -0.5]
في هذا المثال ، ترتبط كل كلمة (على سبيل المثال ، "قطة" أو "كلب" أو "تفاحة") بمتجه فريد. والقيم الموجودة في المتجه تمثل موضع الكلمة في مساحة متجهة ثلاثية الأبعاد مستمرة. ومن المتوقع أن تكون للكلمات ذات المعاني أو السياقات المتشابهة تمثيلات متجهة متشابهة. فمثلاً، المتجهات الخاصة بكلمتي "قطة" و"كلب" قريبة من بعضها، وهو ما يشير إلى وجود علاقة دلالية بينهما. وبالمثل، فإن متجهات "سعيد" و "حزين" لها اتجاهين متعاكسين، مما يشير إلى معانيهما المتناقضة.
المثال أعلاه مبسط للغاية لأغراض التوضيح. عادة ما يكون لتضمين الكلمات الفعلية مئات الأبعاد لالتقاط المزيد من العلاقات المعقدة والفروق الدقيقة في المعنى.