ما هو التضمين المتجه؟

12 يونيو 2024

المؤلفين

Dave Bergmann

Senior Writer, AI Models

IBM

Cole Stryker

Editorial Lead, AI Models

Gather

ما هو التضمين المتجه؟

التضمينات المتجهة هي تمثيلات رقمية لنقاط البيانات التي تعبر عن أنواع مختلفة من البيانات، بما في ذلك البيانات الغير الرياضية مثل الكلمات أو الصور، كمصفوفة من الأرقام التي يمكن أن يمكن تعالجها نماذج التعلم الآلي (ML).

نماذج الذكاء الاصطناعي، بدءًا من خوارزميات الانحدار الخطي البسيطة إلى الشبكات العصبية المعقدة المستخدمة في التعلم العميق والتي تعمل باستخدام المنطق الرياضي.

يجب التعبير رقميًا عن أي بيانات يعمل عليها نموذج الذكاء الاصطناعي، بما في ذلك البيانات غير المنظمة مثل النص أو الصوت أو الصور. تضمين المتجهات هو طريقة لتحويل نقطة بيانات غير منظمة إلى مصفوفة من الأرقام التي تعبِّر بها المعنى الأصلي للبيانات.

تمكننا نماذج التدريب على تمثيلات متجه المخرجات لنقاط البيانات التي تتوافق بشكل هادف مع ميزاتها في العالم الحقيقي من وضع افتراضات مفيدة حول كيفية ارتباط عمليات تضمين المتجهات ببعضها البعض.

بديهيًا، كلما كانت نقطتا بيانات العالم الواقعي أكثر تشابهًا، كان تشابه تضمين المتجهات الخاص بكل منهما أكبر. ويجب أن تنعكس الميزات أو الصفات المشتركة بين نقطتي بيانات في كل من عمليات تضمين المتجهات الخاصة بهما. ويجب أن تحتوي نقاط البيانات المتباينة على تضمينات متجهات متباينة.

بالتزود بمثل هذه الافتراضات المنطقية، يمكن استخدام تضمينات المتجهات كمدخلات للنماذج التي تؤدي مهام مفيدة في العالم الواقعي من خلال العمليات الرياضية التي تقارن أو تحول أو تجمع أو تفرز أو تتلاعب بهذه التمثيلات العددية.

يتيح التعبير عن نقاط البيانات كمتجهات أيضًا إمكانية التشغيل البيني لأنواع مختلفة من البيانات، حيث تعمل بمثابة لغة مشتركة من نوع ما بين تنسيقات البيانات المختلفة من خلال تمثيلها في نفس مساحة التضمين. على سبيل المثال، تقوم المساعدات الصوتية للهواتف الذكية "بترجمة" مدخلات الصوت للمستخدم إلى تضمينات متجهة، والتي تستخدم بدورها تضمينات متجهة لمعالجة اللغة الطبيعية (NLP) لهذا الإدخال.

وبالتالي، فإن تضمين المتجهات يدعم جميع التعلم الآلي الحديث تقريبًا، حيث يعمل على تشغيل النماذج المستخدمة في مجالات معالجة اللغة الطبيعية ورؤية الكمبيوتر ، ويعمل بمثابة اللبنات الأساسية للذكاء الاصطناعي التوليدي.

ما هو المتجه؟

تنتمي المتجهات إلى الفئة الأكبر من الموترات. في التعلم الآلي (ML)، يُستخدم مصطلح "الموتر" كمصطلح عام لمصفوفة من الأرقام—أو مصفوفة من مصفوفات الأرقام،—في فضاء ذي أبعاد n يعمل مثل جهاز مسك الدفاتر الرياضية للبيانات.

من المفيد ملاحظة أن بعض الكلمات تستخدم بشكل مختلف في سياق التعلم الآلي مقارنةً باللغة اليومية أو الإعدادات الرياضية الأخرى. فعلى سبيل المثال، كلمة "متجه" نفسها لها دلالة أكثر تحديدًا في الفيزياء، وعادةً ما تشير إلى كمية ذات مقدار واتجاه معًا، مقارنةً بالتعلم الآلي.

وبالمثل ، فإن كلمة "البُعد" لها دلالات مختلفة في التعلم الآلي (ML)، اعتمادًا على سياقها. عند وصف موتر ما، فإنه يشير إلى عدد المصفوفات التي يحتوي عليها ذلك الموتر. عند وصف متجه ما، فإنه يشير إلى عدد المكونات والأرقام الفردية التي يحتوي عليها المتجه. يمكن أن تساعد المصطلحات المماثلة مثل "المرتبة" أو "الدرجة" في تقليل الغموض.

  • العدد القياسي هو موتر ذو بُعد صفري، ويحتوي على رقم واحد. على سبيل المثال، قد يمثل نظام نمذجة بيانات الطقس درجة الحرارة العظمى ليوم واحد (بالدرجة المئوية) في شكل قياسي مثل 33.

  • المتجه هو موتر أحادي البُعد (أو من الدرجة الأولى أو من المرتبة الأولى) ، يحتوي على عدة مقاييس من نفس النوع من البيانات. على سبيل المثال، يمكن أن يمثل نموذج الطقس درجات الحرارة الصغرى والمتوسطة والعظمى لذلك اليوم الواحد في صورة متجه على الصورة(25، 30، 33). كل مكون قياسي هو سمة—أي بُعد—للمتجه، يتوافق مع سمة من سمات الطقس في ذلك اليوم.

  • تسلسل البيانات هو موتر من الدرجة الأولى يحتوي على كميات قياسية من أكثر من نوع واحد من البيانات. على سبيل المثال، قد يتم تمثيل اسم الشخص وعمره وطوله (بالبوصة) في شكل مجموعة (جين، سميث، 31، 65).

  • المصفوفة عبارة عن موتر ثنائي الأبعاد (أو من المرتبة الثانية أو من الدرجة الثانية)، يحتوي على متجهات متعددة من نفس النوع من البيانات. يمكن تصورها بشكل حدسي كشبكة ثنائية الأبعاد من المقاييس حيث يكون كل صف أو عمود متجهًا. على سبيل المثال، قد يمثل نموذج الطقس هذا شهر يونيو بأكمله كمصفوفة 3x30، حيث يكون كل صف عبارة عن متجه سمة يصف درجات الحرارة الصغري والمتوسطة والعظمى ليوم واحد.

  • تُسمى المصفوفات ذات الأبعاد الثلاثة أو أكثر، مثل الموترات ثلاثية الأبعاد المستخدمة لتمثيل الصور الملونة في خوارزميات رؤية الكمبيوتر، بالمصفوفات متعددة الأبعاد أو المصفوفات ذات الأبعاد N.

يمكن أيضًا تطبيق العديد من التحويلات المباشرة على المصفوفات أو غيرها من الموترات ذات الأبعاد n لتمثيل البيانات التي تحتوي عليها في صورة متجهات. على سبيل المثال، يمكن تسطيح مصفوفة 4 × 4 إلى متجه ذي 16 بُعدًا. يمكن تسطيح موتر ثلاثي الأبعاد لصورة 4 × 4 بكسل إلى متجه ذي 48 بُعدًا. تأخذ  عمليات التضمين في الغالب شكل المتجهات في التعلم الآلي (ML).

وعلى العكس من ذلك، فإن المتجهات في سياقات أخرى، مثل الفيزياء، ليست بالضرورة تضمينات. ولكن في التعلم الآلي، عادةً ما تكون المتجهات عبارة عن تضمينات وتكون التضمينات عادةً متجهات.

المتجهات مقابل التضمينات:

على الرغم من أن المصطلحات غالبًا ما تستخدم بالتبادل في التعلم الآلي (ML)، إلا أن "المتجهات" و "التضمينات" ليسا نفس الشيء.

التضمين هو أي تمثيل رقمي للبيانات التي تلتقط صفاتها ذات الصلة بطريقة يمكن لخوارزميات التعلم الآلي معالجتها. يتم تضمين البيانات في مساحة ذات أبعاد n .

من الناحية النظرية، لا يلزم تضمين البيانات كمتجه. على سبيل المثال، بعض أنواع البيانات يمكن تضمينها في شكل تجميعة.1 ولكن في الممارسة العملية، تأخذ التضمينات في الغالب شكل متجهات في التعلّم الآلي الحديث.

وعلى العكس من ذلك، فإن المتجهات في سياقات أخرى، مثل الفيزياء، ليست بالضرورة تضمينات. ولكن في التعلم الآلي، عادةً ما تكون المتجهات عبارة عن تضمينات وتكون التضمينات عادةً متجهات.

كيف يعمل تضمين المتجهات؟

يقوم تضمين المتجهات بتحويل نقطة بيانات، مثل كلمة أو جملة أو صورة، إلى مصفوفة ذات أبعاد n من الأرقام التي تمثل خصائص نقطة البيانات هذه —سماتها. ويتم تحقيق ذلك من خلال تدريب نموذج التضمين على مجموعة كبيرة من البيانات ذات الصلة بالمهمة المطروحة أو باستخدام نموذج مدرب مسبقًا.

يتطلب فهم تضمينات المتجهات شرح بعض المفاهيم الأساسية:

  • كيف تمثل تضمينات المتجه البيانات.

  • كيف يمكن مقارنة تضمينات المتجه.

  • كيف يمكن استخدام النماذج لتوليد تضمينات المتجه.

كيف تمثل عمليات تضمين المتجهات البيانات

في التعلم الآلي، لا تشير «أبعاد» البيانات إلى الأبعاد المألوفة والبديهية للفضاء المادي. في الفضاء المتجه، يتوافق كل بُعد مع ميزة فردية للبيانات، بنفس الطريقة التي يمثل بها الطول والعرض والعمق كل سمة من سمات كائن في الفضاء المادي.

تتعامل تضمينات المتجه عادةً مع البيانات عالية الأبعاد. في الممارسة العملية، معظم المعلومات غير الرقمية عالية الأبعاد. على سبيل المثال، حتى صورة صغيرة وبسيطة بحجم 28 × 28 بكسل بالأبيض والأسود لرقم مكتوب بخط اليد من مجموعة بيانات MNIST يمكن تمثيلها كمتجه مكون من 784 بُعدًا، حيث يتوافق كل بُعد مع بكسل فردي تتراوح قيمة تدرجه الرمادي من 0 (للأسود) إلى 1 (للأبيض).

ومع ذلك، لا تحتوي جميع أبعاد البيانات هذه على معلومات مفيدة. في مثال MNIST الخاص بنا، يمثل الرقم الفعلي نفسه جزءًا صغيرًا فقط من الصورة. الباقي عبارة عن خلفية فارغة أو «ضوضاء». وبالتالي سيكون من الأدق القول إننا "ندمج تمثيلًا للصورة في فضاء ذي 784 بُعدًا" بدلاً من القول إننا "نمثل 784 سمة مختلفة للصورة".

وبالتالي، فإن تضمينات المتجهات الفعالة للبيانات عالية الأبعاد غالبًا ما تستلزم درجة معينة من تقليل الأبعاد: ضغط البيانات عالية الأبعاد إلى مساحة ذات أبعاد أقل تغفل المعلومات غير ذات الصلة أو المكررة.

يؤدي تقليل الأبعاد إلى زيادة سرعة النموذج وكفاءته، وإن كان ذلك مع إجراء مُفاضلة محتملة بين الدقة أو الوضوح، لأن المتجهات الأصغر تتطلب قوة حسابية أقل للعمليات الرياضية. ويُمكن أن يساعد هذا أيضًا في تقليل مخاطر الإفراط في ملاءمة بيانات التدريب. وتُعد طرق تقليل الأبعاد المختلفة، مثل برامج التشفير التلقائي والتلافيف وتحليل العناصر الرئيسية وتضمين الجوار العشوائي الموزع (t-SNE)، هي الأنسب لأنواع البيانات والمهام المختلفة.

في حين أن أبعاد بيانات المتجه للصور موضوعية وبديهية نسبيًا، فإن تحديد السمات ذات الصلة لبعض طرائق البيانات مثل المعاني الدلالية والعلاقات السياقية للغة، هو أمر أكثر تجريدًا أو ذاتية. في مثل هذه الحالات، يمكن إنشاء السمات المحددة التي تمثلها أبعاد تضمينات المتجه من خلال هندسة السمات اليدوية أو، بشكل أكثر شيوعًا في عصر التعلم العميق، يتم تحديدها ضمنيًا من خلال عملية تدريب نموذج لعمل تنبؤات دقيقة.

كيفية مقارنة تضمينات المتجه

المنطق الأساسي للتضمينات المتجهة هو أن التضمينات ذات الأبعاد n لنقاط البيانات المتشابهة يجب أن يتم تجميعها معًا بشكل وثيق في مساحة ذات أبعاد n . ومع ذلك، يمكن أن تحتوي التضمينات على عشرات أو مئات أو حتى آلاف الأبعاد. وهذا يتجاوز بكثير المساحات ثنائية أو ثلاثية الأبعاد التي يمكن لعقولنا أن تتخيلها بشكل بديهي.

بدلاً من ذلك، يتم استخدام مقاييس متعددة للاستدلال على التشابه النسبي لتضمينات المتجه المختلفة. يعتمد أفضل مقياس للتشابه لحالة معينة إلى حد كبير على طبيعة البيانات وما يتم استخدام المقارنات من أجله.

  • تقيس المسافة الإقليدية متوسط المسافة المستقيمة بين النقاط المتناظرة للمتجهات المختلفة. ويتم حساب الفرق بين متجهين nالأبعاد a وb عن طريق إضافة مربعات الاختلافات بين كل مكون من مكوناتهما المقابلة أولاً - لذلك تكون النتيجة، (a1–b1)2 + (a2–b2)2 + ... (أ ن- بن)2- ثم أخذ الجذر التربيعي لهذا المجموع. ونظرا لأن المسافة الإقليدية حساسة للمقدار، فهي مفيدة للبيانات التي تعكس أشياء مثل الحجم أو العدد. وتتراوح القيم من 0 (للمتجهات المتطابقة) إلى ∞.
     

  • مسافة جيب التمام، وتسمى أيضًا تشابه جيب التمام، هي مقياس طبيعي لجيب تمام الزاوية بين متجهين. وتتراوح مسافة جيب التمام من -1 إلى 1، حيث يمثل 1 متجهات متطابقة، ويمثل 0 متجهات متعامدة (أو غير مرتبطة)، ويمثل -1 متجهات معاكسة تمامًا. ويُستخدم تشابه جيب التمام على نطاق واسع في مهام معالجة اللغة الطبيعية لأنه يعمل بشكل طبيعي على تطبيع مقادير المتجهات، كما أنه أقل حساسية للتكرار النسبي للكلمات في بيانات التدريب من المسافة الإقليدية.
     

  • الضرب القياسي هو، من الناحية الجبرية، مجموع حاصل ضرب المكونات المتناظرة لكل متجه. من الناحية الهندسية، هو نسخة غير طبيعية من مسافة جيب التمام تعكس أيضًا التردد أو المقدار.

نماذج التضمين

قد تكون نماذج التضمين القائمة بذاتها عروضًا مُدرَّبة مسبقًا أو مُدرَّبة من الصفر على مهام أو بيانات تدريب محددة. وعادةً ما يستفيد كل شكل من أشكال البيانات من بنية شبكة عصبية معينة، ولكن هذه أفضل الممارسات وليست قواعد صريحة في معظم الحالات. 

في بعض الأحيان، تكون عملية التضمين جزءًا لا يتجزأ من شبكة عصبية أكبر. على سبيل المثال، في الشبكات العصبية التلافيفية للتشفير وفك التشفير (CNNs) المستخدمة لمهام مثل تقسيم الصور، فإن عملية تحسين الشبكة بأكملها لتقديم تنبؤات دقيقة تستلزم تدريب طبقات التشفير لإخراج تضمينات متجه فعالة للصور المدخلة.

النماذج المدربة مسبقًا
بالنسبة للعديد من حالات الاستخدام ومجالات الدراسة، يمكن للنماذج المدربة مسبقًا توفير تضمينات مفيدة يمكن أن تعمل كمدخلات للنماذج المخصصة أو قواعد بيانات المتجه. يتم تدريب نماذج المصدر المفتوح هذه عادةً على مجموعة ضخمة وواسعة من بيانات التدريب لتعلم التضمينات المفيدة للعديد من المهام اللاحقة مثل التعلم قليل الأمثلة أو التعلم بدون أمثلة.

بالنسبة للبيانات النصية، يمكن تدريب نماذج تضمين الكلمات الأساسية مفتوحة المصدر مثل Word2Vec من Google أو Global Vectors (GloVe) من جامعة ستانفورد من البداية، ولكن يتم تقديمها أيضًا في متغيرات تم تدريبها مسبقًا على بيانات النص العام مثل Wikipedia و Common Crawl. وبالمثل، فإن النماذج اللغوية الكبيرة (LLMs) للتشفير-فك التشفير التي تُستخدم غالبًا للتضمينات، مثل BERT ومتغيراته العديدة، يتم تدريبها مسبقًا على كمية هائلة من البيانات النصية. 

بالنسبة لمهام رؤية الكمبيوتر، يمكن تكييف نماذج تصنيف الصور المدربة مسبقًا مثل ImageNet أو ResNet أو VGG لتضمين المخرجات ببساطة عن طريق إزالة طبقة التنبؤ النهائية المتصلة بالكامل.

نماذج التضمين المخصصة
تستفيد بعض حالات الاستخدام، لا سيما تلك التي تنطوي على مفاهيم غامضة أو فئات جديدة من البيانات، من الضبط الدقيق للنماذج المدربة مسبقًا أو تدريب نماذج التضمين المخصصة بالكامل. 

المجالات القانونية والطبية هي أمثلة بارزة على المجالات التي غالبًا ما تعتمد على المفردات الغامضة والمتخصصة للغاية أو قواعد المعرفة أو الصور التي من غير المحتمل أن تكون قد أدرجت في بيانات التدريب للنماذج الأكثر عمومية. يمكن أن يساعد استكمال المعرفة الأساسية للنماذج المدربة مسبقًا من خلال مزيد من التدريب على أمثلة خاصة بالمجال في مساعدة النموذج على إخراج تضمينات أكثر فعالية.

في حين يمكن تحقيق ذلك أيضاً من خلال تصميم بنية شبكة عصبية مخصصة أو تدريب بنية معروفة من الصفر، إلا أن القيام بذلك يتطلب موارد ومعرفة مؤسسية قد تكون بعيدة المنال بالنسبة لمعظم المؤسسات أو الهواة.

تضمين المتجه للصور

تقوم تضمينات الصور بتحويل المعلومات المرئية إلى متجهات رقمية باستخدام قيم البكسل في الصورة لتتوافق مع مكونات المتجه. وعادةً ما تعتمد هذه النماذج على الشبكات العصبية التلافيفية (CNN)، على الرغم من أن السنوات الأخيرة شهدت تزايدًا في نماذج رؤية الكمبيوتر التي تستخدم الشبكات العصبية القائمة على المحولات.2

يتم تمثيل الصور ذات نظام ألوان RGB النموذجي عدديًا كمصفوفة ثلاثية الأبعاد، حيث تتوافق هذه المصفوفات الثلاث مع القيم الحمراء والخضراء والزرقاء الخاصة بكل بكسل. عادةً ما تكون صور RGB 8 بت، مما يعني أن كل قيمة لونية للبكسل يمكن أن تتراوح من 0 إلى 256 (أو28). كما هو موضح سابقًا، يتم تمثيل الصور بالأبيض والأسود عدديًا على هيئة مصفوفة ثنائية الأبعاد من وحدات البكسل حيث يكون لكل بكسل قيمة تتراوح بين 0 و 1.

تستخدم التلافيف مرشحات عددية ثنائية الأبعاد، تسمى النواة، لاستخراج السمات من الصورة. أوزان النواة الأكثر ملاءمة لاستخراج السمات ذات الصلة هي نفسها معلمة قابلة للتعلم أثناء تدريب النموذج. تنتج هذه التلافيف خريطة معالم للصورة.

عند الضرورة، يتم استخدام الحشو للحفاظ على الحجم الأصلي للمدخلات عن طريق إضافة طبقات إضافية من الأصفار إلى الصفوف والأعمدة الخارجية للمصفوفة. وعلى العكس، يمكن استخدام التجميع، الذي يلخص بشكل أساسي السمات المرئية من خلال أخذ قيمها الدنيا أو القصوى أو المتوسطة فقط، لتقليل الأبعاد بشكل أكبر.

وأخيرًا، يتم بعد ذلك تسطيح التمثيل المضغوط إلى متجه.

البحث عن الصور

أحد التطبيقات البديهية لتضمين الصور هو البحث عن الصور: نظام يأخذ بيانات الصورة كمدخلات ويعيد صورًا أخرى ذات تضمينات متجه مماثلة، مثل تطبيق الهاتف الذكي الذي يحدد نوع النبات من صورة فوتوغرافية.

التنفيذ الأكثر تعقيدًا هو البحث عن الصور متعدد الوسائط، حيث يتم أخذ النص كمدخلات وإرجاع الصور المتعلقة بهذا النص. لا يمكن تحقيق ذلك عن طريق أخذ تضمين نص من نموذج لغوي واستخدامه كإدخال إلى نموذج رؤية كمبيوتر منفصل. يجب تدريب نموذجي التضمين بشكل صريح على الربط بين بعضهما البعض.

إحدى الخوارزميات البارزة المستخدمة لتضمين الصور والنصوص هي خوارزمية التباين بين اللغة والصورة (CLIP)، والتي تم تطويرها في الأصل بواسطة OpenAI. تم تدريب CLIP على مجموعة بيانات هائلة غير مصنفة لأكثر من 400 مليون زوج من الصور والتسميات التوضيحية المأخوذة من الإنترنت. تم استخدام هذه الأزواج لتدريب أداة تشفير الصور وأداة تشفير النصوص بشكل مشترك من البداية باستخدام خسارة التباين لتعظيم التشابه في جيب التمام بين تضمينات الصور والتضمينات الخاصة بالتعليقات التوضيحية المقابلة لها.

توليد الصورة

تطبيق آخر مهم لتضمين الصور هو توليد الصور: إنشاء صور جديدة.

إحدى طرق إنشاء صور جديدة من عمليات تضمين الصور هي برامج التشفير التلقائي المتباينة (VAEs). تقوم VAEs بتشفير اثنين من تضمينات المتجه المختلفة لبيانات الإدخال: متجه المتوسطات ومتجه الانحرافات المعيارية. من خلال أخذ عينات عشوائيًا من التوزيع الاحتمالي الذي تمثله هذه تضمينات المتجه هذه، يمكن أن تستخدم VAEs شبكة فك الترميز الخاصة بها لتوليد متغيرات مختلفة من تلك البيانات المدخلة.

تستخدم إحدى الطرق الرائدة في توليد الصور القائمة على التضمين، خاصةً في السنوات الأخيرة، خوارزمية CLIP المذكورة سابقًا. تأخذ نماذج توليف الصور مثل DALL-E و Midjourney و Stable Diffusion مطالبات نصية كمدخلات، باستخدام CLIP لتضمين تمثيل متجه للنص؛ يتم استخدام نفس تضمين المتجه، بدوره، لإعادة بناء صورة جديدة بشكل أساسي.

تضمين المتجهات لمعالجة اللغة الطبيعية

تعتبر تضمينات النصوص أقل وضوحًا. ويجب أن تمثل المفاهيم المجردة عدديًا مثل المعنى الدلالي والدلالات المتغيرة والعلاقات السياقية بين الكلمات والعبارات.

إن مجرد تمثيل الكلمات من حيث حروفها، بالطريقة التي تمثل بها تضمينات الصور المرئية من حيث قيم البكسل الخاصة بها، لن ينتج عنه تضمينات ذات معنى.

في حين يتم تدريب معظم نماذج الرؤية الحاسوبية باستخدام التعلم الخاضع للإشراف التقليدي، فإن نماذج التضمين لمعالجة اللغة الطبيعية تتطلب التعلم الخاضع للإشراف الذاتي على كمية هائلة حقًا من بيانات التدريب لالتقاط العديد من المعاني المحتملة للغة في سياقات مختلفة بشكل مناسب. 

تعمل التضمينات الناتجة على تشغيل العديد من المهام المرتبطة عادةً بالذكاء الاصطناعي التوليدي، بدءًا من الترجمة اللغوية إلى روبوتات المحادثة إلى تلخيص المستندات إلى خدمات الإجابة عن الأسئلة.

نماذج تضمين النص

غالبًا ما تختلف النماذج المستخدمة لإنشاء تضمينات متجهة للبيانات النصية عن تلك المستخدمة لإنشاء نص فعلي.

النماذج اللغوية الكبيرة (LLM) شائعة الاستخدام لتوليد النصوص ومهام الذكاء الاصطناعي التوليدي الأخرى، مثل ChatGPT أو Llama، هي نماذج انحدار ذاتي لا تعتمد إلا على فك التشفير، وتسمى أيضًا نماذج اللغة السببية. وأثناء التدريب، يتم تقديمهم مع بداية عينة نصية معينة ويتم تكليفهم بالتنبؤ المستمر بالكلمة التالية حتى نهاية التسلسل. وفي حين أن هذا يفسح المجال بشكل جيد لتعلم إنشاء نص متماسك، إلا أنه ليست مثالية لتعلم تضمين متجهات مفيدة قائمة بذاتها.

بدلاً من ذلك، تعتمد تضمينات النصوص عادةً على نماذج لغوية مقنّعة مثل نماذج التشفير ثنائية الاتجاه من المحولات (BERT)، التي صدرت لأول مرة في عام 2018. في التدريب، يتم تزويد نماذج التشفير وفك التشفير هذه بتسلسلات نصية مع كلمات معينة مقنّعة أو مخفية، ويتم تكليفها بإكمال الفراغات.

يكافئ هذا التمرين التضمينات التي تلتقط بشكل أفضل معلومات حول كلمة أو جملة معينة وكيفية ارتباطها بالسياق المحيط بها. يتابع Word2vec مهمة تدريب مماثلة، وإن كان ذلك باستخدام بنية شبكة عصبية أبسط من طبقتين.

اعتبارًا من يونيو 2024، لا يزال BERT هو نموذج اللغة الأكثر شيوعًا على Huging Face، حيث تم تنزيله أكثر من 60 مليون مرة في الشهر السابق.3 تم تكييف العديد من متغيرات BERT البارزة لأنواع معينة من سيناريوهات وتضمينات اللغة:

  • SBERT: يُعرف أيضًا باسم الجملة BERT ومحولات الجملة، وهو عبارة عن نوع مختلف من BERT مع بنية شبكة عصبية سيامية متكيفة، تم ضبطها جيدًا على أزواج من الجمل لتحسين قدرتها على ترميز تضمينات الجملة.

  • DistilBERT: متغير BERT خفيف الوزن، تم إنشاؤه من خلال تقطير المعرفة لنموذج قاعدة BERT إلى نموذج أصغر يعمل بشكل أسرع بنسبة 60٪ مع الحفاظ على أكثر من 95٪ من أداء BERT من خلال بعض المقاييس.4

  • RoBERTa اختصارًا لنهج التدريب المسبق المحسّن بقوة على BERT، قام RoBERTa بتحسين إجراء تدريب BERT لتعزيز أدائه.

أنواع التضمينات النصية

يمكن استخدام تضمينات المتجه لتمثيل بيانات اللغة الطبيعية المختلفة.

تضمينات الكلمات
تضمينات الكلمات تهدف إلى التقاط ليس فقط المعنى الدلالي للكلمات الفردية ولكن أيضا علاقتها السياقية بالكلمات الأخرى التي غالبًا ما تتزامن معها. عند القيام بذلك، يمكن تعميم تضمين الكلمات بشكل جيد على سياقات جديدة وحتى الكلمات النادرة أو غير المرئية من قبل.

تم تدريب نموذج GloVe، وهو نموذج شائع لتضمين الكلمات، على "مصفوفة التكرار المتبادل بين الكلمات العالمية"، حيث يستنتج المعنى الدلالي والعلاقات الدلالية من عدد مرات استخدام كلمات محددة بالقرب من بعضها البعض. على سبيل المثال، يمكن استنباط المعنى من تزامن "الجليد" و"البخار" مع "الماء" بنفس التردد تقريبًا، ولكنهما يتزامنان مع "الصلب" و"الغاز" بمعدلات مختلفة جدًا.5

الطريقة التي تلتقط بها أبعاد كلمة تضمين المتجه ضمنيًا هذه العلاقات تمكننا من معالجتها رياضيًا بطرق مفيدة وبديهية. وفي مخطط تضمين الكلمات جيد التكوين، فإن طرح المتجه لـ "رجل" من متجه "ملك" وإضافة متجه لـ "امرأة" يجب أن ينتج عنه بشكل أساسي متجه "ملكة".

تضمينات الجملة
تتضمن تضمينات الجملة المعنى الدلالي لعبارات أو جمل كاملة، بدلًا من الكلمات الفردية. يتم إنشاؤها عادةً باستخدام SBERT أو أنواع أخرى من محولات الجملة.

  • يمكن أن تتضمن تضمينات الجمل تمثيلات لاستعلامات المستخدم، لاستخدامها في محركات البحث أو تطبيقات الإجابة على الأسئلة.

  • في الترجمة الآلية، يمكن استخدام تضمين المتجه لجملة بلغة واحدة لإخراج جملة بلغة مختلفة مع تضمين متجه مماثل.

  • وغالبًا ما تُستخدم تضمينات الجمل في تحليل المشاعر. يمكن تدريب المصنفين إما على أمثلة مصنفة لكل فئة من فئات المشاعر أو باستخدام التعلم الخاضع للإشراف، ثم تصنيف عينات جديدة عن طريق مطابقة تضمين المتجه الخاص بها مع التضمين المكتسب لكل فئة. من الممكن أيضًا تحليل المشاعر من خلال التعلّم من دون أمثلة، حيث تتم مقارنة التضمين لجملة معينة بتضمين الكلمات في تصنيف معين.

تضمينات المستندات
غالبًا ما يتم استخدام تضمينات المستندات لتصنيف المستندات أو صفحات الويب للفهرسة في محركات البحث أو قواعد بيانات المتجهات. تتضمن النماذج النموذجية لتضمين المستندات متغيرات BERT أو Doc2vec (وهو توسيع لنموذج Word2vec) أو نماذج تضمين أخرى مفتوحة المصدر مثل Instructor (الرابط موجود خارج ibm.com).

أنواع أخرى من تضمينات المتجهات

على الرغم من أن بيانات الصور والنصوص تميل إلى الحصول على أكبر قدر من الاهتمام، لا سيما بالنسبة لحالات استخدام الذكاء الاصطناعي التوليدي، إلا أن مجموعة واسعة من طرائق البيانات يمكن أن تستفيد من تضمين المتجهات.

  • تُستخدم التضمينات الصوتية في تطبيقات مختلفة، بدءًا من المساعدين الصوتيين إلى أنظمة التوصية بالأغاني إلى أنظمة التعرف على الموسيقى مثل Shazam. فهي تمثل الصوت من خلال الخصائص العددية لبيانات شكله الموجي. يمكن تضمين الصوت باستخدام الشبكات العصبية المتكررة (RNNs) أو الشبكات العصبية التلافيفية أو البنى القائمة على المحولات.

  • غالبًا ما تُستخدم تضمينات المنتجات لتشغيل أنظمة التوصية لمنصات التجارة الإلكترونية. عادة ما يتم إنشاؤها باستخدام خوارزميات التعلم غير الخاضع للإشراف.

  • يمكن استخدام تضمينات الرسم البياني لنمذجة وتمثيل هياكل العلاقات المعقدة مثل الشبكات الاجتماعية أو الأنظمة البيولوجية. تمثل أبعاد متجه تضمين الرسم البياني الطريقة التي يتم بها توصيل العقد والحواف المختلفة للنظام.

قواعد البيانات الموجهة

نادرًا ما يتم تحسين قواعد البيانات التقليدية للعمل على البيانات عالية الأبعاد الشائعة لتضمينات المتجه. قواعد بيانات المتجهات مثل IBM® watsonx.data هي حلول متقدمة مصممة لتنظيم واسترجاع كائنات البيانات في مساحة متجه عالي الأبعاد.

بحث المتجهات

تتمثل إحدى الفوائد الأساسية لحل قاعدة بيانات المتجهات الفعال في تحسين كفاءة ودقة عمليات بحث المتجهات: العثور على البيانات والمستندات ذات الصلة وفرزها واسترجاعها عن طريق التشابه الدلالي لتضمينات المتجه الخاصة بها مع تلك الخاصة بمصطلحات البحث الخاصة بك.

هذا النوع من البحث عن التشابه يتم عادةً من خلال خوارزميات أقرب جار المباشرة التي تستنتج الارتباطات بين نقاط البيانات بناءً على قربها في مساحة متجهة عالية الأبعاد.

البحث الدلالي
يستخدم البحث الدلالي تضمينات المتجهات لإجراء عمليات بحث قوية تتجاوز مطابقة الكلمات الرئيسية البسيطة. على سبيل المثال، عرض نتائج "التفاح" و"البرتقال" على الرغم من أن طلب البحث الأصلي كان "فاكهة". 

التوليد المعزَّز بالاسترجاع (RAG)

ويستخدم هذا النوع من البحث الدلالي أيضًا لتمكين التوليد المعزز للاسترجاع (RAG)، وهو إطار عمل يستخدم لتكملة قاعدة المعرفة الخاصة بالنماذج اللغوية الكبيرة دون الحاجة إلى الخضوع لمزيد من الضبط الدقيق.

وفي التوليد المعزَّز بالاسترجاع (RAG)، يستخدم البحث المتجه لاستقصاء مصادر البيانات الخارجية، كما هو الحال في مصادر البيانات التي لم تكن جزءًا من بيانات التدريب الخاصة بنموذج الأساس والتي لا يمكن بالتالي أن تنعكس معلوماتها في مخرجات النماذج اللغوية الكبيرة، لاسترجاع المعلومات ذات الصلة، ثم استخدام تلك المعلومات لزيادة الاستجابات الناتجة عن النموذج اللغوي الكبير.

الحواشي

تؤدي كل الروابط إلى صفحات خارج ibm.com.

"Stable Tuple Embeddings for Dynamic Databases", arXiv, 11 March 2021.
"Leaderboard: Image Classification on ImageNet", Papers With Code, accessed 5 June 2024.
"Models" (sorted by "Most downloads"), Hugging Face, accessed 5 June 2024.
"DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter", arXiv, 2 October 2019.
"GloVe: Global Vectors for Word Representation", Stanford University, August 2014.