ما هو التضمين المتجه؟

المؤلفين

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

ما المقصود بتضمين المتجهات؟

التضمينات المتجهة هي تمثيلات رقمية لنقاط البيانات التي تعبر عن أنواع مختلفة من البيانات، بما في ذلك البيانات الغير الرياضية مثل الكلمات أو الصور، كمصفوفة من الأرقام التي يمكن أن يمكن تعالجها نماذج التعلم الآلي (ML).

نماذج الذكاء الاصطناعي، بدءًا من خوارزميات الانحدار الخطي البسيطة إلى الشبكات العصبية المعقدة المستخدمة في التعلم العميق والتي تعمل باستخدام المنطق الرياضي. يجب التعبير رقميًا عن أي بيانات يعمل عليها نموذج الذكاء الاصطناعي، بما في ذلك البيانات غير المنظمة مثل النص أو الصوت أو الصور. تضمين المتجهات هو طريقة لتحويل نقطة بيانات غير منظمة إلى مصفوفة من الأرقام التي تعبِّر بها المعنى الأصلي للبيانات.

يمكِّن تدريب النماذج على إنتاج تمثيلات متجهية لنقاط البيانات تتوافق بشكل معقول مع ميزاتها الواقعية من إجراء استنتاجات مفيدة حول كيفية ارتباط المتجهات ببعضها. بديهيًا، كلما كانت نقطتا بيانات في العالم الحقيقي متشابهتين أكثر، كان تمثيلهما المتجهي أيضًا أكثر تشابهًا. يجب أن تنعكس الميزات أو الخصائص المشتركة بين نقطتي بيانات في كل من تضمينات المتجهات الخاصة بها. ويجب أن تحتوي نقاط البيانات المتباينة على تضمينات متجهات متباينة.

بالتزود بمثل هذه الافتراضات المنطقية، يمكن استخدام تضمينات المتجهات كمدخلات للنماذج التي تؤدي مهام مفيدة في العالم الواقعي من خلال العمليات الرياضية التي تقارن أو تحول أو تجمع أو تفرز أو تتلاعب بهذه التمثيلات العددية.

إن تمثيل نقاط البيانات كمتجهات يمكّن أيضًا من التوافق البيني بين أنواع البيانات المختلفة، حيث تعمل كنوع من اللغة المشتركة (lingua franca) بين صيغ البيانات المختلفة من خلال تمثيلها في نفس مساحة التضمين. على سبيل المثال، تعمل مساعدات الصوت في الهواتف الذكية على "ترجمة" المدخلات الصوتية الخاصة بالمستخدم إلى متجهات، ومن ثم استخدام هذه المتجهات في معالجة اللغة الطبيعية (NLP) لذلك الإدخال.

وبالتالي، تدعم تضمينات المتجهات جميع عمليات التعلم الآلي تقريبًا، حيث تدعم النماذج المستخدمة في مجالات البرمجة اللغوية العصبية ورؤية الكمبيوتر، وتعمل كوحدات بناء أساسية في الذكاء الاصطناعي التوليدي.

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! لقد اشتركت بنجاح.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

ما هو المتجه؟

تنتمي المتجهات إلى الفئة الأكبر من التنسورات. في التعلم الآلي (ML)، يُستخدم مصطلح "التنسور" كمصطلح عام لمصفوفة من الأرقام -أو مصفوفة من مصفوفات الأرقام- في فضاء ذي أبعاد n ويعمل كأداة رياضية لحفظ البيانات وتنظيمها.

من المفيد ملاحظة أن بعض الكلمات تُستخدَم بشكل مختلف في سياق التعلم الآلي مقارنةً باللغة اليومية أو السياقات الرياضية الأخرى. فمصطلح "المتجه" نفسه، على سبيل المثال، له دلالة أكثر تحديدًا في الفيزياء -حيث يُشير عادةً إلى كمية ذات مقدار واتجاه- مما يشير إليه في التعلم الآلي (ML).

وبالمثل ، فإن كلمة "البُعد" لها دلالات مختلفة في التعلم الآلي (ML)، اعتمادًا على سياقها. عند وصف تنسور ما، فإنه يشير إلى عدد المصفوفات التي يحتوي عليها ذلك التنسور. عند وصف متجه، فإنه يشير إلى عدد العناصر -الأرقام الفردية- التي يحتوي عليها المتجه. يمكن أن تساعد المصطلحات المماثلة مثل "المرتبة" أو "الدرجة" على تقليل الغموض.

  • العدد القياسي (scalar) هو تنسور صفري الأبعاد، يحتوي على رقم واحد فقط. على سبيل المثال، قد يمثل نظام نمذجة بيانات الطقس درجة الحرارة القصوى ليوم واحد (بالمئوية) في شكل قياسي (scalar) كما يلي:33 .

  • المتجه هو تنسور أحادي البُعد (أو من الدرجة الأولى أو من المرتبة الأولى)، يحتوي على عدة مقاييس من نفس النوع من البيانات. على سبيل المثال، قد يمثِّل نموذج الطقس درجات الحرارة المنخفضة والمتوسطة والمرتفعة لذلك اليوم الفردي في شكل متجه على النحو التالي: (25, 30, 33) كل عنصر قياسي هو سمة -أي بُعد- للمتجه، يتوافق مع سمة من سمات الطقس في ذلك اليوم.

  • تسلسل البيانات هو تنسور من الدرجة الأولى يحتوي على كميات قياسية من أكثر من نوع واحد من البيانات. على سبيل المثال، يمكن تمثيل اسم الشخص وعمره وطوله (بالبوصات) في شكل مجموعة مرتَّبة (tuple) كالآتي: (Jane, Smith, 31, 65) .

  • المصفوفة عبارة عن موتر ثنائي الأبعاد (أو من المرتبة الثانية أو من الدرجة الثانية)، يحتوي على متجهات متعددة من نفس النوع من البيانات. يمكن تصورها بشكل حدسي كشبكة ثنائية الأبعاد من المقاييس حيث يكون كل صف أو عمود متجهًا. على سبيل المثال، قد يمثل نموذج الطقس هذا شهر يونيو بأكمله كمصفوفة 3x30، حيث يكون كل صف عبارة عن متجه سمة يصف درجات الحرارة الصغري والمتوسطة والعظمى ليوم واحد.

  • تُسمى المصفوفات ذات الأبعاد الثلاثة أو أكثر، مثل الموترات ثلاثية الأبعاد المستخدمة لتمثيل الصور الملونة في خوارزميات رؤية الكمبيوتر، بالمصفوفات متعددة الأبعاد أو المصفوفات ذات الأبعاد N.

يمكن أيضًا تطبيق العديد من التحويلات المباشرة على المصفوفات أو غيرها من التنسورات ذات الأبعاد n لتمثيل البيانات التي تحتوي عليها في صورة متجهات. على سبيل المثال، يمكن تسطيح مصفوفة 4 × 4 إلى متجه ذي 16 بُعدًا. يمكن تسطيح تنسور ثلاثي الأبعاد لصورة 4 × 4 بكسل إلى متجه ذي 48 بُعدًا. تأخذ عمليات التضمين في الغالب شكل المتجهات في التعلم الآلي (ML).

المتجهات مقابل التضمينات:

على الرغم من أن المصطلحين غالبًا ما يُستخدمان بالتبادل في التعلم الآلي (ML)، فإن "المتجهات" و"التضمين" ليسا بالضرورة الشيء نفسه.

التضمين هو أي تمثيل رقمي للبيانات التي تلتقط صفاتها ذات الصلة بطريقة يمكن لخوارزميات التعلم الآلي معالجتها. يتم تضمين البيانات في مساحة ذات أبعاد n .

من الناحية النظرية، لا يجب تضمين البيانات كمتجه، على وجه التحديد. على سبيل المثال، بعض أنواع البيانات يمكن تضمينها في شكل مجموعة.1 ولكن في الممارسة العملية، تأخذ التضمينات في الغالب شكل متجهات في التعلم الآلي الحديث.

وعلى العكس من ذلك، فإن المتجهات في سياقات أخرى، مثل الفيزياء، ليست بالضرورة تضمينات. ولكن في التعلم الآلي، عادةً ما تكون المتجهات عبارة عن تضمينات وتكون التضمينات عادةً متجهات.

Mixture of Experts | 28 أغسطس، الحلقة 70

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

كيف يعمل تضمين المتجهات؟

يعمل تضمين المتجهات على تحويل نقطة بيانات، مثل كلمة أو جملة أو صورة، إلى مصفوفة ذات أبعاد nمن الأرقام التي تمثِّل خصائص نقطة البيانات هذه - سماتها. ويتم تحقيق ذلك من خلال تدريب نموذج التضمين على مجموعة كبيرة من البيانات ذات الصلة بالمهمة المطروحة أو باستخدام نموذج مدرَّب مسبقًا.

يتطلب فهم تضمينات المتجهات شرح بعض المفاهيم الأساسية:

  • كيف تمثل تضمينات المتجه البيانات.

  • كيف يمكن مقارنة تضمينات المتجه.

  • كيف يمكن استخدام النماذج لتوليد تضمينات المتجه.

كيف تمثل عمليات تضمين المتجهات البيانات

في التعلم الآلي، لا تُشير "الأبعاد" للبيانات إلى الأبعاد المألوفة والمنطقية في الفضاء الفيزيائي. ففي فضاء المتجهات، كل بُعد يمثِّل ميزة منفردة للبيانات، بنفس الطريقة التي تمثِّل بها الطول والعرض والارتفاع كل منها ميزة لجسم في الفضاء الفيزيائي.

تتعامل تضمينات المتجهات عادةً مع البيانات عالية الأبعاد لأن معظم المعلومات غير العددية تكون عالية الأبعاد في الممارسة العملية. على سبيل المثال، حتى صورة صغيرة وبسيطة بحجم 28×28 بكسل بالأبيض والأسود لرقم مكتوب بخط اليد من مجموعة بيانات MNIST يمكن تمثيلها كمتجه ذي 784 بعدًا، حيث يمثِّل كل بُعد بكسل فرديًا تتراوح قيمته بين 0 (للأسود) و1 (للأبيض).

ومع ذلك، لن تحتوي جميع أبعاد البيانات هذه على معلومات مفيدة. في مثال MNIST الخاص بنا، يمثِّل الرقم الفعلي نفسه جزءًا صغيرًا فقط من الصورة: الباقي عبارة عن خلفية فارغة، أو "ضوضاء". لذلك، سيكون القول الأدق أننا نقوم "بتضمين تمثيل الصورة في فضاء ذي 784 بُعدًا" بدلًا من القول إننا نمثِّل 784 ميزة مختلفة للصورة.

وبالتالي، فإن تضمينات المتجهات الفعَّالة للبيانات عالية الأبعاد غالبًا ما تستلزم درجة معينة من تقليل الأبعاد: ضغط البيانات عالية الأبعاد إلى فضاء منخفض الأبعاد يتجاهل المعلومات غير ذات الصلة أو المكررة.

يؤدي تقليل الأبعاد إلى زيادة سرعة النموذج وكفاءته، على الرغم من وجود مقايضة محتملة في الدقة أو الضبط، لأن المتجهات الأصغر تتطلب موارد حسابية أقل للعمليات الرياضية. ويُمكن أن يساعد هذا أيضًا على تقليل مخاطر الإفراط في تخصيص بيانات التدريب. وتُعَد طرق تقليل الأبعاد المختلفة، مثل برامج التشفير التلقائي والتلافيف وتحليل العناصر الرئيسية وتضمين الجوار العشوائي الموزع (t-SNE)، هي الأنسب لأنواع البيانات والمهام المختلفة.

في حين أن أبعاد المتجهات الخاصة بالصور واضحة وبديهية نسبيًا، فإن تحديد الميزات المهمة لبعض أنواع البيانات، مثل المعاني الدلالية والعلاقات السياقية في اللغة، يكون أكثر تعقيدًا وتجريدًا. في مثل هذه الحالات، يمكن إنشاء السمات المحددة التي تمثِّلها أبعاد تضمينات المتجهات من خلال هندسة الميزات اليدوية أو، بشكل أكثر شيوعًا في عصر التعلم العميق، يتم تحديدها ضمنيًا من خلال عملية تدريب نموذج لإجراء تنبؤات دقيقة.

كيفية مقارنة تضمينات المتجه

المنطق الأساسي لتضمينات المتجهات هو أن التضمينات ذات الأبعاد n لنقاط البيانات المتشابهة يجب أن يتم تجميعها معًا بشكل وثيق في مساحة ذات أبعاد n. ومع ذلك، يمكن أن تحتوي التضمينات على عشرات أو مئات أو حتى آلاف الأبعاد. يتجاوز هذا بكثير المساحات ثنائية أو ثلاثية الأبعاد التي يمكن لعقولنا تصوُّر الأشياء فيها بشكل حدسي على أنها “قريبة” من بعضها.

وبدلًا من ذلك، يمكن استخدام أحد المقاييس الرياضية المتعددة للاستدلال على التشابه النسبي أو التقارب بين مختلف تضمينات المتجهات. يعتمد أفضل مقياس للتشابه لحالة معينة إلى حد كبير على طبيعة البيانات وما يتم استخدام المقارنات من أجله.

  • تقيس المسافة الإقليدية متوسط المسافة المستقيمة بين النقاط المقابلة في المتجهات المختلفة. يُحسَب الفرق بين متجهين n الأبعاد، a وb، أولًا بجمع مربعات الفروقات بين كل عنصر من عناصرهما المقابلة، بحيث:
    ²(aₙ-bₙ) ...  + ²(a₂-b₂) + ²(a₁-b₁) - ثم أخذ الجذر التربيعي لهذا المجموع. نظرًا لأن المسافة الإقليدية حساسة للحجم، فهي مفيدة للبيانات التي تعكس أشياء مثل الحجم أو الأعداد. وتتراوح القيم من 0 (للمتجهات المتطابقة) إلى ∞.

  • مسافة جيب التمام، وتُسمَّى أيضًا تشابه جيب التمام، هي مقياس طبيعي لجيب تمام الزاوية بين متجهين. وتتراوح مسافة جيب التمام من -1 إلى 1، حيث يمثِّل 1 متجهات متطابقة، ويمثِّل 0 متجهات متعامدة (أو غير مرتبطة)، ويمثِّل -1 متجهات معاكسة تمامًا. ويُستخدم تشابه جيب التمام على نطاق واسع في مهام معالجة اللغة الطبيعية لأنه يعمل بشكل طبيعي على تطبيع مقادير المتجهات، كما أنه أقل حساسية للتكرار النسبي للكلمات في بيانات التدريب من المسافة الإقليدية.
     

  • الضرب القياسي هو، من الناحية الجبرية، مجموع حاصل ضرب المكونات المتناظرة لكل متجه. من الناحية الهندسية، هو نسخة غير طبيعية من مسافة جيب التمام تعكس أيضًا التردد أو المقدار.

مقاييس التشابه لتضمينات المتجهات الصيغ الرياضية والتصور لمقاييس تشابه المتجهات الشائعة.

نماذج التضمين

قد تكون نماذج التضمين المستقلة عروضًا مُدرَّبة مسبقًا أو مُدرَّبة من الصفر على مهام أو بيانات تدريب محددة. وعادةً ما يستفيد كل شكل من أشكال البيانات من بنية شبكة عصبية معينة، ولكن استخدام خوارزمية معينة لمهمة معينة غالبًا ما يكون "أفضل الممارسات" وليس قاعدة صريحة.

في بعض السيناريوهات، تكون عملية التضمين جزءًا من شبكة عصبية أكبر. على سبيل المثال، في الشبكات العصبية التلافيفية للتشفير وفك التشفير (CNNs) المستخدمة لمهام مثل تقسيم الصور، فإن عملية تحسين الشبكة بأكملها لتقديم تنبؤات دقيقة تستلزم تدريب طبقات التشفير لإخراج تضمينات متجهات فعَّالة للصور المُدخلة.

النماذج المدربة مسبقًا
بالنسبة للعديد من حالات الاستخدام ومجالات الدراسة، يمكن للنماذج المدربة مسبقًا توفير تضمينات مفيدة يمكن أن تعمل كمدخلات للنماذج المخصصة أو قواعد بيانات المتجه. يتم تدريب نماذج المصدر المفتوح هذه عادةً على مجموعة ضخمة وواسعة من بيانات التدريب لتعلم التضمينات المفيدة للعديد من المهام اللاحقة مثل التعلم قليل الأمثلة أو التعلم بدون أمثلة.

بالنسبة للبيانات النصية، يمكن تدريب نماذج تضمين الكلمات الأساسية مفتوحة المصدر مثل Word2Vec من Google أو Global Vectors (GloVe) من جامعة ستانفورد من البداية، ولكن يتم تقديمها أيضًا في متغيرات تم تدريبها مسبقًا على بيانات النص العام مثل Wikipedia و Common Crawl. وبالمثل، فإن النماذج اللغوية الكبيرة (LLMs) للتشفير-فك التشفير التي تُستخدم غالبًا للتضمينات، مثل BERT ومتغيراته العديدة، يتم تدريبها مسبقًا على كمية هائلة من البيانات النصية. 

بالنسبة لمهام رؤية الكمبيوتر، يمكن تكييف نماذج تصنيف الصور المدربة مسبقًا مثل ImageNet أو ResNet أو VGG لتضمين المخرجات ببساطة عن طريق إزالة طبقة التنبؤ النهائية المتصلة بالكامل.

نماذج التضمين المخصصة
تستفيد بعض حالات الاستخدام، لا سيما تلك التي تنطوي على مفاهيم غامضة أو فئات جديدة من البيانات، من الضبط الدقيق للنماذج المدربة مسبقًا أو تدريب نماذج التضمين المخصصة بالكامل. 

المجالات القانونية والطبية هي أمثلة بارزة على المجالات التي غالبًا ما تعتمد على المفردات الغامضة والمتخصصة للغاية أو قواعد المعرفة أو الصور التي من غير المحتمل أن تكون قد أدرجت في بيانات التدريب للنماذج الأكثر عمومية. يمكن أن يساعد استكمال المعرفة الأساسية للنماذج المدربة مسبقًا من خلال مزيد من التدريب على أمثلة خاصة بالمجال في مساعدة النموذج على إخراج تضمينات أكثر فعالية.

في حين يمكن تحقيق ذلك أيضاً من خلال تصميم بنية شبكة عصبية مخصصة أو تدريب بنية معروفة من الصفر، إلا أن القيام بذلك يتطلب موارد ومعرفة مؤسسية قد تكون بعيدة المنال بالنسبة لمعظم المؤسسات أو الهواة.

تضمين المتجه للصور

تقوم تضمينات الصور بتحويل المعلومات المرئية إلى متجهات رقمية باستخدام قيم البكسل في الصورة لتتوافق مع مكونات المتجه. وعادةً ما تعتمد هذه النماذج على الشبكات العصبية التلافيفية (CNN)، على الرغم من أن السنوات الأخيرة شهدت تزايدًا في نماذج رؤية الكمبيوتر التي تستخدم الشبكات العصبية القائمة على المحولات.2

يتم تمثيل الصور ذات نظام ألوان RGB النموذجي عدديًا كمصفوفة ثلاثية الأبعاد، حيث تتوافق هذه المصفوفات الثلاث مع القيم الحمراء والخضراء والزرقاء الخاصة بكل بكسل. عادةً ما تكون صور RGB 8 بت، مما يعني أن كل قيمة لونية للبكسل يمكن أن تتراوح من 0 إلى 256 (أو28). كما هو موضح سابقًا، يتم تمثيل الصور بالأبيض والأسود عدديًا على هيئة مصفوفة ثنائية الأبعاد من وحدات البكسل حيث يكون لكل بكسل قيمة تتراوح بين 0 و 1.

رسم تخطيطي لصورة يتم تمثيلها كمصفوفة من وحدات البكسل صورة يتم تمثيلها كمصفوفة ثلاثية الأبعاد من وحدات البكسل

تستخدم التلافيف مرشحات عددية ثنائية الأبعاد، تسمى النواة، لاستخراج السمات من الصورة. أوزان النواة الأكثر ملاءمة لاستخراج السمات ذات الصلة هي نفسها معلمة قابلة للتعلم أثناء تدريب النموذج. تنتج هذه التلافيف خريطة معالم للصورة.

عند الضرورة، يتم استخدام الحشو للحفاظ على الحجم الأصلي للمدخلات عن طريق إضافة طبقات إضافية من الأصفار إلى الصفوف والأعمدة الخارجية للمصفوفة. وعلى العكس، يمكن استخدام التجميع، الذي يلخص بشكل أساسي السمات المرئية من خلال أخذ قيمها الدنيا أو القصوى أو المتوسطة فقط، لتقليل الأبعاد بشكل أكبر.

وأخيرًا، يتم بعد ذلك تسطيح التمثيل المضغوط إلى متجه.

البحث عن الصور

أحد التطبيقات البديهية لتضمين الصور هو البحث عن الصور: نظام يأخذ بيانات الصورة كمدخلات ويُعيد صورًا أخرى ذات تضمينات متجهات مماثلة، مثل تطبيق الهاتف الذكي الذي يحدِّد نوع النبات من صورة فوتوغرافية.

التنفيذ الأكثر تعقيدًا هو البحث عن الصور متعدد الوسائط، حيث يتم أخذ النص كمدخلات وإرجاع الصور المتعلقة بهذا النص. لا يمكن تحقيق ذلك عن طريق أخذ تضمين نص من نموذج لغوي واستخدامه كإدخال إلى نموذج رؤية كمبيوتر منفصل. بدلًا من ذلك، يجب تدريب نموذجي التضمين بشكل صريح على الارتباط ببعضهما.

إحدى الخوارزميات البارزة المستخدمة لتضمين الصور والنصوص هي خوارزمية التباين بين اللغة والصورة (CLIP)، والتي تم تطويرها في الأصل بواسطة OpenAI. تم تدريب CLIP على مجموعة بيانات هائلة غير مصنفة لأكثر من 400 مليون زوج من الصور والتسميات التوضيحية المأخوذة من الإنترنت. تم استخدام هذه الأزواج لتدريب أداة تشفير الصور وأداة تشفير النصوص بشكل مشترك من البداية باستخدام خسارة التباين لتعظيم التشابه في جيب التمام بين تضمينات الصور والتضمينات الخاصة بالتعليقات التوضيحية المقابلة لها.

توليد الصورة

تطبيق آخر مهم لتضمين الصور هو توليد الصور: إنشاء صور جديدة.

إحدى الطرق لإنشاء صور جديدة من تضمينات الصور هي استخدام برامج التشفير التلقائي المتغير (VAEs). تعمل برامج VAE على تشفير تضمينين متجهين مختلفين لبيانات الإدخال: متجه المتوسطات ومتجه الانحرافات المعيارية. من خلال أخذ عينات عشوائيًا من التوزيع الاحتمالي الذي تمثِّله تضمينات المتجهات هذه، يمكن أن تستخدم VAE شبكة فك التشفير الخاصة بها لتوليد متغيرات مختلفة من تلك البيانات المدخلة.

تستخدم إحدى الطرق الرائدة في توليد الصور القائمة على التضمين، خاصةً في السنوات الأخيرة، خوارزمية CLIP المذكورة سابقًا. تأخذ نماذج توليف الصور مثل DALL-E وMidjourney وStable Diffusion مطالبات نصية كمدخلات، باستخدام CLIP لتضمين تمثيل متجه للنص؛ ثم يتم استخدام نفس تضمين المتجه بواسطة نموذج الانتشار لإعادة بناء صورة جديدة بشكل أساسي.

تضمين المتجهات لمعالجة اللغة الطبيعية

تعتبر تضمينات النصوص أقل وضوحًا. ويجب أن تمثل المفاهيم المجردة عدديًا مثل المعنى الدلالي والدلالات المتغيرة والعلاقات السياقية بين الكلمات والعبارات. إن مجرد تمثيل الكلمات من حيث حروفها، بالطريقة التي تمثل بها تضمينات الصور المرئية من حيث قيم البكسل الخاصة بها، لن ينتج عنه تضمينات ذات معنى.

بينما يتم تدريب معظم نماذج رؤية الكمبيوتر باستخدام التعلم الخاضع للإشراف التقليدي، تتطلب نماذج التضمين للغات الطبيعية التعلم الخاضع للإشراف الذاتي على كمية هائلة من بيانات التدريب لتتمكن من استيعاب المعاني المتعددة للّغة في سياقات مختلفة.

تعمل التضمينات الناتجة على تشغيل العديد من المهام المرتبطة عادةً بالذكاء الاصطناعي التوليدي، بدءًا من الترجمة اللغوية إلى روبوتات المحادثة إلى تلخيص المستندات إلى خدمات الإجابة عن الأسئلة.

نماذج تضمين النص

غالبًا ما تختلف النماذج المستخدمة لإنشاء تضمينات متجهة للبيانات النصية عن تلك المستخدمة لإنشاء نص فعلي.

النماذج اللغوية الكبيرة الشائعة المستخدمة في توليد النصوص والمهام الأخرى للذكاء الاصطناعي التوليدي، مثل نماذج GPT من OpenAI أو نماذج Llama من Meta، هي نماذج انحدار ذاتي تعتمد على فك الترميز فقط، وتُعرف أيضًا باسم نماذج اللغة السببية. أثناء التدريب، يتم تزويدها بالكلمة الأولى من عينة النص ويتم تكليفها بالتنبؤ بالكلمة التالية بشكل مستمر حتى نهاية التسلسل. ورغم أن هذا الأسلوب يساعد على تعلم توليد نصوص متماسكة، فإنه ليس مثاليًا لتعلُّم تضمينات المتجهات المستقلة المفيدة.

بدلًا من ذلك، تعتمد التضمينات النصية عادةً على النماذج اللغوية المقنّعة مثل تمثيلات الترميز ثنائية الاتجاه من المحولات (BERT)، التي تم إصدارها لأول مرة عام 2018. في التدريب، يتم تزويد نماذج التشفير وفك التشفير هذه بتسلسلات نصية مع إخفاء بعض الكلمات -أي إخفاء كلمات معينة- ويتم تكليفها بإكمال الفراغات. يكافئ هذا التمرين التضمينات التي تلتقط بشكل أفضل معلومات حول كلمة أو جملة معينة وكيفية ارتباطها بالسياق المحيط بها. يتابع Word2vec مهمة تدريب مماثلة، وإن كان ذلك باستخدام بنية شبكة عصبية أبسط مكوَّنة من طبقتين.

اعتبارًا من يونيو 2024، لا يزال BERT هو نموذج اللغة الأكثر شيوعًا على Huging Face، حيث تم تنزيله أكثر من 60 مليون مرة في الشهر السابق.3 تم تكييف العديد من متغيرات BERT البارزة لأنواع معينة من سيناريوهات وتضمينات اللغة:

  • SBERT: يُعرف أيضًا باسم الجملة BERT ومحولات الجملة، وهو عبارة عن نوع مختلف من BERT مع بنية شبكة عصبية سيامية متكيفة، تم ضبطها جيدًا على أزواج من الجمل لتحسين قدرتها على ترميز تضمينات الجملة.

  • DistilBERT: متغير BERT خفيف الوزن، تم إنشاؤه من خلال تقطير المعرفة لنموذج قاعدة BERT إلى نموذج أصغر يعمل بشكل أسرع بنسبة 60٪ مع الحفاظ على أكثر من 95٪ من أداء BERT من خلال بعض المقاييس.4

  • RoBERTa اختصارًا لنهج التدريب المسبق المحسّن بقوة على BERT، قام RoBERTa بتحسين إجراء تدريب BERT لتعزيز أدائه.

أنواع التضمينات النصية

يمكن استخدام تضمينات المتجه لتمثيل بيانات اللغة الطبيعية المختلفة.

تضمينات الكلمات
تضمينات الكلمات تهدف إلى التقاط ليس فقط المعنى الدلالي للكلمات الفردية ولكن أيضا علاقتها السياقية بالكلمات الأخرى التي غالبًا ما تتزامن معها. عند القيام بذلك، يمكن تعميم تضمين الكلمات بشكل جيد على سياقات جديدة وحتى الكلمات النادرة أو غير المرئية من قبل.

تم تدريب نموذج GloVe، وهو نموذج شائع لتضمين الكلمات، على "مصفوفة التكرار المتبادل بين الكلمات العالمية"، حيث يستنتج المعنى الدلالي والعلاقات الدلالية من عدد مرات استخدام كلمات محددة بالقرب من بعضها البعض. على سبيل المثال، يمكن استنباط المعنى من تزامن "الجليد" و"البخار" مع "الماء" بنفس التردد تقريبًا، ولكنهما يتزامنان مع "الصلب" و"الغاز" بمعدلات مختلفة جدًا.5

الطريقة التي تلتقط بها أبعاد كلمة تضمين المتجه ضمنيًا هذه العلاقات تمكننا من معالجتها رياضيًا بطرق مفيدة وبديهية. وفي مخطط تضمين الكلمات جيد التكوين، فإن طرح المتجه لـ "رجل" من متجه "ملك" وإضافة متجه لـ "امرأة" يجب أن ينتج عنه بشكل أساسي متجه "ملكة".

تضمينات الجملة
تتضمن تضمينات الجملة المعنى الدلالي لعبارات أو جمل كاملة، بدلًا من الكلمات الفردية. يتم إنشاؤها عادةً باستخدام SBERT أو أنواع أخرى من محولات الجملة.

  • يمكن أن تتضمن تضمينات الجمل تمثيلات لاستعلامات المستخدم، لاستخدامها في محركات البحث أو تطبيقات الإجابة على الأسئلة.

  • في الترجمة الآلية، يمكن استخدام تضمين المتجه لجملة بلغة واحدة لإخراج جملة بلغة مختلفة مع تضمين متجه مماثل.

  • وغالبًا ما تُستخدم تضمينات الجمل في تحليل المشاعر. يمكن تدريب المصنفين إما على أمثلة مصنفة لكل فئة من فئات المشاعر أو باستخدام التعلم الخاضع للإشراف، ثم تصنيف عينات جديدة عن طريق مطابقة تضمين المتجه الخاص بها مع التضمين المكتسب لكل فئة. من الممكن أيضًا تحليل المشاعر من خلال التعلّم من دون أمثلة، حيث تتم مقارنة التضمين لجملة معينة بتضمين الكلمات في تصنيف معين.

تضمينات المستندات
غالبًا ما يتم استخدام تضمينات المستندات لتصنيف المستندات أو صفحات الويب للفهرسة في محركات البحث أو قواعد بيانات المتجهات. تتضمن النماذج النموذجية لتضمين المستندات متغيرات BERT أو Doc2vec (وهو توسيع لنموذج Word2vec) أو نماذج تضمين أخرى مفتوحة المصدر مثل Instructor (الرابط موجود خارج ibm.com).

أنواع أخرى من تضمينات المتجهات

على الرغم من أن بيانات الصور والنصوص تميل إلى الحصول على أكبر قدر من الاهتمام، لا سيما بالنسبة لحالات استخدام الذكاء الاصطناعي التوليدي، إلا أن مجموعة واسعة من طرائق البيانات يمكن أن تستفيد من تضمين المتجهات.

  • تُستخدم التضمينات الصوتية في تطبيقات مختلفة، بدءًا من المساعدين الصوتيين إلى أنظمة التوصية بالأغاني إلى أنظمة التعرُّف على الموسيقى مثل Shazam. فهي تمثِّل الصوت من خلال الخصائص العددية لبيانات شكله الموجي. يمكن تضمين الصوت باستخدام الشبكات العصبية المتكررة (RNNs) أو الشبكات العصبية التلافيفية (CNNs) أو البنى القائمة على المحولات.

  • غالبًا ما تُستخدم تضمينات المنتجات لتشغيل أنظمة التوصية لمنصات التجارة الإلكترونية. عادة ما يتم إنشاؤها باستخدام خوارزميات التعلم غير الخاضع للإشراف.

  • يمكن استخدام تضمينات الرسم البياني لنمذجة وتمثيل هياكل العلاقات المعقدة مثل الشبكات الاجتماعية أو الأنظمة البيولوجية. تمثل أبعاد متجه تضمين الرسم البياني الطريقة التي يتم بها توصيل العقد والحواف المختلفة للنظام.

قواعد البيانات الموجهة

نادرًا ما يتم تحسين قواعد البيانات التقليدية للعمل على البيانات عالية الأبعاد الشائعة لتضمينات المتجه. قواعد بيانات المتجهات مثل IBM® watsonx.data هي حلول متقدمة مصممة لتنظيم واسترجاع كائنات البيانات في مساحة متجه عالي الأبعاد.

بحث المتجهات

تتمثل إحدى الفوائد الأساسية لحل قاعدة بيانات المتجهات الفعال في تحسين كفاءة ودقة عمليات بحث المتجهات: العثور على البيانات والمستندات ذات الصلة وفرزها واسترجاعها عن طريق التشابه الدلالي لتضمينات المتجه الخاصة بها مع تلك الخاصة بمصطلحات البحث الخاصة بك.

هذا النوع من البحث عن التشابه يتم عادةً من خلال خوارزميات أقرب جار المباشرة التي تستنتج الارتباطات بين نقاط البيانات بناءً على قربها في مساحة متجهة عالية الأبعاد.

البحث الدلالي
يستخدم البحث الدلالي تضمينات المتجهات لإجراء عمليات بحث قوية تتجاوز مطابقة الكلمات الرئيسية البسيطة. على سبيل المثال، عرض نتائج "التفاح" و"البرتقال" على الرغم من أن طلب البحث الأصلي كان "فاكهة". 

التوليد المعزَّز بالاسترجاع (RAG)

ويستخدم هذا النوع من البحث الدلالي أيضًا لتمكين التوليد المعزز للاسترجاع (RAG)، وهو إطار عمل يستخدم لتكملة قاعدة المعرفة الخاصة بالنماذج اللغوية الكبيرة دون الحاجة إلى الخضوع لمزيد من الضبط الدقيق.

وفي التوليد المعزَّز بالاسترجاع (RAG)، يستخدم البحث المتجه لاستقصاء مصادر البيانات الخارجية، كما هو الحال في مصادر البيانات التي لم تكن جزءًا من بيانات التدريب الخاصة بنموذج الأساس والتي لا يمكن بالتالي أن تنعكس معلوماتها في مخرجات النماذج اللغوية الكبيرة، لاسترجاع المعلومات ذات الصلة، ثم استخدام تلك المعلومات لزيادة الاستجابات الناتجة عن النموذج اللغوي الكبير.

حلول ذات صلة
IBM watsonx Orchestrate

يمكنك بسهولة تصميم مساعدي ووكلاء الذكاء الاصطناعي القابلين للتوسع وأتمتة المهام المتكررة وتبسيط العمليات المعقدة باستخدام IBM watsonx Orchestrate.

استكشف watsonx Orchestrate
أدوات معالجة اللغة الطبيعية وواجهات برمجة التطبيقات

تسريع قيمة الأعمال باستخدام مجموعة قوية ومرنة من مكتبات وخدمات وتطبيقات الذكاء الاصطناعي.

استكشف حلول معالجة اللغة الطبيعية
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

يمكنك بسهولة تصميم مساعدي ووكلاء الذكاء الاصطناعي القابلين للتوسع وأتمتة المهام المتكررة وتبسيط العمليات المعقدة باستخدام IBM watsonx Orchestrate.

استكشف watsonx Orchestrate استكشف حلول معالجة اللغة الطبيعية