ما هو التضمين؟

شابة في مكان العمل تعمل على المكتب

المؤلفين

Joel Barnard

Writer

ما هو التضمين؟

التضمين هو وسيلة لتمثيل الكائنات مثل النصوص والصور والصوت كنقط في مساحة متجهية متصلة حيث تكون مواقع تلك النقاط في المساحة ذات مغزى لغويًا لخوارزميات التعلم الآلي (ML).

يُعد التضمين أداة حساسة لمهندسي التعلم الآلي الذين يبنون محركات البحث عن النصوص والصور، وأنظمة التوصيات، وروبوتات المحادثة، وأنظمة الكشف عن الغش والعديد من التطبيقات الأخرى. في الأساس، يتيح التضمين لنماذج التعلم الآلي العثور على كائنات مماثلة.

على عكس تقنيات التعلم الآلي (ML) الأخرى، يتم تعلم عمليات التضمين من البيانات باستخدام خوارزميات مختلفة، مثل الشبكات العصبية، بدلاً من طلب الخبرة البشرية صراحةً لتحديدها. إنها تسمح للنموذج بتعلم الأنماط والعلاقات المعقدة في البيانات، والتي سيكون من المستحيل على البشر تحديدها.

على سبيل المثال ، يتيح تنفيذ تضمين OpenAI لـ ChatGPT فهم العلاقات بين الكلمات والفئات المختلفة بسهولة بدلًا من مجرد تحليل كل كلمة بمعزل عن غيرها. باستخدام عمليات التضمين، يمكن لنماذج GPT من OpenAI توليد استجابات أكثر تماسكًا وذات صلة بالسياق لمطالبات المستخدم وأسئلته.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

كيف يعمل التضمين

يمكن لمعظم خوارزميات التعلم الآلي أن تأخذ فقط البيانات الرقمية منخفضة الأبعاد كمدخلات. ولذلك فمن الضروري تحويل البيانات إلى صيغة رقمية. يمكن أن يتضمن ذلك أشياء مثل إنشاء تمثيل "bag of words" للبيانات النصية، أو تحويل الصور إلى قيم بكسل أو تحويل بيانات الرسم البياني إلى مصفوفة رقمية.

يتم إخراج الكائنات التي تأتي في نموذج التضمين كتضمينات، ممثلة كمتجهات. المتجه هو مصفوفة من الأرقام (على سبيل المثال 1489, 22… 3 ، 777)، حيث يشير كل رقم إلى مكان وجود الكائن على طول بُعد محدد. يمكن أن يصل عدد الأبعاد إلى ألف أو أكثر اعتمادًا على مدى تعقيد بيانات الإدخال. كلما اقترب تضمين معين من تضمينات أخرى في هذه المساحة ذات الأبعاد n، زادت درجة تشابهها. يتم تحديد تشابه التوزيع من خلال طول نقاط المتجه من كائن إلى آخر (يقاس بالطريقة الإقليدية أو جيب التمام أو غيره).

أحد النماذج، Word2Vec (تحويل كلمة إلى متجه)، الذي طورته Google في عام 2013، هو طريقة لإنشاء تضمينات الكلمات بكفاءة باستخدام شبكة عصبية من طبقتين. يستقبل كمدخل كلمة ويخرج إحداثيات ذات أبعاد n (متجه التضمين) بحيث عندما تقوم برسم هذه المتجهات الكلامية في مساحة ثلاثية الأبعاد، تتجمع المترادفات.

إليك كيفية تمثيل الكلمتين "أبي" و"أمي" في صورة متجهات:

 "dفيd"=[0.1548,0.4848,,1.864] 

 "mom"=[0.8785,0.8974,,2.794] 

على الرغم من وجود بعض التشابه بين هاتين الكلمتين، إلا أننا نتوقع أن تكون كلمة "أب" أقرب إلى كلمة "أبي" في مساحة المتجه، مما يؤدي إلى حاصل الضرب القياسي الأعلى(وهو مقياس للاتجاه النسبي لمتجهين ومدى تقاربهما في الاتجاه الذي يشيران إليه).

ومن الأمثلة الأكثر تعقيدًا تضمين التوصيات، والتي تعمل من خلال تمثيل المستخدمين والعناصر (مثل الأفلام والمنتجات والمقالات) كمتجهات عالية الأبعاد في مساحة متجهة مستمرة. تلتقط هذه التضمينات السمات الكامنة التي تعكس تفضيلات المستخدمين وخصائص العنصر. الفكرة هي تعلم تمثيل لكل مستخدم وعُنصُر بحيث يتوافق حاصل ضرب نقاط تضميناتهما مع تفضيل المستخدم لهذا العنصر.

يقترن كل مستخدم وعنصر بمتجه تضمين. عادة ما يتم تعلم هذه المتجهات من خلال نموذج توصية أثناء عملية التدريب. يتم تنظيم عمليات تضمين المستخدم وتضمينات العناصر في مصفوفات. تمثل صفوف مصفوفة المستخدم المستخدمين، وتمثل صفوف مصفوفة العنصر العناصر.

يمكن حساب درجة التوصية لزوج من المستخدم والعنصر عن طريق أخذ حاصل الضرب القياسي لمتجه تضمين المستخدم ومتجه تضمين العنصر. كلما زاد حاصل الضرب النقطي، زاد احتمال اهتمام المستخدم بالعنصر.

 RECommENdفيtioNSCorE=USErEmBEddiNGخبيرtEmEmBEddiNG 

يتم التعرف على مصفوفات التضمين من خلال عملية تدريبية باستخدام التفاعلات السابقة بين المستخدم والعنصر. يهدف النموذج إلى تقليل الفرق بين الدرجات المتوقعة وتفضيلات المستخدم الفعلية (على سبيل المثال، التقييمات والنقرات والمشتريات).

بمجرد تدريب النموذج، يمكن استخدامه لإنشاء توصيات top-N للمستخدمين. يوصى بالعناصر التي حصلت على أعلى الدرجات المتوقعة للمستخدم.

Mixture of Experts | 12 ديسمبر، الحلقة 85

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

لماذا يُستخدم التضمين

تُستخدم عمليات التضمين في مختلف المجالات والتطبيقات نظرًا لقدرتها على تحويل البيانات عالية الأبعاد والفئوية إلى تمثيلات متجهة مستمرة، والتقاط أنماط وعلاقات ودلالات ذات مغزى. فيما يلي بعض الأسباب لاستخدام التضمين في علم البيانات:

التمثيل الدلالي

من خلال تعيين الكيانات (الكلمات والصور والعُقد في الرسم البياني وما إلى ذلك) للمتجهات في مساحة مستمرة، تلتقط عمليات التضمين العلاقات الدلالية وأوجه التشابه، مما يمكّن النماذج من الفهم والتعميم بشكل أفضل.

تخفيض الأبعاد

يمكن تحويل البيانات عالية الأبعاد، مثل النصوص أو الصور أو الرسوم البيانية، إلى تمثيلات منخفضة الأبعاد، مما يجعلها فعالة من الناحية الحاسوبية وأسهل في التعامل معها.

تحسين تعميم النماذج

من خلال تعلم تمثيلات ذات مغزى من البيانات، يمكن للنماذج التعميم جيدا على الأمثلة غير المرئية، مما يجعل التضمينات ضرورية للمهام ذات البيانات المحدودة المصنفة.

التصور الفعال

يمكن تطبيق تقنيات مثل t-SNE لتصور التضمينات عالية الأبعاد في بُعدين أو ثلاثة أبعاد، مما يوفر رؤى حول العلاقات والمجموعات في البيانات.

التدريب الفعال في الشبكات العصبية

تُستخدم طبقات التضمين بشكل شائع في بنيات الشبكة العصبية لتعيين المدخلات الفئوية إلى متجهات مستمرة، مما يسهل عملية الانتشار العكسي والتحسين.

ما الكائنات التي يمكن تضمينها؟

عمليات التضمين هي تمثيلات متعددة الاستخدامات يمكن تطبيقها على نطاق واسع من أنواع البيانات. فيما يلي بعض الكائنات الأكثر شيوعًا التي يمكن تضمينها:

الكلمات

تلتقط عمليات تضمين الكلمات العلاقات الدلالية والمعاني السياقية للكلمات بناءً على أنماط استخدامها في مجموعة لغوية معينة. يتم تمثيل كل كلمة على أنها متجه كثيف ثابت الحجم للأرقام الحقيقية. وهو عكس المتجه البسيط، مثل الترميز الأحادي، الذي يحتوي على العديد من الإدخالات الصفرية.

لقد أدى استخدام تضمين الكلمات إلى تحسين أداء نماذج معالجة اللغة الطبيعية (NLP) بشكل كبير من خلال توفير تمثيل أكثر جدوى وكفاءة للكلمات. تمكّن هذه التضمينات الآلات من فهم اللغة ومعالجتها بطريقة تلتقط الفروق الدقيقة الدلالية والعلاقات السياقية، مما يجعلها ذات قيمة لمجموعة واسعة من التطبيقات، بما في ذلك تحليل المشاعر والترجمة الآلية واسترجاع المعلومات.

تشمل نماذج تضمين الكلمات الشائعة Word2Vec و GloVe (المتجهات العالمية لتمثيل الكلمات) و FastText والتضمينات المشتقة من النماذج القائمة على المحولات مثل BERT (تمثيلات التشفير ثنائية الاتجاه من المحولات) و GPT (المحول التوليدي المدرب مسبقًا).

نص

يعمل تضمين النص على توسيع نطاق تضمين الكلمات لتمثيل جمل أو فقرات أو مستندات كاملة في مساحة متجه مستمرة. تلعب تضمينات النص دورًا مهمًا في العديد من تطبيقات البرمجة اللغوية العصبية، مثل تحليل المشاعر وتصنيف النص والترجمة الآلية والإجابة على الأسئلة واسترجاع المعلومات.

تم تدريب نماذج مثل Doc2Vec و USE (Universal Sentence Encoder) و BERT و ELMO (التضمينات من النماذج اللغوية) على كميات هائلة من مجموعات التضمين المدربة مسبقًا، مثل Wikipedia و Google News.

الصور

تم تصميم تضمين الصور لالتقاط السمات المرئية والمعلومات الدلالية حول محتوى الصور. تُعد تضمينات الصور مفيدة بشكل خاص لمختلف مهام رؤية الكمبيوتر، مما يتيح نمذجة أوجه التشابه بين الصور وتصنيف الصور وكشف الكائنات وغيرها من مهام التعرف البصري.

تتضمن الشبكات العصبية التلافيفية الشائعة (CNNs) لتضمين الصور نماذج مثل VGG (Visual Geometry Group) و ResNet (Residual Networks) و Inception (GoogleNet) و EfficientNet. تم تدريب هذه النماذج مسبقًا على مجموعات بيانات الصور واسعة النطاق ويمكن استخدامها كمستخلصات سمات قوية.

الصوت

على غرار عمليات تضمين الصور والنصوص، غالبًا ما يتم إنشاء عمليات تضمين الصوت باستخدام بنيات التعلم العميق، وخاصة الشبكات العصبية المتكررة (RNNs) أو الشبكات العصبية التلافيفية (CNNs) أو النماذج الهجينة التي تجمع بين الاثنين. تلتقط هذه التضمينات السمات والخصائص ذات الصلة للبيانات الصوتية، مما يسمح بتحليلها ومعالجتها وقياس تشابهها بشكل فعال. تعد عمليات تضمين الصوت مفيدة بشكل خاص في تطبيقات مثل التعرف على الكلام وتصنيف الصوت وتحليل الموسيقى وغيرها.

الرسوم البيانية

يُعد تضمين الرسم البياني أمرًا ضروريًا لمختلف المهام، بما في ذلك تصنيف العقدة والتنبؤ بالارتباط والكشف عن المجتمعات في الشبكات المعقدة. تجد عمليات التضمين هذه تطبيقات في تحليل الشبكات الاجتماعية وأنظمة التوصية وتحليل الشبكة البيولوجية والكشف عن الغش والعديد من المجالات الأخرى حيث يمكن تمثيل البيانات كرسومات بيانية.

كيفية إنشاء عمليات التضمين

يتم إنشاء عمليات التضمين من خلال عملية تسمى "تعلم التضمين". على الرغم من أن الطريقة المحددة المستخدمة تعتمد على نوع البيانات التي يتم تضمينها، إلا أنه يتم إنشاء التضمينات باتباع الخطوات العامة التالية:

  1. اختيار أو تدريب نموذج تضمين: حدد نموذج تضمين موجود مسبقًا ومناسبًا لبياناتك ومهمتك، أو قم بتدريب نموذج جديد إذا لزم الأمر. بالنسبة للنص، يمكنك اختيار Word2Vec أو Glove أو BERT. بالنسبة للصور، يمكنك استخدام شبكات CNN المدربة مسبقًا مثل VGG أو ResNet.

  2. قم بإعداد بياناتك: قم بتنسيق بياناتك بطريقة متوافقة مع نموذج التضمين المختار. بالنسبة للنصوص، يتضمن هذا تقسيم البيانات إلى أجزاء صغيرة وربما معالجة مسبقة. بالنسبة للصور، قد تحتاج إلى تغيير حجم الصور وتوحيدها.

  3. قم بتحميل أو تدريب نموذج التضمين: إذا كنت تستخدم نموذجًا مدربًا مسبقًا، فقم بتحميل عوامل الترجيح والبنية. وفي حالة تدريب نموذج جديد، قم بتزويد الخوارزمية ببيانات التدريب المُعدة مسبقًا.

  4. إنشاء التضمينات: لكل نقطة بيانات، استخدم النموذج المدرب أو المحمل لإنشاء التضمينات. على سبيل المثال، إذا كنت تستخدم نموذج تضمين الكلمات، قم بتضمين كلمة ما للحصول على المتجه المقابل لها.

  5. دمج التضمينات في التطبيق الخاص بك: استخدم عمليات التضمين التي تم إنشاؤها كسمات في نموذج التعلم الآلي الخاص بك، أو للبحث عن التشابه، أو التوصية، أو التجميع، وما إلى ذلك، اعتمادًا على مهمتك المحددة.

في جميع حالات التضمين، تكمن الفكرة في تمثيل البيانات في مساحة متجهة مستمرة حيث يتم الحفاظ على العلاقات ذات المعنى. تتضمن عملية التدريب ضبط معلمات النموذج لتقليل الفرق بين القيم المتوقعة والفعلية بناء على دالة الهدف المختارة. بمجرد التدريب، يمكن استخدام عمليات التضمين في العديد من المهام النهائية.

أمثلة من العالم الحقيقي للتضمين

 

تُستخدم عمليات التضمين على نطاق واسع في العديد من تطبيقات العالم الحقيقي عبر مجالات مختلفة. تشمل الأمثلة ما يلي:

معالجة اللغة الطبيعية (NLP)

  • تضمين الكلمات في تحليل المشاعر: تُستخدم عمليات تضمين الكلمات مثل Word2Vec أو GloVe لتمثيل الكلمات في مساحة متجهة مستمرة. يمكن أن تستفيد نماذج تحليل المشاعر من هذه التضمينات لفهم وتصنيف المشاعر في جزء من النص.

  • BERT للإجابة عن الأسئلة: يتم استخدام تضمينات BERT في أنظمة الإجابة عن الأسئلة. يمكن للنموذج فهم سياق السؤال والمستند لاستخراج المعلومات ذات الصلة.

  • تشابه النص مع Doc2Vec: يتم تطبيق تضمينات Doc2Vec في مهام مثل العثور على مستندات متشابهة. تتم مقارنة عمليات تضمين المستندات لقياس التشابه الدلالي بين المستندات.

رؤية الكمبيوتر

  • تصنيف الصور باستخدام الشبكات العصبية التلافيفية الشائعة (CNNs): تُستخدم شبكات CNN، مثل VGG أو ResNet، في مهام تصنيف الصور. يمكن أن تكون الطبقة النهائية أو سمات الطبقات الوسيطة بمثابة تضمينات للصور.

  • استرجاع الصور باستخدام CLIP: يتعلم نموذج CLIP التضمينات المشتركة للصور والنصوص. يتيح هذا تطبيقات مثل استرجاع الصور استنادًا إلى استعلامات اللغة الطبيعية.

  • التعرف على الوجه باستخدام FaceNet: ينشئ FaceNet تضمينات للوجوه يمكن استخدامها للتعرف على الوجه. غالبًا ما تُستخدم هذه التضمينات لقياس التشابه بين الوجوه المختلفة.

أنظمة التوصيات

  • التصفية التعاونية باستخدام التضمينات: تُستخدم التضمينات لتمثيل المستخدمين والعناصر في نماذج التصفية التعاونية. تستفيد طرق تحليل المصفوفات من هذه التضمينات لتقديم توصيات مخصصة.

  • توصيات المنتج مع تضمينات الكلمات: في التجارة الإلكترونية، يمكن تضمين أوصاف المنتجات أو المراجعات باستخدام تضمينات الكلمات. يمكن التوصية بمنتجات مماثلة بناء على التشابه الدلالي لتضمينها.

تطبيقات عبر الوسائط

  • الترجمة متعددة الوسائط باستخدام MUSE: يتيح MUSE (برنامج ترميز الجمل العالمي متعدد اللغات) إمكانية الفهم متعدد اللغات والوسائط. يمكن استخدامه في مهام مثل ترجمة النصوص بين اللغات أو ربط الصور بالأوصاف المقابلة لها.

  • البحث متعدد الوسائط باستخدام التضمينات المشتركة: يتم تعلم التضمينات المشتركة لطرائق مختلفة، مثل الصور والنصوص. يتيح هذا إمكانية البحث عبر الوسائط، حيث يقوم الاستعلام في أحد الوسائط باسترجاع النتائج في نمط آخر.

الكشف عن الخلل

  • اكتشاف الخلل في الشبكة باستخدام تضمينات الرسم البياني: يمكن استخدام تضمينات العقدة للكشف عن الخلل. قد تشير التغييرات في مساحة التضمين إلى سلوك غير عادي.

  • الكشف عن الغش من خلال تضمين المعاملات: يمكن أن تساعد عمليات تضمين بيانات المعاملات في تحديد الأنماط المرتبطة بالأنشطة الاحتيالية. وقد تشير عمليات التضمين غير العادية إلى معاملات احتيالية محتملة.

تسلط هذه الأمثلة الضوء على تعدد استخدامات التضمينات عبر تطبيقات متنوعة، وتظهر قدرتها على التقاط تمثيلات وعلاقات ذات مغزى في أنواع مختلفة من البيانات.

حلول ذات صلة
IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا