التضمين هو وسيلة لتمثيل الكائنات مثل النصوص والصور والصوت كنقط في مساحة متجهية متصلة حيث تكون مواقع تلك النقاط في المساحة ذات مغزى لغويًا لخوارزميات التعلم الآلي (ML).
يُعد التضمين أداة حساسة لمهندسي التعلم الآلي الذين يبنون محركات البحث عن النصوص والصور، وأنظمة التوصيات، وروبوتات المحادثة، وأنظمة الكشف عن الغش والعديد من التطبيقات الأخرى. في الأساس، يتيح التضمين لنماذج التعلم الآلي العثور على كائنات مماثلة.
على عكس تقنيات التعلم الآلي (ML) الأخرى، يتم تعلم عمليات التضمين من البيانات باستخدام خوارزميات مختلفة، مثل الشبكات العصبية، بدلاً من طلب الخبرة البشرية صراحةً لتحديدها. إنها تسمح للنموذج بتعلم الأنماط والعلاقات المعقدة في البيانات، والتي سيكون من المستحيل على البشر تحديدها.
على سبيل المثال ، يتيح تنفيذ تضمين OpenAI لـ ChatGPT فهم العلاقات بين الكلمات والفئات المختلفة بسهولة بدلًا من مجرد تحليل كل كلمة بمعزل عن غيرها. باستخدام عمليات التضمين، يمكن لنماذج GPT من OpenAI توليد استجابات أكثر تماسكًا وذات صلة بالسياق لمطالبات المستخدم وأسئلته.
يمكن لمعظم خوارزميات التعلم الآلي أن تأخذ فقط البيانات الرقمية منخفضة الأبعاد كمدخلات. ولذلك فمن الضروري تحويل البيانات إلى صيغة رقمية. يمكن أن يتضمن ذلك أشياء مثل إنشاء تمثيل "bag of words" للبيانات النصية، أو تحويل الصور إلى قيم بكسل أو تحويل بيانات الرسم البياني إلى مصفوفة رقمية.
يتم إخراج الكائنات التي تأتي في نموذج التضمين كتضمينات، ممثلة كمتجهات. المتجه هو مصفوفة من الأرقام (على سبيل المثال 1489, 22… 3 ، 777)، حيث يشير كل رقم إلى مكان وجود الكائن على طول بُعد محدد. يمكن أن يصل عدد الأبعاد إلى ألف أو أكثر اعتمادًا على مدى تعقيد بيانات الإدخال. كلما اقترب تضمين معين من تضمينات أخرى في هذه المساحة ذات الأبعاد n، زادت درجة تشابهها. يتم تحديد تشابه التوزيع من خلال طول نقاط المتجه من كائن إلى آخر (يقاس بالطريقة الإقليدية أو جيب التمام أو غيره).
أحد النماذج، Word2Vec (تحويل كلمة إلى متجه)، الذي طورته Google في عام 2013، هو طريقة لإنشاء تضمينات الكلمات بكفاءة باستخدام شبكة عصبية من طبقتين. يستقبل كمدخل كلمة ويخرج إحداثيات ذات أبعاد n (متجه التضمين) بحيث عندما تقوم برسم هذه المتجهات الكلامية في مساحة ثلاثية الأبعاد، تتجمع المترادفات.
إليك كيفية تمثيل الكلمتين "أبي" و"أمي" في صورة متجهات:
على الرغم من وجود بعض التشابه بين هاتين الكلمتين، إلا أننا نتوقع أن تكون كلمة "أب" أقرب إلى كلمة "أبي" في مساحة المتجه، مما يؤدي إلى حاصل الضرب القياسي الأعلى(وهو مقياس للاتجاه النسبي لمتجهين ومدى تقاربهما في الاتجاه الذي يشيران إليه).
ومن الأمثلة الأكثر تعقيدًا تضمين التوصيات، والتي تعمل من خلال تمثيل المستخدمين والعناصر (مثل الأفلام والمنتجات والمقالات) كمتجهات عالية الأبعاد في مساحة متجهة مستمرة. تلتقط هذه التضمينات السمات الكامنة التي تعكس تفضيلات المستخدمين وخصائص العنصر. الفكرة هي تعلم تمثيل لكل مستخدم وعُنصُر بحيث يتوافق حاصل ضرب نقاط تضميناتهما مع تفضيل المستخدم لهذا العنصر.
يقترن كل مستخدم وعنصر بمتجه تضمين. عادة ما يتم تعلم هذه المتجهات من خلال نموذج توصية أثناء عملية التدريب. يتم تنظيم عمليات تضمين المستخدم وتضمينات العناصر في مصفوفات. تمثل صفوف مصفوفة المستخدم المستخدمين، وتمثل صفوف مصفوفة العنصر العناصر.
يمكن حساب درجة التوصية لزوج من المستخدم والعنصر عن طريق أخذ حاصل الضرب القياسي لمتجه تضمين المستخدم ومتجه تضمين العنصر. كلما زاد حاصل الضرب النقطي، زاد احتمال اهتمام المستخدم بالعنصر.
يتم التعرف على مصفوفات التضمين من خلال عملية تدريبية باستخدام التفاعلات السابقة بين المستخدم والعنصر. يهدف النموذج إلى تقليل الفرق بين الدرجات المتوقعة وتفضيلات المستخدم الفعلية (على سبيل المثال، التقييمات والنقرات والمشتريات).
بمجرد تدريب النموذج، يمكن استخدامه لإنشاء توصيات top-N للمستخدمين. يوصى بالعناصر التي حصلت على أعلى الدرجات المتوقعة للمستخدم.
تُستخدم عمليات التضمين في مختلف المجالات والتطبيقات نظرًا لقدرتها على تحويل البيانات عالية الأبعاد والفئوية إلى تمثيلات متجهة مستمرة، والتقاط أنماط وعلاقات ودلالات ذات مغزى. فيما يلي بعض الأسباب لاستخدام التضمين في علم البيانات:
من خلال تعيين الكيانات (الكلمات والصور والعُقد في الرسم البياني وما إلى ذلك) للمتجهات في مساحة مستمرة، تلتقط عمليات التضمين العلاقات الدلالية وأوجه التشابه، مما يمكّن النماذج من الفهم والتعميم بشكل أفضل.
يمكن تحويل البيانات عالية الأبعاد، مثل النصوص أو الصور أو الرسوم البيانية، إلى تمثيلات منخفضة الأبعاد، مما يجعلها فعالة من الناحية الحاسوبية وأسهل في التعامل معها.
من خلال تعلم تمثيلات ذات مغزى من البيانات، يمكن للنماذج التعميم جيدا على الأمثلة غير المرئية، مما يجعل التضمينات ضرورية للمهام ذات البيانات المحدودة المصنفة.
يمكن تطبيق تقنيات مثل t-SNE لتصور التضمينات عالية الأبعاد في بُعدين أو ثلاثة أبعاد، مما يوفر رؤى حول العلاقات والمجموعات في البيانات.
تُستخدم طبقات التضمين بشكل شائع في بنيات الشبكة العصبية لتعيين المدخلات الفئوية إلى متجهات مستمرة، مما يسهل عملية الانتشار العكسي والتحسين.
عمليات التضمين هي تمثيلات متعددة الاستخدامات يمكن تطبيقها على نطاق واسع من أنواع البيانات. فيما يلي بعض الكائنات الأكثر شيوعًا التي يمكن تضمينها:
تلتقط عمليات تضمين الكلمات العلاقات الدلالية والمعاني السياقية للكلمات بناءً على أنماط استخدامها في مجموعة لغوية معينة. يتم تمثيل كل كلمة على أنها متجه كثيف ثابت الحجم للأرقام الحقيقية. وهو عكس المتجه البسيط، مثل الترميز الأحادي، الذي يحتوي على العديد من الإدخالات الصفرية.
لقد أدى استخدام تضمين الكلمات إلى تحسين أداء نماذج معالجة اللغة الطبيعية (NLP) بشكل كبير من خلال توفير تمثيل أكثر جدوى وكفاءة للكلمات. تمكّن هذه التضمينات الآلات من فهم اللغة ومعالجتها بطريقة تلتقط الفروق الدقيقة الدلالية والعلاقات السياقية، مما يجعلها ذات قيمة لمجموعة واسعة من التطبيقات، بما في ذلك تحليل المشاعر والترجمة الآلية واسترجاع المعلومات.
تشمل نماذج تضمين الكلمات الشائعة Word2Vec و GloVe (المتجهات العالمية لتمثيل الكلمات) و FastText والتضمينات المشتقة من النماذج القائمة على المحولات مثل BERT (تمثيلات التشفير ثنائية الاتجاه من المحولات) و GPT (المحول التوليدي المدرب مسبقًا).
يعمل تضمين النص على توسيع نطاق تضمين الكلمات لتمثيل جمل أو فقرات أو مستندات كاملة في مساحة متجه مستمرة. تلعب تضمينات النص دورًا مهمًا في العديد من تطبيقات البرمجة اللغوية العصبية، مثل تحليل المشاعر وتصنيف النص والترجمة الآلية والإجابة على الأسئلة واسترجاع المعلومات.
تم تدريب نماذج مثل Doc2Vec و USE (Universal Sentence Encoder) و BERT و ELMO (التضمينات من النماذج اللغوية) على كميات هائلة من مجموعات التضمين المدربة مسبقًا، مثل Wikipedia و Google News.
تم تصميم تضمين الصور لالتقاط السمات المرئية والمعلومات الدلالية حول محتوى الصور. تُعد تضمينات الصور مفيدة بشكل خاص لمختلف مهام رؤية الكمبيوتر، مما يتيح نمذجة أوجه التشابه بين الصور وتصنيف الصور وكشف الكائنات وغيرها من مهام التعرف البصري.
تتضمن الشبكات العصبية التلافيفية الشائعة (CNNs) لتضمين الصور نماذج مثل VGG (Visual Geometry Group) و ResNet (Residual Networks) و Inception (GoogleNet) و EfficientNet. تم تدريب هذه النماذج مسبقًا على مجموعات بيانات الصور واسعة النطاق ويمكن استخدامها كمستخلصات سمات قوية.
على غرار عمليات تضمين الصور والنصوص، غالبًا ما يتم إنشاء عمليات تضمين الصوت باستخدام بنيات التعلم العميق، وخاصة الشبكات العصبية المتكررة (RNNs) أو الشبكات العصبية التلافيفية (CNNs) أو النماذج الهجينة التي تجمع بين الاثنين. تلتقط هذه التضمينات السمات والخصائص ذات الصلة للبيانات الصوتية، مما يسمح بتحليلها ومعالجتها وقياس تشابهها بشكل فعال. تعد عمليات تضمين الصوت مفيدة بشكل خاص في تطبيقات مثل التعرف على الكلام وتصنيف الصوت وتحليل الموسيقى وغيرها.
يُعد تضمين الرسم البياني أمرًا ضروريًا لمختلف المهام، بما في ذلك تصنيف العقدة والتنبؤ بالارتباط والكشف عن المجتمعات في الشبكات المعقدة. تجد عمليات التضمين هذه تطبيقات في تحليل الشبكات الاجتماعية وأنظمة التوصية وتحليل الشبكة البيولوجية والكشف عن الغش والعديد من المجالات الأخرى حيث يمكن تمثيل البيانات كرسومات بيانية.
يتم إنشاء عمليات التضمين من خلال عملية تسمى "تعلم التضمين". على الرغم من أن الطريقة المحددة المستخدمة تعتمد على نوع البيانات التي يتم تضمينها، إلا أنه يتم إنشاء التضمينات باتباع الخطوات العامة التالية:
في جميع حالات التضمين، تكمن الفكرة في تمثيل البيانات في مساحة متجهة مستمرة حيث يتم الحفاظ على العلاقات ذات المعنى. تتضمن عملية التدريب ضبط معلمات النموذج لتقليل الفرق بين القيم المتوقعة والفعلية بناء على دالة الهدف المختارة. بمجرد التدريب، يمكن استخدام عمليات التضمين في العديد من المهام النهائية.
تُستخدم عمليات التضمين على نطاق واسع في العديد من تطبيقات العالم الحقيقي عبر مجالات مختلفة. تشمل الأمثلة ما يلي:
تسلط هذه الأمثلة الضوء على تعدد استخدامات التضمينات عبر تطبيقات متنوعة، وتظهر قدرتها على التقاط تمثيلات وعلاقات ذات مغزى في أنواع مختلفة من البيانات.
تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.
استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.
أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.