ما هو الذكاء الاصطناعي متعدد الوسائط؟

15 يوليو 2024

المؤلفين

Cole Stryker

Editorial Lead, AI Models

Gather

ما هو الذكاء الاصطناعي متعدد الوسائط؟

يشير الذكاء الاصطناعي متعدد الوسائط إلى نماذج التعلم الآلي القادرة على معالجة ودمج المعلومات من طرائق أو أنواع بيانات متعددة. يمكن أن تتضمن هذه الطرائق نصوص وصور ومقاطع صوت وفيديو وأشكال أخرى من الإدخال الحسي.

على عكس نماذج الذكاء الاصطناعي التقليدية المُصَممة عادةً للتعامل مع نوع واحد من البيانات، يجمع الذكاء الاصطناعي متعدد الوسائط بين أشكال البيانات المختلفة ويحللها لتحقيق فهم أكثر شمولًا وتوليد مخرجات أكثر قوة.

على سبيل المثال، يمكن للنموذج متعدد الوسائط أن يتلقى صورة لمنظر طبيعي كمدخلات ويولد ملخصًا مكتوبًا لخصائص ذلك المكان. أو يمكن أن يتلقى ملخصًا مكتوبًا لمنظر طبيعي وإنشاء صورة بناءً على هذا الوصف. هذه القدرة على العمل عبر طرائق متعددة تمنح هذه النماذج قدرات قوية.

أطلقت شركة OpenAI نموذج ChatGPT، وهو ما جعل الذكاء الاصطناعي التوليدي يَحظى بانتشار سريع. كان ChatGPT نظام ذكاء اصطناعي أحادي الوسائط، مُصممًا لاستقبال مدخلات نصية وتوليد مخرجات نصية باستخدام معالجة اللغة الطبيعية (NLP).

يجعل الذكاء الاصطناعي متعدد الوسائط الذكاء الاصطناعي التوليدي أكثر قوة وفائدة من خلال السماح بأنواع متعددة من المدخلات والمخرجات. على سبيل المثال، كان Dall-e هو التنفيذ المتعدد الوسائط الأولي لـ Open AI لنموذج GPT الخاص بها، ولكن GPT-4o قدم إمكانيات متعددة الوسائط إلى ChatGPT أيضًا.

يمكن لنماذج الذكاء الاصطناعي متعدد الوسائط الجمع بين المعلومات من مصادر البيانات المختلفة وعبر الوسائط لتوفير فهم أكثر شمولاً ودقة للبيانات. ويتيح ذلك للذكاء الاصطناعي اتخاذ قرارات مستنيرة بشكل أفضل وتوليد مخرجات أكثر دقة.

من خلال الاستفادة من الطرائق المختلفة، يمكن لأنظمة الذكاء الاصطناعي متعدد الوسائط تحقيق دقة ومتانة أعلى في مهام مثل التعرف على الصور وترجمة اللغة والتعرف على الكلام. يساعد دمج أنواع مختلفة من البيانات في التقاط المزيد من السياق وتقليل الغموض. تعد أنظمة الذكاء الاصطناعي متعددة الوسائط أكثر مرونة في مواجهة البيانات غير الهامة والبيانات المفقودة. وإذا كانت إحدى الطرائق غير موثوقة أو غير متاحة، يمكن للنظام أن يعتمد على طرائق أخرى للحفاظ على الأداء.

يعزز الذكاء الاصطناعي متعدد الوسائط التفاعل بين الإنسان والحاسوب من خلال تمكين واجهات أكثر طبيعية وبديهية لتجارب مستخدم أفضل. على سبيل المثال، يمكن للمساعدين الافتراضيين فهم كل من الأوامر الصوتية والإشارات البصرية والاستجابة لها، مما يجعل التفاعلات أكثر سلاسة وكفاءة.

تخيل روبوت محادثة يمكنه التحدث إليك عن نظارتك وتقديم توصيات بشأن مقاس نظارتك بناءً على صورة تشاركها معه، أو تطبيق للتعرف على الطيور يمكنه التعرف على صور طائر معين، وتأكيد التعرف عليه من خلال "الاستماع" إلى مقطع صوتي لتغريده. يمكن للذكاء الاصطناعي الذي يمكنه العمل عبر أبعاد حسية متعددة أن يمنح المستخدمين مخرجات أكثر فائدة، ومزيدًا من الطرق للتعامل مع البيانات.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

كيف يعمل الذكاء الاصطناعي متعدد الوسائط

الذكاء الاصطناعي هو مجال يتطور بسرعة حيث يتم تطبيق أحدث التطورات في خوارزميات التدريب لبناء نماذج الأساس على الأبحاث متعددة الوسائط. شهد هذا التخصص ابتكارات سابقة متعددة الوسائط مثل التعرف على الكلام الصوتي البصري وفهرسة المحتوى متعدد الوسائط، والتي ظهرت قبل أن تمهد التطورات في التعلم العميق وعلوم البيانات الطريق أمام الذكاء الاصطناعي التوليدي.

اليوم، يستخدم الممارسون الذكاء الاصطناعي متعدد الوسائط في حالات استخدام متنوعة، بدءًا من تحليل الصور الطبية في الرعاية الصحية إلى دمج رؤية الكمبيوتر مع المدخلات الحسية الأخرى في المركبات ذاتية القيادة التي تعمل بالذكاء الاصطناعي.

تصف ورقة بحثية صدرت عام 2022 من جامعة Carnegie Mellon ثلاث خصائص للذكاء الاصطناعي متعدد الوسائط: التباين، والروابط، والتفاعلات.1 التباين يشير إلى الصفات والهياكل والتمثيلات المتنوعة للوسائط. سيختلف الوصف النصي لحدث ما اختلافاً جوهرياً من حيث الجودة والبنية والتمثيل عن الصورة الفوتوغرافية للحدث نفسه.

تشير الروابط إلى المعلومات التكميلية المشتركة بين الطرائق المختلفة. قد تنعكس هذه الروابط في أوجه التشابه الإحصائية أو في المراسلات الدلالية. وأخيراً، تشير التفاعلات إلى كيفية تفاعل الطرائق المختلفة عند جمعها معاً.

ويكمن التحدي الهندسي الأساسي للذكاء الاصطناعي متعدد الوسائط في دمج أنواع متنوعة من البيانات ومعالجتها بفعالية لإنشاء نماذج يمكنها الاستفادة من نقاط القوة في كل طريقة مع التغلب على القيود الفردية لكل منها. كما طرح مؤلفو الورقة البحثية أيضًا عدة تحديات: التمثيل، والمحاذاة، والاستدلال، والتوليد، والنقل، والقياس الكمّي.

  • يشير التمثيل إلى كيفية تمثيل البيانات متعددة الوسائط وتلخيصها لتعكس التباين والترابط بين الطرائق. يستخدم الممارسون شبكات عصبية متخصصة (على سبيل المثال، الشبكات العصبية التلافيفية (CNN) للصور، والمحولات للنص) لاستخراج الميزات، واستخدام مساحات التضمين المشتركة أو آليات الانتباه لتعلم التمثيل.

  • تهدف المحاذاة إلى تحديد الروابط والتفاعلات بين العناصر. على سبيل المثال، يستخدم المهندسون تقنيات للمحاذاة الزمنية في بيانات الفيديو والصوت، والمحاذاة المكانية للصور والنصوص.

  • يهدف الاستدلال إلى تكوين المعرفة من أدلة متعددة الوسائط، عادةً من خلال خطوات استدلالية متعددة.

  • تتضمن عملية التوليد تعلم عملية توليدية لإنتاج طرائق أولية تعكس التفاعلات بين الوسائط والبنية والترابط.

  • يهدف النقل إلى نقل المعرفة بين الطرائق. تسمح تقنيات التعلم التحويلية المتقدمة ومساحات التضمين المشتركة بنقل المعرفة عبر الطرائق.

  • ينطوي القياس الكمّي على دراسات تجريبية ونظرية لفهم التعلم متعدد الوسائط لتقييم أدائها بشكل أفضل ضمن النماذج متعددة الوسائط.

تضيف النماذج متعددة الوسائط طبقة من التعقيد إلى النماذج اللغوية الكبيرة (LLMs)، التي تعتمد على المحولات، وهي نفسها مبنية على بنية المُشفِّر-المُفكِّك مع آلية انتباه لمعالجة البيانات بكفاءة. يستخدم الذكاء الاصطناعي متعدد الوسائط تقنيات دمج البيانات لربط الوسائط المختلفة. يمكن تصنيف هذا الدمج بأنه دمج مبكر (عندما يتم ترميز الوسائط في النموذج لإنشاء فضاء تمثيلي مشترك) ودمج متوسط (عندما يتم دمج الوسائط في مراحل معالجة مسبقة مختلفة) ودمج متأخر (عندما تقوم نماذج متعددة بمعالجة وسائط مختلفة ثم دمج المخرجات).

Mixture of Experts | بودكاست

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضم إلى لجنة عالمية المستوى من المهندسين والباحثين وقادة المنتجات وغيرهم وهم يجتازون طريق الذكاء الاصطناعي لتزويدك بأحدث أخباره والمعارف المتعلقة به.

الاتجاهات في الذكاء الاصطناعي متعدد الوسائط

الذكاء الاصطناعي متعدد الوسائط مجال سريع التطور، مع العديد من الاتجاهات الرئيسية التي تشكّل تطويره وتطبيقه. فيما يلي بعض الاتجاهات البارزة:

نماذج موحدة

تم تصميم GPT-4 V (ision) من OpenAI و Gemini من Google والنماذج الموحدة الأخرى للتعامل مع النصوص والصور وأنواع البيانات الأخرى داخل بنية واحدة. يمكن لهذه النماذج فهم وإنشاء محتوى متعدد الوسائط بسلاسة.

تعزيز التفاعل عبر الوسائط

يتم استخدام آليات الانتباه المتقدمة والمحولات لمواءمة البيانات من تنسيقات مختلفة ودمجها بشكل أفضل، مما يؤدي إلى مخرجات أكثر تماسكًا ودقة من حيث السياق.

معالجة آنية متعددة الوسائط

فالتطبيقات في القيادة الذاتية والواقع المعزز، على سبيل المثال، تتطلب من الذكاء الاصطناعي معالجة ودمج البيانات من مختلف أجهزة الاستشعار (الكاميرات والليدار وغيرها) في الوقت الفعلي لاتخاذ قرارات فورية.

زيادة البيانات متعددة الوسائط

يقوم الباحثون بتوليد بيانات اصطناعية تجمع بين طرائق مختلفة (على سبيل المثال، الأوصاف النصية مع الصور المقابلة) لزيادة مجموعات بيانات التدريب وتحسين أداء النموذج.

المصدر المفتوح والتعاون

وتوفر مبادرات مثل Hugging Face وGoogle AI أدوات ذكاء اصطناعي مفتوحة المصدر، مما يعزز بيئة تعاونية للباحثين والمطورين لتطوير هذا المجال.

الحواشي

1 https://arxiv.org/abs/2209.03430, 7 سبتمبر 2022.