ما هو الذكاء الاصطناعي المتعدد الوسائط؟

ما المقصود بالذكاء الاصطناعي متعدد الوسائط؟

يشير الذكاء الاصطناعي متعدد الوسائط إلى نماذج التعلم الآلي القادرة على معالجة ودمج المعلومات من طرائق أو أنواع بيانات متعددة. يمكن أن تتضمن هذه الطرائق نصوص وصور ومقاطع صوت وفيديو وأشكال أخرى من الإدخال الحسي.

على عكس نماذج الذكاء الاصطناعي التقليدية المُصَممة عادةً للتعامل مع نوع واحد من البيانات، يجمع الذكاء الاصطناعي متعدد الوسائط بين أشكال البيانات المختلفة ويحللها لتحقيق فهم أكثر شمولًا وتوليد مخرجات أكثر قوة.

على سبيل المثال، يمكن للنموذج متعدد الوسائط أن يتلقى صورة لمنظر طبيعي كمدخلات ويولد ملخصًا مكتوبًا لخصائص ذلك المكان. أو يمكن أن يتلقى ملخصًا مكتوبًا لمنظر طبيعي وإنشاء صورة بناءً على هذا الوصف. هذه القدرة على العمل عبر طرائق متعددة تمنح هذه النماذج قدرات قوية.

أطلقت شركة OpenAI نموذج ChatGPT، وهو ما جعل الذكاء الاصطناعي التوليدي يَحظى بانتشار سريع. كان ChatGPT نظام ذكاء اصطناعي أحادي الوسائط، مُصممًا لاستقبال مدخلات نصية وتوليد مخرجات نصية باستخدام معالجة اللغة الطبيعية (NLP).

يجعل الذكاء الاصطناعي متعدد الوسائط الذكاء الاصطناعي التوليدي أكثر قوة وفائدة من خلال السماح بأنواع متعددة من المدخلات والمخرجات. على سبيل المثال، كان Dall-e هو التنفيذ المتعدد الوسائط الأولي لـ Open AI لنموذج GPT الخاص بها، ولكن GPT-4o قدم إمكانيات متعددة الوسائط إلى ChatGPT أيضًا.

يمكن لنماذج الذكاء الاصطناعي متعدد الوسائط الجمع بين المعلومات من مصادر البيانات المختلفة وعبر الوسائط لتوفير فهم أكثر شمولاً ودقة للبيانات. ويتيح ذلك للذكاء الاصطناعي اتخاذ قرارات مستنيرة بشكل أفضل وتوليد مخرجات أكثر دقة.

من خلال الاستفادة من الطرائق المختلفة، يمكن لأنظمة الذكاء الاصطناعي متعدد الوسائط تحقيق دقة ومتانة أعلى في مهام مثل التعرف على الصور وترجمة اللغة والتعرف على الكلام. يساعد دمج أنواع مختلفة من البيانات في التقاط المزيد من السياق وتقليل الغموض. تعد أنظمة الذكاء الاصطناعي متعددة الوسائط أكثر مرونة في مواجهة البيانات غير الهامة والبيانات المفقودة. وإذا كانت إحدى الطرائق غير موثوقة أو غير متاحة، يمكن للنظام أن يعتمد على طرائق أخرى للحفاظ على الأداء.

يعزز الذكاء الاصطناعي متعدد الوسائط التفاعل بين الإنسان والحاسوب من خلال تمكين واجهات أكثر طبيعية وبديهية لتجارب مستخدم أفضل. على سبيل المثال، يمكن للمساعدين الافتراضيين فهم كل من الأوامر الصوتية والإشارات البصرية والاستجابة لها، مما يجعل التفاعلات أكثر سلاسة وكفاءة.

تخيل روبوت محادثة يمكنه التحدث إليك عن نظارتك وتقديم توصيات بشأن مقاس نظارتك بناءً على صورة تشاركها معه، أو تطبيق للتعرف على الطيور يمكنه التعرف على صور طائر معين، وتأكيد التعرف عليه من خلال "الاستماع" إلى مقطع صوتي لتغريده. يمكن للذكاء الاصطناعي الذي يمكنه العمل عبر أبعاد حسية متعددة أن يمنح المستخدمين مخرجات أكثر فائدة، ومزيدًا من الطرق للتعامل مع البيانات.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي  

تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية.

كيف يعمل الذكاء الاصطناعي متعدد الوسائط

الذكاء الاصطناعي هو مجال يتطور بسرعة حيث يتم تطبيق أحدث التطورات في خوارزميات التدريب لبناء نماذج الأساس على الأبحاث متعددة الوسائط. شهد هذا التخصص ابتكارات سابقة متعددة الوسائط مثل التعرف على الكلام الصوتي البصري وفهرسة المحتوى متعدد الوسائط، والتي ظهرت قبل أن تمهد التطورات في التعلم العميق وعلوم البيانات الطريق أمام الذكاء الاصطناعي التوليدي.

اليوم، يستخدم الممارسون الذكاء الاصطناعي متعدد الوسائط في حالات استخدام متنوعة، بدءًا من تحليل الصور الطبية في الرعاية الصحية إلى دمج رؤية الكمبيوتر مع المدخلات الحسية الأخرى في المركبات ذاتية القيادة التي تعمل بالذكاء الاصطناعي.

تصف ورقة بحثية صدرت عام 2022 من جامعة Carnegie Mellon ثلاث خصائص للذكاء الاصطناعي متعدد الوسائط: التباين، والروابط، والتفاعلات.¹ التباين يشير إلى الصفات والهياكل والتمثيلات المتنوعة للوسائط. سيختلف الوصف النصي لحدث ما اختلافاً جوهرياً من حيث الجودة والبنية والتمثيل عن الصورة الفوتوغرافية للحدث نفسه.

تشير الروابط إلى المعلومات التكميلية المشتركة بين الطرائق المختلفة. قد تنعكس هذه الروابط في أوجه التشابه الإحصائية أو في المراسلات الدلالية. وأخيراً، تشير التفاعلات إلى كيفية تفاعل الطرائق المختلفة عند جمعها معاً.

ويكمن التحدي الهندسي الأساسي للذكاء الاصطناعي متعدد الوسائط في دمج أنواع متنوعة من البيانات ومعالجتها بفعالية لإنشاء نماذج يمكنها الاستفادة من نقاط القوة في كل طريقة مع التغلب على القيود الفردية لكل منها. كما طرح مؤلفو الورقة البحثية أيضًا عدة تحديات: التمثيل، والمحاذاة، والاستدلال، والتوليد، والنقل، والقياس الكمّي.

يشير التمثيل إلى كيفية تمثيل البيانات متعددة الوسائط وتلخيصها لتعكس التباين والترابط بين الطرائق. يستخدم الممارسون شبكات عصبية متخصصة (على سبيل المثال، الشبكات العصبية التلافيفية (CNN) للصور، والمحولات للنص) لاستخراج الميزات، واستخدام مساحات التضمين المشتركة أو آليات الانتباه لتعلم التمثيل.
تهدف المحاذاة إلى تحديد الروابط والتفاعلات بين العناصر. على سبيل المثال، يستخدم المهندسون تقنيات للمحاذاة الزمنية في بيانات الفيديو والصوت، والمحاذاة المكانية للصور والنصوص.
يهدف الاستدلال إلى تكوين المعرفة من أدلة متعددة الوسائط، عادةً من خلال خطوات استدلالية متعددة.
تتضمن عملية التوليد تعلم عملية توليدية لإنتاج طرائق أولية تعكس التفاعلات بين الوسائط والبنية والترابط.
يهدف النقل إلى نقل المعرفة بين الطرائق. تسمح تقنيات التعلم التحويلية المتقدمة ومساحات التضمين المشتركة بنقل المعرفة عبر الطرائق.
ينطوي القياس الكمّي على دراسات تجريبية ونظرية لفهم التعلم متعدد الوسائط لتقييم أدائها بشكل أفضل ضمن النماذج متعددة الوسائط.

تضيف النماذج متعددة الوسائط طبقة من التعقيد إلى النماذج اللغوية الكبيرة (LLMs)، التي تعتمد على المحولات، وهي نفسها مبنية على بنية المُشفِّر-المُفكِّك مع آلية انتباه لمعالجة البيانات بكفاءة. يستخدم الذكاء الاصطناعي متعدد الوسائط تقنيات دمج البيانات لربط الوسائط المختلفة. يمكن تصنيف هذا الدمج بأنه دمج مبكر (عندما يتم ترميز الوسائط في النموذج لإنشاء فضاء تمثيلي مشترك) ودمج متوسط (عندما يتم دمج الوسائط في مراحل معالجة مسبقة مختلفة) ودمج متأخر (عندما تقوم نماذج متعددة بمعالجة وسائط مختلفة ثم دمج المخرجات).

Mixture of Experts | 12 ديسمبر، الحلقة 85

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

شاهد جميع حلقات برنامج Mixture of Experts

الاتجاهات في الذكاء الاصطناعي متعدد الوسائط

الذكاء الاصطناعي متعدد الوسائط مجال سريع التطور، مع العديد من الاتجاهات الرئيسية التي تشكّل تطويره وتطبيقه. فيما يلي بعض الاتجاهات البارزة:

نماذج موحدة

تم تصميم GPT-4 V (ision) من OpenAI و Gemini من Google والنماذج الموحدة الأخرى للتعامل مع النصوص والصور وأنواع البيانات الأخرى داخل بنية واحدة. يمكن لهذه النماذج فهم وإنشاء محتوى متعدد الوسائط بسلاسة.

تعزيز التفاعل عبر الوسائط

يتم استخدام آليات الانتباه المتقدمة والمحولات لمواءمة البيانات من تنسيقات مختلفة ودمجها بشكل أفضل، مما يؤدي إلى مخرجات أكثر تماسكًا ودقة من حيث السياق.

معالجة آنية متعددة الوسائط

فالتطبيقات في القيادة الذاتية والواقع المعزز، على سبيل المثال، تتطلب من الذكاء الاصطناعي معالجة ودمج البيانات من مختلف أجهزة الاستشعار (الكاميرات والليدار وغيرها) في الوقت الفعلي لاتخاذ قرارات فورية.

زيادة البيانات متعددة الوسائط

يقوم الباحثون بتوليد بيانات اصطناعية تجمع بين طرائق مختلفة (على سبيل المثال، الأوصاف النصية مع الصور المقابلة) لزيادة مجموعات بيانات التدريب وتحسين أداء النموذج.

المصدر المفتوح والتعاون

وتوفر مبادرات مثل Hugging Face وGoogle AI أدوات ذكاء اصطناعي مفتوحة المصدر، مما يعزز بيئة تعاونية للباحثين والمطورين لتطوير هذا المجال.

حلول ذات صلة

IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai

حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي

الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي

الموارد

طوِّر مستوى خبرتك في التعلم الآلي

تعلّم المفاهيم الأساسية وطوّر مهاراتك من خلال المختبرات العملية والدورات التدريبية والمشاريع الموجهة والتجارب وغيرها.

أطلق العنان لقوة الذكاء الاصطناعي التوليدي والتعلم الآلي (ML)

تعرّف على كيفية دمج الذكاء الاصطناعي التوليدي والتعلّم الآلي بثقة في أعمالك

شرح التعلم الآلي

يشرح كتاب Techsplainers من IBM أساسيات التعلم الآلي، من المفاهيم الرئيسية إلى حالات الاستخدام الواقعية. حلقات واضحة وقصيرة تساعدك على تعلُّم الأساسيات بسرعة.

التفعيل المثمر للذكاء الاصطناعي: جني الأرباح وعائد الاستثمار باستخدام الذكاء الاصطناعي التوليدي

هل ترغب في زيادة عائد استثماراتك في الذكاء الاصطناعي؟ تعرّف على كيفية تأثير توسيع نطاق الذكاء الاصطناعي التوليدي في المجالات الرئيسية، من خلال مساعدة أفضل العقول لديك على وضع حلول مبتكرة جديدة وطرحها.

كيفية اختيار نموذج الأساس المناسب

تعرّف على كيفية اختيار نموذج أساس الذكاء الاصطناعي الأكثر ملاءمة لحالة الاستخدام الخاصة بك.

استكشف IBM Granite

تُعَد IBM® Granite مجموعة من نماذج الذكاء الاصطناعي المفتوحة والموثوق بها وذات الأداء العالي والتي تم تصميمها خصيصًا للأعمال وجرى الارتقاء بها على النحو الأمثل لتوسيع نطاق تطبيقات الذكاء الاصطناعي لديك. استكشِف خيارات اللغة والتعليمات البرمجية والسلاسل الزمنية وآليات الحماية.

كيف تزدهر في عصر الذكاء الاصطناعي الجديد بثقة وثبات

تعمّق في العناصر الثلاثة ذات الأهمية البالغة لإستراتيجية الذكاء الاصطناعي القوية: إنشاء ميزة تنافسية، وتوسيع نطاق الذكاء الاصطناعي عبر الأعمال، وتطوير الذكاء الاصطناعي الجدير بالثقة.

اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

الحواشي

¹ https://arxiv.org/abs/2209.03430, 7 سبتمبر 2022.