تاريخ النشر: 15 يوليو 2024
المساهمون: Cole Stryker
يشير الذكاء الاصطناعي متعدد الوسائط إلى نماذج التعلم الآلي القادرة على معالجة ودمج المعلومات من طرائق أو أنواع بيانات متعددة. يمكن أن تتضمن هذه الطرائق نصوص وصور ومقاطع صوت وفيديو وأشكال أخرى من الإدخال الحسي.
على عكس نماذج الذكاء الاصطناعي التقليدية المُصَممة عادةً للتعامل مع نوع واحد من البيانات، يجمع الذكاء الاصطناعي متعدد الوسائط بين أشكال البيانات المختلفة ويحللها لتحقيق فهم أكثر شمولًا وتوليد مخرجات أكثر قوة.
على سبيل المثال، يمكن للنموذج متعدد الوسائط أن يتلقى صورة لمنظر طبيعي كمدخلات ويولد ملخصًا مكتوبًا لخصائص ذلك المكان. أو يمكن أن يتلقى ملخصًا مكتوبًا لمنظر طبيعي وإنشاء صورة بناءً على هذا الوصف. هذه القدرة على العمل عبر طرائق متعددة تمنح هذه النماذج قدرات قوية.
أطلقت OpenAI منصة ChatGPT في نوفمبر 2022، الأمر الذي وضع الذكاء الاصطناعي التوليدي في دائرة الضوء سريعًا. كان ChatGPT معتمدًا على الذكاء الاصطناعي أحادي الوسائط، وكان مصممًا لتلقي مدخلات نصية، وتوليد مخرجات نصية باستخدام معالجة اللغة الطبيعية (NLP).
يجعل الذكاء الاصطناعي متعدد الوسائط الذكاء الاصطناعي التوليدي أكثر قوة وفائدة من خلال السماح بأنواع متعددة من المدخلات والمخرجات. على سبيل المثال، كان Dall-e هو التنفيذ المتعدد الوسائط الأولي لـ Open AI لنموذج GPT الخاص بها، ولكن GPT-4o قدم إمكانيات متعددة الوسائط إلى ChatGPT أيضًا.
يمكن لنماذج الذكاء الاصطناعي متعدد الوسائط الجمع بين المعلومات من مصادر البيانات المختلفة وعبر الوسائط لتوفير فهم أكثر شمولاً ودقة للبيانات. ويتيح ذلك للذكاء الاصطناعي اتخاذ قرارات مستنيرة بشكل أفضل وتوليد مخرجات أكثر دقة.
من خلال الاستفادة من الطرائق المختلفة، يمكن لأنظمة الذكاء الاصطناعي متعدد الوسائط تحقيق دقة ومتانة أعلى في مهام مثل التعرف على الصور وترجمة اللغة والتعرف على الكلام. يساعد دمج أنواع مختلفة من البيانات في التقاط المزيد من السياق وتقليل الغموض. تعد أنظمة الذكاء الاصطناعي متعددة الوسائط أكثر مرونة في مواجهة البيانات غير الهامة والبيانات المفقودة. وإذا كانت إحدى الطرائق غير موثوقة أو غير متاحة، يمكن للنظام أن يعتمد على طرائق أخرى للحفاظ على الأداء.
يعزز الذكاء الاصطناعي متعدد الوسائط التفاعل بين الإنسان والحاسوب من خلال تمكين واجهات أكثر طبيعية وبديهية لتجارب مستخدم أفضل. على سبيل المثال، يمكن للمساعدين الافتراضيين فهم كل من الأوامر الصوتية والإشارات البصرية والاستجابة لها، مما يجعل التفاعلات أكثر سلاسة وكفاءة.
تخيل روبوت محادثة يمكنه التحدث إليك عن نظارتك وتقديم توصيات بشأن مقاس نظارتك بناءً على صورة تشاركها معه، أو تطبيق للتعرف على الطيور يمكنه التعرف على صور طائر معين، وتأكيد التعرف عليه من خلال "الاستماع" إلى مقطع صوتي لتغريده. يمكن للذكاء الاصطناعي الذي يمكنه العمل عبر أبعاد حسية متعددة أن يمنح المستخدمين مخرجات أكثر فائدة، ومزيدًا من الطرق للتعامل مع البيانات.
اكتشف قوة دمج استراتيجية مستودع البيانات في بنية البيانات لديك، بما في ذلك التحسينات لتوسيع نطاق الذكاء الاصطناعي وفرص تحسين التكلفة.
بودكاست برنامج Mixture of Experts: مستقبلنا متعدد الوسائط
رؤى الذكاء الاصطناعي التوليدي
الذكاء الاصطناعي هو مجال يتطور بسرعة حيث يتم تطبيق أحدث التطورات في خوارزميات التدريب لبناء نماذج الأساس على الأبحاث متعددة الوسائط. شهد هذا التخصص ابتكارات سابقة متعددة الوسائط مثل التعرف على الكلام السمعي البصري وفهرسة محتوى الوسائط المتعددة، والتي تطورت قبل أن يمهد التقدم في التعلم العميق وعلوم البيانات الطريق أمام الذكاء الاصطناعي التوليدي.
اليوم، يستخدم الممارسون الذكاء الاصطناعي متعدد الوسائط في جميع أنواع حالات الاستخدام، من تحليل الصور الطبية في الرعاية الصحية إلى استخدام رؤية الكمبيوتر جنبًا إلى جنب مع المدخلات الحسية الأخرى في المركبات ذاتية القيادة التي تعمل بالذكاء الاصطناعي.
تصف ورقة بحثية صدرت عام 2022 من جامعة Carnegie Mellon ثلاث خصائص للذكاء الاصطناعي متعدد الوسائط: التباين، والروابط، والتفاعلات.1 التباين يشير إلى الصفات والهياكل والتمثيلات المتنوعة للوسائط. سيختلف الوصف النصي لحدث ما اختلافاً جوهرياً من حيث الجودة والبنية والتمثيل عن الصورة الفوتوغرافية للحدث نفسه.
تشير الروابط إلى المعلومات التكميلية المشتركة بين الطرائق المختلفة. قد تنعكس هذه الروابط في أوجه التشابه الإحصائية أو في المراسلات الدلالية. وأخيراً، تشير التفاعلات إلى كيفية تفاعل الطرائق المختلفة عند جمعها معاً.
ويكمن التحدي الهندسي الأساسي للذكاء الاصطناعي متعدد الوسائط في دمج أنواع متنوعة من البيانات ومعالجتها بفعالية لإنشاء نماذج يمكنها الاستفادة من نقاط القوة في كل طريقة مع التغلب على القيود الفردية لكل منها. كما طرح مؤلفو الورقة البحثية أيضًا عدة تحديات: التمثيل، والمحاذاة، والاستدلال، والتوليد، والنقل، والقياس الكمّي.
يشير التمثيل إلى كيفية تمثيل البيانات متعددة الوسائط وتلخيصها لتعكس التباين والترابط بين الطرائق. يستخدم الممارسون شبكات عصبية متخصصة (على سبيل المثال، الشبكات العصبية التلافيفية (CNN) للصور، والمحولات للنص) لاستخراج الميزات، واستخدام مساحات التضمين المشتركة أو آليات الانتباه لتعلم التمثيل.
تهدف المحاذاة إلى تحديد الروابط والتفاعلات بين العناصر. على سبيل المثال، يستخدم المهندسون تقنيات للمحاذاة الزمنية في بيانات الفيديو والصوت، والمحاذاة المكانية للصور والنصوص.
يهدف الاستدلال إلى تكوين المعرفة من أدلة متعددة الوسائط، عادةً من خلال خطوات استدلالية متعددة.
تتضمن عملية التوليد تعلم عملية توليدية لإنتاج طرائق أولية تعكس التفاعلات بين الوسائط والبنية والترابط.
يهدف النقل إلى نقل المعرفة بين الطرائق. تسمح تقنيات التعلم التحويلية المتقدمة ومساحات التضمين المشتركة بنقل المعرفة عبر الطرائق.
ينطوي القياس الكمّي على دراسات تجريبية ونظرية لفهم التعلم متعدد الوسائط لتقييم أدائها بشكل أفضل ضمن النماذج متعددة الوسائط.
تضيف النماذج متعددة الوسائط طبقة من التعقيد إلى نماذج اللغات الكبيرة (LLMs)، والتي تعتمد على المحولات، وهي نفسها مبنية على بنية تشفير- فك تشفير مع آلية انتباه لمعالجة البيانات بكفاءة. يستخدم الذكاء الاصطناعي متعدد الوسائط تقنيات دمج البيانات لدمج الطرائق المختلفة. يمكن وصف هذا الاندماج بأنه مبكر (عندما يتم ترميز الطرائق في النموذج لإنشاء مساحة تمثيل مشتركة) ومتوسط (عندما يتم دمج الطرائق في مراحل معالجة مسبقة مختلفة) ومتأخر (عندما تقوم نماذج متعددة بمعالجة طرائق مختلفة ودمج المخرجات).
الذكاء الاصطناعي متعدد الوسائط مجال سريع التطور، مع العديد من الاتجاهات الرئيسية التي تشكّل تطويره وتطبيقه. فيما يلي بعض الاتجاهات البارزة:
تم تصميم GPT-4 V (ision) من OpenAI و Gemini من Google والنماذج الموحدة الأخرى للتعامل مع النصوص والصور وأنواع البيانات الأخرى داخل بنية واحدة. يمكن لهذه النماذج فهم وإنشاء محتوى متعدد الوسائط بسلاسة.
يتم استخدام آليات الانتباه المتقدمة والمحولات لمواءمة البيانات من تنسيقات مختلفة ودمجها بشكل أفضل، مما يؤدي إلى مخرجات أكثر تماسكًا ودقة من حيث السياق.
فالتطبيقات في القيادة الذاتية والواقع المعزز، على سبيل المثال، تتطلب من الذكاء الاصطناعي معالجة ودمج البيانات من مختلف أجهزة الاستشعار (الكاميرات والليدار وغيرها) في الوقت الفعلي لاتخاذ قرارات فورية.
يقوم الباحثون بتوليد بيانات اصطناعية تجمع بين طرائق مختلفة (على سبيل المثال، الأوصاف النصية مع الصور المقابلة) لزيادة مجموعات بيانات التدريب وتحسين أداء النموذج.
وتوفر مبادرات مثل Hugging Face وGoogle AI أدوات ذكاء اصطناعي مفتوحة المصدر، مما يعزز بيئة تعاونية للباحثين والمطورين لتطوير هذا المجال.
تشمل أبحاثنا تقنيات الرؤية الحاسوبية المتقدمة التي تتيح الاستخراج التلقائي للسمات ذات الصلة بالتشخيص في صور الرعاية الصحية متعددة الوسائط.
تقوم IBM و NASA حاليًا بتجربة بنيات وتقنيات نموذجية لدمج هذه النطاقات الزمنية والمكانية المختلفة في نموذج واحد متعدد الوسائط.
يتنقل هذا الاستطلاع في المشهد الحالي للتعلم الآلي متعدد الوسائط, مع التركيز على تأثيره العميق على تحليل الصور الطبية وأنظمة دعم القرارات السريرية.
استكشف مركزنا المركزي لأبحاث الذكاء الاصطناعي، من المبادئ الأساسية إلى الأبحاث الناشئة والقضايا البارزة والتطورات.
تعرف على كيفية قيام IBM بتطوير نماذج أساسية توليدية جديرة بالثقة وموفرة للطاقة وقابلة للحمل.
دورة تدريبية للمبتدئين: في ساعتين، تعلم أساسيات الذكاء الاصطناعي وقم ببناء واختبار أول نموذج للتعلم الآلي باستخدام Python و scikit-learn.
1 https://arxiv.org/abs/2209.03430 (الرابط موجود خارج ibm.com)، 7 سبتمبر 2022.