ما المقصود بنموذج GPT-4o؟

واجهة مستخدم رقمية زرقاء مع خلفية يد رجل أعمال

المؤلفين

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

ما المقصود بنموذج GPT-4o؟

GPT-4o هو نموذج محول توليدي متعدد الوسائط ومتعدد اللغات دُرب مسبقًا أُصدر في مايو 2024 من قِبل مطور الذكاء الاصطناعي (AI) OpenAI. وهو النموذج اللغوي الكبير (LLM) الرائد في مجموعة نماذج الذكاء الاصطناعي GPT-4 التي تشمل أيضًا GPT-4o mini وGPT-4 Turbo وGPT-4 الأصلي.

يرمز حرف "o" في GPT-4o إلى "omni"، أي الشامل، ويُبرز أن GPT-4o هو نموذج ذكاء اصطناعي متعدد الوسائط مزود بقدرات صوتية وبصرية. وهذا يعني أنه يمكنه قبول مجموعات البيانات السريعة كمزيج من المدخلات النصية والصوتية والصور والفيديو. GPT-4o قادر أيضًا على توليد الصور. يقدم GPT-4o قدرات إدخال الوسائط المتعددة وإخراجها بذكاء GPT-4 نفسه الذي يعمل بالمحول ويغذي النماذج الأخرى في خطه. 

ظهر نموذج ChatGPT الجديد، الذي أُعلن عنه في مايو 2024 جزءًا من تحديثات الربيع لشركة OpenAI، لترجمة اللغة المنطوقة في الوقت الفعلي وتكييف الاستجابات الصوتية لتشمل المحتوى العاطفي والمشاركة في محادثات شبيهة بالمحادثات البشرية. 

يدعم كل من GPT-4o و GPT-4o mini الضبط الدقيق، ما يمكّن المطورين من تطبيق هذه النماذج على حالات استخدام محددة.

ما المقصود بنموذج GPT-4o mini؟

GPT-4o mini هو نموذج GPT-4o أصغر حجمًا وأقل تكلفة وأسرع نموذج ذكاء اصطناعي توليدي في مجموعة منتجات OpenAI. على عكس النماذج اللغوية الكبيرة (LLMs) الأكبر حجمًا التي تحتوي على عشرات أو مئات المليارات من المعلمات، فإن GPT-4o mini هو نموذج صغير وبسيط. وعلى الرغم من حجمه الصغير، فإنه يتفوق على GPT-3.5 Turbo في الأداء، مع الحفاظ على سرعة مماثلة وتكلفة أقل بنسبة 60%.

مثل شقيقه الأكبر، يتمتع GPT-4o mini بقدرات متعددة الوسائط ويدعم لغات أخرى غير الإنجليزية ويمكنه التعامل مع مهام الذكاء الاصطناعي النموذجية مثل التفكير المنطقي والرياضيات والترميز. اعتبارًا من تاريخ النشر، يمكن لنموذج GPT-4o mini معالجة المدخلات النصية والصور. وتدّعي OpenAI أن دعم محتوى الصوت والفيديو معلق.

يمكن للمطوّرين الوصول إلى GPT-4o mini من خلال واجهات برمجة التطبيقات (APIs) بتكلفة 0.15 دولار أمريكي لكل مليون رمز إدخال و0.60 سنت أمريكي لكل مليون رمز إخراج.

ما الاختلاف بين GPT-4o وGPT-4 Turbo؟

GPT-4o هو نموذج رائد "شامل" قادر على معالجة المدخلات والنواتج متعددة الوسائط بمفرده كشبكة عصبية واحدة. باستخدام النماذج السابقة مثل GPT-4 Turbo وGPT-3.5، يحتاج المستخدمون إلى واجهات برمجة تطبيقات OpenAI ونماذج داعمة أخرى لإدخال أنواع مختلفة من المحتوى وتوليدها. بينما يمكن لنموذج GPT-4 Turbo معالجة مطالبات الصور، فإنه غير قادر على معالجة الصوت من دون مساعدة واجهة برمجة التطبيقات.

تُعد الطبيعة متعددة الوسائط لنموذج GPT-4o أكبر إنجاز منفرد مقارنةً بنموذج GPT-4 Turbo، وهو يدعم العديد من التطورات التي حققها: 

  • محادثات صوتية في الوقت الحقيقي 

  • إمكانات نغمة الصوت 

  • معالجة فيديو مدمجة 

  • توليد الصورة

  • كفاءة أكبر في استخدام الرموز المميزة

محادثات صوتية في الوقت الحقيقي

تسمح سرعة GPT-4o الأكبر وقدراته متعددة الوسائط بالتفاعل في محادثات وترجمة اللغات بسرعة أقرب إلى سرعة الإنسان من GPT-4 Turbo. في عرض فيديو توضيحي أُعلن فيه عن إصداره1، ظهر ChatGPT-4o وهو يترجم في الوقت الفعلي بين المتحدثين بالإنجليزية والإسبانية. يوفر GPT-4o دعمًا صوتيًا لروبوت المحادثة بأكثر من 50 لغة.

ونظرًا لقدرته على معالجة المدخلات الصوتية بنفسه، فإن GPT-4o يتمتع بزمن انتقال أقل - أي الوقت المستغرق لإنتاج النواتج من لحظة تلقي المدخلات - مقارنةً بالنماذج السابقة. فهو يستجيب للمدخلات الصوتية خلال 320 ميلي ثانية، وهو ما يضاهي زمن الاستجابة البشري النموذجي البالغ 210 ميلي ثانية.

تطلبت الإصدارات السابقة لنموذج GPT-4 نماذج متعددة مجمعة في سلسلة عمليات لتقديم خدمة مماثلة، ما زاد من زمن الانتقال إلى 5.4 ثوانٍ. قبل GPT-4o، كانت واجهة برمجة تطبيقات Whisper الخاصة بشركة OpenAI تحول المطالبات الصوتية إلى نص، ثم تغذيتها إلى GPT-4 Turbo، ثم تحول خدمات تحويل النص إلى كلام (TTS) استجابات GPT إلى صوت.

وكان GPT-4 Turbo أيضًا نموذجًا أبطأ بشكل عام. في الاختبارات المعيارية التي أجرتها منظمة تقييم الذكاء الاصطناعي Artificial Analysis2، أظهر GPT-4o سرعة 110 رموز في الثانية، أي أسرع بثلاث مرات تقريبًا من GPT-4 Turbo. وفي نفس الاختبار، تفوق GPT-4o أيضًا على العديد من المنافسين، بما في ذلك Claude 3 Opus وGemini 1.5 Pro.

إمكانات نغمة الصوت

كانت سلسلة عمليات Whisper-GPT-TTS السابقة تعني أنه عند إرسال المدخلات الصوتية، كان GPT-4 Turbo يتلقى فقط نسخًا نصيًا لما يُقال. يعزل النسخ النصي المحتوى الذي ينطقه المستخدم مع تصفية ضوضاء الخلفية وهوية المتحدث ونغمة الصوت، ما يحرم GPT من بيانات سياقية كبيرة.

وباعتباره نموذجًا متعدد الوسائط، يستطيع GPT-4o معالجة كامل المدخلات الصوتية والاستجابة بشكل مناسب لهذا السياق الإضافي. تُمكّنه معالجته المحسّنة للغة الطبيعية (NLP) من تضمين المشاعر والنغمة والمحتوى العاطفي في توليد نواتجه عند استخدامه في وضع الصوت.

معالجة الفيديو المدمجة

يعالج GPT-4o مدخلات الصور والفيديو بالإضافة إلى النص والصوت. ويمكن لنموذج GPT-4o الاتصال ببث مباشر من كاميرا أو تسجيل شاشة المستخدم، ثم وصف ما يراه والإجابة عن الأسئلة. كما يمكن للمستخدمين تشغيل كاميرات هواتفهم الذكية والتحدث مع ChatGPT-4o بالطريقة نفسها التي يتحدثون بها مع صديق أو زميل.

في السابق، سمحت واجهة برمجة تطبيقات GPT-4 Vision لنموذج GPT-4 Turbo بتحليل المحتوى المرئي.

توليد الصورة

وفقاً للبيان الصادر عن OpenAI، يوفر GPT-4o قدرات توليد صور مستقلة بذاتها. لم يكن GPT-4 Turbo قادرًا على توليد الصور إلا من خلال الاتصال بنموذج DALL-E 3 الخاص بشركة OpenAI. يرسل GPT-4 Turbo مطالبة المستخدم النصية، ثم ينشئ DALL-E الصورة.

كفاءة أكبر في استخدام الرموز المميزة

حسنت OpenAI قدرات GPT-4 على الترميز باستخدام GPT-4o. الترميز هو العملية التي تحوّل من خلالها النماذج اللغوية الكبيرة الكلمات إلى بيانات. ويمثل كل رمز إما كلمة كاملة أو جزءًا من كلمة وعلامة ترقيم. تحول نماذج الذكاء الاصطناعي الكلمات إلى رموز، ثم تطبّق رياضيات معقدة لتحليل تلك البيانات.

يحول GPT-4o اللغات غير الرومانية، مثل الصينية والهندية والعربية، إلى رموز بكفاءة أكبر بكثير من سابقيه. ونظرًا لأن OpenAI تفرض رسومًا على مستخدمي واجهة برمجة التطبيقات لكل رمز إدخال أو إخراج، فإن كفاءة GPT-4o المحسّنة في النصوص غير الرومانية تجعله أكثر فعالية من حيث التكلفة لحالات الاستخدام في تلك اللغات.

ماذا يستطيع أن يفعل GPT-4o أيضًا؟

بالإضافة إلى إمكاناته الجديدة متعددة الوسائط، يقدم GPT-4o العديد من الوظائف نفسها التي رأيناها في الإصدارات السابقة: 

  • الإجابة عن الأسئلة

  • تحليل المستندات وتلخيصها

  • تحليل المشاعر 

  • تحليل البيانات

  • البرمجة

    الإجابة عن الأسئلة

    باعتبار أن نقطة توقف المعرفة كانت في أكتوبر 2023، فإن GPT-4o هو أحدث نموذج لدى OpenAI من حيث قاعدة المعرفة. نقطة توقف المعرفة هي النقطة الزمنية التي تنتهي عندها بيانات تدريب النموذج. يمكن للمستخدمين طرح أسئلة على GPT-4o وتلقي الإجابات، على الرغم من احتمال حدوث هلوسات.

    تحليل المستندات وتلخيصها

    يمكن للمستخدمين تحميل الملفات وجعل ChatGPT يحللها ويلخصها. تسمح نافذة سياق GPT-4o التي تبلغ 128000 رمز بمعالجة مجموعات بيانات المدخلات الكبيرة، على الرغم من أنها ليست كبيرة مثل نافذة سياق Claude 3.

    تمثل نافذة السياق الخاصة بالنموذج اللغوي الكبير الحد الأقصى لعدد الرموز التي يمكن استيعابها مع الحفاظ على الوعي السياقي على كامل تسلسل المدخلات. تسمح نافذة السياق الأكبر لنماذج الذكاء الاصطناعي بمعالجة مطالبات أكثر تعقيدًا وتضمين المزيد من المعلومات من المستخدمين عند توليد الاستجابات. 

    لقد أظهر GPT-4 بالفعل قدرة حقيقة على قراءة المستندات عن طريق التعرف الضوئي على الحروف (OCR) باستخدام واجهة برمجة تطبيقات GPT-4 Vision.

    تحليل المشاعر

    تحليل المشاعر هو عملية تمييز شعور الشخص من أقواله أو سلوكياته. ويستخدم الباحثون نماذج الذكاء الاصطناعي لإجراء تحليل المشاعر على نطاق واسع - على سبيل المثال، عند تحليل مراجعات المستخدمين. باعتباره نموذجًا متعدد الوسائط، يمكن لنموذج GPT-4o تحديد المشاعر من المدخلات الصوتية.

    تحليل البيانات

    يستطيع GPT-4o معالجة مجموعات البيانات المعقدة واستخلاص معارف قابلة للتنفيذ، كما هو الحال مع منصات تحليلات الخدمة الذاتية. كما يمكنه تمثيل البيانات على هيئة مخططات ورسوم بيانية.

    البرمجة

    لا يُعد GPT-4o أول نموذج لغوي كبير يمتلك قدرات الترميز، ولكن طبيعته متعددة الوسائط يمكن أن تبسّط مهام سير العمل للمبرمجين. فبدلاً من نسخ الكود ولصقه في واجهة المستخدم، يمكن للمستخدمين مشاركة شاشاتهم والسماح لنموذج GPT-4o بتحليل الكود لديهم وتقديم الملاحظات وإنشاء أجزاء من الكود.

    كيف يعمل نموذج GPT-4o؟

    عند الكشف عن GPT-4o، أصدرت OpenAI نتائج اختبار قياس أداء النموذج اللغوي الكبير لمقارنة النموذج الجديد لديهم بالمنافسين. اختُبر GPT-4 Turbo وGPT-4 كما أُصدر في البداية وClaude 3 Opus من Anthropic وLlama 3 400B من Meta وGemini 1.5 Pro وGemini 1.0 Ultra من Google إلى جانب GPT-4o في العديد من اختبارات القياس الرائدة. 

    وشملت الاختبارات اختبار فهم اللغة متعدد المهام الضخم (MMLU)، الذي يقيّم قاعدة المعرفة ومهارات حل المشكلات، واختبار HumanEval، وهو اختبار لفحص الكود. لم تختبر OpenAI النموذج GPT-4o مقارنةً بنماذج Google في اختبار أسئلة وأجوبة على مستوى الدراسات العليا المعتمدة من Google، وهو اختبار علمي يتطلب تفكيرًا منطقيًا مستفيضًا. كما لم يشارك Llama 3 400B في اختبار الرياضيات متعدد اللغات للمرحلة الابتدائية (MGSM)، وهو اختبار رياضيات يُجرى بعشر لغات. 

    احتل GPT-4o المركز الأول في أربعة اختبارات من أصل ستة، حيث جاء في المركز الثاني بعد Claude 3 Opus في اختبار الرياضيات متعدد اللغات للمرحلة الابتدائية، وبعد GPT-4 Turbo في اختبار الاستدلال المنفصل على الفقرات (DROP)، الذي يختبر قدرة النموذج على التفكير عبر عدة فقرات.

    بشكل عام، لم يُظهر GPT-4o تقدمًا كبيرًا في الأداء على GPT-4 Turbo. ويكمن التقدم النسبي الذي حققه بشكل رئيسي في قدراته متعددة الوسائط وسرعته المتزايدة.

    كيف يمكن للأشخاص الوصول إلى GPT-4o؟

    تعمل OpenAI على إتاحة GPT-4o للمستخدمين المجانيين والمشتركين على حد سواء في مواقع ومنتجات مختلفة: 

    • ChatGPT Plus وTeam وEnterprise

    • ChatGPT Free 

    • تطبيق سطح المكتب والهاتف المحمول

    • تطبيقات الذكاء الاصطناعي

    • Microsoft Azure OpenAI Studio

    ChatGPT Plus، Teams and Enterprise

    يتمتع المشتركون في خدمات ChatGPT المدفوعة من OpenAI بمستويات متفاوتة من الوصول إلى GPT-4o. يمكن لمستخدمي ChatGPT Plus إرسال ما يصل إلى 80 رسالة كل 3 ساعات على GPT-4o، مع حصول مستخدمي Team على وصول أكبر. ولدى مستخدمو Enterprise وصول غير محدود إلى GPT-4o.

    ChatGPT Free

    يمكن لمستخدمي طبقة ChatGPT المجانية التفاعل مع GPT-4o كنموذج افتراضي خلف روبوت المحادثة بينما يسمح الطلب بذلك. وعندما يصل المستخدم المجاني إلى الحد الأقصى، سيعود إلى GPT-4o mini3.

    تطبيقات سطح المكتب والهاتف المحمول

    أصدرت OpenAI تطبيقًا لسطح المكتب لنظام macOS إلى جانب GPT-4o الذي يدمج النموذج الجديد مع جهاز MacBook الخاص بالمستخدم. كما تمنح تطبيقات الهاتف المحمول ChatGPT من OpenAI إمكانية الوصول إلى GPT-4o بناءً على فئة اشتراك المستخدم.

    تطبيقات الذكاء الاصطناعي

    يمكن لمستخدمي ChatGPT Plus وTeams وEnterprise إنشاء نماذج GPT مخصصة يمكنهم من خلالها هم وغيرهم استخدام إصدارات متخصصة من GPT-4o مصممة خصوصًا لحالات استخدام محددة. كما يمكن للمطورين أيضًا الاتصال بنموذج GPT-4o من خلال واجهات برمجة التطبيقات لإنشاء أدوات ذكاء اصطناعي أخرى.

    Microsoft Azure OpenAI Studio

    يتوفر كل من GPT-4o وGPT-4o mini في Azure OpenAI Studio من Microsoft، وهو جزء من منصة الذكاء الاصطناعي للمؤسسات Azure من Microsoft. اعتبارًا من تاريخ النشر، يواصل Copilot تقديم GPT-4 Turbo، على الرغم من أن Microsoft أعلنت في مايو 20244 أن خدمة الذكاء الاصطناعي الخاصة بها ستحصل قريبًا على دعم GPT-4o.

    ما مخاطر استخدام GPT-4o؟

    للتخفيف من الاستخدام المحتمل في عمليات الاحتيال الصوتي والتزييف العميق وأنواع أخرى من الاحتيال الصوتي، قيدت OpenAI نموذج GPT-4o بأربعة أصوات مُعدة مسبقًا عند الإطلاق. ولكن كما هو الحال مع أي إصدار للذكاء الاصطناعي التوليدي، فإن GPT-4o هو نموذج غير كامل. وتشمل مخاطر استخدامه ما يأتي: 

    • الهلوسات: مثل كل نماذج الذكاء الاصطناعي التوليدي، يمكن أن يهلوس GPT-4o - عندما يكتشف أنماطًا في بياناته غير موجودة، ما يجعله يقدم معلومات غير صحيحة على أنها واقعية. لا يُنصح أبدًا باستخدام المحتوى الذي ينشئه الذكاء الاصطناعي من دون تدقيقه أو التحقق من صحته أولاً.
    • انتهاكات البيانات: تستمر OpenAI في تخزين المدخلات التي يقدمها المستخدم وتدريب نماذجها عليها. قد يجد المستخدمون الذين يدخلون بيانات محمية في ChatGPT أن بياناتهم تظهر في ردود النموذج على المستخدمين الآخرين. 
    • انتهاكات الملكية الفكرية: تُدرب OpenAI نماذجها على البيانات المتاحة على الإنترنت، بما في ذلك المواد المحمية بحقوق الطبع والنشر مثل المقالات الإخبارية. يمكن للنماذج إنشاء محتوى محمي بحقوق الطبع والنشر عن غير قصد كجزء من الرد. 

    صنفت OpenAI نموذج GPT-4o نموذجًا متوسط الخطورة وفقًا لمقياسها الداخلي. تُقيم النماذج وفقًا لأربعة مقاييس للتهديدات - الأمن الإلكتروني والتهديدات الكيميائية والبيولوجية والإشعاعية والنووية (CBRN) والإقناع واستقلالية النموذج. وتُقيم OpenAI النماذج وفقًا لدرجة إمكانية استخدامها لتعزيز التطورات في كل مجال من مجالات التهديد.

    بمجرد تقييمها، تُمنح النماذج درجة تتراوح من منخفضة إلى حرجة في كل مجال، ثم تُمنح درجة إجمالية تتوافق مع أعلى درجة تهديد واحدة بعد النظر في أي تدابير للتخفيف من حدة التهديد.

    حصل GPT-4o على درجة منخفضة في ثلاث فئات من أصل أربع، مع درجة متوسطة في الإقناع. وهذا يعني أنه "يمكن أن ينشئ محتوى (يحتمل أن يكون تفاعليًا) بفعالية إقناع مماثلة للمحتوى النموذجي المكتوب من قِبل البشر".5 على سبيل المثال، قد تستخدمه الجهات الخبيثة نظريًا لإنشاء مقالات مضللة ومحتوى مضلل على وسائل التواصل الاجتماعي.