في سباق الهيمنة على الذكاء الاصطناعي، عادةً ما تكون النماذج الأكبر حجمًا هي الأفضل على الإطلاق. يؤدي تزايد البيانات والمعلمات إلى إنشاء أنظمة ذكاء اصطناعي أكبر حجمًا، والتي لا تكون أكثر قوةً فحسب، بل أكثر كفاءةً وسرعةً أيضًا، وتكون الأخطاء الناتجة عنها أقل بشكل عامّ من الأنظمة الأصغر حجمًا.
تعزز شركات التكنولوجيا التي تتصدر عناوين الأخبار هذا الاتجاه. قال Kevin Scott، المدير التقني لشركة Microsoft، عن الحاسوب العملاق الذي يشغل Chat GPT-5: "النظام الذي نشرناه للتو، من حيث الحجم، يكاد يكون بحجم الحوت". كان Scott يناقش أحدث إصدار من روبوت الدردشة عبر الذكاء الاصطناعي التوليدي لشركة Open AI في فعالية Build الأخيرة للشركة في أواخر شهر مايو. "واتضح أنه يمكنك بناء الكثير من الذكاء الاصطناعي باستخدام كمبيوتر عملاق بحجم الحوت."
وفي الوقت نفسه، بلغت القيمة السوقية لشركة Nvidia نحو 3 تريليون دولار أمريكي في يونيو. شركة تصنيع الشرائح تنمو بوتيرة مذهلة مع تشغيل نماذج لغوية متزايدة الحجم، وحواسيب فائقة، ومراكز البيانات تتوسع في جميع أنحاء العالم.
ولكن هل الأكبر هو الأفضل دائمًا؟ ذلك يعتمد على وجهة نظرك. بالنسبة للشركات التي تقوم بتطوير النماذج اللغوية الكبيرة، يعتبر الحجم ميزة في معظم الحالات. ولكن بينما تتطلع الشركات إلى فصل الضجيج عن المجالات التي يمكن أن يضيف فيها الذكاء الاصطناعي قيمة حقيقية، ليس من الواضح أن النماذج اللغوية الأكبر حجماً ستؤدي دائماً إلى حلول أفضل للشركات.
للمضي قدماً، قالت Kate Soule، مديرة برنامج Generative AI Research في IBM في حلقة أخيرة من بودكاست Mixture of Experts التابع لـ IBM: "لن نحتاج إلى نماذج أكبر بمئة ضعف مما لدينا اليوم لاستخلاص معظم القيمة". إذ أن العديد من الشركات التي تحقق بالفعل عائداً على استثمارات الذكاء الاصطناعي الخاصة بها تستخدمه بالفعل في مهام مثل التصنيف والتلخيص، والتي لا تستخدم حتى السعة الكاملة للنماذج اللغوية الحالية.
الرسالة الإخبارية الخاصة بالمجال
احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.
سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.
مبدأ "الأكبر هو الأفضل" ينبع من قوانين قياس البيانات التي دخلت النقاش عبر ورقة بحثية عام 2012 كتبها Prasanth Kolachina وتطبق قوانين القياس على التعلم الآلي. أظهر Kolachina وزملاؤه أنه كلما زاد حجم النماذج، أصبحت عموماً أكثر دقة وأداءها أفضل. في عام 2017، أظهر Hestness وآخرون أنه يمكن التنبؤ بتوسيع نطاق التعلم العميق تجريبيًا أيضًا. وبعد ذلك، في عام 2020، أظهر Kaplan وآخرون أن قوانين تحجيم البيانات تنطبق على النماذج اللغوية أيضًا.
وفي حين أن هذه القوانين مفيدة لمزودي النماذج اللغوية الذين يسعون جاهدين لإنشاء الذكاء العام الاصطناعي، فمن غير الواضح على الإطلاق ما إذا كانت الشركات تحتاج إلى هذا النطاق من الاستثمار أو الذكاء الاصطناعي لتحصيل معظم القيمة.
وقالت Soule التي تعمل لدى IBM: "مجرد معرفتك بالطريقة الأكثر فعالية من حيث التكلفة لتدريب نموذج بحجم من الدرجة النونية، فهل ستبرر الفوائد الفعلية التي تستمدها من هذا النموذج التكاليف؟" وأضافت: "هذا سؤال مختلف تماماً لا تجيب عليه قوانين التوسع".
ترتفع تكلفة البيانات مع تزايد ندرة البيانات عالية الجودة المستخدمة لتدريب نماذج الذكاء الاصطناعي. وجدت ورقة بحثية صادرة عن Epoch AI، وهي منظمة أبحاث في مجال الذكاء الاصطناعي، أن نماذج الذكاء الاصطناعي قد تستنفد جميع بيانات اللغة عالية الجودة المتاحة حالياً على الإنترنت بحلول عام 2026.
ولذا فإن الشركات تبدع في الوصول إلى بيانات جديدة لتدريب النماذج وإدارة التكاليف. على سبيل المثال، يتم تقديم أحدث إصدار من Chat GPT التابع لشركة Open AI مجاناً للمستخدمين مقابل الحصول على بعض بيانات المستخدمين وبيانات أطراف ثالثة. تتطلع الشركات الكبرى أيضاً إلى البيانات الاصطناعية، وهي عبارة عن صور ثنائية الأبعاد، وبيانات ثلاثية الأبعاد، ونصوص وغيرها الكثير، تُستخدم مع بيانات العالم الحقيقي لتدريب الذكاء الاصطناعي.
وبينما تتحمل الشركات التي تطور النماذج اللغوية الكبيرة تكاليف البيانات، فقد تم التغاضي إلى حد كبير عن التكاليف المناخية للنماذج اللغوية الكبيرة والمتزايدة باستمرار، فمع تزايد تعقيد هذه النماذج واستخدامها، فإنها تستهلك موارد حاسوبية هائلة. وتستهلك مراكز البيانات التي تضم الحواسيب العملاقة التي تشغل هذه النماذج كمية كبيرة من الطاقة، ما يخلق انبعاثات كربونية مقابلة.
قالت Emily Bender، أستاذة اللغويات في University of Washington، التي نشرت ورقة بعنوان On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?: "ليس الأمر مقتصراً على وجود تأثيرات كبيرة للطاقة هنا فحسب، بل إن التأثيرات الكربونية لذلك ستجلب التكاليف أولاً للأشخاص الذين لا يستفيدون من هذه التقنية".
قال Bender في بيان صحفي لجامعة واشنطن: "عندما نجري تحليل التكلفة والمنفعة، من المهم التفكير في من يحصل على المنفعة ومن يدفع التكلفة لأنهم ليسوا نفس الأشخاص".
إحدى الطرق التي توازن الشركات بين التكاليف والفائدة هي استخدام نماذج أكبر أولاً للتعامل مع أكثر مشاكل الأعمال تحديًا. وبعد ذلك، وبمجرد حصول تلك الشركات على إجابة، فإنها تتحول إلى استخدام نماذج أصغر تكرر نتائج النماذج الكبيرة ولكن بتكلفة أقل وزمن انتقال أقل.
كما يتزايد استخدام النماذج اللغوية الأصغر حجمًا كبديل للنماذج اللغوية الكبيرة.
قال Brian Peterson، المؤسس المشارك ورئيس التقنية في منصة Dialpad، وهي منصة مرتكزة على السحابة ومدعومة بالذكاء الاصطناعي لموقع PYMNTS: "توفر النماذج اللغوية الصغيرة للمستخدمين تحكمًا أكبر مقارنة بالنماذج اللغوية الأكبر، مثل ChatGPT أو Claude من Anthropic، مما يجعلها أكثر جاذبية في كثير من الحالات".
"وبإمكانها التصفية من خلال مجموعة فرعية أصغر من البيانات، ما يجعلها أسرع وأيسر تكلفة، وإذا كانت لديك بياناتك الخاصة، فستكون أكثر قابلية للتخصيص، وأكثر دقة." من غير المرجح أن يتباطأ السباق نحو بناء أجهزة نماذج لغوية أكبر وأكثر قوة في أي وقت قريب. لكن في المستقبل، يتفق معظم الخبراء على أننا سنشهد أيضا طفرة في نماذج الذكاء الاصطناعي المدمجة والقوية التي تتفوق في مجالات محددة وتقدم بديلا للشركات التي تسعى لتحقيق توازن أفضل بين قيمة وتكاليف الذكاء الاصطناعي.
استكشف مكتبة نماذج الأساس من IBM في محفظة watsonx لتوسيع نطاق الذكاء الاصطناعي التوليدي لأعمالك بثقة.
استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.
أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.