8 دقائق
مسرِّع الذكاء الاصطناعي هو أي قطعة من الأجهزة -بما في ذلك وحدة معالجة الرسومات (GPU)- تُستخدَم لتسريع التعلم الآلي (ML) ونماذج التعلم العميق (DL) ومعالجة اللغة الطبيعية وعمليات الذكاء الاصطناعي الأخرى.
ومع ذلك، يُستخدم مصطلح مسرِّع الذكاء الاصطناعي بشكل متزايد لوصف شرائح الذكاء الاصطناعي الأكثر تخصصًا، مثل وحدات المعالجة العصبية (NPUs) أو وحدات معالجة التنسور (TPUs). بينما تُعَد وحدات معالجة الرسوميات (GPUs) متعددة الأغراض -التي صُممت في الأصل لمعالجة الصور والرسوم- فعَّالة جدًا عند استخدامها كمسرِّعات للذكاء الاصطناعي، قد تقدِّم أنواع أخرى من الأجهزة المخصصة للذكاء الاصطناعي قوة حسابية مشابهة أو أفضل مع كفاءة طاقة محسَّنة، وزيادة في معدل نقل البيانات، وتحسينات أخرى ذات قيمة لأعباء عمل الذكاء الاصطناعي.
تعمل وحدات المعالجة المركزية (CPUs) القياسية ضمن إطار خطي، تستجيب للطلبات واحدة تلو الأخرى وغالبًا ما تواجه صعوبة في التعامل مع متطلبات معالجة البيانات عالية الأداء. تم تصميم وحدات معالجة الرسومات بشكل مختلف وهي متفوقة في مثل هذه الطلبات.
تتميز وحدات معالجة الرسوميات (GPUs) بنوى متعددة منطقية، حي تقسِّم المشكلات المعقدة إلى أجزاء أصغر يمكن حلها في وقت واحد، وهي منهجية تُعرَف باسم المعالجة المتوازية. طوَّرت شركة Nvidia واجهة برمجة التطبيقات CUDA في الأصل عام 2006، والتي فتحت القوة الكبيرة للمعالجة المتوازية لوحدة معالجة الرسومات (GPU). يُتيح هذا للمبرمجين استخدام وحدات معالجة الرسوميات من Nvidia لأغراض معالجة عامة في الآلاف من حالات الاستخدام، مثل تحسين مراكز البيانات، وعمليات التشغيل الآلي، وتصنيع الهواتف الذكية، وتعدين العملات الرقمية، وغيرها.
لقد أثبتت قدرات المعالجة المتوازية المذهلة لوحدات معالجة الرسومات (GPU) جدواها الكبيرة في مهام الذكاء الاصطناعي مثل تدريب النماذج اللغوية الكبيرة (LLMs) أو الشبكات العصبية. ومع ذلك، مع زيادة الطلب تأتي زيادة استهلاك الطاقة. بالإضافة إلى ذلك، تشتهر وحدات معالجة الرسومات عالية الأداء باستهلاكها الكبير للطاقة وارتفاع تكلفتها.
على الرغم من كونها مناسبة تمامًا لتطبيقات الذكاء الاصطناعي مثل معالجة مجموعات البيانات الكبيرة، إلا إن وحدات معالجة الرسومات ليست مصممة خصيصًا للاستخدام في نماذج الذكاء الاصطناعي. بوصفها معالج رسومي، تخصِّص وحدة معالجة الرسومات العادية عددًا معينًا من النوى المنطقية للمهام المتعلقة بالرسومات. تشمل هذه المهام ترميز الفيديو وفك ترميزه، وحساب قِيَم الألوان، والعمليات المختلفة للعرض التي تُعَد حاسمة لمهام مثل تحرير الفيديو، والنمذجة ثلاثية الأبعاد، والألعاب. ومع ذلك، يتم ضبط شرائح مسرِّع الذكاء الاصطناعي للتعامل مع المهام اللازمة فقط لعمليات الذكاء الاصطناعي.
بشكل عام، يجب أن تكون وحدة معالجة الرسومات قادرة على معالجة كمية كبيرة (لكنها ليست ضخمة) من البيانات بسرعة عالية لتتمكن من عرض الرسومات المعقدة والسريعة بسلاسة وفي الوقت الفعلي. وعلى هذا النحو، تعطي وحدات معالجة الرسومات الأولوية للعمليات ذات زمن الانتقال القصير لضمان جودة صورة ثابتة ومتسقة وعالية.
ورغم أن السرعة مهمة أيضًا في نماذج الذكاء الاصطناعي، إلا إن مجموعات بيانات الذكاء الاصطناعي أكبر بكثير من متطلبات وحدة معالجة الرسومات العادية. وعلى عكس وحدات معالجة الرسومات، تم تصميم مسرِّعات الذكاء الاصطناعي لتحسين عرض النطاق الترددي، ونتيجةً لذلك، غالبًا ما توفِّر كفاءة طاقة محسَّنة.
رغم أن وحدات معالجة الرسومات تُستخدَم كثيرًا كمسرِّعات للذكاء الاصطناعي، إلا إنها قد لا تكون الخيار الأفضل مقارنةً بمسرِّعات الذكاء الاصطناعي المتخصصة أكثر. تتمثل الاختلافات الرئيسية بين وحدات معالجة الرسومات ذات الأغراض العامة وشرائح الذكاء الاصطناعي المتخصصة في التخصص والكفاءة وسهولة الوصول وفائدة الاستخدام.
بالنسبة إلى تطبيقات الذكاء الاصطناعي، يمكن أن تكون وحدة معالجة الرسومات (GPU) حلًا عامًا جيدًا، تمامًا كما تُعَد شاحنة البيك أب خيارًا وسطًا مناسبًا بين سيارة رياضية وشاحنة نقل ضخمة. رغم أن الشاحنة ذات 18 عجلة أبطأ من السيارة الرياضية، إلا إنها قادرة على حمل كميات أكبر من البضائع. يمكن للشاحنة الصغيرة نقل بعض البضائع وهي أسرع من الشاحنة ذات 18 عجلة، ولكنها أبطأ من السيارة الرياضية.
تشبه وحدة معالجة الرسومات الشاحنة الصغيرة، لكن حسب أولويات تطبيقات الذكاء الاصطناعي، قد تكون الشريحة المتخصصة خيارًا أفضل، تمامًا كما قد تكون المركبة المتخصصة أنسب في بعض المهام.
تم ابتكار وحدات معالجة الرسومات، والتي تُعرَف أحيانًا بوحدات المعالجة الرسومية، في تسعينيات القرن الماضي لتخفيف الضغط عن وحدات المعالجة المركزية، مع تحوُّل الحوسبة من النمط النصي إلى الأنظمة الرسومية وازدياد شعبية ألعاب الفيديو.
منذ اختراع الحاسوب الحديث في أوائل الخمسينيات، كانت وحدة المعالجة المركزية (CPU) مسؤولة تاريخيًا عن أهم المهام الحسابية، بما في ذلك جميع المعالجات اللازمة لتشغيل البرامج، والمنطق، والتحكم في عمليات الإدخال/الإخراج (I/O).
بحلول التسعينيات، أصبحت ألعاب الفيديو والتصميم بمساعدة الحاسوب (CAD) تتطلب طريقة أكثر كفاءة لتحويل البيانات إلى صور. وقد دفعت هذه التحديات المهندسين إلى تصميم أولى وحدات معالجة الرسومات (GPU) بهندسة شرائح فريدة قادرة على تنفيذ المعالجة المتوازية.
منذ عام 2007، عندما قدمت Nvidia منصة برمجة GPU المسماة CUDA، انتشر تصميم وحدات معالجة الرسومات بشكل واسع، مع اكتشاف تطبيقات لها في مختلف الصناعات وما يتجاوز معالجة الرسومات (رغم أن عرض الرسومات لا يزال التطبيق الأكثر شيوعًا لمعظم وحدات معالجة الرسومات).
على الرغم من وجود مئات الأنواع من وحدات معالجة الرسومات التي تتنوع من حيث الأداء والكفاءة، إلا إن الغالبية العظمى منها تندرج تحت واحدة من ثلاث فئات رئيسية:
في حين يُقصَد بمسرِّع الذكاء الاصطناعي أي جهاز مادي يُستخدَم لتسريع تطبيقات الذكاء الاصطناعي، فإن المسرِّع عادةً ما يشير إلى شرائح ذكاء اصطناعي متخصصة محسَّنة لمهام محددة مرتبطة بنماذج الذكاء الاصطناعي.
على الرغم من أنها تُعَد أجهزة متخصصة للغاية، إلا إن مسرِّعات الذكاء الاصطناعي يتم بناؤها واستخدامها من قبل شركات الحوسبة القديمة بما في ذلك IBM وAmazon Web Services (AWS) ومايكروسوفت، بالإضافة إلى الشركات الناشئة مثل Cerebras. ومع تطور الذكاء الاصطناعي وازدياد شعبيته، أصبحت مسرِّعات الذكاء الاصطناعي وأدواتها المصاحبة أكثر شيوعًا.
قبل اختراع أول مسرِّعات مخصصة للذكاء الاصطناعي، كانت وحدات معالجة الرسومات العامة تُستخدَم (ولا تزال) بشكل متكرر في تطبيقات الذكاء الاصطناعي، نظرًا لقدرتها العالية على المعالجة المتوازية. ومع ذلك، مع تقدُّم أبحاث الذكاء الاصطناعي على مر السنين، سعى المهندسون إلى إيجاد حلول مسرِّعات الذكاء الاصطناعي التي توفِّر كفاءة طاقة محسَّنة وتحسينات متخصصة في الذكاء الاصطناعي.
تختلف مسرِّعات الذكاء الاصطناعي من حيث الأداء ودرجة التخصص، حيث يتم احتكار بعض التقنيات الخاصة من قِبَل جهات تصنيع محددة فقط. ومن بين الأنواع الأكثر شهرة لمسرِّعات الذكاء الاصطناعي ما يلي:
بينما توفر وحدات معالجة الرسومات الجاهزة بعض المزايا مثل التوفر وسهولة الوصول، فإن مسرِّعات الذكاء الاصطناعي المتخصصة عادةً ما تتفوق على التكنولوجيا القديمة في ثلاثة مجالات رئيسية: السرعة، والكفاءة، والتصميم.
تتفوق مسرِّعات الذكاء الاصطناعي الحديثة، بما في ذلك وحدات معالجة الرسومات (GPUs)، بشكل كبير على وحدات المعالجة المركزية (CPUs) في معالجة البيانات واسعة النطاق ذات زمن الانتقال القصير. في التطبيقات الحساسة مثل أنظمة السيارات ذاتية القيادة، تصبح السرعة أمرًا حيويًا للغاية. تُعَد وحدات معالجة الرسومات أفضل من وحدات المعالجة المركزية، ولكن وحدات ASIC المصممة لتطبيقات محددة مثل رؤية الكمبيوتر المستخدمة في السيارات ذاتية القيادة أسرع.
قد تكون مسرِّعات الذكاء الاصطناعي المصممة لمهام محددة أكثر كفاءة في استهلاك الطاقة بمعدل يتراوح بين 100 إلى 1,000 مرة مقارنةً بوحدات معالجة الرسومات التي تستهلك طاقة عالية. يمكن أن يؤدي تحسين الكفاءة إلى تقليل كبير في النفقات التشغيلية، والأهم من ذلك، تقليل الأثر البيئي بشكل كبير.
تعتمد مسرِّعات الذكاء الاصطناعي على نوع من بنية الشرائح يُعرَف بالتصميم غير المتجانس، والذي يُتيح وجود معالجات متعددة لدعم مهام منفصلة ويزيد من أداء الحوسبة من خلال معالجة متوازية متقدمة جدًا.
نظرًا لأن وحدات معالجة الرسومات تُعَد مسرِّعات ذكاء اصطناعي بحد ذاتها، فإن حالات استخدامها تتداخل كثيرًا مع الأجهزة المتخصصة في الذكاء الاصطناعي. ومع مرور الوقت، قد يتراجع دور وحدات معالجة الرسومات في تطبيقات الذكاء الاصطناعي.
تظل وحدات معالجة الرسومات متعددة الاستخدامات مستخدمة على نطاق واسع في تطبيقات الذكاء الاصطناعي وأنواع أخرى من التطبيقات، ومن المؤكد أن هذا سيستمر. وتُستخدَم وحدات معالجة الرسومات في مجموعة من التطبيقات التي تتطلب معالجة متوازية متقدمة، ومنها ما يلي:
مع تطور تقنية الذكاء الاصطناعي، أصبحت الأجهزة المتخصصة أكثر انتشارًا. ومن خلال دمج قوة المعالجة المتوازية لوحدات معالجة الرسومات مع التخلص من الميزات غير الضرورية، يتم استخدام مسرِّعات الذكاء الاصطناعي ASIC في مجموعة متزايدة من التطبيقات، منها ما يلي: