أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء
احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.
في التعلم الآلي، يُقصد باستدلال الذكاء الاصطناعي استخدام نموذج ذكاء اصطناعي مُدرَّب لإجراء تنبؤات استنادًا إلى بيانات جديدة. وبعبارة أخرى، فإن أي حالة يُنتج فيها نموذج ذكاء اصطناعي مخرجات فعلية أو يتخذ قرارات ضمن تطبيق عملي للذكاء الاصطناعي تُعد استدلالًا للذكاء الاصطناعي. وبصياغة مبسطة، يعني استدلال الذكاء الاصطناعي أن يطبّق نموذج مُدرَّب الأنماط التي تعلّمها من بيانات التدريب الخاصة به ليستنتج المخرج الصحيح لمدخل معيّن.
وكل تطبيقات التعلم الآلي، من نماذج كشف رسائل البريد الإلكتروني العشوائي إلى أنظمة الملاحة التي تشغّل السيارات ذاتية القيادة وصولًا إلى الذكاء الاصطناعي التوليدي، تقوم في جوهرها على التعرّف على الأنماط. وتُدرَّب النماذج لكي تؤدي بكفاءة على مجموعة بيانات تضم مهام نموذجية أو نقاط بيانات. وأثناء تدريب النموذج، تُعدَّل معلمات النموذج ومعلماته الفائقة إلى أن تصبح آلية اتخاذ القرار فيه متوافقة مع أنماط بيانات التدريب. ويقوم الافتراض الأساسي في التعلم الآلي على أنه إذا كانت بيانات التدريب وثيقة الصلة بما سيواجهه النموذج في سيناريوهات العالم الحقيقي، فسيتمكن من تقديم تنبؤات دقيقة في حالات الاستخدام الفعلية.
وعلى الرغم من أن كثيرًا من مصطلحات الذكاء الاصطناعي شديدة التقنية، فإن "استدلال الذكاء الاصطناعي" في الحقيقة مصطلح مباشر وبديهي.
فنموذج التنبؤ في سوق الأسهم لا يعرف كيف سيتغير سعر سهم معيّن، بل يستدل، استنادًا إلى مدى تشابه سجل هذا السهم مع الاتجاهات السابقة لتحركات الأسعار، على ما قد يحدث بعد ذلك.
ونموذج كشف الرسائل العشوائية لا يعرف ما إذا كانت رسالة بريد إلكتروني معيّنة بريدًا عشوائيًا، بل يستدل، بناءً على مدى تشابه تلك الرسالة مع أمثلة البريد العشوائي التي اطّلع عليها أثناء التدريب، على ما إذا كانت بريدًا عشوائيًا أم لا.
ويستدل النموذج اللغوي الكبير (LLM) بصورة تكرارية على الكلمة التالية - أو بالأحرى، الرمز المميز التالي - اعتمادًا على الأنماط اللغوية في ملايين العينات النصية التي دُرّب عليها.
وتستدل شبكات التواصل الاجتماعي على المحتوى الذي يُرجَّح أن تتفاعل معه استنادًا إلى المحتوى الذي تفاعلت معه أنت وأشخاص يشبهونك من قبل.
بينما يتمثل الهدف من تدريب الذكاء الاصطناعي في تحقيق دقة النموذج ومواءمته، فإن الهدف من استدلال الذكاء الاصطناعي هو نشر ذلك النموذج المُدرَّب وتشغيله بأقصى قدر ممكن من الكفاءة وبأعلى فعالية من حيث التكلفة. وقد يختلف أداء نموذج الذكاء الاصطناعي نفسه باختلاف أطر الاستدلال.
ولا يوجد إعداد واحد "أمثل" لاستدلال الذكاء الاصطناعي يصلح لجميع الحالات. فهناك العديد من الطرق لتوزيع أحمال التشغيل، وأنواع مختلفة من الأجهزة، إلى جانب الخوارزميات الحسابية المستخدمة معها، فضلًا عن بيئات متنوعة تتيح الوصول إلى تلك الأجهزة. ويعتمد الإعداد الأنسب لسيناريو معيّن على طبيعة حالة الاستخدام وأحمال التشغيل لديك. وبالنسبة إلى المؤسسات، يتمثل التحدي عادة في تحديد نهج للاستدلال يوازن بين الحاجة إلى زمن انتقال قصير ومتطلبات قابلية التوسّع والفعالية من حيث التكلفة.
وينطوي كل من استدلال الذكاء الاصطناعي وتدريبه على قيام نموذج بإجراء تنبؤات استنادًا إلى بيانات الإدخال. ويكمن الاختلاف بينهما في الغرض من كل منهما، وفي حالة تدريب الذكاء الاصطناعي، في الخطوات الإضافية المتَّبعة لتحقيق ذلك الغرض.
فالتدريب هو المرحلة التي يحدث فيها "التعلُّم" في التعلم الآلي. وفي تدريب النموذج، يُجري نموذج التعلم الآلي تنبؤات على دفعة من أمثلة بيانات التدريب. وفي التعلم الخاضع للإشراف، تحسب دالة الخسارة متوسط الخطأ، أو "الخسارة"، لكل تنبؤ، وتُستخدم خوارزمية تحسين لتحديث معلمات النموذج بطريقة تقلّل هذه الخسارة. تتكرر هذه العملية بشكل متكرر حتى يتم تقليل الخسارة إلى مستوى مقبول. ويعمل التعلم المعزَّز بطريقة مشابهة، إلا أن هدفه يتمثل في تعظيم دالة المكافأة بدلًا من تقليل دالة الخسارة.
وباختصار، يتضمن تدريب الذكاء الاصطناعي عادةً تمريرة أمامية يُنتج فيها النموذج مخرجًا استجابةً لكل مُدخل، وتمريرة خلفية تُحسب فيها التحسينات المحتملة على معلمات النموذج. تُمثّل تحديثات المعلمات هذه "معرفة" نموذج التعلم الآلي.
وفي استدلال الذكاء الاصطناعي، يُجري النموذج المُدرَّب بعد ذلك تنبؤات استنادًا إلى بيانات إدخال واقعية. ويعمل استدلال الذكاء الاصطناعي بالاعتماد على ما "تعلّمه" النموذج، أي تحديثات معلمات النموذج التي أُجريت لتحسين أدائه على بيانات التدريب، ليستنتج المخرج الصحيح لبيانات الإدخال الجديدة. وعلى خلاف تدريب النموذج، لا يتضمن الاستدلال سوى تمريرة أمامية.
ومع أن التدريب والاستدلال عادةً ما يكونان مرحلتين منفصلتين ومتميزتين، إلا أنه من الجدير بالذكر أنهما ليسا متعارضين تمامًا. فعلى سبيل المثال، تكون خوارزمية التوصية في منصة تواصل اجتماعي قد دُرِّبت بالفعل على مجموعات بيانات كبيرة لسلوك المستخدمين قبل انضمامك إلى المنصة، وتُجري استدلالًا في كل مرة تقدم لك فيها اقتراحات للمحتوى. لكن ذلك النموذج المُدرَّب يُضبط أيضًا باستمرار على سلوكياتك الفردية، فيُحسّن اقتراحاته استنادًا إلى كيفية تفاعلك الشخصي مع المحتوى.
احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.
وكلمة "نوع" هنا فضفاضة الدلالة، إذ توجد طرق عديدة لتنفيذ استدلال الذكاء الاصطناعي، وبالتالي توجد أيضًا طرق عديدة لتحديد أنواعه المختلفة. لكن الفئتين الأساسيتين الأكثر شيوعًا لاستراتيجيات استدلال الذكاء الاصطناعي هما الاستدلال الدفعي والاستدلال الفوري.
وفي الاستدلال الفوري، يعالج النموذج المُدرَّب بيانات الإدخال فورًا، مُدخلًا واحدًا في كل مرة. ويُعد الاستدلال الفوري مناسبًا لأي نظام ذكاء اصطناعي تكون مخرجاته حساسة للوقت، مثل المركبات ذاتية القيادة أو المزايدة على الإعلانات الرقمية أو التسعير الديناميكي، أو لأي نظام يتطلب تفاعلات مباشرة مع المستخدمين، مثل روبوتات المحادثة أو الترجمة الآلية.
وينطوي الاستدلال الفوري عمومًا على تكلفة أعلى وتعقيد أكبر، ولا سيما في أحمال التشغيل الثقيلة والشبكات العصبية الكبيرة التي تقوم عليها نماذج التعلم العميق، لكنه يكون غالبًا ضروريًا في أي حالة استخدام واقعية تتطلب اتخاذ قرارات في الوقت الفعلي. فروبوت المحادثة أو السيارة ذاتية القيادة يجب أن يعالجا البيانات في الوقت الفعلي حتى لا تتدهور تجربة المستخدم. ولا تتأثر فاعلية نظام ذكاء اصطناعي يتنبأ بما إذا كان ينبغي منح متقدمٍ ما قرضًا بتأخير طفيف بين الإدخال والمخرج، لكن بضع ميلي ثانية إضافية من التأخر في مركبة ذاتية القيادة قد تعرّض الركاب للخطر.
وفي الاستدلال الدفعي، يعالج النموذج المُدرَّب حجمًا كبيرًا من المدخلات على نحو غير متزامن ضمن مجموعات، أو "دفعات". وعادةً ما تُجدول كل دفعة لوقت محدد. فعلى سبيل المثال، قد تستخدم مؤسسةٌ ما الاستدلال الدفعي لإعداد تقارير ليلية عن مجمل أنشطة ذلك اليوم. ويتيح ذلك قدرًا أكبر من المرونة والكفاءة، مما يجعل الاستدلال الدفعي الخيار الأكثر فعالية من حيث التكلفة. ومع ذلك، لا يكون هذا النهج عمليًا إلا في الحالات التي لا تمثل فيها السرعة عاملًا مهمًا.
كما يتيح الاستدلال الدفعي استخدامًا أكثر كفاءة للأجهزة. فعلى سبيل المثال، تضم وحدات معالجة الرسوميات آلافًا عديدة من وحدات المعالجة، أو "الأنوية"، ويمكن لكل واحدة منها إجراء العمليات الحسابية بالتوازي وفي الوقت نفسه. أما إجراء الاستدلال لمدخل واحد من دون الاستفادة من جميع تلك الأنوية، فهو أشبه بترك مقاعد فارغة في حافلة: قد يكون ذلك ضروريًا في الحالات الحساسة للوقت، لكنه ليس استخدامًا أمثل للموارد. ويتيح لك الاستدلال الدفعي إجراء الاستدلال فقط عندما تصبح مواردك المادية "ممتلئة"، إن صحّ التعبير.
علاوة على ذلك، يجب تحميل معلمات النموذج - التي تتضمن، في نماذج التعلم العميق، مليارات فعلية من أوزان النموذج - إلى ذاكرة النظام في كل مرة يُجرى فيها الاستدلال. وينطوي ذلك على استهلاك للطاقة وتكاليف إضافية. ويقلل الاستدلال الدفعي عدد المرات التي يجب فيها تحميل الأوزان إلى ذاكرة الوصول العشوائي (RAM)، مما يوزّع التكلفة على الدفعة بأكملها.
يُعد التجميع المصغّر نهجًا وسطًا بين الاستدلال الفوري والاستدلال الدفعي؛ فكما يوحي اسمه، يتضمن إجراء الاستدلال على دفعات صغيرة.
لا يوجد حجم دفعة واضح وقابل للقياس يميّز "التجميع المصغّر" عن "التجميع" عمومًا. بل إن التمييز بين النهجين يعتمد أساسًا على الهدف من كل منهما: إذ يهدف التجميع المصغّر إلى زيادة إنتاجية النموذج مع الحفاظ -في الغالب- على سرعته، في حين يهدف الاستدلال الدفعي التقليدي إلى تحقيق أقصى قدر من الكفاءة، ولا يضع زمن الانتقال في الحسبان عمومًا. وفي الاستدلال الدفعي، قد تُعالَج بيانات الإدخال بعد دقائق أو حتى ساعات من استلامها، أما التجميع المصغّر فعادةً ما يستهدف حصر التأخر في بضع ميلي ثوانٍ إلى بضع ثوانٍ فقط.
ولعل أبرز تطبيقات التجميع المصغّر يتمثل في استدلال النماذج اللغوية الكبيرة (LLMs) المستند إلى السحابة عبر منصات كبرى مثل Claude من Anthropic أو ChatGPT من OpenAI. وعندما يوجّه آلاف المستخدمين موجِّهات إلى روبوت محادثة في الوقت نفسه، تعالج هذه الخدمات عادةً عدة موجِّهات بالتوازي، مما يزيد الكفاءة من دون تأخر ملحوظ بالنسبة إلى المستخدم النهائي.
ومن أهم الاعتبارات عند تصميم نظام بنائي للذكاء الاصطناعي تحديد المكان الذي سيُشغَّل فيه عبء عمل الاستدلال فعليًا. وبعبارة أخرى، يتعلق الأمر بمكان وجود الأجهزة وكيفية الوصول إليها.
وتنقسم بيئات النشر عمومًا إلى أربع فئات رئيسية، لكل منها نقاط قوة ومفاضلات خاصة بها.
البيئات المحلية
السحابة
نشر على الحافة
على الجهاز
وفي النشر المحلي (أو on-prem)، تُشغَّل نماذج الذكاء الاصطناعي على أجهزة مادية تملكها أنت أو مؤسستك وتتولون صيانتها بأنفسكم.
ويتيح النشر المحلي أعلى قدر ممكن من التحكم في أحمال تشغيل الذكاء الاصطناعي، لأنك تملك بنفسك صلاحية تحديد كيفية معالجة البيانات ومتى تتم، وكذلك كيفية تخصيص الموارد الحاسوبية. ويكون ذلك مفيدًا على نحو خاص في القطاعات شديدة التنظيم، مثل الرعاية الصحية والقطاع المالي والجهات الحكومية والقطاع القانوني، حيث يكون الالتزام الصارم بمتطلبات خصوصية البيانات وأمنها إلزاميًا.
غير أن هذا القدر من التحكم يقابله ارتفاع في التكلفة والجهد التشغيلي المطلوبين. ينطوي النشر المحلي، ولا سيما عند استخدام الأجهزة اللازمة لأحمال التشغيل على مستوى المؤسسات والنماذج الضخمة المرتبطة عادةً بالذكاء الاصطناعي التوليدي، على استثمار أولي كبير. كما يتطلب الاستعانة بمتخصصين في تكنولوجيا المعلومات لإدارة تلك الخوادم.
أما في النشر السحابي، فتُشغَّل النماذج على خوادم بعيدة يديرها موردون خارجيون، مثل IBM، داخل مراكز بيانات كبيرة. ويُمكّن ذلك المؤسسة من استخدام أجهزة عالية الأداء مخصصة للذكاء الاصطناعي من دون الحاجة إلى الاستثمار الأولي الضخم اللازم لشرائها أو إلى الجهد التشغيلي المستمر المطلوب لصيانتها. ولذلك، يمثّل النشر السحابي عادةً أسرع طريق إلى قابلية التوسّع، خصوصًا في الحالات التي تحتاج فيها إلى زيادة مواردك الحاسوبية بسرعة لتلبية ارتفاع مفاجئ في الطلب.
غير أن هذه المرونة وقابلية التوسّع تقابلهما مفاضلة تتعلق بسيادة البيانات، وفي بعض الحالات، بزمن الانتقال والتكاليف طويلة الأجل. فقد تنتقل البيانات ذهابًا وإيابًا بين المستخدم وخوادم السحابة، مما قد يؤثر سلبًا في سرعة الاستدلال، وإن كان هذا الأثر يتضاءل غالبًا بفضل الأجهزة الأعلى قدرة التي يتيحها عادةً كبار مزودي الخدمات السحابية. ويؤدي ذلك أيضًا إلى تعقيدات نظرية تتعلق بمنشأ البيانات، إذ تصبح البيانات معرّضة لجهات أكثر مما تكون عليه في سيناريوهات النشر المحلي.
ويشير النشر على الحافة إلى استخدام موارد حاسوبية تقع فعليًا على مقربة من مصدر البيانات، مثل أجهزة إنترنت الأشياء (IoT) والشبكات المحلية.
وبوجه عام، يمكن فهم النشر على الحافة على أنه نموذج يشبه نوعًا ما "سحابة محلية". ويكون هذا النهج أكثر فائدة عندما يلزم تجميع البيانات من عدد من الأجهزة أو توزيعها عليها، مثل أجهزة الاستشعار الممتدة على طول خط تجميع في مصنع أو أجهزة المراقبة في مستشفى، ثم معالجتها في زمن شبه حقيقي. وفي مثل هذه السيناريوهات، يتيح إجراء عمليات الاستدلال عبر الأجهزة الموجودة عند "حواف" الشبكة المحلية معالجةً أسرع وخصوصيةً أكبر مما يتيحه النشر السحابي.
غير أن هذه المزايا تتراجع، إلى حدّ ما، بسبب اعتماد الحوسبة الطرفية عادةً على أجهزة محدودة نسبيًا مقارنةً بما يتيحه مزودو الخدمات السحابية. ومع ازدياد حجم الشبكات المحلية، تزداد صعوبة إدارة التحديثات عبر مئات أو آلاف العُقد الطرفية.
ويُعد النشر على الجهاز النهج الأكثر مباشرة، إذ يُجرى استدلال الذكاء الاصطناعي مباشرةً على جهاز المستخدم النهائي، مثل كمبيوتر محمول أو هاتف ذكي.
ويمتاز النشر على الجهاز بالبساطة والأمان، ويوفر نظريًا أعلى قدر ممكن من خصوصية المستخدم. إلا أنه يظل محدودًا بالقدرة الحاسوبية للجهاز نفسه، إذ إن القدرة الحاسوبية المتاحة في الهاتف الذكي، أو حتى في كمبيوتر استهلاكي عالي الأداء، تظل عمومًا أقل بكثير مقارنة بالقدرة الحاسوبية المتوفرة في الأجهزة المتخصصة. وعلى الهواتف الذكية على وجه الخصوص، يقتصر الاستدلال على الجهاز عادةً على مهام محددة، مثل فلاتر الكاميرا، والتعرّف على الوجوه، وتحويل الكلام إلى نص.
يُعَد الاستدلال بالذكاء الاصطناعي عملية معقدة تتطلب تدريب نموذج الذكاء الاصطناعي على مجموعات بيانات مناسبة ليتمكن من استنتاج ردود دقيقة. وهذه عملية تتطلب قدرًا كبيرًا من الحوسبة، ما يستلزم استخدام أجهزة وبرامج متخصصة. قبل النظر في عملية تدريب نماذج الذكاء الاصطناعي للاستدلال بالذكاء الاصطناعي، دعونا نستعرض بعض الأجهزة المتخصصة التي تمكِّن ذلك:
وقد صُممت وحدات معالجة الرسوميات في الأصل، كما يوحي اسمها، لمعالجة الرسومات وعرضها، كما في ألعاب الفيديو. ويتطلب عرض الرسومات ثلاثية الأبعاد، شأنه في ذلك شأن إجراء الاستدلال للشبكات العصبية العميقة، عمليات ضرب هائلة للمصفوفات، مثل حساب تأثيرات الإضاءة والملمس على آلاف وحدات البكسل في الوقت نفسه.
وقد شهدت القدرة على توظيف هذا التوازي في العمليات الحسابية، بدلًا من الرسومات، قفزة كبيرة عندما قدمت NVIDIA منصة Compute Unified Device Architecture (CUDA)، وهي منصة برمجية وواجهة برمجة تطبيقات ونموذج برمجة يتيح للمطورين كتابة تعليمات برمجية تعمل مباشرةً على آلاف الأنوية المتوازية في وحدة معالجة الرسوميات. ولا تزال وحدات معالجة الرسوميات اليوم تمثل العتاد القياسي في القطاع لتدريب نماذج التعلم العميق وتشغيلها.
أما وحدات TPU فهي رقائق مخصصة مملوكة لشركة Google، صُممت خصيصًا للشبكات العصبية. ومع أن وحدات معالجة الرسوميات هي معالجات متوازية مرنة للأغراض العامة، إلا أن وحدات TPU مصممة حصريًا لتنفيذ العمليات السريعة على المصفوفات. وعلى الرغم من أن وحدات TPU أقل مرونة من وحدات معالجة الرسوميات، فإنها توفر سرعة أعلى وكفاءة أفضل في استهلاك الطاقة عند معالجة كميات هائلة من بيانات الشبكات العصبية.
وقد صُممت وحدات المعالجة العصبية (NPUs)، مثل وحدات TPU، خصيصًا لمعالجة العمليات الحسابية الخاصة بالشبكات العصبية. وتُستخدم هذه الوحدات عادةً في الهواتف الذكية وغيرها من الأجهزة المحمولة، لأن قدراتها الأكثر تخصصًا تقلّل استهلاك الطاقة مقارنةً بوحدات معالجة الرسوميات.
وتُعد مصفوفات البوابات القابلة للبرمجة ميدانيًا (FPGAs) نوعًا من الدوائر المتكاملة القابلة للتهيئة، ويمكن برمجتها، وإعادة برمجتها، بما يلائم متطلبات تطبيقات محددة، بما في ذلك عمليات الذكاء الاصطناعي. وعلى الرغم من أنها توفر عمومًا قدرة معالجة أقل من وحدات معالجة الرسوميات المتقدمة، فإن FPGAs تكون مفيدة عندما تكون هناك حاجة إلى تخصيص بالغ الدقة.
أما ASICs، فعلى خلاف FPGAs، لا يمكن تخصيصها أو إعادة تهيئتها. إذ تُصمَّم خصيصًا لأداء مهمة واحدة بأعلى قدر ممكن من الكفاءة. فعلى سبيل المثال، تُعد وحدات TPU من Google نوعًا من ASICs المصممة لتنفيذ عمليات الشبكات العصبية حصريًا باستخدام TensorFlow وPyTorch وJAX.
وغالبًا ما تتجاوز أحمال تشغيل التدريب أو الاستدلال في نموذج كبير من نماذج الذكاء الاصطناعي التوليدي قدرة حتى أكبر أجهزة التسريع. وعندما يكون عبء العمل أكبر من أن تستوعبه وحدة معالجة رسومية واحدة، يمكن توزيعه على عدة معالجات باستخدام تقنية واحدة أو أكثر من تقنيات التوازي لتقسيم العمل وتوزيعه. وتوجد نماذج عديدة للتوازي، لكن أبرزها توازي البيانات وتوازي الموترات وتوازي خطوط المعالجة.
وغالبًا ما يستطيع المطورون الاستفادة من أطر العمل مفتوحة المصدر، مثل vLLM، لتحسين عملية توزيع الاستدلال على أجهزة متعددة وتبسيطها.
وفي توازي البيانات، تُنسخ نسخة كاملة من النموذج على كل معالج. ثم تُقسَّم مجموعة بيانات الإدخال نفسها إلى عدة دفعات، أو "أجزاء مجزأة"، وتتولى كل نسخة من النموذج - أي كل معالج - معالجة دفعة واحدة. وربما كانت هذه الطريقة أبسط أساليب التوازي، لكنها تتطلب أن تكون سعة كل معالج كافية لاستيعاب جميع معلمات النموذج في الذاكرة. وعند التعامل مع النماذج اللغوية الكبيرة (LLMs) والنماذج اللغوية البصرية (VLMs) الأكبر حجمًا، التي تضم عشرات أو مئات المليارات من المعلمات، نادرًا ما يكون ذلك ممكنًا. وفي مثل هذه الحالات، لا بد من استخدام نماذج أخرى للتوازي.
في توازي خطوط المعالجة، تُخصَّص طبقات مختلفة من الشبكة العصبية لوحدات معالجة رسومية مختلفة. فعلى سبيل المثال، قد تُوزَّع شبكة عصبية مكوّنة من 12 طبقة على 3 وحدات معالجة رسومية، بحيث تُخصَّص أول 4 طبقات للوحدة الأولى، وتتولى الوحدة الثانية الطبقات الأربع الوسطى، بينما تتولى الوحدة الثالثة الطبقات الأربع الأخيرة. ثم تُعالَج البيانات بالتتابع: إذ يُمرَّر خرج وحدة معالجة الرسوميات الأولى إلى الثانية، ويُمرَّر خرج الثانية إلى الثالثة، وتتولى الثالثة حساب المخرج النهائي للنموذج.
ويتطلب توازي خطوط المعالجة الفعال عادةً استخدام الدفعات المصغّرة، حتى تعالج كل وحدة معالجة رسومية البيانات في الوقت نفسه، بدلًا من أن تبقى في حالة انتظار حتى تتلقى البيانات من الوحدة السابقة لها في التسلسل. وفي مثالنا الأساسي الوارد في الفقرة السابقة، قد تبدأ وحدة معالجة الرسوميات الأولى في معالجة دفعة مصغّرة جديدة من بيانات الإدخال فور تمرير خرج الدفعة المصغّرة الأولى إلى وحدة معالجة الرسوميات الثانية.
ومن الطبيعي أن يحتاج النظام الذي يستخدم توازي خطوط المعالجة إلى بعض الوقت للتدرّج في التشغيل قبل الوصول إلى الاستفادة الكاملة من الأجهزة. وفي مثالنا، لا يمكن لوحدة معالجة الرسوميات الثانية أن تبدأ العمل حتى تتلقى البيانات من الأولى، ولا يمكن للثالثة أن تبدأ حتى تكون الوحدتان الأوليان قد عالجتا الدفعة المصغّرة كاملة، ولا يمكن للرابعة أن تبدأ حتى تنتهي الثالثة.
بالنسبة إلى النماذج الكبيرة جدًا، قد تكون حتى الطبقة الواحدة أكبر من أن تستوعبها وحدة معالجة واحدة. وفي توازي الموترات، تُقسَّم الطبقات نفسها إلى أجزاء أصغر، بحيث يتلقى كل معالج جزءًا من موتر أوزان النموذج. وبالمثل، يُقسَّم التمثيل المتجهي - أي التمثيل الموترِي - لبيانات الإدخال، بحيث يتلقى كل معالج جزءًا مقابلًا من بيانات الإدخال.
ويقلل توازي الموترات بدرجة كبيرة من متطلبات الذاكرة على كل جهاز، لأن كل معالج يحتاج إلى تحميل موترات أصغر في الذاكرة مقارنةً بما تتطلبه نماذج التوازي الأخرى. غير أن ذلك يصاحبه قدر من التعقيد، إذ يلزم مزيد من الاتصال داخل النظام ومزيد من الخطوات الرياضية لدمج مخرجات كل وحدة معالجة رسومية.
تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.
استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.
أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.
1“Why Companies Are Vastly Underprepared For The Risks Posed By AI”, Forbes, June 15, 2023
2“Onshoring Semiconductor Production: National Security Versus Economic Efficiency”, Council on Foreign Relations, April 2024