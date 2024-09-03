إذا بدأنا نواجه عوائق في الإمدادات -سواء في البيانات أم الحوسبة أم الطاقة- يرى Hay أن المهندسين سيبدعون لإيجاد حلول لهذه العوائق.

يقول Hay: "عندما تتوفر لديك وفرة من شيء ما، فإنك تستهلكه. إذا كان لديك مئات الآلاف من وحدات معالجة الرسومات متاحة، فسوف تستخدمها. ولكن عندما تكون لديك قيود، تصبح أكثر إبداعًا".

على سبيل المثال، تمثِّل البيانات الاصطناعية وسيلة واعدة للتغلب على أزمة البيانات. يتم إنشاء هذه البيانات بطريقة خوارزمية لمحاكاة خصائص البيانات الواقعية، ويمكن أن تُستخدم كبديل أو مكمِّل لها. بينما يجب على مهندسي التعلم الآلي توخي الحذر من الإفراط في استخدام البيانات الاصطناعية، قد يساعد النهج الهجين في التغلب على ندرة البيانات الواقعية على المدى القصير. على سبيل المثال، تم تدريب نماذج Microsoft PHI-3.5 الأخيرة أو نماذج Hugging Face SMOL باستخدام كميات كبيرة من البيانات الاصطناعية، ما أدى إلى إنتاج نماذج صغيرة عالية الكفاءة.

النماذج اللغوية الكبيرة اليوم تستهلك طاقة هائلة، لكن لا يوجد ما يدعو للاعتقاد أن البنى الحالية للمحوِّلات هي التصميم النهائي. تحظى النماذج القائمة على SSM، مثل Mistral Codestral Mamba وJamba 1.5 وFalcon Mamba 1.5، بشعبية متزايدة بفضل قدرتها على التعامل مع سياقات أطول. تكتسب البنى الهجينة التي تستخدم أنواعًا متعددة من النماذج شعبية أيضًا. بخلاف البنية المعمارية، يجد المهندسون قيمة في أساليب أخرى، مثل التحويل الكمّي (Quantization)، والشرائح المصممة خصيصًا للاستدلال، والضبط الدقيق، وهي تقنية في التعلم العميق تتضمن تكييف نموذج مدرَّب مسبقًا لحالات استخدام محددة.

يقول Hay: "أود أن أرى مزيدًا من التركيز على مجتمع الضبط الدقيق في الصناعة، بدلًا من مرحلة التدريب المسبق. فالتدريب المسبق هو الجزء الأكثر تكلفة في العملية". ويُعَد الضبط الدقيق أقل تكلفة بكثير، ومن المحتمل أن تتمكن من تحقيق قيمة أكبر منه".

يقترح Hay أنه في المستقبل، قد يكون لدينا عدد أكبر من وحدات معالجة الرسومات (GPU) مما نعرفه بما يجب أن نفعله لأن تقنياتنا أصبحت أكثر كفاءة. وقد قام مؤخرًا بتجربة تحويل كمبيوتر محمول شخصي إلى آلة قادرة على تدريب النماذج. ومن خلال إعادة بناء مسارات البيانات الأكثر كفاءة وتعديل التجميعات، فإنه يكتشف طرقًا للعمل ضمن القيود. كان بإمكانه فعل كل ذلك بشكل طبيعي على وحدة معالجة الرسومات H100 Tensor Core باهظة الثمن، لكن عقلية الندرة مكنته من إيجاد طرق أكثر كفاءة لتحقيق النتائج المطلوبة. كانت الحاجة أم الاختراع.