إتاحة أدوات إعداد البيانات للنماذج اللغوية الكبيرة (LLMs) كمصدر مفتوح

زميل وزميلة في نقاش عمل بينما يشيران إلى بيانات معروضة على مخطط بياني.

النماذج اللغوية الكبيرة مفتوحة المصدر (LLMs) تحظى بالكثير من الحب لأنها تسهل على أي شخص تعديلها واستخدامها. لكن فائدة المصدر المفتوح تضيع إذا كان إعداد البيانات اللازمة للتدريب وتعديل النماذج مكلفًا ويستغرق وقتًا طويلاً.

يقول Petros Zerfos، الباحث الرئيسي في هندسة البيانات للذكاء الاصطناعي التوليدي في IBM Research: "كل نقاش حول الذكاء الاصطناعي يبدأ بالنماذج، لكنه في الواقع ينتهي عند البيانات." ويضيف Zerfos أن هذا يعني، بالنسبة للمؤسسات، أن فرق الذكاء الاصطناعي تقضي في العادة وقتًا أطول في إعداد البيانات للنماذج مقارنة بالوقت الذي تقضيه في العمل على النماذج نفسها.

ما الحل؟ توفر بعض الشركات التكنولوجية الكبيرة أدوات إعداد البيانات ذات المصدر المفتوح. على سبيل المثال، تجعل مجموعة إعداد البيانات من IBM وNVIDIA NeMo Curator من السهل على المؤسسات من جميع الأحجام إجراء التدريب والضبط الدقيق للنماذج اللغوية الكبيرة، ما يسمح لها بالحصول على قيمة من تطبيقات الذكاء الاصطناعي بشكل أسرع وأكثر فعالية من حيث التكلفة.

تحدي البيانات

ومع تسارع الشركات في تطوير النماذج اللغوية الكبيرة (LLMs) وتطبيقات الذكاء الاصطناعي ونشرها، يظل إعداد البيانات أحد أكبر نقاط الاختناق في هذا المسار. في الواقع، ذكر 79٪ من فرق الذكاء الاصطناعي في المؤسسات، التي شملها تقرير Gartner لعام 2023 بعنوان Explore Data-Centric AI Solutions to Streamline AI Development، أن المهمة الاستراتيجية الأكثر شيوعًا لديهم هي إعداد البيانات وتوليدها.

وعادة ما يحدث إعداد البيانات خلال مرحلتين رئيسيتين في تطوير النماذج اللغوية الكبيرة. في مرحلة ما قبل التدريب، يتم تدريب النماذج بمئات التيرابايت من البيانات حتى تتمكن من فهم اللغة الإنجليزية البسيطة واكتساب المعارف والفروق الدقيقة في مختلف المجالات. وفقًا لـ Zerfos، تتطلب نماذج ما قبل التدريب من الصفر مئات الأشخاص وملايين الدولارات، لذا فإن الشركات الكبيرة جدًا - أو عدد قليل من الشركات الناشئة ذات رأس المال الجيد - هي فقط التي تمتلك الموارد اللازمة للقيام بذلك.

في المرحلة الثانية من إعداد البيانات، تستخدم فرق الذكاء الاصطناعي مجموعات أصغر من البيانات المستهدفة لضبط النماذج اللغوية الكبيرة (LLMs) بدقة، بحيث تتمكن من توليد نصوص أكثر دقة وملاءمة للسياق. بعض الشركات الكبرى ذات الموارد الوفيرة تنفّذ المرحلتين معًا، لكن معظم الشركات تركز على إعداد البيانات بهدف إجراء الضبط الدقيق لنماذج طوّرها مزودون آخرون مسبقًا.

أدوات مفتوحة المصدر لإعداد البيانات

قامت عدة شركات، بما في ذلك IBM وNVIDIA بفتح مصدر مفتوح الأدوات لمساعدة المطورين على التعامل مع المهمة الشاقة لإعداد البيانات غير المنظمة. مجموعة إعداد البيانات من IBM هي مكتبة من الوحدات التي يمكن للمطور إدخالها في خط الأنابيب لديه لتنسيق البيانات في مرحلة التدريب المسبق أو الضبط الدقيق.  تعمل الوحدات مع مستندات المصدر التي تحتوي على بيانات غير منظمة مثل النص (على سبيل المثال، PDF) والتعليمات البرمجية (HTML) ويمكن استخدامها للتعليق على البيانات وتحويلها وتصفيتها.

ويشير Zerfos إلى أن فريق IBM أتاح هذه الأدوات كمصدر مفتوح حتى تصبح في متناول المؤسسات على اختلاف أحجامها. ويقول: "لا يحتاج المطوّر إلى القيام بأي إعدادات خاصة، سواء كان يشغّل هذه الأدوات على كمبيوتر محمول أو خادم أو ممجوعة حوسبية." "ويمكن تشغيلها أيضًا على أي بنية تحتية سحابية."

منذ إطلاقه في مايو 2024، بدأ المطوّرون في تجربة إطار العمل Data Prep Kit ووحداته المختلفة، والمتاحة عبر GitHub. ويضيف Zerfos أن عدداً من أعضاء تحالف الذكاء الاصطناعي، وهو مجتمع يضم شركات تقنية كبيرة وصغيرة، بدأوا هم أيضاً في اختبار كيفية مساهمة بعض الوحدات في تبسيط وتسريع عمليات التدريب والضبط الدقيق للنماذج.

قامت أيضًا شركة NVIDIA للأجهزة والبرمجيات العملاقة المخصصة للذكاء الاصطناعي مؤخرًا بإتاحة مصدر مفتوح لسلسلة من وحدات إعداد البيانات لتحسين دقة نماذج الذكاء الاصطناعي التوليدي. تعمل NVIDIA NeMo Curator على معالجة النصوص والصور وبيانات الفيديو على نطاق واسع. وتوفر أيضًا خطوط أنابيب ما قبل البناء لتوليد بيانات تركيبية لتخصيص أنظمة الذكاء الاصطناعي التوليدي وتقييمها.

من ضمن المهام التي يتعهد NeMo Curator من NVIDIA بتسريعها هي إلغاء البيانات المكررة. عند تنزيل البيانات من مصادر ضخمة منتشرة على الويب، مثل Common Crawl، من المعتاد أن يواجه النموذج كلاً من المستندات المماثلة لبعضها تمامًا والمستندات شبه المكررة. 

وبحسب مطوّري أداة NeMo Curator، فإن الإصدار القادم منها سيسمح للمؤسسات بتنفيذ مهمة إزالة التكرار في البيانات أسرع بنحو 20 مرة وبكلفة أقل بما يصل إلى خمسة أضعاف مقارنة بالوضع الحالي.

ولا شك أن إتاحة هذه الأدوات كمصدر مفتوح يجعل الوصول إليها أسهل بكثير. ومع ذلك، يحذّر خبراء مثل Mark A. Beyer، نائب الرئيس والمحلّل المتميّز في Gartner، من أن فرق الذكاء الاصطناعي في المؤسسات ما زالت تحتاج إلى مستوى معيّن من المهارة والتدريب حتى تتمكّن من تحقيق أقصى قيمة من هذه الأدوات.

ويتابع قائلاً: "ببساطة، إن مجرد تقديم أداة لشخص ما من دون إرشادات ومنهجيات ووظائف لدعمها يبدأ في التحول إلى تجارب. "ويمكن أن يستغرق الأمر وقتًا أطول بمقدار أربع إلى خمس مرات للاستفادة من الأدوات الحالية".

ومع ذلك، يرى Ben Lorica، مقدم بودكاست The Data Exchange، أنه ستتوفر إمكانات كبيرة لأدوات إعداد البيانات في المستقبل مع توسع الشركات في استخدام البيانات متعددة الوسائط — حتى لو كانت لا تزال في بداياتها.

ويضيف قائلاً: "مع اعتماد تطبيقاتك على كمية متزايدة من الفيديو والصوت بالإضافة إلى النصوص، ستحتاج إلى أداة تسمح لك بالتوسع واستخدام مجموعات بيانات أكبر والاستفادة من أي أجهزة لديك". "في عالم الوكلاء على وجه الخصوص، ستكون البيانات عاملاً مميزًا. تريد الوصول إلى معلومات صحيحة في الوقت المناسب".