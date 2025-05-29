في أوائل عام 2019، حدث تحول طفيف لكنه مهم في عالم الذكاء الاصطناعي. بدأت OpenAI، وهي جهة فاعلة رئيسية في هذا المجال، بالابتعاد عن تركيزها السابق على الأبحاث المفتوحة. ومع مرور الوقت، تقلّص نطاق الوصول إلى مجموعات بياناتها، وأصبحت تفاصيل أساليب تدريبها أصعب في التتبّع، وأصبح عملها الداخلي أكثر انغلاقًا. وما بدا حينها تغييرًا اعتياديًا في المسار تحوّل إلى نفلة نوعية في الذكاء الاصطناعي، وأعاد تشكيل كيفية مشاركة الأبحاث وتطويرها ومناقشتها حول العالم.
قالت Karen Hao، التي تراقب هذا المجال منذ سنوات، والمحررة الأولى السابقة لقسم الذكاء الاصطناعي في MIT Technology Review، في مقابلة مع IBM Think: "لم تعد هناك شفافية بشأن مجموعات بياناتهم"
يوثّق كتاب Hao الجديد، Empire of AI، تطور الذكاء الاصطناعي التوليدي من الداخل، متتبعًا ليس فقط الدوافع الاقتصادية والسياسية وراء صعود شركات مثل OpenAI، بل أيضًا القرارات التقنية الهادئة التي أعادت تعريف العلم نفسه. "حتى OpenAI نفسها لا تعرف دائمًا ما الذي تتضمنه مجموعات البيانات الخاصة بالتدريب لديها. فحجم البيانات كبير إلى درجة يستحيل معها تدقيقها يدويًا".
قد يبدو هذا الاعتراف أمرًا عابرًا بالنسبة للقارئ غير المتخصص. لكن بالنسبة للباحثين، فإن عدم القدرة على توصيف البيانات المستخدمة لتدريب نموذج ما أو إعادة إنتاجها على نحو موثوق يقوض أسس هذا التخصص. لعقود طويلة، اعتمد التعلم الآلي على مبدأ علمي بسيط: قابلية إعادة الإنتاج. ينبغي أن يسلك النموذج السلوك نفسه إذا دُرِّب في الظروف نفسها. غير أن مجموعات البيانات الهائلة اليوم، التي لم تُنسَّق كما ينبغي، تجعل تلك الظروف في الغالب غير قابلة التحقق.
وفي معظم العلوم التجريبية، تُعد قابلية إعادة الإنتاج اختبارًا حاسمًا للدقة. فالتجربة الكيميائية التي لا يمكن إعادة إنتاجها موضع شك، والتجربة الطبية ذات المدخلات غير القابلة للتتبّع نادرًا ما تجتاز مراجعة الأقران. في الذكاء الاصطناعي، كانت قابلية إعادة الإنتاج تعتمد تقليديًا على أن ينشر الباحثون ليس فقط بنى نماذج الذكاء الاصطناعي ومعلمات التدريب، بل أيضًا مجموعات البيانات الدقيقة المستخدمة لتدريب تلك النماذج. وهذه المجموعة من البيانات، سواء كانت مجموعات من الصور أو تسجيلات صوتية أو مستندات نصية، هي التي تؤسّس لما "تعرفه" النماذج وكيف تعمّم على مدخلات جديدة.
في أوائل عام 2010 ، كان هذا القدر من الانفتاح هو القاعدة. فقد شاركت المختبرات الأكاديمية وباحثو الشركات على حد سواء مدونات التدريب، ووصفوا خطوات المعالجة المسبقة، وأجروا المقارنات المعيارية وفق معايير مشتركة. لكن بحلول عام 2020، تغيّر المشهد. فمع دخول شركات مثل OpenAI في منافسة أشد على المكاسب التجارية، تراجعت مشاركة مجموعات البيانات.
ولم يكن هذا التحول مسألة ملكية فكرية فحسب. وكما تشير Karen Hao، فإن الحجم الهائل لمجموعات البيانات الحديثة، التي قد تضم مئات المليارات من الرموز المميزة المستخرجة من الإنترنت، جعل توثيقها توثيقًا كاملًا أمرًا شبه مستحيل عمليًا. بدأت الشركات تعتمد على أدوات كشط وتصفية مؤتمتة لتجميع مجموعات البيانات الخاصة بها. لكن هذه الأدوات لم تكن قادرة على كشف المشكلات الدقيقة، وأدخلت مستوى جديدًا من عدم اليقين إلى عملية التدريب.
وقدّم باحثون من Stanford University مثالًا كاشفًا عندما دقّقوا مجموعة البيانات الصورية LAION-5B واسعة الاستخدام. ورغم أنها متاحة للعامة، فقد تضمنت آلاف الحالات من مواد اعتداء جنسي على الأطفال، مؤكدة أو مشتبهًا بها. وجاء هذا الاكتشاف بعد سنوات من تداول مجموعة البيانات بحرية، وبعد استخدامها لتدريب مولدات صور تجارية. وكانت الواقعة جرس إنذار. إذا كان هذا القدر من الضرر قد وُجد داخل مجموعة بيانات مفتوحة، فما الذي قد يوجد داخل مجموعات البيانات الخاصة؟
توضِّح Hao، في إشارة إلى ممارسة منهجية أساسية في التعلم الآلي: "لم نعد نستطيع حتى ضمان فصل بيانات الاختبار عن بيانات التدريب"،
ففي الإعداد المعتاد، تُقسَّم مجموعة البيانات إلى قسمين: قسم لتدريب النموذج وقسم لاختبار أدائه. ويساعد ذلك على قياس دقة النموذج على بيانات لم يرها من قبل. لكن عندما تكون مجموعة البيانات ضخمة ومعتمة إلى درجة أن محتواها غير معروف عمليًا، يبرز خطر أن يظهر المحتوى المكرر في القسمين معًا، ما يفسد التقييم ويرفع مقاييس الأداء بصورة مضلِّلة.
والنتيجة: مجال يعتمد بصورة متزايدة على الثقة بدل التحقق. تقول Hao: "أصبح الأمر أقرب إلى الكيمياء القديمة منه إلى العلم". "نضيف مزيدًا من الحوسبة ومزيدًا من البيانات إلى النموذج ونأمل أن يخرج شيءٌ ما".
لا يُدرك الجميع أنه تمكّن من التوسع. فكما تصف Hao، ظهرت أيضًا نزعة أخرى لدى باحثين سلكوا مسارًا مختلفًا: فبدل السعي إلى قواعد بيانات أكبر فأكبر، اتجهوا إلى مجموعات صغيرة من البيانات مُنتقاة بعناية. لم تكن المسألة كمية البيانات المتاحة، بل مدى قدرة تلك البيانات على كشف الفروق الدقيقة في اللغة، ونطاق التجربة الإنسانية، وضرورات الإنصاف.
وبينما كانت الصناعة تضغط لتحقيق المزيد، كانت تتساءل أيضًا عما يجري التغاضي عنه في أثناء ذلك. فعلى سبيل المثال، كان DeepSpeech من Mozilla مشروعًا للتعرّف على الكلام اعتمد على مقاطع صوتية تبرّع بها المستخدمون بموافقة كاملة. وقد خضع كل مقطع لمراجعة يدوية ووُسِم بعلامات، مع تكريس جهد كبير لتنقيح مجموعة البيانات بما يضمن الوضوح والتنوع من حيث الأصوات واللهجات والأنماط اللغوية.
وبالمثل، دُرِّب النموذج اللغوي BLOOM، الذي طوّره اتحاد بحثي عالمي تحت إشراف Hugging Face، على مجموعات بيانات عامة جُمِعت مع مراعاة التنوع اللغوي والجغرافي والموضوعي. تم توثيق كل مصدر. كما فُتِح الباب أمام عمليات تدقيق مجتمعية. وعلى خلاف نماذج الأساس المعتمة، جعل BLOOM منهجية تدريبه واضحة ومفهومة.
لكن هذه الجهود باتت تُهمَّش أكثر فأكثر. يقول هاو إن المنطق السائد في الصناعة اليوم يقدّم التوسّع على غيره. فالنماذج الأكبر حجمًا، التي تُدرَّب على مجموعات بيانات أكبر، تميل إلى إظهار خصائص ناشئة، مثل الاستدلال المعقد أو توليد التعليمات البرمجية، حتى من دون ضبط مخصص لمهمة بعينها. وهذا يدفع الفرق إلى ترك العناية بتصميم البيانات، مقابل جمع كل ما تستطيع جمعه آليًا.
ولم تكن عقلية "المقياس أولًا" في OpenAI مجرد خلاصة تقنية. بل كانت، على حد تعبير Hao، نتيجة لمنظومة معتقدات متماسكة، وإن كانت غير مألوفة، تتشاركها قيادة الشركة. وقالت إن Ilya Sutskever، كبير العلماء في OpenAI، كان يتبنّى موقفًا مطلقًا من التعلم العميق. وكان يرى أن الشبكة العصبية إذا كانت كبيرة بما يكفي وتغذّت بكمّ كافٍ من البيانات، فستطوّر في النهاية ذكاءً شبيهًا بذكاء البشر. من ناحية أخرى، تعامل Sam Altman، الرئيس التنفيذي لشركة OpenAI، مع الذكاء الاصطناعي بعقلية رائد أعمال، إذ رأى أن التوسّع الأُسِّي هو أسرع طريق إلى الهيمنة. وكان Greg Brockman، رئيس OpenAI، هو العقل الهندسي الذي ركّز على تحويل هذا التوسّع إلى واقع.
وكانت البنية التي مكّنت هذه العقيدة هي transformer، وهو نوع من الشبكة العصبية طُرح لأول مرة في عام 2017. وتتفوق نماذج Transformer في نمذجة تسلسلات البيانات، مثل النصوص، لأنها تستطيع تتبّع العلاقات بين الكلمات عبر مسافات طويلة داخل الجملة. والأهم أنها قابلة للتوسّع بكفاءة. ويؤدي إضافة المزيد من الطبقات والمزيد من المَعْلمات إلى تحسين الأداء.
وأدرك فريق البحث في OpenAI أنه إذا درّب نماذج transformer على مجموعة بيانات ضخمة بما يكفي، وبقدرة حوسبية كافية، فبإمكانه تجاوز الحاجة إلى ميزات مُصمَّمة يدويًا، أو الاستدلال الرمزي، أو التصميم المعياري. فالذكاء، من وجهة نظرهم، سينبثق من البيانات.
ولتدريب نماذج مثل GPT-4، لم تكن OpenAI بحاجة إلى الأفكار فحسب، بل إلى البنية التحتية أيضًا. فالنماذج اللغوية بهذا الحجم تتطلب عناقيد تضم عشرات الآلاف من وحدات معالجة الرسوميات. وقد صُممت وحدات معالجة الرسوميات في البداية لعرض الصور ثلاثية الأبعاد، لكنها أثبتت فائدة استثنائية في عمليات الضرب المصفوفي التي تشكّل صميم الشبكات العصبية. غير أن ربطها معًا لتعمل كنظام موحّد تطلّب تنسيقًا مخصصًا للبرمجيات والأجهزة.
وطوّر مهندسو OpenAI تقنيات لتقسيم النماذج إلى أجزاء، يمكن توزيعها على عدة رقائق وتدريبها بالتوازي. كما وضعوا بروتوكولات لنقاط التحقّق للحفاظ على عمليات التدريب الجزئية، بما يقلل مخاطر الفشل الكارثي. وبنوا بروتوكولات اتصال مخصصة لمزامنة التحديثات عبر الأجهزة. لم تكن هذه تطورات لافتة، لكنها كانت أساسية.
تقول Hao: "لم يسبق لأحد أن درّب نموذجًا باستخدام 10,000 رقاقة." كان عليهم التوصل إلى ذلك في الوقت الفعلي."
وقد مكّنت هذه التطورات من توسيع نطاق النماذج بوتيرة أسرع وبكفاءة أعلى مقارنة بالمنافسين. غير أنها أسهمت أيضًا في ظهور نوع جديد من السرية. OpenAI عن نشر كثير من التفاصيل الكامنة وراء إنجازاتها. وقالت الشركة بأن الإفصاح عن تفاصيل أكثر من اللازم يعني التفريط بميزة تنافسية.
وبحلول عام 2024، كانت معظم شركات التقنية الكبرى قد لحقت بالركب. فقد طوّرت IBM وGoogle وMeta وAmazon وAnthropic، إلى جانب جهات أحدث مثل Mistral، النماذج اللغوية الكبيرة (LLMs) باستخدام بُنى المحول وتقنيات تدريب متشابهة. واستخدم كثير منها التعلُّم المعزَّز المستند إلى التعليقات البشرية (RLHF)، وهي طريقة يقيّم فيها البشر جودة مخرجات النموذج، بما يتيح ضبطه بدقة كي يتوافق بصورة أفضل مع تفضيلات البشر.
وبالنسبة إلى من هم خارج هذا المجال، أصبحت الفروق بين هذه الأنظمة أصعب تمييزًا. وبدأ مطورو التطبيقات بتصميم واجهات يمكنها العمل مع أي نموذج في الخلفية، ما يتيح لهم تبديل المزوّدين عند الحاجة. وأصبح التسعير وزمن الانتقال ومدة التشغيل أهم من الفروق الطفيفة في مستوى الذكاء.
تقول Hao: "الجميع يحاول الآن أن يكون غير مرتبط بنموذج بعينه." "لم تعد OpenAI تحتكر النماذج الجيدة."
ومع تراجع التوسّع بوصفه عامل تمييز، بدأت الشركات الاستثمار في نموذج مختلف: "نماذج الوكلاء" (agency). وفي الذكاء الاصطناعي، تشير "نماذج الوكلاء" إلى قدرة النظام على المبادرة والاستمرار بمرور الوقت واتخاذ إجراءات لتحقيق أهدافه. وبدلًا من الاستجابة لموجِّه، يخطط الوكيل للإجراءات ويراقب النتائج ويعدّل السلوك.
كان ذلك يتطلب قدرات جديدة. كان على النماذج الاحتفاظ بالذاكرة عبر الجلسات، والتكامل مع أدوات الطرف الثالث، واتخاذ قرارات من دون موجِّهات صريحة. وكان الهدف هو الانتقال من روبوت المحادثة السلبي إلى متعاون نشط.
ولطالما استلهمت OpenAI فيلم "Her"، حيث يقع أحد المستخدمين في حب مساعد مدعوم بالذكاء الاصطناعي يتكيف بسلاسة مع احتياجاته. وكان إنشاء نظام من هذا النوع يعني تطوير ما هو أكثر من الذكاء فحسب، بل تطوير "الحضور" أيضًا. وأشارت Hao إلى أن فرق OpenAI الداخلية سعت إلى تحقيق هذا الحلم عبر مجالات المنتجات والبحث.
وتقول: "لا يمكنك بناء هذا النوع من المساعدين من دون منح النموذج ذاكرةً واستمراريةً واستقلاليةً."
لكن لكي يصبح الوكلاء فعّالين بالفعل، كانت OpenAI بحاجة إلى أكثر من الخوارزميات. كانت بحاجة إلى أنواع جديدة من البيانات، وإلى أساليب جديدة لجمعها. فالإنترنت، الذي كان يومًا مصدرًا وفيرًا لبيانات التدريب، أصبح مشبعًا بمحتوى اصطناعي. وكثير من المستندات المتاحة الآن عبر الإنترنت أنشأتها بالفعل نماذج سابقة.
وهذا يخلق حلقة من التعليقات تتراجع فيها قيمة التدريب على بيانات الإنترنت تدريجيًا. ولكسر هذه الحلقة، تتجه الشركات إلى جمع بيانات أكثر خصوصية. وذكرت Hao أن OpenAI تستكشف أجهزة مخصصة يمكنها رصد سلوك المستخدم في الوقت الفعلي، بدءًا من التفاعلات عبر التقنية المحمولة وصولًا إلى المحادثات الصوتية والسياق البيئي.
وتقول Hao: "هناك قدر كبير جدًا من المحتوى الذي ينشئه الذكاء الاصطناعي على الإنترنت." "إذا كنت تريد بيانات عالية الجودة، فعليك الحصول عليها من الناس مباشرة."
وتضيف Hao أن التدفق المتزايد من المحتوى الذي ينشئه الذكاء الاصطناعي يطرح أسئلة صعبة حول الموافقة والمراقبة والتحكم. هل يستطيع الناس فعلًا اختيار عدم جمع بياناتهم؟ وما مقدار التأثير الذي سيملكونه على النماذج التي تُدرَّب على كلماتهم أو صورهم أو سلوكهم؟
ترى Karen Hao أن الإجابة لا تكمن في التفاؤل التقني ولا في التهويل الكارثي، بل في الشفافية. ولا تتبنى التيارات الفكرية المهيمنة في الذكاء الاصطناعي. فهي ترفض، على حد وصفها، معسكر "boomers" الذين يعتقدون أن الذكاء الاصطناعي سينقذ البشرية، كما ترفض معسكر "doomers" الذين يخشون أنه سيدمرنا.
وتقول: "أنا من أنصار المساءلة". وتضيف: "تعكس هذه الأنظمة قوة المؤسسات. نحتاج إلى معرفة كيف تُبنى، ومن الذي يستفيد منها".
وتشير Hao إلى أن على الشركات أن تشرح كيف تختبر نماذجها، وما البيانات التي تستخدمها، وكيف تفسّر النتائج. كما ينبغي لها أن توثّق الأخطاء وتشارك ما تتوصل إليه، حتى يتمكن الآخرون من التدقيق عن كثب.
وتحذّر Hao من أن غياب هذا القدر من الانفتاح قد يحوّل الذكاء الاصطناعي إلى صندوق أسود مملوك: قوي، لكنه بلا مساءلة.
فعِّل هذه التحولات الذهنية الخمسة لتجاوز حالة عدم اليقين، ودفع إعادة ابتكار الأعمال، وتسريع النمو من خلال الذكاء الاصطناعي الفاعل.
