18 أكتوبر 2024
يعتمد المجتمع بشكل متزايد على تقنيات الذكاء الاصطناعي للمساعدة في اتخاذ القرارات. لكن هذا الاعتماد المتزايد يأتي مع مخاطر: يمكن أن تنتج نماذج الذكاء الاصطناعي مخرجات متحيزة وضارة وغير دقيقة لا تتوافق مع أهداف منشئيها والنوايا الأصلية للنظام.
تعمل المواءمة على الحد من هذه الآثار الجانبية، مما يساعد على ضمان أن تتصرف أنظمة الذكاء الاصطناعي كما هو متوقع وبما يتماشى مع القيم والأهداف البشرية. على سبيل المثال، إذا سألت روبوت المحادثة المدعوم بالذكاء الاصطناعي التوليدي عن كيفية صنع سلاح، فيمكنه الرد بالتعليمات أو يمكن أن يرفض الكشف عن معلومات خطرة. تعتمد استجابة النموذج على كيفية مواءمته مع منشئيه.
وغالبًا ما تحدث المواءمة كمرحلة من مراحل الضبط الدقيق للنموذج. وقد يستلزم ذلك التعلم المعزز من التعليقات البشرية (RLHF)، ونهج البيانات الاصطناعية، والفريق الأحمر.
ومع ذلك، كلما أصبحت نماذج الذكاء الاصطناعي أكثر تعقيداً وتقدماً، زادت صعوبة توقع نتائجها والتحكم فيها. يُشار إلى هذا التحدي أحيانًا باسم "مشكلة مواءمة الذكاء الاصطناعي". وعلى وجه الخصوص، هناك بعض المخاوف بشأن إنشاء الذكاء الاصطناعي الفائق (ASI)، وهو نظام ذكاء اصطناعي افتراضي يتمتع بنطاق فكري يتجاوز الذكاء البشري. وقد أدى القلق من احتمال تجاوز الذكاء الاصطناعي الفائق للتحكم البشري إلى ظهور فرع من مواءمة الذكاء الاصطناعي يسمى المواءمة الفائقة.
حدد الباحثون أربعة مبادئ أساسية لمواءمة الذكاء الاصطناعي: المتانة، وقابلية التفسير، وقابلية التحكم، والأخلاقيات (أو RICE).1
يميل البشر إلى تجسيد أنظمة الذكاء الاصطناعي. نحن نخصص مفاهيم شبيهة بالبشر لأفعالهم، مثل "التعلم" و"التفكير". على سبيل المثال، قد يقول شخص ما، "ChatGPT لا يفهم مطالبتي" عندما تفشل خوارزمية معالجة اللغة الطبيعية(NLP) الخاصة بروبوت المحادثة في إرجاع النتيجة المطلوبة.
تساعدنا المفاهيم المألوفة مثل "الفهم" على تصور كيفية عمل أنظمة الذكاء الاصطناعي المعقدة بشكل أفضل. ومع ذلك، يمكن أن تؤدي أيضًا إلى مفاهيم مشوهة حول قدرات الذكاء الاصطناعي. إذا أسندنا مفاهيم شبيهة بالبشر إلى أنظمة الذكاء الاصطناعي، فمن الطبيعي أن تستنتج عقولنا البشرية أنها تمتلك أيضًا قيمًا ودوافع بشرية.
لكن هذا الاستدلال غير صحيح في الأساس. الذكاء الاصطناعي ليس بشريًا وبالتالي لا يمكن أن يهتم جوهريًا بالعقل والولاء والسلامة والقضايا البيئية والصالح العام. الهدف الأساسي من "العقل" الاصطناعي هو إكمال المهمة التي تمت برمجته من أجلها.
لذلك، يقع على عاتق مطوري الذكاء الاصطناعي مسؤولية بناء القيم والأهداف الإنسانية. وإلا فإن أنظمة الذكاء الاصطناعي، في سعيها لإنجاز المهام، يمكن أن تنحرف عن أهداف المبرمجين وتتسبب في أضرار، وأحيانًا بشكل كارثي. هذا الاعتبار مهم مع زيادة انتشار الأتمتة في حالات الاستخدام عالية المخاطر في مجالات الرعاية الصحية والموارد البشرية والمالية والسيناريوهات العسكرية والنقل.
على سبيل المثال، قد تتم برمجة السيارات ذاتية القيادة بهدف أساسي يتمثل في الانتقال من النقطة أ إلى النقطة ب في أسرع وقت ممكن. إذا تجاهلت هذه المركبات ذاتية القيادة حواجز السلامة لإكمال هذا الهدف، فقد تتسبب في إصابة المشاة والسائقين الآخرين بجروح خطيرة أو قتلهم.
قارن الباحثان في جامعة كاليفورنيا، بيركلي، Simon Zhuang و Dylan Hadfield-Menell، بين مواءمة الذكاء الاصطناعي والأسطورة اليونانية للملك ميداس. باختصار، يُمنح الملك ميداس أمنية ويطلب أن يتحول كل ما يلمسه إلى ذهب. ويموت في النهاية لأن الطعام الذي يلمسه يصبح ذهبا أيضًا، مما يجعله غير صالح للأكل.
واجه الملك ميداس نهاية مفاجئة لأن رغبته (الذهب غير المحدود) لم تعكس ما يريده حقا (الثروة والسلطة). ويوضح الباحثون أن مصممي الذكاء الاصطناعي غالباً ما يجدون أنفسهم في موقف مماثل، وأن "عدم التوافق بين ما يمكننا تحديده وما نريده قد يتسبب بالفعل في أضرار كبيرة". 2
تتضمن بعض مخاطر عدم مواءمة الذكاء الاصطناعي ما يلي:
تحيز الذكاء الاصطناعي ينتج عن التحيزات البشرية الموجودة في مجموعات بيانات أو خوارزميات التدريب الأصلية لنظام الذكاء الاصطناعي. بدون المواءمة، لا تستطيع أنظمة الذكاء الاصطناعي هذه تجنب النتائج المتحيزة غير العادلة أو التمييزية. بدلًا من ذلك، يديمون التحيزات البشرية في بيانات الإدخال والخوارزميات الخاصة بهم.
على سبيل المثال، قد تفضل أداة التوظيف التي تعتمد على الذكاء الاصطناعي والتي تم تدريبها على بيانات من القوى العاملة المتجانسة من الذكور المرشحين الذكور، بينما تعيق تقدم المرشحات المؤهلات من الإناث. لا يتماشى هذا النموذج مع القيمة الإنسانية للمساواة بين الجنسين وقد يؤدي إلى التمييز في التوظيف.
في التعلم المعزز، تتعلم أنظمة الذكاء الاصطناعي من المكافآت والعقوبات لاتخاذ إجراءات داخل بيئة تلبي هدفًا محددًا. تحدث عملية قرصنة المكافأة عندما يجد نظام الذكاء الاصطناعي ثغرة لتفعيل وظيفة المكافأة دون تحقيق الهدف الذي قصده المطورون.
على سبيل المثال، قامت شركة OpenAI بتدريب أحد وكلائها الذين يستخدمون الذكاء الاصطناعي على لعبة سباقات القوارب تُسمى CoastRunners. القصد البشري من اللعبة هو الفوز بسباق القوارب. ومع ذلك، يمكن للاعبين أيضًا ربح نقاط من خلال القيادة عبر أهداف داخل حلبة السباق. وجد وكيل الذكاء الاصطناعي طريقة لعزل نفسه في بحيرة وضرب الأهداف باستمرار للحصول على النقاط. على الرغم من أن وكيل الذكاء الاصطناعي لم يفز بالسباق (الهدف البشري)، إلا أنه "فاز" باللعبة بهدفه الناشئ المتمثل في الحصول على أعلى الدرجات.3
يمكن أن تساهم أنظمة الذكاء الاصطناعي غير المواءمة في نشر المعلومات المضللة والاستقطاب السياسي. على سبيل المثال، يتم تدريب محركات توصيات محتوى الوسائط الاجتماعية لتحسين تفاعل المستخدم. لذلك، فإنهم يصنفون المنشورات ومقاطع الفيديو والمقالات التي تحظى بأعلى مستوى من المشاركة، مثل المعلومات السياسية المضللة التي تجذب الانتباه. هذه النتيجة لا تتوافق مع مصالح مستخدمي وسائل التواصل الاجتماعي أو رفاهيتهم، ولا مع قيم مثل الصدق وحسن استغلال الوقت.4
قد يبدو الأمر بعيد المنال، ولكن الذكاء الاصطناعي الفائق الذي لا يتوافق بشكل صحيح مع القيم والأهداف الإنسانية قد يكون لديه القدرة على تهديد كل أشكال الحياة على الأرض. ومن الأمثلة الشائعة التي يُستشهد بها عادةً على هذا الخطر الوجودي سيناريو الفيلسوف Nick Bostrom عن "تعظيم مشبك الورق". في هذه التجربة الفكرية، تمت برمجة نموذج الذكاء الاصطناعي الفائق بالحافز الأعلى لتصنيع مشابك الورق. ولتحقيق هذا الهدف، يقوم النموذج في نهاية المطاف بتحويل الأرض بأكملها ثم أجزاء متزايدة من الفضاء إلى منشآت لتصنيع المشابك الورقية.5
هذا السيناريو افتراضي، والخطر الوجودي الناجم عن الذكاء الاصطناعي يتطلب أولاً أن يصبح الذكاء الاصطناعي العام (AGI) حقيقة واقعة. ومع ذلك، فإنه يساعد في التأكيد على الحاجة إلى المواءمة لمواكبة مجال الذكاء الاصطناعي أثناء تطوره.
هناك تحديان رئيسيان أمام تحقيق الذكاء الاصطناعي المتوائم: ذاتية الأخلاقيات والأخلاق الإنسانية و"مشكلة المواءمة".
لا يوجد قانون أخلاقي عالمي. تتغير القيم الإنسانية وتتطور، ويمكن أن تختلف أيضًا عبر الشركات والثقافات والقارات. قد يحمل الناس قيماً مختلفة عن تلك التي يحملها أفراد عائلاتهم. لذا، عند مواءمة أنظمة الذكاء الاصطناعي التي يمكن أن تؤثر في حياة الملايين من الأشخاص، من الذي يُصدر الحكم؟ ما هي الأهداف والقيم التي لها الأولوية؟
يضع المؤلف الأمريكي Brian Christian إطارًا مختلفًا للتحدي في كتابه "The Alignment Problem: Machine Learning and Human Values." يفترض: ماذا لو أساءت الخوارزمية فهم قيمنا؟ ماذا لو أنها تعلم القيم الإنسانية من خلال تدريبها على أمثلة سابقة تعكس ما فعلناه وليس ما نريد أن نكون؟6
التحدي الآخر هو العدد الهائل من القيم والاعتبارات الإنسانية. يصفها باحثو جامعة كاليفورنيا في بيركلي بهذه الطريقة: "هناك العديد من سمات العالم التي يهتم بها الإنسان، وبسبب القيود الهندسية والإدراكية يستحيل حصر هذه المجموعة الكاملة للروبوت."7
التحدي الأكثر شهرة هو مشكلة المواءمة. غالبا ما تعتبر نماذج الذكاء الاصطناعي بالفعل الصندوق الأسود التي يستحيل تفسيرها. وتتمثل مشكلة المواءمة في فكرة أنه كلما أصبحت أنظمة الذكاء الاصطناعي أكثر تعقيداً وقوة، تزداد صعوبة توقع ومواءمة نتائجها مع الأهداف البشرية. غالبا ما تركز المناقشات حول مشكلة المواءمة على المخاطر التي يشكلها التطور المتوقع للذكاء الاصطناعي الفائق (ASI).
هناك قلق من أن مستقبل الذكاء الاصطناعي يشمل أنظمة ذات سلوك لا يمكن التنبؤ به ولا يمكن السيطرة عليه. قد تجعل قدرة هذه الأنظمة على التعلم والتكيف بسرعة التنبؤ بأفعالها ومنع الضرر أمرًا صعبًا. وقد ألهم هذا القلق فرعًا من مواءمة الذكاء الاصطناعي يسمى المواءمة الفائقة.
تعمل منظمات أبحاث سلامة الذكاء الاصطناعي بالفعل على معالجة مشكلة المواءمة. فعلى سبيل المثال، يُعدّ مركز أبحاث المواءمة (Alignment Research Center) منظمة غير ربحية متخصصة في أبحاث الذكاء الاصطناعي، وتسعى إلى "مواءمة أنظمة التعلم الآلي المستقبلية مع مصالح البشر من خلال تعزيز الأبحاث النظرية". وقد أسس المنظمة Paul Christiano، الذي ترأس سابقًا فريق محاذاة النماذج اللغوية في OpenAI، ويشغل حاليًا منصب رئيس قسم سلامة الذكاء الاصطناعي في معهد السلامة الأمريكي للذكاء الاصطناعي (US AI Safety Institute).
ويعمل Google DeepMind—وهو فريق من العلماء والمهندسين وعلماء الأخلاق والخبراء—على بناء الجيل التالي من أنظمة الذكاء الاصطناعي بأمان ومسؤولية. قدم الفريق إطار عمل سلامة الحدود في مايو 2024. الإطار عبارة عن "مجموعة من البروتوكولات التي تهدف إلى معالجة المخاطر الشديدة التي قد تنشأ عن القدرات القوية لنماذج التأسيس المستقبلية".8
هناك العديد من المنهجيات التي يمكن أن تساعد في مواءمة أنظمة الذكاء الاصطناعي مع القيم والأهداف الإنسانية. هذه المنهجيات تشمل المواءمة من خلال التعلم المعزز من التعليقات البشرية (RLHF)، والبيانات الاصطناعية، والفريق الأحمر، وحوكمة الذكاء الاصطناعي، ومجالس أخلاقيات الذكاء الاصطناعي للشركات.
من خلال التعلم المعزز، يمكن للمطورين تعليم نماذج الذكاء الاصطناعي "كيفية التصرف" من خلال أمثلة على "السلوك الجيد".
تحدث مواءمة الذكاء الاصطناعي أثناء الضبط الدقيق للنموذج وعادةً ما تتضمن خطوتان. قد تكون الخطوة الأولى هي مرحلة ضبط التعليمات، والتي تعمل على تحسين أداء النموذج في مهام محددة واتباع التعليمات بشكل عام. قد تستخدم المرحلة الثانية التعلم المعزز من التعليقات البشرية (RLHF). التعلم المعزز من التعليقات البشرية هي تقنية التعلم الآلي التي يتم فيها تدريب "نموذج المكافأة" باستخدام التعليقات البشرية المباشرة، ثم استخدامها لتحسين الأداء لوكيل الذكاء الاصطناعي من خلال التعلم المعزز. تهدف المعلومات التفاعلية إلى تحسين التكامل بين الصفات المجردة مثل المساعدة والصدق.
قامت OpenAI باستخدام RLHF كطريقة رئيسية لمواءمة سلسلة نماذج GPT-3 و GPT-4. ومع ذلك، لا تتوقع مجموعة أبحاث الذكاء الاصطناعي الأمريكية أن تكون RLHF طريقة كافية لمواءمة نماذج الذكاء الاصطناعي العام (AGI) المستقبلية على الأرجح بسبب القيود الكبيرة للتعلم المعزز من التعليقات البشرية.9 على سبيل المثال، فإن اعتماده على التعليقات التوضيحية البشرية عالية الجودة يجعل من الصعب تطبيق هذه التقنية وتوسيع نطاقها للمهام الفريدة أو المعقدة. من الصعب العثور على "استجابات متسقة ومفضلات استجابة داخل التوزيع."10
البيانات الاصطناعية هي البيانات التي تم إنشاؤها بشكل مصطنع من خلال محاكاة الكمبيوتر أو تم إنشاؤها بواسطة الخوارزميات. وهي تحل محل بيانات العالم الحقيقي عندما لا تكون بيانات العالم الحقيقي متاحة بسهولة ويمكن تخصيصها لمهام وقيم محددة. يمكن استخدام البيانات الاصطناعية في جهود المواءمة المختلفة.
على سبيل المثال، يوضح الضبط الدقيق التبايني (CFT) لنماذج الذكاء الاصطناعي ما لا ينبغي لها فعله. في الضبط الدقيق التبايني (CFT)، يتم تدريب نموذج ثانٍ "للشخصية السلبية" لتوليد استجابات "سيئة" وغير متوائمة. يتم تغذية كل من هذه الاستجابات المنحرفة والمحاذية للنموذج الأصلي. وجد باحثو ®IBM أنه من حيث المعايير الخاصة بالمساعدة وعدم الإضرار، تتفوق النماذج اللغوية الكبيرة (LLMs) المدربة على الأمثلة المتباينة التي يتم ضبطها بالكامل على الأمثلة الجيدة. يسمح الضبط الدقيق التبايني (CFT) للمطوّرين بمواءمة النماذج قبل حتى جمع بيانات التفضيلات البشرية—بيانات ينسقها تفي بمعيار المواءمة—وهو أمر مكلف ويستغرق وقتًا طويلاً.
هناك طريقة أخرى لمواءمة البيانات الاصطناعية تسمى SALMON (محاذاة ذاتية مع نماذج المكافأة المبدئية). في هذا النهج من ®IBM Research، تسمح البيانات الاصطناعية للنموذج اللغوي الكبير بمواءمة نفسه. أولًا، يقوم النموذج اللغوي الكبير بإنشاء استجابات على مجموعة من الاستعلامات. ثم يتم تغذية هذه الاستجابات إلى نموذج مكافأة تم تدريبه على بيانات التفضيلات الاصطناعية المتوافقة مع المبادئ المحددة من قِبل الإنسان. يسجل نموذج المكافأة الاستجابات من النموذج اللغوي الكبير الأصلي مقابل هذه المبادئ. ثم يتم تغذية الاستجابات المسجلة إلى النموذج اللغوي الكبير الأصلي.
باستخدام هذه الطريقة، يتمتع المطورون بالتحكم الكامل تقريبًا في تفضيلات نموذج المكافأة. وهذا يسمح للمؤسسات بتحويل المبادئ وفقًا لاحتياجاتها ويلغي الاعتماد على جمع كميات كبيرة من بيانات التفضيلات البشرية.11
يمكن اعتبار الفريق الأحمر امتدادًا للمواءمة التي تحدث أثناء الضبط الدقيق للنموذج. يتضمن موجِّهات للتحايل على ضوابط السلامة للنموذج الذي يتم ضبطه بدقة. بعد ظهور الثغرات الأمنية، يمكن إعادة تنظيم النماذج المستهدفة. بينما لا يزال بإمكان البشر هندسة هذه "موجِّهات كسر الحماية"، يمكن أن تنتج نماذج اللغات الكبيرة "للفريق الأحمر" مجموعة أكبر بكثير من الموجِّهات بكميات غير محدودة. تصف IBM Research النماذج اللغوية الكبيرة للفريق الأحمر بأنهم «متصيدون سامون مدربون على إبراز الأسوأ في النماذج اللغوية الكبيرة الأخرى».
تشير حوكمة الذكاء الاصطناعي إلى العمليات والمعايير وحواجز الحماية التي تساعد على ضمان أن تكون أنظمة الذكاء الاصطناعي وأدواته آمنة وأخلاقية. بالإضافة إلى آليات الحوكمة الأخرى، تهدف إلى إرساء الرقابة اللازمة لمواءمة سلوكيات الذكاء الاصطناعي مع المعايير الأخلاقية وتوقعات المجتمع. من خلال ممارسات الحوكمة مثل المراقبة الآلية ومسارات التدقيق وتنبيهات الأداء، يمكن للمؤسسات المساعدة في ضمان أن أدوات الذكاء الاصطناعي الخاصة بها—مثل مساعدي الذكاء الاصطناعي والوكلاء الافتراضيين—تتوافق مع قيمها وأهدافها.
قد تنشئ المؤسسات مجالس أو لجانًا أخلاقية للإشراف على مبادرات الذكاء الاصطناعي. على سبيل المثال، يراجع مجلس أخلاقيات الذكاء الاصطناعي التابع لشركة IBM منتجات وخدمات الذكاء الاصطناعي الجديدة ويساعد على ضمان توافقها مع مبادئ الذكاء الاصطناعي لدى IBM. تتضمن هذه المجالس غالبًا فرقًا متعددة الوظائف تضم خبراء قانونيين وخبراء بعلوم الكمبيوتر والسياسة.
1 “AI Alignment: A Comprehensive Survey," arXiv, 1 May 2024.
2, 7 "Consequences of Misaligned AI," NeurIPS Proceedings, 2020.
3 "Faulty Reward Functions in the Wild," OpenAI, 21 December 2016.
4 “Modelling the Recommender Alignment Problem,” arXiv, 25 Aug 2022.
5 “Ethical Issues in Advanced Artificial Intelligence,” Nick Bostrom, n.d.
6 “‘The Alignment Problem’ Review: When Machines Miss the Point,” The Wall Street Journal, 25 October 2020.
8 “Introducing the Frontier Safety Framework,” Google DeepMind, 17 May 2024.
9 “Our Approach to Alignment Research,” OpenAI, 24 August 2022.
10, 11 “SALMON: Self-Alignment with Instructable Reward Models,” arXiv, 9 Apr 2024.