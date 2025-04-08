تزداد النماذج اللغوية الكبيرة (LLMs) براعةً بشكل مقلق في فهم الكلام البشري، لكن ماذا لو كانت تعكس أيضاً طريقة عمل الدماغ نفسه؟
في دراسة جديدة نُشرت في مجلة "Nature Human Behaviour"، وجد العلماء أن نموذج Whisper من OpenAI يعالج اللغة بطريقة تشبه إلى حدّ لافت استجابة الخلايا العصبية الحقيقية أثناء المحادثات الطبيعية. يوضح الباحث الرئيسي Ariel Goldstein لمنصة IBM Think أن فريقه حلّل أكثر من 100 ساعة من تسجيلات الدماغ المأخوذة من أشخاص شاركوا في محادثات عفوية غير مكتوبة مسبقاً. ومن خلال مقارنة تلك التسجيلات بالآليات الداخلية لنموذج Whisper، اكتشفوا أن تمثيلات النموذج متعددة الطبقات تتماشى على نحو وثيق مع كيفية معالجة الدماغ للكلام، من الصوت غير المُنسَّق وحتى المعنى.
ويقول Goldstein إن هذه النتائج قد تترتب عليها انعكاسات تجارية كبيرة. قد تتمكن المؤسسات يوماً ما من تصميم أدوات صوتية مدعومة بالذكاء الاصطناعي تفك شفرة الكلام بمرونة وكفاءة على غرار الدماغ البشري، مما يقلّل زمن التدريب، ويُحسّن دقة النسخ، بل وقد يدعم الأطراف العصبية الاصطناعية المتطوّرة.
يقول Goldstein: "تحدث اللغة في سياقات اجتماعية فوضوية، لا في مختبرات معقّمة". "تُظهر دراستنا أن الإدراك البشري ونماذج الذكاء الاصطناعي قد يشتركان في شفرة أعمق وأكثر مرونة للتعامل مع المحادثات."
جُمعت التسجيلات باستخدام تقنية تخطيط كهربية القشرة الدماغية (ECoG)، التي تتضمن وضع أقطاب كهربائية مباشرة على سطح الدماغ. وعلى الرغم من كون هذه التقنية تدخّلية، فإنها توفّر رؤية عالية الدقة للنشاط العصبي. سجّل فريق Goldstein نشاط الدماغ لدى مرضى كانوا يخضعون بالفعل للمراقبة استعداداً لجراحة الصرع، لجمع محادثات عفوية يومية بدلاً من إشارات كلمات معزولة أو موجِّهات اصطناعية.
وألهم الارتباط بين الدماغ والذكاء الاصطناعي ابتكارات في IBM Research، حيث طوّر العلماء شرائح مثل NorthPole تحاكي البنية العصبية عبر إزالة اختناقات الربط التقليدية بين الذاكرة ووحدات المعالجة. أظهر النموذج الأوّلي من IBM كفاءة استثنائية، إذ نفّذ عمليات الاستدلال على نماذج الذكاء الاصطناعي الكبيرة بسرعات تصل إلى 46.9 مرة أسرع من وحدات معالجة الرسوميات الرائدة.
وجدت الدراسة أن الإشارات العصبية والتمثيلات المُضمَّنة في نموذج Whisper أظهرت درجة عالية من المحاذاة الخطية، مما يشير إلى أن الدماغ لا يعالج اللغة في مراحل جامدة ومنفصلة، بل في طبقات مرنة ومتداخلة، تمامًا مثل نماذج التعلم العميق. ولم تقتصر المعلومات الصوتية والدلالية والنحوية على مناطق معزولة في الدماغ أو في نموذج الذكاء الاصطناعي. بل بدت مندمجة داخل الطبقات نفسها، في ما يُلمِّح إلى استراتيجية تحسين مشتركة للمعنى.
يشرح Goldstein: "إن فكرة أن لدينا نظامًا مُحسَّنًا لمهمة معيّنة، ويُنتِج تمثيلات ترتبط بالمفاهيم النفسية اللغوية ولكن دون أن تطابقها تمامًا، تُعد طريقة جديدة للتفكير في كيفية معالجة الدماغ للمعلومات."
ويشير إلى أنه، بخلاف الرؤى السابقة التي قسّمت وظائف اللغة في الدماغ إلى وحدات منفصلة — بعضها للصوت، وأخرى للقواعد، وأخرى للمعنى — فإن نتائج فريقه تُشير إلى أن الدماغ قد يعالج كل هذه الجوانب في وقت واحد داخل مناطق متكاملة، على نحو يشبه نموذج تعلم عميق مُدرَّب على إكمال المهام من البداية إلى النهاية.
تم اختيار نموذج Whisper الذي طوّرته OpenAI نظرًا لتشابُه بنيته مع مهمة الدماغ: تحويل المدخلات الصوتية إلى لغة متماسكة. يقول Goldstein: "الدماغ لا يتلقى كلمات، بل يتلقى أصواتًا." "ويحاكي Whisper ذلك عن طريق تحويل الصوت غير المُنسَّق إلى نص، طبقة تلو الأخرى."
وعلاوة على ذلك، وجد الفريق أنه يمكن أحيانًا رصد الإشارات الدلالية قبل أن يبدأ الشخص الكلام فعليًا. ويشير ذلك إلى أن الدماغ قد يُشفِّر النية أو المعنى مسبقًا قبل الكلام، مما يزيد من تلاشي الخط الفاصل بين التفكير والتعبير.
ويشير Goldstein إلى أن هذا الاختراق قد يُحسِّن النسخ في الوقت الفعلي، ويُطوِّر أداء المساعدين الصوتيين، ويُمكِّن الشركات من الاستفادة من وكلاء خدمة عملاء أكثر ذكاءً مدعومين بالذكاء الاصطناعي. الفكرة هي أن مواءمة نماذج الذكاء الاصطناعي بشكل أوثق مع الإشارات الصادرة عن الدماغ البشري، ولا سيما في البيئات الواقعية الصاخبة، يمكن أن تعزّز الأداء دون الحاجة إلى مئات الآلاف من ساعات التدريب.
يقول Goldstein: "من الممكن أن يؤدّي تقييد نماذج تحويل الكلام إلى نص (Speech to Text) المستقبلية بإشارات عصبية أو تمثيلات عصبية بشرية إلى تحسين أدائها". "لكن هذا يظل افتراضياً. ولم نختبره بصورة مباشرة".
تخيّل مساعداً صوتياً مستقبلياً لا يُدرَّب على النصوص المنطوقة فحسب، بل أيضاً على تمثيلات للمعنى تحاكي الطريقة التي يرمِّز بها الدماغ هذا المعنى. قد يساهم ذلك في تقليل حجم البيانات المطلوبة للتدريب وزيادة متانة النماذج في البيئات غير المتوقَّعة، مثل مراكز الاتصال أو أنظمة مساعدة السائق.
كما يبشّر هذا البحث بإمكانات واعدة للتقنيات المساعدة. فقد يُسهم فكّ تشفير الإشارات اللغوية الداخلية في استعادة القدرة على التواصل لدى الأفراد المصابين بأمراض تنكسية أو الذين فقدوا القدرة على الكلام. ويمكن للنماذج اللغوية الكبيرة (LLMs) أن تؤدّي دور بنية داعمة تساعد في ترجمة النوايا العصبية الأولية إلى لغة مترابطة ومتّسقة نحويًا.
ويقول: "إذا لم تكن المشكلة إدراكية، بل تتعلّق بالتحكّم في العضلات، فربما نتمكّن في نهاية المطاف من ابتكار أجهزة تفكّ شفرة المعنى من نشاط الدماغ وتساعد الأشخاص على التواصل". "لكننا استخدمنا في هذه الدراسة أساليب تدخّلية جراحية. ولو أردنا بناء شيء قابل للاستخدام العملي، فسيتعيّن أن يعمل بطريقة غير جراحية، وتكون الإشارات في هذه الحالة أكثر ضجيجًا".
وهناك أيضًا أفق بحثي افتراضي آخر: "قراءة الأفكار". ومع ذلك، يتعامل Goldstein مع هذا الاحتمال بحذر. ويشير قائلاً: "الكلام جزء من عملية تكوين الفكرة". "فليس الأمر كما لو أن كل شيء يتكوّن في أذهاننا بصورة مكتملة ثم نضغط ببساطة على "إرسال". قد نتمكّن من التقاط شيء ما على المستوى المفاهيمي، ولكن ليس بالضرورة التقاط مونولوج داخلي تفصيلي ودقيق".
ومع ذلك، تشير الأدلة الأولية في الدراسة إلى رصد آثار لمحتوى دلالي في إشارات الدماغ قبل نطق الكلمة، مما يوحي بأنه مع توافر دقة وسياق كافيين، قد تتمكن الآلة من التنبؤ بما يعتزم الشخص قوله.
ويؤكد Goldstein أنه رغم أن نماذج اللغة الحالية مثل Whisper وGPT تقوم أساسًا على بنى تغذية أمامية تتدفق فيها البيانات في اتجاه واحد، فإن الدماغ يعمل بصورة تكرارية ويعتمد على حلقات تعليقات. ويقول: "الحالة النهائية للدماغ تصبح هي المدخل التالي له. هناك حلقة مستمرة من التعديل الذاتي. وهذا فارق جوهري".
ويقترح أن تكتسب أنظمة الذكاء الاصطناعي المستقبلية قدرًا أكبر من القوة من خلال دمج حلقات تعليقات مشابهة، حيث تُسهِم المخرجات في توجيه المدخلات اللاحقة في الوقت الفعلي. ولهذه الرؤية تبعات على اللغة وعلى أي نظام يتعلّم من خلال التفاعل، مثل أنظمة الروبوتات أو الوكلاء المستقلين ذاتيًا.
كما يفتح هذا البحث الباب أمام أشكال جديدة من التعاون متعدّد التخصصات. ويستكشف مختبر Goldstein حاليًا كيفية دمج المدخلات متعددة الوسائط — كالرؤية والصوت والحركة — في أنظمة ذكاء اصطناعي تعكس بصورة أفضل الطريقة التي يختبر بها البشر العالم.
ويضيف قائلاً: "إذا تمكّنا من استخدام القنوات نفسها التي يعتمد عليها البشر — الجسدية والبصرية والسمعية — وبناء نماذج تُدرَّب بطرق مشابهة، فقد نقترب كثيرًا من نمذجة الدماغ".
وعلى المدى البعيد، يركّز Goldstein على شيء أكثر هدوءًا؛ ليس على الأحاديث الاجتماعية أو الكلام التفاعلي، بل على التأمل الذاتي.
ويقول: "الأشخاص الذين يتحدثون إلى أنفسهم ويصفون حالتهم الداخلية — هذا هو الاتجاه الذي أودّ استكشافه لاحقًا؛ ليس تفاعلاً اجتماعيًا، بل صوت العقل الهادئ".
وهو يعتقد أن نمذجة الحوار الداخلي — أكثر محادثاتنا خصوصية — يمكن أن توفّر رؤى عميقة حول الوعي والإدراك. ولكن هذا المسار أيضًا محفوف بتحديات أخلاقية جسيمة؛ فماذا يحدث عندما تتمكن الآلات من "التنصت" على أفكارنا، حتى وإن كان ذلك بشكل غير كامل؟
يقول محذرًا: "علينا أن نفكر بجدية في قضايا المراقبة، والتلاعب بالسلوك، وما قد يترتب عليها من عواقب غير مقصودة". "أنا شخصيًا لست قَلِقًا، لكن ينبغي أن نكون مستعدين. ونحتاج إلى تخصيص الموارد اللازمة لفهم الكيفية التي يمكن أن يتطور بها هذا النوع من السلوك."
يتجنّب Goldstein الطرح المبالَغ فيه والإثارة. فالدماغ ليس كمبيوتر، والذكاء الاصطناعي ليس دماغًا. ومع ذلك، قد تكون أوجه الشبه بينهما أعمق من مجرد تشبيهات سطحية.
ويقول: "يمثّل هذا تقدمًا مهمًا، لكن لا يزال هناك شيء من السحر في الطريقة التي تؤلّف بها أدمغتنا الكلمات في اللحظة نفسها."
