نافذة السياق (أو "طول السياق") للنماذج اللغوية الكبيرة (LLM) هي حجم النص، محسوبًا بالرموز المميزة، التي يمكن للنموذج أخذها في الاعتبار أو "يتذكرها" في أي وقت. تمكّن نافذة السياق الأكبر نموذج الذكاء الاصطناعي من معالجة المدخلات الأطول ودمج كمية أكبر من المعلومات في كل مخرج.
يمكن اعتبار نافذة السياق في النموذج اللغوي الكبير بأنها ذاكرته العاملة. فهي تحدد المدة الزمنية التي يمكن للنموذج خلالها إجراء محادثة دون نسيان التفاصيل من بداية التبادل. كما تحدد الحجم الأقصى للوثائق أو عينات الشيفرة التي يمكن معالجتها دفعة واحدة. عندما يتجاوز الطلب أو المحادثة أو الوثيقة أو قاعدة الشفرة نافذة السياق لنموذج الذكاء الاصطناعي، يجب تقليصها أو تلخيصها كي يتمكن النموذج من المتابعة.
بشكل عام، فإن زيادة حجم نافذة سياق النماذج اللغوية الكبيرة تُترجم إلى زيادة الدقة، وتقليل الهلوسة، وزيادة تماسك استجابات النموذج، ومحادثات أطول، وقدرة محسّنة على تحليل تسلسلات أطول من البيانات. ومع ذلك، فإن زيادة طول السياق ليست خالية من التنازلات: فهي غالبًا ما تستلزم زيادة متطلبات الطاقة الحسابية—وبالتالي زيادة التكاليف—وزيادة محتملة في التعرض للهجمات العدائية.
من الناحية الواقعية، لا يُقاس طول سياق نموذج اللغة بالكلمات، بل بالرموز المميزة. لفهم كيفية عمل نوافذ السياق عمليًا، من المهم فهم كيفية عمل هذه الرموز المميزة .
الطريقة التي تعالج بها النماذج اللغوية الكبيرة اللغة تختلف جوهريًا عن الطريقة التي يفعلها البشر. في حين أن أصغر وحدة من المعلومات التي نستخدمها لتمثيل اللغة هي رمز واحد—مثل حرف أو رقم أو علامة ترقيم—أصغر وحدة من اللغة التي تستخدمها نماذج الذكاء الاصطناعي هي الرمز المميز. لتدريب النموذج على فهم اللغة، يتم تخصيص رقم معرف (ID) لكل رمز مميز؛ يتم استخدام هذه الأرقام بدلًا من الكلمات أو حتى الرموز المميزة نفسها لتدريب النموذج. هذا الترميز للغة يقلل بشكل كبير من القوة الحسابية اللازمة لمعالجة النص والتعلم منه.
هناك تفاوت كبير في كمية النص التي يمكن أن يمثلها رمز مميز واحد: قد يمثل الرمز حرفًا واحدًا، أو جزءًا من كلمة (مثل لاحقة أو سابقة)، أو كلمة كاملة، أو حتى عبارة قصيرة متعددة الكلمات. ضع في اعتبارك الأدوار المختلفة التي يلعبها الحرف “a ” في الأمثلة التالية:
“Jeff drove a car.”
هنا، "" هي كلمة كاملة. في هذه الحالة، سيتم تمثيله برمز مميز.
“Jeff is amoral.”
هنا، ""ليست كلمة، بل هي إضافة إليها" تغيِّر المعنى بشكل كبير. بالتالي سيتم تمثيلها برمزين مميزين: رمز لحرف وآخر لكلمة .
"Jeff loves his cat."
هنا، هنا هو مجرد حرف في كلمة "." فهو لا يحمل أي معنى دلالي في حد ذاته، وبالتالي لا يحتاج إلى تمثيله برمز مميز.
لا يوجد "معدل تحويل" ثابت بين الكلمات والرموز، وقد تعمل النماذج المختلفة أو أدوات التقطيع، وهي وحدة فرعية داخل النموذج الأكبر مسؤولة عن تقسيم النصوص إلى رموز، بمعالجة النص نفسه بطرق مختلفة. يمكن أن تسهم عملية الترميز الفعَّالة في زيادة كمية النص التي يمكن أن تناسب حدود نافذة السياق. ولكن بشكل عام، يُمكن اعتماد تقدير تقريبي يبلغ حوالي 1.5 رمز لكل كلمة. يُعَد Tokenizer Playground على منصة Hugging Face وسيلة سهلة لفهم وتجربة كيفية ترميز مدخلات النصوص في النماذج المختلفة.
يمكن أن تؤدي الاختلافات في البنية اللغوية والتمثيل في بيانات التدريب إلى ترميز بعض اللغات بشكل أكثر كفاءة من غيرها. على سبيل المثال، استكشفت دراسة أجريت في أكتوبر 2024 مثالًا على نفس الجملة التي يتم ترميزها باللغتين الإنجليزية والتيلجو. على الرغم من أن ترجمة التيلجو تحتوي على أحرف أقل بكثير من نظيرتها الإنجليزية، إلا أنها أدت إلى أكثر من 7 أضعاف عدد الرموز المميزة في السياق.
على الرغم من أن نوافذ السياق عادةً ما ترتبط بالنماذج اللغوية الكبيرة المستخدمة للتلخيص وتوليد النصوص ومهام معالجة اللغة الطبيعية (NLP) الأخرى، فإن طول السياق كاعتبار تقني لا يقتصر على نماذج اللغة. ترتبط فكرة نافذة السياق بأي نموذج تعلم آلي يستخدم بنية المحول، والتي تضم معظم نماذج الذكاء الاصطناعي التوليدي الحديثة، بما في ذلك جميع النماذج اللغوية الكبيرة تقريبًا.
تستخدم نماذج المحولات آلية الانتباه الذاتي لحساب العلاقات والتبعيات بين الأجزاء المختلفة من المدخلات (مثل الكلمات في بداية ونهاية الفقرة). من الناحية الرياضية، تقوم آلية الانتباه الذاتي بحساب متجهات الأوزان لكل رمز مميز في تسلسل نص، حيث يمثل كل وزن مدى ارتباط هذا الرمز المميز بالرموز المميزة الأخرى في التسلسل. يستعين النموذج اللغوي الكبير التوليدي ذاتي الانحدار بتلك الأوزان في كل مرة يولِّد فيها الكلمة التالية في مخرجاته. يحدد حجم نافذة السياق الحد الأقصى لعدد الرموز المميزة التي يمكن للنموذج "الانتباه إليها" في وقت واحد.
تجدر الإشارة إلى أن نص المدخلات الفعلي من المستخدم ليس الشيء الوحيد الذي يشغل المساحة داخل نافذة سياق النموذج. في العديد من الحالات، مثلما يحدث مع روبوتات المحادثة، يتم أيضًا تزويد النماذج "بموجه النظام"—الذي غالبًا ما يكون مخفيًا عن المستخدم، والذي يشكل سلوكها ويضبط جوانب أخرى من المحادثة. يتم أيضًا تخزين المعلومات التكميلية المأخوذة من مصادر البيانات الخارجية للتوليد المعزز بالاسترجاع (RAG) داخل نافذة السياق أثناء الاستدلال. تستهلك الرموز الخاصة وفواصل الأسطر ومقاييس التنسيق الأخرى أيضا جزءًا من السياق المتاح.
ومن الجدير بالذكر أيضًا أن نماذج اللغة ليست الشبكات العصبية الوحيدة التي تستخدم المحولات. على سبيل المثال، تتضمن بعض نماذج الانتشار المستخدمة في توليد الصور تكون آلية الانتباه الذاتي مدمجة في بنيتها. وفي هذه الحالة، فإن السياق الذي يتم التركيز عليه لا يتعلق بالرموز الممثلة للكلمات (أو أجزاء من الكلمات) في النصوص المكتوبة، بل يتعلق بوحدات البكسل في الصورة. وفي مثل هذا النموذج، يشير طول السياق إلى عدد وحدات البكسل التي يجب على النموذج فهم العلاقات بينها. وقد يتم تجاوز نافذة السياق الخاصة به عند التعامل مع صورة عالية الدقة تحتوي على عدد كبير جدًا من وحدات البكسل لمعالجتها دفعة واحدة.
يتطلب تجهيز النموذج بنافذة سياق كبيرة تكلفة عالية، سواء من الناحية المجازية أو الحرفية. تتزايد احتياجات الحوسبة بشكل تربيعي مع طول التسلسل: على سبيل المثال، إذا تضاعف عدد الرموز المميزة المدخلة، يحتاج النموذج إلى 4 أضعاف قدرة المعالجة للتعامل معها.
بشكل مشابه، يمكن أن يؤدي زيادة طول السياق أيضًا إلى إبطاء المخرجات. في كل مرة يتنبأ فيها النموذج بشكل تكراري بالرمز التالي في تسلسل معين، يحسِب العلاقات بين هذا الرمز وكل رمز سابق في التسلسل. قد يكون الاستدلال سريعًا نسبيًا في بداية التسلسل أو المحادثة، لكنه يصبح بطيئًا بشكل تدريجي مع زيادة طول السياق. وهذا يمثل مشكلة للحالات التي تتطلب استدلالًا شبه فوري في الوقت الفعلي.
لقد تم تمكين التطورات الأخيرة في طول السياق المتوسط للنماذج اللغوية جزئيًا من خلال تقنيات جديدة لزيادة سرعة الاستدلال وكفاءته بما يكفي لتعويض هذه التحديات المتأصلة. لقد أتاحت هذه التقنيات التحسينية حتى للنماذج الصغيرة الحديثة مفتوحة المصدر تقديم نوافذ سياقية أكبر بشكل كبير مقارنةً بنموذج GPT-3.5 الأصلي الذي أطلق ChatGPT من OpenAI في أواخر 2022.
على الرغم من اتخاذ إجراءات كافية لتقليل تأثير متطلبات الحوسبة وسرعة المعالجة، فإن زيادة حد طول السياق للنموذج تستدعي مواجهة تحديات وتعقيدات جديدة.
مثل البشر، يمكن أن تتعرض النماذج اللغوية الكبيرة للإرهاق بسبب وجود تفاصيل إضافية كثيرة. يمكنهم أيضا أن تصبح كسولة وتأخذ اختصارات معرفية. وجدت ورقة بحثية عام 2023 أن النماذج اللغوية الكبيرة لا "تستخدم المعلومات بشكل قوي في سياقات الإدخال الطويلة". وبشكل أكثر تحديدًا، لاحظ المؤلفون أن أداء النماذج يكون أفضل عندما تكون المعلومات ذات الصلة في بداية أو نهاية سياق الإدخال. ولاحظوا كذلك أن الأداء يتدهور عندما يجب على النموذج أن ينظر بعناية في المعلومات في منتصف السياقات الطويلة.1
تهدف الأساليب المبتكرة لتحسين فاعلية آلية الانتباه الذاتي للمحول، مثل التضمين الموضعي الدوار (RoPE)، إلى تعديل الترميز الموضعي للرموز المميزة في متجهات الانتباه. وقد أدت الشعبية المتزايدة لهذه الأساليب القائمة على التضمين الموضعي الدوار (RoPE) إلى تحسينات في الأداء والسرعة في المهام التي تتطلب التفاعل بين الرموز المميزة التي تبعد عن بعضها بمسافات كبيرة.
تهدف الأبحاث الجارية في الوقت الحالي إلى تطوير مجموعة من المعايير المصممة لقياس قدرة النماذج اللغوية الكبيرة على البحث بفاعلية واستخدام المعلومات ذات الصلة من نصوص طويلة، مثل معيار needle-in-a-haystack (NIAH)، و RULER، و LongBench.
قد يؤدي وجود نافذة سياق أطول إلى تأثير غير مقصود يتمثل في تقديم سطح هجوم أكبر للموجِّهات العدائية. وقد أظهرت أبحاث حديثة أجرتها شركة Anthropic أن زيادة طول سياق النموذج تزيد أيضًا من تعرُّضه لمحاولات الاختراق وتحفيزه لإنتاج استجابات مؤذية.2
ازداد طول نافذة السياق المتوسطة للنماذج اللغوية الكبيرة بشكل متسارع منذ ظهور أولى نسخ المحولات التوليدية المدربة مسبقًا (GPTs). ومع كل جيل جديد من النماذج اللغوية الكبيرة، كانت هناك عادةً زيادة ملحوظة في طول نافذة السياق. حاليًا، تقدِّم أكبر نافذة سياق متوفرة من نموذج تجاري رئيسي أكثر من مليون رمز. ومع ذلك، ما زال غير واضح إذا كان هذا الاتجاه سيستمر أو إذا كنا قد اقتربنا من الحد الأقصى الضروري عمليًا.
للتوضيح، نعرِض فيما يلي أطوال السياق الحالية لبعض النماذج ومجموعات النماذج الشائعة حتى أكتوبر 2024.
توفِّر عائلة النماذج الجديدة o1 أيضًا نافذة سياق تبلغ 128000 رمزًا مميزًا، لكنها تقدمِّ طول سياق أكبر للمخرجات.
كان الحد الأقصى لطول السياق في نماذج Llama الأصلية 2048 رمزًا مميزًا، وقد تضاعف إلى 4096 رمز مميز لـ Llama 2. أثناء إطلاقها في أبريل 2024، قدَّمت نماذج Llama 3 نافذة سياق تضم ما يقرب من 8000 رمز مميز.
تمَّت زيادة طول نافذة السياق لنماذج Llama بشكل كبير مع إطلاق نماذج Llama 3.1، التي قدمت نوافذ سياق طويلة تصل إلى 128000 رمز. تتمتع نماذج Llama 3.2 طول أقصى لنافذة السياق يبلغ 128000 رمز مميز.
يحتوي الطراز Mistral Large 2، وهو النموذج الرائد الذي تقدمه شركة Mistral AI، على نافذة سياقية تضم 128000 رمز مميز.
توفر سلسلة نماذج Gemini من Google ما يعد حاليًا أكبر نافذة سياق بين النماذج اللغوية التجارية. حيث يوفر نموذج Gemini 1.5 Pro، النموذج الرائد من Google، طول سياق يصل إلى 2 مليون رمز مميز. بينما تمتلك نماذج أخرى من Gemini 1.5، مثل Gemini 1.5 Flash، نافذة سياق بطول مليون رمز.
توفر أحدث طرازات Claude من Anthropic، مثل Claude 3.5 Sonnet، نافذة سياقية قياسية تحتوي على حوالي 200000 رمز مميز. في أوائل سبتمبر 2024، أعلنت Anthropic أن النماذج المتاحة من خلال خطة "Claude Enterprise" الجديدة ستوفر نافذة سياق موسعة تصل إلى 500000 رمز.
1. "Lost in the Middle: How Language Models Use Long Contexts," arXiv, 6 July 2023
2 "Many-shot jailbreaking," Anthropic, 2 April 2024
IBM® ™Granite هي مجموعة من نماذج الذكاء الاصطناعي المفتوحة والموثوقة وذات الأداء العالي والتي صُمِمَت خصيصًا للأعمال وجرى الارتقاء بها على النحو الأمثل لتوسيع نطاق تطبيقات الذكاء الاصطناعي لديك. استكشف خيارات اللغة والتعليمات البرمجية والسلاسل الزمنية وضوابط الحماية.
اكتشف كيف يمكن أن تساعدك معالجة اللغة الطبيعية على التحدث بشكل أكثر طبيعية مع أجهزة الكمبيوتر.
لقد قمنا باستطلاع آراء 2000 مؤسسة حول مبادرات الذكاء الاصطناعي لديها لمعرفة ما ينجح وما لا ينجح وكيف يمكنك المضي قدمًا.
استكشف الموقع الإلكتروني لمطوري IBM للوصول إلى المدونات والمقالات والنشرات الإخبارية وتعرف على المزيد عن الذكاء الاصطناعي القابل للتضمين من IBM.
تعلّم المفاهيم الأساسية وطوّر مهاراتك من خلال المختبرات العملية والدورات التدريبية والمشاريع الموجهة والتجارب وغيرها.
يمكنك بسهولة تصميم مساعدي ووكلاء الذكاء الاصطناعي القابلين للتوسع وأتمتة المهام المتكررة وتبسيط العمليات المعقدة باستخدام IBM watsonx Orchestrate.
تسريع قيمة الأعمال باستخدام مجموعة قوية ومرنة من مكتبات وخدمات وتطبيقات الذكاء الاصطناعي.
أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.