ما هي نافذة السياق؟

7 نوفمبر 2024

المؤلفين

Dave Bergmann

Senior Writer, AI Models, IBM

ما هي نافذة السياق؟

نافذة السياق (أو "طول السياق") للنماذج اللغوية الكبيرة (LLM) هي حجم النص، محسوبًا بالرموز المميزة، التي يمكن للنموذج أخذها في الاعتبار أو "يتذكرها" في أي وقت. تمكّن نافذة السياق الأكبر نموذج الذكاء الاصطناعي من معالجة المدخلات الأطول ودمج كمية أكبر من المعلومات في كل مخرج.

يمكن اعتبار نافذة السياق في النموذج اللغوي الكبير بأنها ذاكرته العاملة. فهي تحدد المدة الزمنية التي يمكن للنموذج خلالها إجراء محادثة دون نسيان التفاصيل من بداية التبادل. كما تحدد الحجم الأقصى للوثائق أو عينات الشيفرة التي يمكن معالجتها دفعة واحدة. عندما يتجاوز الطلب أو المحادثة أو الوثيقة أو قاعدة الشفرة نافذة السياق لنموذج الذكاء الاصطناعي، يجب تقليصها أو تلخيصها كي يتمكن النموذج من المتابعة. 

بشكل عام، فإن زيادة حجم نافذة سياق النماذج اللغوية الكبيرة تُترجم إلى زيادة الدقة، وتقليل الهلوسة، وزيادة تماسك استجابات النموذج، ومحادثات أطول، وقدرة محسّنة على تحليل تسلسلات أطول من البيانات. ومع ذلك، فإن زيادة طول السياق ليست خالية من التنازلات: فهي غالبًا ما تستلزم زيادة متطلبات الطاقة الحسابية—وبالتالي زيادة التكاليف—وزيادة محتملة في التعرض للهجمات العدائية.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

نوافذ السياق والترميز

 morفيL من الناحية الواقعية، لا يُقاس طول سياق نموذج اللغة بالكلمات، بل بالرموز المميزة. لفهم كيفية عمل نوافذ السياق عمليًا، من المهم فهم كيفية عمل هذه الرموز المميزة .

الطريقة التي تعالج بها النماذج اللغوية الكبيرة اللغة تختلف جوهريًا عن الطريقة التي يفعلها البشر. في حين أن أصغر وحدة من المعلومات التي نستخدمها لتمثيل اللغة هي رمز واحد—مثل حرف أو رقم أو علامة ترقيم—أصغر وحدة من اللغة التي تستخدمها نماذج الذكاء الاصطناعي هي الرمز المميز. لتدريب النموذج على فهم اللغة، يتم تخصيص رقم معرف (ID) لكل رمز مميز؛ يتم استخدام هذه الأرقام بدلًا من الكلمات أو حتى الرموز المميزة نفسها لتدريب النموذج. هذا الترميز للغة يقلل بشكل كبير من القوة الحسابية اللازمة لمعالجة النص والتعلم منه.

هناك تفاوت كبير في كمية النص التي يمكن أن يمثلها رمز مميز واحد: قد يمثل الرمز حرفًا واحدًا، أو جزءًا من كلمة (مثل لاحقة أو سابقة)، أو كلمة كاملة، أو حتى عبارة قصيرة متعددة الكلمات. ضع في اعتبارك الأدوار المختلفة التي يلعبها الحرف “a ” في الأمثلة التالية:

Jeff drove a car.” 

هنا، "في" هي كلمة كاملة. في هذه الحالة، سيتم تمثيله برمز مميز.

Jeff is amoral.”

هنا، "في"ليست كلمة، بل هي إضافة إليها" morفيL تغيِّر المعنى بشكل كبير. فيmorفيL بالتالي سيتم تمثيلها برمزين مميزين: رمز لحرف في وآخر لكلمة morفيL.

"Jeff loves his cat."

هنا، في هنا هو مجرد حرف في كلمة "Cفيt." فهو لا يحمل أي معنى دلالي في حد ذاته، وبالتالي لا يحتاج إلى تمثيله برمز مميز.


لا يوجد "معدل تحويل" ثابت بين الكلمات والرموز، وقد تعمل النماذج المختلفة أو أدوات التقطيع، وهي وحدة فرعية داخل النموذج الأكبر مسؤولة عن تقسيم النصوص إلى رموز، بمعالجة النص نفسه بطرق مختلفة. يمكن أن تسهم عملية الترميز الفعَّالة في زيادة كمية النص التي يمكن أن تناسب حدود نافذة السياق. ولكن بشكل عام، يُمكن اعتماد تقدير تقريبي يبلغ حوالي 1.5 رمز لكل كلمة. يُعَد Tokenizer Playground على منصة Hugging Face وسيلة سهلة لفهم وتجربة كيفية ترميز مدخلات النصوص في النماذج المختلفة.

يمكن أن تؤدي الاختلافات في البنية اللغوية والتمثيل في بيانات التدريب إلى ترميز بعض اللغات بشكل أكثر كفاءة من غيرها. على سبيل المثال، استكشفت دراسة أجريت في أكتوبر 2024 مثالًا على نفس الجملة التي يتم ترميزها باللغتين الإنجليزية والتيلجو. على الرغم من أن ترجمة التيلجو تحتوي على أحرف أقل بكثير من نظيرتها الإنجليزية، إلا أنها أدت إلى أكثر من 7 أضعاف عدد الرموز المميزة في السياق.

Mixture of Experts | بودكاست

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضم إلى لجنة عالمية المستوى من المهندسين والباحثين وقادة المنتجات وغيرهم وهم يجتازون طريق الذكاء الاصطناعي لتزويدك بأحدث أخباره والمعارف المتعلقة به.

لماذا تحتوي النماذج على حد أقصى لطول السياق؟

على الرغم من أن نوافذ السياق عادةً ما ترتبط بالنماذج اللغوية الكبيرة المستخدمة للتلخيص وتوليد النصوص ومهام معالجة اللغة الطبيعية (NLP) الأخرى، فإن طول السياق كاعتبار تقني لا يقتصر على نماذج اللغة. ترتبط فكرة نافذة السياق بأي نموذج تعلم آلي يستخدم بنية المحول، والتي تضم معظم نماذج الذكاء الاصطناعي التوليدي الحديثة، بما في ذلك جميع النماذج اللغوية الكبيرة تقريبًا.

تستخدم نماذج المحولات آلية الانتباه الذاتي لحساب العلاقات والتبعيات بين الأجزاء المختلفة من المدخلات (مثل الكلمات في بداية ونهاية الفقرة). من الناحية الرياضية، تقوم آلية الانتباه الذاتي بحساب متجهات الأوزان لكل رمز مميز في تسلسل نص، حيث يمثل كل وزن مدى ارتباط هذا الرمز المميز بالرموز المميزة الأخرى في التسلسل. يستعين النموذج اللغوي الكبير التوليدي ذاتي الانحدار بتلك الأوزان في كل مرة يولِّد فيها الكلمة التالية في مخرجاته. يحدد حجم نافذة السياق الحد الأقصى لعدد الرموز المميزة التي يمكن للنموذج "الانتباه إليها" في وقت واحد.

تجدر الإشارة إلى أن نص المدخلات الفعلي من المستخدم ليس الشيء الوحيد الذي يشغل المساحة داخل نافذة سياق النموذج. في العديد من الحالات، مثلما يحدث مع روبوتات المحادثة، يتم أيضًا تزويد النماذج "بموجه النظام"—الذي غالبًا ما يكون مخفيًا عن المستخدم، والذي يشكل سلوكها ويضبط جوانب أخرى من المحادثة. يتم أيضًا تخزين المعلومات التكميلية المأخوذة من مصادر البيانات الخارجية للتوليد المعزز بالاسترجاع (RAG) داخل نافذة السياق أثناء الاستدلال. تستهلك الرموز الخاصة وفواصل الأسطر ومقاييس التنسيق الأخرى أيضا جزءًا من السياق المتاح.

ومن الجدير بالذكر أيضًا أن نماذج اللغة ليست الشبكات العصبية الوحيدة التي تستخدم المحولات. على سبيل المثال، تتضمن بعض نماذج الانتشار المستخدمة في توليد الصور تكون آلية الانتباه الذاتي مدمجة في بنيتها. وفي هذه الحالة، فإن السياق الذي يتم التركيز عليه لا يتعلق بالرموز الممثلة للكلمات (أو أجزاء من الكلمات) في النصوص المكتوبة، بل يتعلق بوحدات البكسل في الصورة. وفي مثل هذا النموذج، يشير طول السياق إلى عدد وحدات البكسل التي يجب على النموذج فهم العلاقات بينها. وقد يتم تجاوز نافذة السياق الخاصة به عند التعامل مع صورة عالية الدقة تحتوي على عدد كبير جدًا من وحدات البكسل لمعالجتها دفعة واحدة.
 

نوافذ السياق وموارد الحوسبة

يتطلب تجهيز النموذج بنافذة سياق كبيرة تكلفة عالية، سواء من الناحية المجازية أو الحرفية. تتزايد احتياجات الحوسبة بشكل تربيعي مع طول التسلسل: على سبيل المثال، إذا تضاعف عدد الرموز المميزة المدخلة، يحتاج النموذج إلى 4 أضعاف قدرة المعالجة للتعامل معها.

بشكل مشابه، يمكن أن يؤدي زيادة طول السياق أيضًا إلى إبطاء المخرجات. في كل مرة يتنبأ فيها النموذج بشكل تكراري بالرمز التالي في تسلسل معين، يحسِب العلاقات بين هذا الرمز وكل رمز سابق في التسلسل. قد يكون الاستدلال سريعًا نسبيًا في بداية التسلسل أو المحادثة، لكنه يصبح بطيئًا بشكل تدريجي مع زيادة طول السياق. وهذا يمثل مشكلة للحالات التي تتطلب استدلالًا شبه فوري في الوقت الفعلي.

لقد تم تمكين التطورات الأخيرة في طول السياق المتوسط للنماذج اللغوية جزئيًا من خلال تقنيات جديدة لزيادة سرعة الاستدلال وكفاءته بما يكفي لتعويض هذه التحديات المتأصلة. لقد أتاحت هذه التقنيات التحسينية حتى للنماذج الصغيرة الحديثة مفتوحة المصدر تقديم نوافذ سياقية أكبر بشكل كبير مقارنةً بنموذج GPT-3.5 الأصلي الذي أطلق ChatGPT من OpenAI في أواخر 2022.

 

التحديات المرتبطة بنوافذ السياق الطويلة

على الرغم من اتخاذ إجراءات كافية لتقليل تأثير متطلبات الحوسبة وسرعة المعالجة، فإن زيادة حد طول السياق للنموذج تستدعي مواجهة تحديات وتعقيدات جديدة.
 

تحديات الأداء

مثل البشر، يمكن أن تتعرض النماذج اللغوية الكبيرة للإرهاق بسبب وجود تفاصيل إضافية كثيرة. يمكنهم أيضا أن تصبح كسولة وتأخذ اختصارات معرفية. وجدت ورقة بحثية عام 2023 أن النماذج اللغوية الكبيرة لا "تستخدم المعلومات بشكل قوي في سياقات الإدخال الطويلة". وبشكل أكثر تحديدًا، لاحظ المؤلفون أن أداء النماذج يكون أفضل عندما تكون المعلومات ذات الصلة في بداية أو نهاية سياق الإدخال. ولاحظوا كذلك أن الأداء يتدهور عندما يجب على النموذج أن ينظر بعناية في المعلومات في منتصف السياقات الطويلة.1

تهدف الأساليب المبتكرة لتحسين فاعلية آلية الانتباه الذاتي للمحول، مثل التضمين الموضعي الدوار (RoPE)، إلى تعديل الترميز الموضعي للرموز المميزة في متجهات الانتباه. وقد أدت الشعبية المتزايدة لهذه الأساليب القائمة على التضمين الموضعي الدوار (RoPE) إلى تحسينات في الأداء والسرعة في المهام التي تتطلب التفاعل بين الرموز المميزة التي تبعد عن بعضها بمسافات كبيرة.

تهدف الأبحاث الجارية في الوقت الحالي إلى تطوير مجموعة من المعايير المصممة لقياس قدرة النماذج اللغوية الكبيرة على البحث بفاعلية واستخدام المعلومات ذات الصلة من نصوص طويلة، مثل معيار needle-in-a-haystack (NIAH)، و RULER، و LongBench.


تحديات السلامة والأمن الإلكتروني

قد يؤدي وجود نافذة سياق أطول إلى تأثير غير مقصود يتمثل في تقديم سطح هجوم أكبر للموجِّهات العدائية. وقد أظهرت أبحاث حديثة أجرتها شركة Anthropic أن زيادة طول سياق النموذج تزيد أيضًا من تعرُّضه لمحاولات الاختراق وتحفيزه لإنتاج استجابات مؤذية.2

 

أحجام نوافذ السياق للنماذج اللغوية الكبيرة البارزة

ازداد طول نافذة السياق المتوسطة للنماذج اللغوية الكبيرة بشكل متسارع منذ ظهور أولى نسخ المحولات التوليدية المدربة مسبقًا (GPTs). ومع كل جيل جديد من النماذج اللغوية الكبيرة، كانت هناك عادةً زيادة ملحوظة في طول نافذة السياق. حاليًا، تقدِّم أكبر نافذة سياق متوفرة من نموذج تجاري رئيسي أكثر من مليون رمز. ومع ذلك، ما زال غير واضح إذا كان هذا الاتجاه سيستمر أو إذا كنا قد اقتربنا من الحد الأقصى الضروري عمليًا.  

للتوضيح، نعرِض فيما يلي أطوال السياق الحالية لبعض النماذج ومجموعات النماذج الشائعة حتى أكتوبر 2024.

سلسلة نماذج GPT من OpenAI:

  • كان الحد الأقصى لطول السياق لنموذج GPT-3.5 الذي دعم إطلاق ChatGPT يبلغ 4,096 رمزًا مميزًا، وتم توسيع هذا الحد لاحقًا إلى 8,192 رمزًا مميزًا مع إصدار GPT-3.5-Turbo.
  • عند الإطلاق، كانت نافذة السياق في GPT-4 تبلغ 8192 رمزًا مميزًا. ومع ذلك، تمَّت لاحقًا زيادة نافذة السياق لكل من GPT-4 و GPT-4-Turbo إلى 128000 رمزًا مميزًا، بينما يظل الحد الأقصى لعدد الرموز الناتجة 4096 رمزًا مميزًا.
  • يمتلك كلٌّ من GPT-4o و GPT-4o mini يمتلك نافذة سياق تبلغ 128,000 رمزًأ مميزًا، مع حد أقصى للمخرجات يبلغ 16384 رمزًا مميزًا.

توفِّر عائلة النماذج الجديدة o1 أيضًا نافذة سياق تبلغ 128000 رمزًا مميزًا، لكنها تقدمِّ طول سياق أكبر للمخرجات.

نماذج Llama من Meta

كان الحد الأقصى لطول السياق في نماذج Llama الأصلية 2048 رمزًا مميزًا، وقد تضاعف إلى 4096 رمز مميز لـ Llama 2. أثناء إطلاقها في أبريل 2024، قدَّمت نماذج Llama 3 نافذة سياق تضم ما يقرب من 8000 رمز مميز.

تمَّت زيادة طول نافذة السياق لنماذج Llama بشكل كبير مع إطلاق نماذج Llama 3.1، التي قدمت نوافذ سياق طويلة تصل إلى 128000 رمز. تتمتع نماذج Llama 3.2 طول أقصى لنافذة السياق يبلغ 128000 رمز مميز.

Mistral Large 2

يحتوي الطراز Mistral Large 2، وهو النموذج الرائد الذي تقدمه شركة Mistral AI، على نافذة سياقية تضم 128000 رمز مميز.

نماذج Google Gemini

توفر سلسلة نماذج Gemini من Google ما يعد حاليًا أكبر نافذة سياق بين النماذج اللغوية التجارية. حيث يوفر نموذج Gemini 1.5 Pro، النموذج الرائد من Google، طول سياق يصل إلى 2 مليون رمز مميز. بينما تمتلك نماذج أخرى من Gemini 1.5، مثل Gemini 1.5 Flash، نافذة سياق بطول مليون رمز.

نماذج Claude من Anthropic

توفر أحدث طرازات Claude من Anthropic، مثل Claude 3.5 Sonnet، نافذة سياقية قياسية تحتوي على حوالي 200000 رمز مميز. في أوائل سبتمبر 2024، أعلنت Anthropic أن النماذج المتاحة من خلال خطة "Claude Enterprise" الجديدة ستوفر نافذة سياق موسعة تصل إلى 500000 رمز.

الحواشي
حلول ذات صلة
IBM watsonx Orchestrate

يمكنك بسهولة تصميم مساعدي ووكلاء الذكاء الاصطناعي القابلين للتوسع وأتمتة المهام المتكررة وتبسيط العمليات المعقدة باستخدام IBM watsonx Orchestrate.

استكشف watsonx Orchestrate
أدوات معالجة اللغة الطبيعية وواجهات برمجة التطبيقات

تسريع قيمة الأعمال باستخدام مجموعة قوية ومرنة من مكتبات وخدمات وتطبيقات الذكاء الاصطناعي.

استكشف حلول معالجة اللغة الطبيعية
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

يمكنك بسهولة تصميم مساعدي ووكلاء الذكاء الاصطناعي القابلين للتوسع وأتمتة المهام المتكررة وتبسيط العمليات المعقدة باستخدام IBM® watsonx™ Orchestrate®.

استكشف watsonx Orchestrate استكشف حلول معالجة اللغة الطبيعية