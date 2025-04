حقائب سلاسل الكلمات (n-grams).استخدام سلاسل الكلمات بدلاً من الكلمات من شأنه أن يصحح عددًا من العيوب المتأصلة في نماذج حقيبة الكلمات. فبدلاً من إنشاء نموذج تُعد فيه كل كلمة عنصرًا، يمكن استخدام سلاسل الكلمات كعناصر للمتجهات. وفي هذا السياق، يشير الحرف n إلى عدد الكلمات التي تعامل كوحدة دلالية واحدة، ولعل الأكثر شيوعًا في حقائب سلاسل الكلمات هي الكلمات الثنائية (أي المكونة من كلمتين). وللكلمات الثنائية ميزة متمثلة في أنها يمكن أن تراعي الكلمات المركبة، مثل نيو يورك أو برج إيفيل. بالطبع، ليست كل الكلمات الثنائية لها معنى مفيدًا، مثل on the أو of the. ومع ذلك، فإنها تُعد إحدى طرق التعامل مع مسائل مثل الكلمات المركبة وترابط الكلمات.7

تقنيات تنظيم النصوص. قد يكون من الضروري تنظيم البيانات النصية غير المنسقة لتحسين هيكل ووظيفة نماذج حقيبة الكلمات. فعند إنشاء نموذج حقيبة الكلمات أو حقيبة الـ n-grams، قد تكون الكلمات مثل الأدوات (مثل: a، the، وما إلى ذلك) وحروف الجر (مثل: from، of، on، وما إلى ذلك) هي الأكثر تكرارًا. وهذه الكلمات لا تُدلي بالكثير من المعلومات حول محتوى المستند أو نوعه، ومن ثَم فهي غير مجدية إلى حدٍ كبير في مهام التصنيف. يمكن أن تساعد تقنيات مهام ما قبل معالجة النصوص مثل إزالة الكلمات الشائعة (التي تُستخدم غالبًا في التجذيع) على إزالة الكلمات غير ذات الصلة من مجموعات البيانات النصية لتحسين هيكل نماذج حقيبة الكلمات. ولحسن الحظ، تكون الكثير من مكتبات Python وحزمها، مثل مجموعة أدوات اللغة الطبيعية (NLTK) أو sklearn، مزودة بدوال لتنفيذ تقنيات مهام ما قبل المعالجة الشائعة.

التجزئة. تُحول ميزة "التجزئة" كل كلمة من البيانات النصية المدخلة إلى مجموعة رقمية ذات حجم ثابت. وعندئذٍ يُستخدم هذا النطاق الثابت من الأرقام لبناء فضاء متجهات لنموذج حقيبة الكلمات. ويُساعد تحديد نطاق الأرقام - وبالتبعية أبعاد النموذج – في حجم ثابت على تجنب ندرة البيانات وارتفاع الأبعاد. ويُعد التعارض عيبًا رئيسيًا من عيوب التجزئة. حيث يحدث تعارض التجزئة عند تحديد رقم صحيح واحد لرمزين غير مرتبطتين. ومن عيوب التجزئة أيضًا أنها لا تراعي الكلمات متعددة المعاني.8