ما هي حقيبة الكلمات؟
استكشف حلول معالجة اللغة الطبيعية من IBM سجل للتعرف على تحديثات الذكاء الاصطناعي
نقاط بيانات موجودة في صناديق/مربعات

نُشر في: 19 يناير 2024
المشاركون: Jacob Murel Ph.D.، Eda Kavlakoglu

يكمن جوهر تمييز حقيبة الكلمات في حساب تكرار الكلمات في المستندات النصية بهدف معالجتها في نماذج التعلم الآلي، حيث يُنتج تباين تكرار المصطلح - تكرار المستند العكسي (TF-IDF) الخاص بالميزة نماذج تأخذ في الاعتبار تكرار الكلمات عبر مجموعة من المستندات.

تُعد ميزة حقيبة الكلمات (BoW؛ تُكتب أيضًا حقيبة-الكلمات) تقنيةً لاستخراج الميزات والتي تُستخدم في نمذجة البيانات النصية لمعالجتها في خوارزميات استرداد المعلومات والتعلم الآلي. وبشكل أكثر تحديدًا، تعتبر نماذج حقيبة الكلمات (BoW) عبارة عن تجميع غير منظم لجميع الكلمات المعروفة في مستند نصي، حيث تُحدد فقط بناءً على التكرار مع تجاهل ترتيب الكلمات والسياق،1 فميزة حقيبة الكلمات هي إحدى الخطوات في العديد من مسارات التنقيب في النص.

تأتي معظم حزم معالجة اللغة الطبيعية (NLP) محملة بدَوَال لإنشاء نماذج حقيبة الكلمات، مثل دالة CountVectorizer في scikit-learn.

قم بجولة للتعرف على IBM watsonx

استكشف IBM watsonx وتعلّم كيفية إنشاء نماذج التعلم الآلي باستخدام مجموعات البيانات الإحصائية.

محتوى ذو صلة اشترِك في رسالة Think الإخبارية
كيف تعمل نماذج حقيبة الكلمات

قد يبدو تمييز حقيبة الكلمات في البداية شكلًا بسيطًا من معالجة النصوص للمبتدئين، نظرًا لبساطته المفترضة في حساب عدد الكلمات في مجموعة نصوص معينة، ومع ذلك، فإن نماذج حقيبة الكلمات أكثر تعقيدًا.

يتطلب فهم تمييز حقيبة الكلمات معرفة مبدئية على الأقل بالمساحات المتجهة، فالمساحة المتجهة هي مساحة متعددة الأبعاد حيث تُرسم فيها النقاط. وفي منهجية حقيبة الكلمات، تصبح كل كلمة منفردة بُعدًا منفصلًا (أو محورًا) في المساحة المتجهة. فإذا كانت مجموعة النصوص تحتوي على عدد n من الكلمات، فستكون المساحة المتجهة الناتجة مكوّنة من n أبعاد؛ هي عبارة غن بُعد واحد لكل كلمة فريدة في مجموعة النصوص. وبعد ذلك، يرسم النموذج كل مستند نصي منفصل كنقطة في المساحة المتجهة. ويُحدد موقع النقطة على بُعد معين بناءً على عدد المرات التي تظهر فيها كلمة ذلك البُعد في المستند الخاص بتلك النقطة.

فعلى سبيل المثال، بفرض أن لدينا مجموعة نصوص تتضمن محتويات مستندين منفصلين كالتالي:

مستند 1: A rose is red, a violet is blue

مستند 2: My love is like a red, red rose

ونظرًا لصعوبة تخيل شيء يتجاوز المساحة ثلاثية الأبعاد، سنكتفي بذلك، حيث أن المساحة المتجهة لمجموعة تحتوي على هذين المستندين ستكون مكوّنة من أبعاد منفصلة للكلمات: red، وrose، وviolet. فقد تبدو المساحة المتجهة ثلاثية الأبعاد لهذه الكلمات كالتالي:

بما أن الكلمات red، وrose، وviolet تظهر مرة واحدة في المستند 1، سيكون المتجه لذلك المستند في هذه المساحة هو (1,1,1). بينما في المستند 2، تظهر كلمة red مرتين، وrose مرة واحدة، وviolet لا تظهر على الإطلاق. لذا، فإن نقطة المتجه للمستند 2 ستكون (2,1,0)، وستُرسم كلتا نقطتي المستندين في المساحة المتجهة ثلاثية الأبعاد كالتالي:

لاحظ أن هذا الرسم يُظهر المستندات النصية كمتجهات بيانات في مساحة الميزات ثلاثية الأبعاد، ولكن يُمكن أن تُمثل حقيبة الكلمات الكلمات أيضًا كمتجهات ميزات في مساحة البيانات، حيث يُشير المتجه المميز إلى قيمة (التكرار) لميزة معينة (الكلمة) في نقطة بيانات محددة (المستند). لذلك، ستكون المتجهات المميزة للكلمات red، وrose، وviolet في المستندين 1 و2 كالتالي:2

لاحظ أن ترتيب الكلمات في المستندات الأصلية غير مهم. ففي نموذج حقيبة الكلمات، كل ما يهم هو عدد مرات ظهور كل كلمة عبر مجموعة النصوص.

لماذا تستخدم نماذج حقيبة الكلمات

نظرًا لأن نماذج حقيبة الكلمات تقيس فقط تكرار الكلمات في مستند معين، فإن حقيبة الكلمات تُوصف غالبًا كتقنية نمذجة بسيطة، ولكن حقيبة الكلمات تساعد في العديد من مهام معالجة اللغة الطبيعية (NLP)، وأبرزها تصنيف المستندات. ففي الواقع، تُناقش الدراسات غالبًا حقيبة الكلمات بجانب المصنِّفات الإحصائية، مثل مصنِّف بايز الساذج (Naïve Bayes).3

تُفسر مهام تصنيف النص الكلمات ذات التكرار العالي في مستند ما على أنها تمثل الأفكار الرئيسية للمستند.4 وهذا ليس افتراضًا غير معقول. فعلى سبيل المثال، إذا كانت بعض الكلمات الأكثر تكرارًا في مستند ما هي "رئيس"، "ناخبين"، و"انتخابات"، فهناك احتمال كبير أن يكون المستند نصًا سياسيًا يناقش انتخابات رئاسية. وعليه، يقوم تصنيف النصوص باستخدام طريقة حقيبة الكلمات باستخلاص أن المستندات ذات المحتوى المتشابه هي من نفس النوع.

قيود نماذج حقيبة الكلمات

على الرغم من أن المصنِّفات الاحتمالية التي تستخدم نهج حقيبة الكلمات أثبتت فعاليتها إلى حدٍ كبير، إلا أن هناك عدة عيوب لهذا النهج.

الارتباط بين الكلمات. يفترض نهج حقيبة الكلمات أن الكلمات مستقلة عن بعضها البعض في مستند أو مجموعة نصوص. فعلى سبيل المثال، كلمة انتخابات من المرجح أن تظهر في سياق مشترك مع كلمة "رئيس" أكثر من كلمة "شاعر". وعند قياس تكرار المصطلحات الفردية، لا يأخذ نهج حقيبة الكلمات في الاعتبار الارتباطات في الاستخدام بين الكلمات. ونظرًا لأن نهج حقيبة الكلمات يستخرج كل كلمة في مستند كميزة في نموذج حقيبة الكلمات، مع كون تكرار المصطلح هو وزن هذه الميزة، يمكن نظريًا أن تتسبب كلمتان أو أكثر مرتبطتان في إحداث مشكلة تعدد الارتباطات في المصنِّفات الإحصائية التي تستخدم هذا النموذج. ومع ذلك، أظهر الافتراض التبسيطي لطريقة "بايز الساذج" (Naïve Bayes) أنه يمكن إنتاج نماذج قوية على الرغم من هذه النواقص المحتملة.5

الكلمات المركبة. يمتد ارتباط الكلمات ليشمل تمثيلات حقيبة الكلمات للعبارات المركبة، حيث تعمل كلمتان أو أكثر كوحدة دلالية واحدة. فعلى سبيل المثال، قد يُمثل نموذج حقيبة الكلمات البسيط عبارة "مستر دارسي" ككلمتين منفصلتين وغير مرتبطتين، رغم أنهما تعملان معًا كوحدة واحدة. وهذا التمثيل باستخدام حقيبة الكلمات يفشل في عكس الطبيعة الدلالية والنحوية للمفاهيم المكونة من عدة كلمات.

الكلمات متعددة المعاني. كثيرٍ من الكلمات تحمل معانٍ متعددة تختلف بشكل كبير. فعلى سبيل المثال، يمكن أن تعني كلمة "bat" إما أداة رياضية أو حيوانًا، وعادةً ما تحدث هذه المعاني في سياقات مختلفة تمامًا. وبالمثل، يمكن أن تتغير معاني الكلمات حسب موقع النبرة (التركيز) في اللغة المنطوقة-مثل الفرق بين "CON-tent" و"con-TENT". ونظرًا لأن حقيبة الكلمات لا تأخذ في الاعتبار السياق والمعنى عند نمذجة الكلمات، فإنها تدمج جميع هذه المعاني المختلفة تحت كلمة واحدة، مما يؤدي إلى فقدان معلومات مهمة قد تكون حاسمة في تصنيف النصوص.

التناثر/التشتت. في نموذج حقيبة الكلمات، كل كلمة هي ميزة، أو بُعد، في النموذج، وكل مستند يُعتبر متجهًا. ونظرًا لأن المستند لا يستخدم كل كلمة في المفردات التي ينتجها النموذج، قد تكون العديد من قيم الميزات لمتجه معين صفرية. فعندما تكون غالبية القيم للمتجهات صفرية، يصبح النموذج متشتتًا/متناثرًا (وإذا تم تمثيل المتجهات كمصفوفة، تسمى هذه المصفوفة مصفوفة متشتتة/متناثرة)، حيث يؤدي تشتت/تناثر النموذج إلى زيادة في الأبعاد، مما يؤدي بدوره إلى الإفراط في التخصيص مع بيانات التدريب.6

التعديلات

حقيبة n-grams. استخدام الـ n-grams بدلًا من الكلمات يمكن أن يصحح عددًا من العيوب المتأصلة في نماذج حقيبة الكلمات. فبدلًا من إنشاء نموذج حيث تكون كل كلمة ميزة، يمكن استخدام الـ n-grams كميزات للمتجهات. وفي هذا السياق، يشير n إلى عدد الكلمات التي تعامل كوحدة دلالية واحدة، ولعل الأكثر شيوعًا في حقيبة الـ n-grams هو الـ bigrams (أي كلمتين). تعتبر الـ word-bigrams مفيدة لأنها يمكن أن تأخذ في الاعتبار الكلمات المركبة، مثل New York أو Eiffel Tower. بالطبع، ليست كل الـ word-bigrams مفيدة، مثل on the أو of the. ومع ذلك، فإن هذه تُعد إحدى الطرق للتعامل مع مشكلات مثل الكلمات المركبة والارتباط بين الكلمات.7

تقنيات تطبيع النصوص. قد يكون من الضروري تطبيع بيانات النص غير المنسق لتحسين هيكلية ووظيفة نماذج حقيبة الكلمات. فعند إنشاء نموذج حقيبة الكلمات أو حقيبة الـ n-grams، قد تكون الكلمات مثل الأدوات (مثل: a، the، وما إلى ذلك) وحروف الجر (مثل: from، of، on، وما إلى ذلك) هي الأكثر تكرارًا. وهذه الكلمات لا توفر كثير من المعلومات حول محتوى المستند أو نوعه، وبالتالي فهي غير مجدية إلى حدٍ كبير في مهام التصنيف. فتقنيات معالجة النصوص المسبقة مثل إزالة كلمات التوقف (التي تُستخدم غالبًا في التجذير) يمكن أن تساعد في إزالة الكلمات غير ذات الصلة من مجموعات بيانات النص لتحسين هيكلية نماذج حقيبة الكلمات. ولحسن الحظ، تأتي كثير من مكتبات وحزم بايثون، مثل مجموعة أدوات اللغة الطبيعية (NLTK) أو sklearn، مع وظائف لتنفيذ تقنيات المعالجة المسبقة الشائعة.

التجزئة. تُحول ميزة "التجزئة" الكلمات الفردية من بيانات النص المدخلة إلى مجموعة رقمية بحجم ثابت، حيث يُستخدم هذا النطاق الثابت من الأرقام لبناء مساحة المتجهات لنموذج حقيبة الكلمات. ويُساعد تحديد نطاق الأرقام -وبالتالي أبعاد النموذج- بحجم ثابت في منع ندرة البيانات والبُعد العالي. وتعتبر التصادمات أحد العيوب الرئيسية للتجزئة، حيث يحدث تصادم التجزئة عندما يتم تعيين رمزين مميزين غير مرتبطتين إلى نفس الرقم الصحيح. ومن عيوب التجزئة الأخرى أنها لا تأخذ في الاعتبار الكلمات متعددة المعاني.8

تكرار المصطلح - تكرار المستند العكسي (TF-IDF)

في نماذج حقيبة الكلمات التقليدية، يمكن أن تكون الكلمات غير المهمة من الناحية الدلالية (مثل: the، some، وما إلى ذلك) هي الأعلى تكرارًا، وبالتالي لها الوزن الأكبر في النموذج. لذلك، يهدف مصنِّف تكرار المصطلح - تكرار المستند العكسي (TF-IDF) إلى تصحيح ذلك. وفي حين أن حقيبة الكلمات لا تعتمد إلا على عدد المرات التي تظهر فيها الكلمة في مستند واحد، يأخذ مصنِّف تكرار المصطلح - تكرار المستند العكسي (TF-IDF) في الاعتبار انتشار الكلمة عبر جميع المستندات في مجموعة النصوص. ويتمثل مصنِّف تكرار المصطلح - تكرار المستند العكسي (TF-IDF) في المعادلة التالية:

في هذه المعادلة، المصطلح الأول هو القيمة المحسوبة بواسطة نموذج حقيبة الكلمات، أي تكرار المصطلح، بينما يمثل المصطلح الثاني تكرار المستند العكسي، حيث يمثل N العدد الإجمالي للمستندات في مجموعة النصوص، وn يمثل عدد المستندات التي تظهر فيها الكلمة المعنية. فكلما زاد عدد المستندات التي تظهر فيها الكلمة، قلل مصنِّف تكرار المصطلح - تكرار المستند العكسي (TF-IDF) من وزن تلك الكلمة. وبهذه الطريقة، يعد مصنِّف تكرار المصطلح - تكرار المستند العكسي (TF-IDF) مثالًا على تحجيم الميزة في نماذج التعلم الآلي.9

مثلما هو الحال مع نماذج حقيبة الكلمات العامة، غالبًا ما تحتوي حزم معالجة اللغة الطبيعية على وظائف جاهزة لتنفيذ مصنِّف تكرار المصطلح - تكرار المستند العكسي (TF-IDF)، مثل وظيفة tfidfvectorizer في scikit-learn.

الأبحاث الحديثة

تُستخدم أشكال مختلفة من نماذج حقيبة الكلمات في مجموعة متنوعة من مهام معالجة اللغة الطبيعية. فعلى سبيل المثال، تستخدم الشبكة العصبية "الكلمة إلى متجه (word2vec)" حقيبة الكلمات المستمرة لإنتاج نماذج تضمين الكلمات (word embedding)،10 كما يُمكن استخدام تحليل المشاعر والتصنيف مع نماذج حقيبة الكلمات.11

اللغات

يركز البحث الأولي في كثير من تقنيات معالجة اللغة الطبيعية على اللغة الإنجليزية أو اللغات الأخرى ذات الأبجدية اللاتينية، مثل الإسبانية أو الفرنسية. ومؤخرًا، اتجه الباحثون إلى لغات أخرى مثل اللغة العربية، حيث اتجهت الدراسات الحديثة إلى دراسة فعالية نماذج حقيبة الكلمات بجانب أدوات أخرى لمعالجة اللغة الطبيعية، مثل الكلمة إلى متجه (word2vec)، لتحليل المشاعر وتصنيف النصوص العربية بنتائج واعدة،12 بينما تُظهر دراسات أخرى الإمكانيات لمصنِّفات بايز الساذج (Naïve Bayes) القائمة على نماذج حقيبة الكلمات في تمييز المعاني للكلمات في النصوص السنسكريتية.13

خطاب الكراهية

خضعت مناهج حقيبة الكلمات للاختبارات في الخوارزميات لكشف خطاب الكراهية على منصات التواصل الاجتماعي بنتائج متباينة. تُقارن إحدى الدراسات بين حقيبة الكلمات والكلمة إلى متجه (word2vec) ومصنِّفات التعلم العميق مثل بيرت (BERT)، مشيرةً إلى أن بيرت (BERT) يتفوق على حقيبة الكلمات وأن مصنِّف تكرار المصطلح - تكرار المستند العكسي (TF-IDF) لا يُحسن التنبؤات بشكل كبير من نماذج حقيبة الكلمات.14 فعلى النقيض من ذلك، تُظهر دراسة لاحقة خوارزمية تستخدم حقيبة الكلمات وبايز الساذج (Naïve Bayes) لاكتشاف خطاب الكراهية بدقة تبلغ حوالي 99%،15 حيث تساهم اختلافات حجم البيانات وأخذ العينات، بالإضافة إلى معالجة النصوص المسبقة، في الفجوة في هذه النتائج. ففي الواقع، تقترح دراسات أخرى أن الأداء المقارن بين بيرت (BERT) والمصنِّفات باستخدام حقيبة الكلمات يعتمد على أحجام فئات التصنيف في مجموعات البيانات.16

رؤية الكمبيوتر

في الآونة الأخيرة، تبنت مجتمعات رؤية الكمبيوتر نوعًا خاصًا بهم من حقيبة الكلمات لاستخراج الميزات في مهام تصنيف الصور واسترجاعها، حيث يكشف هذا النهج ميزات الصور ويستخرجها ويجمع المناطق المتشابهة معًا بوصفها "كلمات رمزية". فكثير من التحديات التي تواجه مناهج حقيبة الكلمات في تصنيف الصور هي نفسها الموجودة في مهام رؤية الكمبيوتر الأخرى: مثل الأجسام ذات الألوان أو الخلفيات المتشابهة، الأجسام المحجوبة والمتداخلة، التباين داخل نفس الفئة، وما إلى ذلك.17

موارد ذات الصلة الاستفادة من محتوى وسائل التواصل الاجتماعي باستخدام التنقيب في النص

تعرّف على الخطوات الشائعة للتنقيب في النص باستخدام أدوات مثل حقيبة الكلمات.

تصنيف البيانات باستخدام خوارزمية بايز الساذج (Naive Bayes)

أَنْشِئ نموذج حقيبة الكلمات باستخدام scikit-learn لتحضير البيانات لتصفية البريد غير المرغوب باستخدام مصنِّف بايز الساذج.

التقييم التلقائي لقياس مستويات الشدة في صور الجلد

يستخدم باحثو IBM نموذج "حقيبة الكلمات البصرية" كأداة فعالة لاستخلاص السمات المميزة في صور مرض الصدفية. https

الحواشي

1 Ruslan Mitkov (ed.), Oxford Handbook of Computational Linguistics, 2nd edition, Oxford University Press, 2014.

2 Alice Zheng and Amanda Casari, Feature Engineering for Machine Learning, O’Reilly, 2018.

3 Daniel Jurafsky and James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023, https://web.stanford.edu/~jurafsky/slp3/ (link resides outside ibm.com). Christopher Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press, 2000.

4 Dongyang Yan, Keping Li, Shuang Gu, and Liu Yang, “Network-Based Bag-of-Words Model for Text Classification,” IEEE Access, Vol. 8, 2020, pp. 82641-82652، https://ieeexplore.ieee.org/document/9079815 (link resides outside ibm.com).

5 Christopher Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press, 2000.

6 Dani Yogatama, "Sparse Models of Natural Language Text," doctoral thesis, Carnegie Mellon University, 2015, https://lti.cmu.edu/people/alumni/alumni-thesis/yogatama-dani-thesis.pdf (link resides outside ibm.com).

7 Yoav Goldberg, Neural Network Methods for Natural Language Processing, Springer, 2022.

8 Alice Zheng and Amanda Casari, Feature Engineering for Machine Learning, O’Reilly, 2018.

9 Alice Zheng and Amanda Casari, Feature Engineering for Machine Learning, O’Reilly, 2018.

10 Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean, "Efficient Estimation of Word Representations in Vector Space," Workshop Track Proceedings of 1st International Conference on Learning Representations (ICLR), 2013, https://arxiv.org/abs/1301.3781 (link resides outside ibm.com).

11 Tan Thongtan and Tanasanee Phienthrakul, "Sentiment Classification Using Document Embeddings Trained with Cosine Similarity," Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics: Student Research Workshop, 2019, pp. 407-414, https://aclanthology.org/P19-2057/ (link resides outside ibm.com).

12 Huda Abdulrahman Almuzaini and Aqil M. Azmi, "Impact of Stemming and Word Embedding on Deep Learning-Based Arabic Text Categorization," IEEE Access, Vol. 8, 2020, pp. 127913-127928, https://ieeexplore.ieee.org/abstract/document/9139948 (link resides outside ibm.com). Mohammed Kasri, Marouane Birjali, and Abderrahim Beni-Hssane, "A comparison of features extraction methods for Arabic sentiment analysis," Proceedings of the 4th International Conference on Big Data and Internet of Things (BDIoT '19), 2019, https://dl.acm.org/doi/abs/10.1145/3372938.3372998 (link resides outside ibm.com).

13 Archana Sachindeo Maurya, Promila Bahadur, and Srishti Garg, "Approach Toward Word Sense Disambiguation for the English-To-Sanskrit Language Using Naïve Bayesian Classification," Proceedings of Third Doctoral Symposium on Computational Intelligence, 2023, pp. 477–491, https://link.springer.com/chapter/10.1007/978-981-19-3148-2_40 (link resides outside ibm.com).

14 Joni Salminen, Maximilian Hopf, Shammur A. Chowdhury, Soon-gyo Jung, Hind Almerekhi, and Bernard J. Jansen, "Developing an online hate classifier for multiple social media platforms," Human-centric Computing and Information Sciences, Vol. 10, 2020, https://hcis-journal.springeropen.com/articles/10.1186/s13673-019-0205-6 (link resides outside ibm.com).

15 Yogesh Pandey, Monika Sharma, Mohammad Kashaf Siddiqui, and Sudeept Singh Yadav, "Hate Speech Detection Model Using Bag of Words and Naïve Bayes," Advances in Data and Information Sciences, 2020, pp. 457–470, https://link.springer.com/chapter/10.1007/978-981-16-5689-7_40 (link resides outside ibm.com).

16 Paula Fortuna, Juan Soler-Company, and Leo Wanner, "How well do hate speech, toxicity, abusive and offensive languageclassification models generalize across datasets?," Information Processing and Management, Vol. 58, 2021, https://www.sciencedirect.com/science/article/pii/S0306457321000339 (link resides outside ibm.com).

17 Wisam A. Qader, Musa M. Ameen, and Bilal I. Ahmed, “An Overview of Bag of Words: Importance, Implementation, Applications, and Challenges," Proceedings of the Fifth International Engineering Conference on Developments in Civil & Computer Engineering Applications (IEC2019), 2019, pp. 200-204, https://ieeexplore.ieee.org/document/8950616 (link resides outside ibm.com).