ما هي حقيبة الكلمات؟

المؤلفين

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

يكمن جوهر تمييز حقيبة الكلمات في حساب تكرار الكلمات في المستندات النصية بهدف معالجتها في نماذج التعلم الآلي، حيث يُنتج تباين تكرار المصطلح - تكرار المستند العكسي (TF-IDF) الخاص بالميزة نماذج تأخذ في الاعتبار تكرار الكلمات عبر مجموعة من المستندات.

تُعد حقائب الكلمات "Bag of words" (BoW؛ تُكتب أيضًا "bag-of-words") تقنيةً لاستخراج العناصر التي تُستخدم لنمذجة البيانات النصية من أجل معالجتها في خوارزميات استرجاع المعلومات والتعلم الآلي. وبشكل أكثر تحديدًا، تُعد نماذج BoW مجموعة غير منسقة من جميع الكلمات المعروفة في المستندات النصية والتي تُحدد وفقًا لمعدل التكرار فقط مع تجاهل ترتيب الكلمات والسياق.¹ تُعدُّ حقائب الكلمات واحدة من عدة خطوات في العديد من عمليات استخراج النصوص.

تأتي معظم حزم معالجة اللغة الطبيعية (NLP) محملة بدَوَال لإنشاء نماذج حقيبة الكلمات، مثل دالة CountVectorizer في scikit-learn.

الرسالة الإخبارية الخاصة بالمجال

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

كيف تعمل نماذج حقيبة الكلمات

قد يبدو تمييز حقيبة الكلمات في البداية شكلًا بسيطًا من معالجة النصوص للمبتدئين، نظرًا لبساطته المفترضة في حساب عدد الكلمات في مجموعة نصوص معينة، ومع ذلك، فإن نماذج حقيبة الكلمات أكثر تعقيدًا.

يتطلب فهم تمييز حقيبة الكلمات معرفة مبدئية على الأقل بالمساحات المتجهة، فالمساحة المتجهة هي مساحة متعددة الأبعاد حيث تُرسم فيها النقاط. وفي منهجية حقيبة الكلمات، تصبح كل كلمة منفردة بُعدًا منفصلًا (أو محورًا) في المساحة المتجهة. فإذا كانت مجموعة النصوص تحتوي على عدد n من الكلمات، فستكون المساحة المتجهة الناتجة مكوّنة من n أبعاد؛ هي عبارة غن بُعد واحد لكل كلمة فريدة في مجموعة النصوص. وبعد ذلك، يرسم النموذج كل مستند نصي منفصل كنقطة في المساحة المتجهة. ويُحدد موقع النقطة على بُعد معين بناءً على عدد المرات التي تظهر فيها كلمة ذلك البُعد في المستند الخاص بتلك النقطة.

فعلى سبيل المثال، بفرض أن لدينا مجموعة نصوص تتضمن محتويات مستندين منفصلين كالتالي:

مستند 1: A rose is red, a violet is blue

مستند 2: My love is like a red, red rose

ونظرًا لصعوبة تخيل شيء يتجاوز المساحة ثلاثية الأبعاد، سنكتفي بذلك، حيث أن المساحة المتجهة لمجموعة تحتوي على هذين المستندين ستكون مكوّنة من أبعاد منفصلة للكلمات: red، وrose، وviolet. فقد تبدو المساحة المتجهة ثلاثية الأبعاد لهذه الكلمات كالتالي:

المساحة المتجهة التي تحتوي على red وrose وviolet كأبعاد للميزات

بما أن الكلمات red، وrose، وviolet تظهر مرة واحدة في المستند 1، سيكون المتجه لذلك المستند في هذه المساحة هو (1,1,1). بينما في المستند 2، تظهر كلمة red مرتين، وrose مرة واحدة، وviolet لا تظهر على الإطلاق. لذا، فإن نقطة المتجه للمستند 2 ستكون (2,1,0)، وستُرسم كلتا نقطتي المستندين في المساحة المتجهة ثلاثية الأبعاد كالتالي:

المساحة المتجهة ثلاثية الأبعاد التي تحتوي على مستندين كنقاط

لاحظ أن هذا الشكل يُصور المستندات النصية كمتجهات بيانات في فضاء العناصر ثلاثي الأبعاد. ولكن يُمكن أن تُمثل حقيبة الكلمات كلمات أيضًا كمتجهات عناصر في فضاء البيانات. حيث يُشير متجه العناصر إلى قيمة (الظهور) إحدى العناصر (الكلمة) في نقطة بيانات محددة (المستند). لذا فإن متجهات العناصر للأحمر والوردي والبنفسجي في المستندين 1 و2 ستبدو كما يلي:²

المساحة المتجهة للميزة لكلمات red وrose وviolet في مستندين

لاحظ أن ترتيب الكلمات في المستندات الأصلية غير مهم. ففي نموذج حقيبة الكلمات، كل ما يهم هو عدد مرات ظهور كل كلمة عبر مجموعة النصوص.

لماذا تستخدم نماذج حقيبة الكلمات

نظرًا إلى أن نماذج حقيبة الكلمات تقيس فقط معدل تكرار الكلمات في مستند معين، فإن حقيبة الكلمات تُوصف في كثير من الأحيان كتقنية نمذجة بسيطة. ولكن حقيبة الكلمات تساعد في العديد من مهام معالجة اللغة الطبيعية (NLP)، ومن أبرزها تصنيف المستندات. في الواقع، غالبًا ما تناقش الأدبيات حقائب الكلمات مع المصنفات الإحصائية مثل مصنف بايز البسيط.³

تُفسر مهام تصنيف النصوص الكلمات ذات معدل التكرار العالي في مستند ما على أنها تمثل الأفكار الرئيسية للمستند.⁴ وهذا ليس افتراضًا غير منطقي. فعلى سبيل المثال، إذا كانت بعض الكلمات الأكثر تكرارًا في مستند ما هي "رئيس"، و"ناخبين"، و"انتخابات"، فثمة احتمال كبير أن يكون المستند نصًا سياسيًا يناقش انتخابات رئاسية. وعليه، تستنج خوارزميات تصنيف النصوص باستخدام طريقة حقيبة الكلمات أن المستندات ذات المحتوى المتشابه هي من النوع نفسه.

Mixture of Experts | 28 أغسطس، الحلقة 70

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

شاهد أحدث حلقات البودكاست

قيود نماذج حقيبة الكلمات

على الرغم من أن المصنِّفات الاحتمالية التي تستخدم نهج حقيبة الكلمات أثبتت فعاليتها إلى حدٍ كبير، إلا أن هناك عدة عيوب لهذا النهج.

ترابط الكلمات. يفترض نهج حقائب الكلمات أن الكلمات ليس لها صلة ببعضها في المستندات أو في مجموعة النصوص. فعلى سبيل المثال، كلمة انتخابات من المرجح أن تظهر في سياق مشترك مع كلمة "رئيس" أكثر من كلمة "شاعر". وعند قياس معدل تكرار كل مصطلح على حدة، لا يراعي نهج حقائب الكلمات الارتباطات في استخدام الكلمات. ونظرًا إلى أن نهج حقائب الكلمات يستخرج كل كلمة في المستند كعنصر في نموذج حقيبة الكلمات، مع كون معدل تكرار المصطلح هو وزن ذلك العنصر، يمكن نظريًا أن تتسبب كلمتان أو أكثر مرتبطتان في إحداث مشكلة تعدد الارتباطات في المصنفات الإحصائية التي تستخدم هذا النموذج. ومع ذلك، أثبت الافتراض التبسيطي لمصنف بايز البسيط أنه يمكن إنشاء نماذج فائقة على الرغم من أوجه القصور المحتملة.⁵

الكلمات المركبة. يمتد ارتباط الكلمات ليشمل تمثيلات حقيبة الكلمات للعبارات المركبة، حيث تعمل كلمتان أو أكثر كوحدة دلالية واحدة. فعلى سبيل المثال، قد يُمثل نموذج حقيبة الكلمات البسيط عبارة "مستر دارسي" ككلمتين منفصلتين وغير مرتبطتين، رغم أنهما تعملان معًا كوحدة واحدة. وهذا التمثيل باستخدام حقيبة الكلمات يفشل في عكس الطبيعة الدلالية والنحوية للمفاهيم المكونة من عدة كلمات.

الكلمات متعددة المعاني. كثيرٍ من الكلمات تحمل معانٍ متعددة تختلف بشكل كبير. فعلى سبيل المثال، يمكن أن تعني كلمة "bat" إما أداة رياضية أو حيوانًا، وعادةً ما تحدث هذه المعاني في سياقات مختلفة تمامًا. وبالمثل، يمكن أن تتغير معاني الكلمات حسب موقع النبرة (التركيز) في اللغة المنطوقة-مثل الفرق بين "CON-tent" و"con-TENT". ونظرًا لأن حقيبة الكلمات لا تأخذ في الاعتبار السياق والمعنى عند نمذجة الكلمات، فإنها تدمج جميع هذه المعاني المختلفة تحت كلمة واحدة، مما يؤدي إلى فقدان معلومات مهمة قد تكون حاسمة في تصنيف النصوص.

الندرة. في نموذج حقيبة الكلمات، كل كلمة تُعد عنصرًا، أو بُعدًا، في النموذج، وكل مستند يُعد متجهًا. ونظرًا إلى أن المستند لا يستخدم كل كلمة في المفردات التي ينتجها النموذج، قد تكون العديد من قيم عناصر متجه معين صفرية. وعندما تكون غالبية قيم المتجهات صفرية، يُشير ذلك إلى أن النموذج يُعاني من مشكلة ندرة البيانات (وإذا عُرضت المتجهات في مصفوفة، تسمى هذه المصفوفة مصفوفة نادرة البيانات). وتؤدي ندرة البيانات في النموذج إلى ارتفاع الأبعاد، ما يؤدي بدوره إلى الإفراط في تخصيص بيانات التدريب.⁶

التعديلات

حقائب سلاسل الكلمات (n-grams).استخدام سلاسل الكلمات بدلاً من الكلمات من شأنه أن يصحح عددًا من العيوب المتأصلة في نماذج حقيبة الكلمات. فبدلاً من إنشاء نموذج تُعد فيه كل كلمة عنصرًا، يمكن استخدام سلاسل الكلمات كعناصر للمتجهات. وفي هذا السياق، يشير الحرف n إلى عدد الكلمات التي تعامل كوحدة دلالية واحدة، ولعل الأكثر شيوعًا في حقائب سلاسل الكلمات هي الكلمات الثنائية (أي المكونة من كلمتين). وللكلمات الثنائية ميزة متمثلة في أنها يمكن أن تراعي الكلمات المركبة، مثل نيو يورك أو برج إيفيل. بالطبع، ليست كل الكلمات الثنائية لها معنى مفيدًا، مثل on the أو of the. ومع ذلك، فإنها تُعد إحدى طرق التعامل مع مسائل مثل الكلمات المركبة وترابط الكلمات.⁷

تقنيات تنظيم النصوص. قد يكون من الضروري تنظيم البيانات النصية غير المنسقة لتحسين هيكل ووظيفة نماذج حقيبة الكلمات. فعند إنشاء نموذج حقيبة الكلمات أو حقيبة الـ n-grams، قد تكون الكلمات مثل الأدوات (مثل: a، the، وما إلى ذلك) وحروف الجر (مثل: from، of، on، وما إلى ذلك) هي الأكثر تكرارًا. وهذه الكلمات لا تُدلي بالكثير من المعلومات حول محتوى المستند أو نوعه، ومن ثَم فهي غير مجدية إلى حدٍ كبير في مهام التصنيف. يمكن أن تساعد تقنيات مهام ما قبل معالجة النصوص مثل إزالة الكلمات الشائعة (التي تُستخدم غالبًا في التجذيع) على إزالة الكلمات غير ذات الصلة من مجموعات البيانات النصية لتحسين هيكل نماذج حقيبة الكلمات. ولحسن الحظ، تكون الكثير من مكتبات Python وحزمها، مثل مجموعة أدوات اللغة الطبيعية (NLTK) أو sklearn، مزودة بدوال لتنفيذ تقنيات مهام ما قبل المعالجة الشائعة.

التجزئة. تُحول ميزة "التجزئة" كل كلمة من البيانات النصية المدخلة إلى مجموعة رقمية ذات حجم ثابت. وعندئذٍ يُستخدم هذا النطاق الثابت من الأرقام لبناء فضاء متجهات لنموذج حقيبة الكلمات. ويُساعد تحديد نطاق الأرقام - وبالتبعية أبعاد النموذج – في حجم ثابت على تجنب ندرة البيانات وارتفاع الأبعاد. ويُعد التعارض عيبًا رئيسيًا من عيوب التجزئة. حيث يحدث تعارض التجزئة عند تحديد رقم صحيح واحد لرمزين غير مرتبطتين. ومن عيوب التجزئة أيضًا أنها لا تراعي الكلمات متعددة المعاني.⁸

تكرار المصطلح - تكرار المستند العكسي (TF-IDF)

في نماذج حقيبة الكلمات التقليدية، يمكن أن تكون الكلمات غير المهمة من الناحية الدلالية (مثل: the، some، وما إلى ذلك) هي الأعلى تكرارًا، وبالتالي لها الوزن الأكبر في النموذج. لذلك، يهدف مصنِّف تكرار المصطلح - تكرار المستند العكسي (TF-IDF) إلى تصحيح ذلك. وفي حين أن حقيبة الكلمات لا تعتمد إلا على عدد المرات التي تظهر فيها الكلمة في مستند واحد، يأخذ مصنِّف تكرار المصطلح - تكرار المستند العكسي (TF-IDF) في الاعتبار انتشار الكلمة عبر جميع المستندات في مجموعة النصوص. ويتمثل مصنِّف تكرار المصطلح - تكرار المستند العكسي (TF-IDF) في المعادلة التالية:

في هذه المعادلة، يمثل الجزء الأول القيمة التي يحسبها نموذج حقيبة الكلمات، وهي معدل تكرار المصطلحات. بينما يمثل الجزء الثاني معدل تكرار المستند العكسي. وتمثل N إجمالي عدد المستندات في مجموعة النصوص، وn تمثل عدد المستندات التي تظهر فيها كلمة معنية. وكلما زاد عدد المستندات التي تظهر فيها الكلمة، قلل مقياس تكرار المصطلح- تكرار المستند العكسي (TF-IDF) من وزن تلك الكلمة. وبهذه الطريقة، يُعد مقياس TF-IDF مثالاً على تقييم العناصر في نماذج التعلم الآلي.⁹

مثلما هو الحال مع نماذج حقيبة الكلمات العامة، غالبًا ما تحتوي حزم معالجة اللغة الطبيعية على وظائف جاهزة لتنفيذ مصنِّف تكرار المصطلح - تكرار المستند العكسي (TF-IDF)، مثل وظيفة tfidfvectorizer في scikit-learn.

الأبحاث الحديثة

تُستخدم أشكال مختلفة من نماذج حقيبة الكلمات في مجموعة متنوعة من مهام معالجة اللغة الطبيعية. تُستخدم أشكال مختلفة من نماذج حقيبة الكلمات في مجموعة متنوعة من مهام معالجة اللغة الطبيعية. على سبيل المثال، تستخدم شبكة Word2vec العصبية حقيبة كلمات ثابتة لإنتاج نماذج تضمين الكلمات. ¹⁰ كما يمكن استخدام نماذج حقيبة الكلمات في التحليل الدلالي والتصنيف.¹¹

اللغات

تركز الأبحاث الأولية حول العديد من تقنيات معالجة اللغة الطبيعية جُلّ اهتمامها على اللغة الإنجليزية أو اللغات الأخرى ذات الأبجدية اللاتينية، مثل الإسبانية أو الفرنسية. ومؤخرًا، اتجه الباحثون إلى لغات أخرى مثل اللغة العربية. تناولت الدراسات الحديثة مدى فعالية نماذج حقائب الكلمات جنبًا إلى جنب مع غيرها من أدوات مع معالجة اللغة الطبيعية مثل word2vec في تحليل المشاعر وتصنيف النصوص العربية وتوصلت إلى نتائج مبهرة.¹² وأثبتت دراسات أخرى كفاءة إمكانات مصنف بايز البسيط القائم على نماذج حقيبة الكلمات في توضيح معاني الكلمات في النصوص المكتوبة باللغة السنسكريتية.¹³

خطاب الكراهية

خضعت طرق حقائب الكلمات للاختبارات ضمن خوارزميات الكشف عن خطابات الكراهية على منصات التواصل الاجتماعي وحققت نتائج متباينة. تُقارن إحدى الدراسات بين حقيبة الكلمات مع word2vec ومصنفات التعلم العميق مثل BERT، موضحةً أن BERT يتفوق على حقيبة الكلمات وأن مقياس TF-IDF لا يُحسّن تنبؤات نماذج حقيبة الكلمات بشكل كبير.¹⁴ وفي المقابل، عرضت دراسة حديثة خوارزمية تستخدم حقائب الكلمات ومصنف بايز البسيط للكشف عن خطاب الكراهية، وبلغ مستوى دقتها حوالي 99%.¹⁵ يمكن أن يرجع سبب اختلاف هذه النتائج إلى اختلاف حجم البيانات وأخذ العينات، بالإضافة إلى مهام ما قبل معالجة النصوص. ففي الواقع، أشارت دراسات أخرى إلى أن وجه المقارنة بين أداء BERT والمصنفات التي تستخدم حقائب الكلمات يعتمد على أحجام فئات التصنيف في مجموعات البيانات.¹⁶

رؤية الكمبيوتر

في الآونة الأخيرة، تبنت مجتمعات رؤية الكمبيوتر نوعًا خاصًا بهم من حقائب الكلمات لاستخراج العناصر في مهام تصنيف الصور واسترجاعها. وتُحدد هذه الطريقة أوصاف الصور وتستخرجها وتجمع الأجزاء المتشابهة معًا بوصفها "كلمات رمزية". فكثير من تحديات طرق استخدام حقائب الكلمات في تصنيف الصور هي نفسها الموجودة في مهام رؤية الكمبيوتر الأخرى: مثل الأجسام ذات الألوان أو الخلفيات المتشابهة، والأجسام المحجوبة والمتداخلة، والتباين داخل الفئة نفسها، وما إلى ذلك.¹⁷

أطلق العنان لقوة الذكاء الاصطناعي التوليدي والتعلم الآلي (ML)

تعرّف على كيفية دمج الذكاء الاصطناعي التوليدي والتعلّم الآلي بثقة في أعمالك

الموارد

طوِّر مستوى خبرتك في التعلم الآلي

تعلّم المفاهيم الأساسية وطوّر مهاراتك من خلال المختبرات العملية والدورات التدريبية والمشاريع الموجهة والتجارب وغيرها.

أطلق العنان لقوة الذكاء الاصطناعي التوليدي والتعلم الآلي (ML)

تعرّف على كيفية دمج الذكاء الاصطناعي التوليدي والتعلّم الآلي بثقة في أعمالك

التفعيل المثمر للذكاء الاصطناعي: جني الأرباح وعائد الاستثمار باستخدام الذكاء الاصطناعي التوليدي

هل ترغب في زيادة عائد استثماراتك في الذكاء الاصطناعي؟ تعرّف على كيفية تأثير توسيع نطاق الذكاء الاصطناعي التوليدي في المجالات الرئيسية، من خلال مساعدة أفضل العقول لديك على وضع حلول مبتكرة جديدة وطرحها.

كيفية اختيار نموذج الأساس المناسب

تعرّف على كيفية اختيار نموذج أساس الذكاء الاصطناعي الأكثر ملاءمة لحالة الاستخدام الخاصة بك.

استكشف IBM Granite

IBM Granite هي مجموعة من نماذج الذكاء الاصطناعي المفتوحة والموثوق بها وذات الأداء العالي والتي صُمِمَت خصيصًا للأعمال وجرى الارتقاء بها على النحو الأمثل لتوسيع نطاق تطبيقات الذكاء الاصطناعي لديك. استكشف خيارات اللغة والتعليمات البرمجية والسلاسل الزمنية والدرابزين.

كيف تزدهر في عصر الذكاء الاصطناعي الجديد بثقة وثبات

تعمّق في العناصر الثلاثة الهامة لاستراتيجية الذكاء الاصطناعي القوية: إنشاء ميزة تنافسية، وتوسيع نطاق الذكاء الاصطناعي عبر الأعمال، وتطوير الذكاء الاصطناعي الجدير بالثقة.

تقرير AI in Action

لقد قمنا باستطلاع آراء 2000 مؤسسة حول مبادرات الذكاء الاصطناعي لديها لمعرفة ما ينجح وما لا ينجح وكيف يمكنك المضي قدمًا.

حلول ذات صلة

IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai

حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي

الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي

اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

استكشف watsonx.ai

احجز عرضًا توضيحيًا مباشرًا

الحواشي

¹ Ruslan Mitkov (ed.), Oxford Handbook of Computational Linguistics, 2^nd edition, Oxford University Press, 2014.

² Alice Zheng and Amanda Casari, Feature Engineering for Machine Learning, O’Reilly, 2018.

³ Daniel Jurafsky and James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3^rd edition, 2023, https://web.stanford.edu/~jurafsky/slp3. Christopher Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press, 2000.

⁴ Dongyang Yan, Keping Li, Shuang Gu, and Liu Yang, “Network-Based Bag-of-Words Model for Text Classification,” IEEE Access, Vol. 8, 2020, pp. 82641-82652, https://ieeexplore.ieee.org/document/9079815.

⁵ Christopher Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press, 2000.

⁶ Dani Yogatama, “Sparse Models of Natural Language Text,” doctoral thesis, Carnegie Mellon University, 2015, https://lti.cmu.edu/people/alumni/alumni-thesis/yogatama-dani-thesis.pdf

⁷ Yoav Goldberg, Neural Network Methods for Natural Language Processing, Springer, 2022.

⁸ Alice Zheng and Amanda Casari, Feature Engineering for Machine Learning, O’Reilly, 2018.

⁹ Alice Zheng and Amanda Casari, Feature Engineering for Machine Learning, O’Reilly, 2018.

¹⁰ Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean, “Efficient Estimation of Word Representations in Vector Space,” Workshop Track Proceedings of 1st International Conference on Learning Representations (ICLR), 2013, https://arxiv.org/abs/1301.3781.

¹¹ Tan Thongtan and Tanasanee Phienthrakul, “Sentiment Classification Using Document Embeddings Trained with Cosine Similarity,” Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics: Student Research Workshop, 2019, pp. 407-414, https://aclanthology.org/P19-2057/.

¹² Huda Abdulrahman Almuzaini and Aqil M. Azmi, “Impact of Stemming and Word Embedding on Deep Learning-Based Arabic Text Categorization,” IEEE Access, Vol. 8, 2020, pp. 127913-127928, https://ieeexplore.ieee.org/abstract/document/9139948. Mohammed Kasri, Marouane Birjali, and Abderrahim Beni-Hssane, “A comparison of features extraction methods for Arabic sentiment analysis,” Proceedings of the 4th International Conference on Big Data and Internet of Things (BDIoT ‘19), 2019, https://dl.acm.org/doi/abs/10.1145/3372938.3372998.

¹³ Archana Sachindeo Maurya, Promila Bahadur, and Srishti Garg, “Approach Toward Word Sense Disambiguation for the English-To-Sanskrit Language Using Naïve Bayesian Classification,” Proceedings of Third Doctoral Symposium on Computational Intelligence, 2023, pp. 477–491, https://link.springer.com/chapter/10.1007/978-981-19-3148-2_40.

¹⁴ Joni Salminen, Maximilian Hopf, Shammur A. Chowdhury, Soon-gyo Jung, Hind Almerekhi, and Bernard J. Jansen, “Developing an online hate classifier for multiple social media platforms,” Human-centric Computing and Information Sciences, Vol. 10, 2020, https://hcis-journal.springeropen.com/articles/10.1186/s13673-019-0205-6.

¹⁵ Yogesh Pandey, Monika Sharma, Mohammad Kashaf Siddiqui, and Sudeept Singh Yadav, “Hate Speech Detection Model Using Bag of Words and Naïve Bayes,” Advances in Data and Information Sciences, 2020, pp. 457–470, https://link.springer.com/chapter/10.1007/978-981-16-5689-7_40.

¹⁶ Paula Fortuna, Juan Soler-Company, and Leo Wanner, “How well do hate speech, toxicity, abusive and offensive language classification models generalize across datasets?,” Information Processing and Management, Vol. 58, 2021, https://www.sciencedirect.com/science/article/pii/S0306457321000339.

¹⁷ Wisam A. Qader, Musa M. Ameen, and Bilal I. Ahmed, “An Overview of Bag of Words: Importance, Implementation, Applications, and Challenges,” Proceedings of the Fifth International Engineering Conference on Developments in Civil & Computer Engineering Applications (IEC2019), 2019, pp. 200-204, https://ieeexplore.ieee.org/document/8950616.