ما المقصود بالتحليل الدلالي الكامن؟

مؤلف

Jacob Murel Ph.D.

Senior Technical Content Creator

Joshua Noble

Data Scientist

ما المقصود بالتحليل الدلالي الكامن؟

في التعلم الآلي، التحليل الدلالي الكامن (LSA) هو تقنية نمذجة الموضوعات التي تحلل التكرار المشترك للكلمات للكشف عن الموضوعات الكامنة في المستندات. تستخدم LSA تقليل الأبعاد لإنشاء بيانات منظمة من نص غير منظم من أجل المساعدة في تصنيف النص واسترجاعه.

LSA هي واحدة من تقنيتين رئيسيتين لنمذجة الموضوعات، والأخرى هي تخصيص ديريتشليت الكامن (LDA). نمذجة الموضوعات هي إحدى تقنيات معالجة اللغة الطبيعية (NLP) التي تطبق عملية التعلم غير الموجّه على مجموعات كبيرة من البيانات النصية من أجل إنتاج مجموعة موجزة من المصطلحات المقتبسة من تلك المستندات. تهدف هذه المصطلحات إلى تمثيل مجموعة الموضوعات الأساسية المضمنة في المجموعة. تهدف نماذج الموضوعات إلى الكشف عن الموضوعات أو الموضوعات الكامنة التي تميز عددًا من المستندات.1

يمكن للمستخدمين إنشاء نماذج موضوعات LSA باستخدام مجموعة أدوات اللغة الطبيعية (NLTK) الخاصة ب scikit-learn (يشار إليها عادة باسم sklearn) و gensim في Python. تحتوي نماذج الموضوعات وحزم lsa في R أيضًا على وظائف لإنشاء نماذج موضوعات LSA.

استرجاع المعلومات

يرتبط التحليل الدلالي الكامن بالفهرسة الدلالية الكامنة (LSI) وهي تقنية استرجاع المعلومات. في أنظمة استرجاع المعلومات، يستخدم LSI نفس الإجراء الرياضي الذي يقوم عليه LSA لتعيين استعلامات المستخدم إلى المستندات بناء على التكرار المشترك للكلمات. إذا استعلم المستخدم عن نظام الفالس وفوكستروت، فقد يكون مهتمًا بالمستندات التي لا تحتوي على أيٍّ من هذه المصطلحات ولكنها تحتوي على مصطلحات غالبًا ما تتزامن مع مصطلحات الاستعلام الخاصة بهم. على سبيل المثال، قد يتزامن التانغو والبوليرو في كثير من الأحيان مع مصطلحات الاستعلام ويجب أن يشيرا إلى وثائق حول الموضوع نفسه. يقوم LSI بفهرسة المستندات وفقًا لمجموعات الكلمات الدلالية الكامنة التي تتكون من كلمات متزامنة بشكل شائع. وبهذه الطريقة، يمكن تحسين نتائج محرك البحث. تطبق LSA نفس الإجراء الرياضي مثل LSI من أجل التقاط البنية الدلالية المخفية التي تقوم عليها مجموعات كبيرة من المستندات.2

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! لقد اشتركت بنجاح.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

كيف يعمل التحليل الدلالي الكامن

مصفوفة Document-term

يبدأ LSA بمصفوفة المصطلح - المستند أو في بعض الأحيان بمصفوفة المصطلحات - المستندات. يعرض هذا عدد التكرارات لكل كلمة في جميع المستندات. في Python (لتقديم مثال واحد)، يمكن للمستخدمين إنشاء هذه المصفوفات باستخدام إطار بيانات الباندا. فيما يلي مثال على مصفوفة المصطلح - المستند باستخدام السلاسل النصية الثلاث كمستندات فردية:

d1: حبي مثل الورود الحمراء الحمرء

d2: الورود حمراء، والبنفسج زرقاء

d3: يفترض موسى أن أصابع قدميه وردة

مثال على مصفوفة document-term مع ثلاثة مستندات

توضح هذه المصفوفة تكرار الكلمات لكل كلمة عبر جميع المستندات الثلاثة بعد الترميز وإزالة كلمات التوقف. يتوافق كل عمود مع مستند، بينما يتوافق كل صف مع كلمة معينة موجودة عبر مجموعة النص بأكملها. تشير القيم الموجودة في المصفوفة إلى عدد المرات التي يظهر فيها مصطلح معين في مستند معين. إذا تكرر المصطلح w مرات في المستند d، فإن [w، d] = n. لذلك، على سبيل المثال، يستخدم المستند 1 "أحمر" مرتين، وهكذا [أحمر، d1] = 2.

من مصفوفة المصطلح - المستند، تنتج LSA مصفوفة المستند- المستند ومصفوفة المصطلحات. وإذا تم تعريف أبعاد مصفوفة المستند-المصطلح على أنها d مستندات مضروبة في w كلمات، فإن مصفوفة المستند-المستند تكون d مضروبة في d، ومصفوفة المصطلح-المصطلح w مضروبة في w. وتشير كل قيمة في مصفوفة المستند-المستند إلى عدد الكلمات المشتركة بين كل وثيقة. وتشير كل قيمة في مصفوفة المصطلح-المصطلح إلى عدد الوثائق التي يظهر فيها مصطلحان معًا.9

تناثر البيانات، الذي يؤدي إلى الإفراط في تجهيزالنموذج، يحدث عندما تكون غالبية قيم البيانات في مجموعة بيانات معينة صفر (أي فارغة). يحدث هذا بانتظام عند إنشاء مصفوفات المستند- المصطلح، حيث تكون كل كلمة فردية عبارة عن بعد منفصل لصف ومساحة متجه، حيث سيفتقر مستند واحد بانتظام إلى غالبية الكلمات الأكثر شيوعًا في المستندات الأخرى. في الواقع، تحتوي مصفوفة المصطلح - المستند النموذجية المستخدمة هنا على استخدامات عديدة لكلمات مثل موسى والبنفسج والأزرق التي تظهر في مستند واحد فقط. بالطبع، يمكن أن تساعد تقنيات المعالجة المسبقة للنص، مثل إزالة كلمات التوقف، والجذع، وتجريد الكلمة، في تقليل التناثر. ومع ذلك، تقدم LSA نهجًا أكثر استهدافًا.

تخفيض الأبعاد

LSA ينشر تقنية تقليل الأبعاد المعروفة باسم تحليل القيمة المفردة (SVD) لتقليل التناثر في مصفوفة المصطلح - المستند. تدعم تقنية SVD العديد من طرق تقليل الأبعاد الأخرى مثل تحليل المكونات الأساسية. يساعد SVD في التخفيف من المشكلات الناتجة عن تعدد الدلالات، والكلمات الفردية التي لها معاني متعددة، والمرادفات، وهي كلمات مختلفة ذات معنى متشابه.

باستخدام المصفوفات المحسوبة من المصطلحات عبر مصفوفات المستند والمستند والمصطلح، تقوم خوارزمية LSA بإجراء SVD على مصفوفة مستندات المصطلح الأولية. ينتج عن هذا مصفوفات خاصة جديدة من المتجهات الذاتية التي تقسم العلاقات الأصلية بين المصطلح والمستند إلى عوامل مستقلة خطيًا. أهمها المصفوفة القُطرية للقيم المفردة الناتجة عن الجذور التربيعية للقيم الذاتية لمصفوفة المستند - المستند. في هذه المصفوفة القُطرية، التي غالبًا ما يتم تمثيلها على أنها Σ، تكون القيم دائمًا موجبة ومرتبة بترتيب تنازلي أسفل قُطر المصفوفة:

مثال على مصفوفة سيجما متناثرة

كما هو موضح في هذا المثال Σ مصفوفة Σ، فإن العديد من القيم السفلية قريبة من الصفر. يحدد المطور قيمة القطع المناسبة لحالته ويقلل جميع القيم المفردة في Σ أقل من هذا الحد إلى الصفر. هذا يعني بشكل فعال إزالة جميع الصفوف والأعمدة التي تشغلها الأصفار بالكامل. في المقابل، نزيل الصفوف والأعمدة من المصفوفات الأصلية الأخرى حتى يكون لها نفس عدد الصفوف والأعمدة مثل Σ. يؤدي هذا إلى تقليل أبعاد النموذج.4

مقارنة المستندات

بمجرد تقليل أبعاد النموذج من خلال SVD، تقارن خوارزمية LSA المستندات في مساحة دلالية ذات أبعاد أقل باستخدام تشابه جيب التمام. تتضمن الخطوة الأولى في مرحلة المقارنة هذه تعيين المستندات في مساحة المتجه. هنا، تعامل LSA النصوص باعتبارها نموذجًا bag of words . وتقوم الخوارزمية برسم كل نص من مجموعة النصوص أو المجموعات النصية على هيئة متجه مستند، مع الكلمات الفردية من المصفوفة المختصرة كأبعاد لهذا المتجه. يتجاهل التخطيط ترتيب الكلمات والسياق، مع التركيز بدلًا من ذلك على عدد مرات حدوث الكلمات وعدد مرات وجودها عبر المستندات.5

مع نماذج Bag of words القياسية، يمكن أن يكون للكلمات غير ذات الصلة دلاليًا (على سبيل المثال، كلمات مثل the وsome، وكلمات أخرى مماثلة) أعلى تردد للمصطلح، وبالتالي أكبر وزن في النموذج. تكرار المصطلح مع عكس تكرار المستند (TF-IDF) هو إحدى التقنيات لتصحيح هذا الأمر. يقوم بذلك من خلال أخذ انتشار الكلمة في جميع المستندات في مجموعة النصوص في الاعتبار، ومن ثم وزن الكلمات في كل مستند وفقًا لانتشارها عبر كامل المجموعة.6

بمجرد رسم المستندات في مساحة المتجهات، تستخدم خوارزمية LSA مقياس تشابه جيب التمام لمقارنتها. يشير تشابه جيب التمام إلى قياس الزاوية بين متجهين في الفضاء الاتجاهي. يمكن أن تكون أي قيمة بين -1 و1. كلما ارتفعت درجة جيب التمام، زاد تشابه الوثيقتين. يتم تمثيل تشابه جيب التمام بهذه الصيغة، حيث a و b يشيران إلى متجهين للمستند:7

معادلة درجة تشابه جيب التمام

الأبحاث الحديثة

هناك العديد من حالات الاستخدام لنماذج الموضوعات، من النقد الأدبي8 إلى المعلوماتية الحيوية9 إلى كشف خطاب الكراهية في وسائل التواصل الاجتماعي.10 كما هو الحال مع العديد من مهام البرمجة اللغوية العصبية، فإن نسبة كبيرة من أبحاث نمذجة الموضوعات على مر السنين تتعلق باللغة الإنجليزية ولغات النص اللاتيني الأخرى. ومع ذلك، في الآونة الأخيرة، استكشفت الأبحاث مناهج نمذجة الموضوعات للّغة العربية واللغات الأخرى غير اللاتينية.11 تحوَّلت الأبحاث أيضًا إلى كيفية تقدُّم نماذج اللغة الكبيرة (LLMs) وتحسين نماذج الموضوعات. على سبيل المثال، تُشير إحدى الدراسات إلى أن LLMs توفِّر طريقة آلية لحل المشكلات القديمة في نمذجة الموضوعات، وهي تحديد العدد المناسب من المواضيع وتقييم الموضوعات التي تم توليدها.12

Mixture of Experts | 28 أغسطس، الحلقة 70

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

حلول ذات صلة
IBM watsonx Orchestrate

يمكنك بسهولة تصميم مساعدي ووكلاء الذكاء الاصطناعي القابلين للتوسع وأتمتة المهام المتكررة وتبسيط العمليات المعقدة باستخدام IBM watsonx Orchestrate.

استكشف watsonx Orchestrate
أدوات معالجة اللغة الطبيعية وواجهات برمجة التطبيقات

تسريع قيمة الأعمال باستخدام مجموعة قوية ومرنة من مكتبات وخدمات وتطبيقات الذكاء الاصطناعي.

استكشف حلول معالجة اللغة الطبيعية
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

يمكنك بسهولة تصميم مساعدي ووكلاء الذكاء الاصطناعي القابلين للتوسع وأتمتة المهام المتكررة وتبسيط العمليات المعقدة باستخدام IBM watsonx Orchestrate.

استكشف watsonx Orchestrate استكشف حلول معالجة اللغة الطبيعية
الحواشي

1 Daniel Jurafsky and James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023, https://web.stanford.edu/~jurafsky/slp3/ (الرابط موجود خارج موقع ibm.com). Jay Alammar and Maarten Grootendorst, Hands-On Large Language Models, O’Reilly, 2024.

2 Christopher Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press, 2000.

3 Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer, and Richard Harshman, “Indexing by Latent Semantic Analysis,” Journal of the American Society for Information Science, Vol. 41, No. 6, 1990, pp. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9 (الرابط موجود خارج موقع ibm.com). Alex Thomo, “Latent Semantic Analysis,” https://www.engr.uvic.ca/~seng474/svd.pdf (الرابط موجود خارج موقع ibm.com).

4 Hana Nelson, Essential Math for AI, O’Reilly, 2023. Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer, and Richard Harshman, “Indexing by Latent Semantic Analysis,” Journal of the American Society for Information Science, Vol. 41, No. 6, 1990, pp. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9 (الرابط موجود خارج موقع ibm.com).

5 Matthew Jockers, Text Analysis with R for Students of Literature, Springer, 2014.

6 Alice Zheng and Amanda Casari, Feature Engineering for Machine Learning, O’Reilly, 2018.

7 Elsa Negre, Information and Recommender Systems, Vol. 4, Wiley-ISTE, 2015. Hana Nelson, Essential Math for AI, O’Reilly, 2023.

8 Derek Greene, James O'Sullivan, and Daragh O'Reilly, “Topic modelling literary interviews from The Paris Review,” Digital Scholarship in the Humanities, 2024,https://academic.oup.com/dsh/article/39/1/142/7515230?login=false(الرابط موجود خارج موقع ibm.com).

9 Yichen Zhang, Mohammadali (Sam) Khalilitousi, and Yongjin Park, “Unraveling dynamically encoded latent transcriptomic patterns in pancreatic cancer cells by topic modeling,” Cell Genomics, Vol. 3, No. 9, 2023, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10504675/ (الرابط موجود خارج موقع ibm.com).

10 Richard Shear, Nicholas Johnson Restrepo, Yonatan Lupu, and Neil F. Johnson, “Dynamic Topic Modeling Reveals Variations in Online Hate Narratives,” Intelligent Computing, 2022, https://link.springer.com/chapter/10.1007/978-3-031-10464-0_38 (الرابط موجود خارج موقع ibm.com).

11 Abeer Abuzayed and Hend Al-Khalifa, “BERT for Arabic Topic Modeling: An Experimental Study on BERTopic Technique,” Procedia Computer Science, 2021, pp. 191-194, https://www.sciencedirect.com/science/article/pii/S1877050921012199 (الرابط موجود خارج موقع ibm.com). Raghad Alshalan, Hend Al-Khalifa, Duaa Alsaeed, Heyam Al-Baity, and Shahad Alshalan, “Detection of Hate Speech in COVID-19--Related Tweets in the Arab Region: Deep Learning and Topic Modeling Approach,” Journal of Medical Internet Research, Vol. 22, No. 12, 2020, https://www.jmir.org/2020/12/e22609/ (الرابط موجود خارج موقع ibm.com).

12 Dominik Stammbach, Vilém Zouhar, Alexander Hoyle, Mrinmaya Sachan, and Elliott Ash, “Revisiting Automated Topic Model Evaluation with Large Language Models,” Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, 2023, https://aclanthology.org/2023.emnlp-main.581/ (الرابط موجود خارج موقع ibm.com).