ما المقصود بنمذجة الموضوعات؟

سيدة أعمال ورجل أعمال يعملان في مكتب عصريّ وتعلو وجههما الابتسامة

المؤلفين

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

نماذج الموضوعات هي عبارة عن أسلوب معالجة للغة الطبيعية (NLP) غير خاضع للإشراف يُستخدَم لتلخيص البيانات النصية من خلال مجموعات الكلمات. وتساعد هذه النماذج في مهام تصنيف النصوص واسترجاع المعلومات.

في مجال معالجة اللغة الطبيعية (NLP)، تُعد نمذجة الموضوعات إحدى تقنيات استخراج النصوص التي تُطبق عملية التعلم غير الموجّه على مجموعات كبيرة من النصوص لإنتاج مجموعة موجزة من المصطلحات المقتبسة من تلك المستندات والتي تمثل مجموعة الموضوعات الأساسية المضمنة في المجموعة.1 تحدد نماذج الموضوعات على وجه التحديد الكلمات الرئيسية أو العبارات الشائعة في مجموعة بيانات نصية وتجمع هذه الكلمات في سياق عدد من الموضوعات. ومن ثَم يتمثل الهدف من نماذج الموضوعات في الكشف عن الموضوعات أو الأفكار الكامنة التي تميز مجموعة من المستندات. وبذلك تكون نماذج الموضوعات شكلاً من أشكال التحليل النصي المستند إلى التعلم الآلي وتُستخدم لوضع شروح موضوعية للمجموعات النصية الكبرى.2

يمكن للمستخدمين إنشاء نماذج موضوعات بسهولة باستخدام مجموعة أدوات اللغة الطبيعية (NLTK) من scikit-learn ومكتبة gensim التي تعمل بلغة Python.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

كيف تعمل نمذجة الموضوعات؟

وبوصفها إحدى أساليب التعلم غير الموجّه، لا تتطلب نماذج الموضوعات إنشاء المستخدم تسميات لبيانات التدريب، كما هو الحال في مهام تصنيف النصوص الموجهة. بل تُنشئ نماذج الموضوعات، وبالتبعية تضع شروحًا، لمجموعات كبيرة من المستندات ذات المعلومات المواضيعية في شكل مجموعات من الكلمات تُعرف بالموضوعات.3 ولكن كيف تُنشئ نماذج الموضوعات هذه المجموعات من الكلمات؟

تتعامل نمذجة الموضوعات مع كل مستند في مجموعة النصوص على حدة على أنه نموذج حقيبة كلمات. ما يعني أن خوارزمية نمذجة الموضوعات تتجاهل ترتيب الكلمات والسياق، وتركز ببساطة على مدى تكرار الكلمات وعدد مرات تشارك الكلمات في الظهور مع بعضها داخل كل مستند على حدة.4

تبدأ معظم أساليب نمذجة الموضوعات بإنشاء مصفوفة المصطلحات والمستندات. تضع هذه المصفوفة مجموعة البيانات النصية بالمستندات في صفوف والكلمات الفردية في أعمدة، أو العكس. وتشير القيم التي تنتجها المصفوفة إلى معدل تكرار ظهور كلمة معينة في كل مستند. وعندئذٍ يمكن استخدام هذه المصفوفة لإنشاء فضاء متجهات، حيث يساوي عدد الكلمات عدد الأبعاد. وتشير القيمة الناتجة عن صف معين إلى منزلة هذا المستند في فضاء المتجهات. لذا ستكون المستندات التي تستخدم كلمات في مجموعات متشابهة وبمعدل تكرار متقارب بالقرب من بعضها في فضاء المتجهات. إذن، تتعامل نماذج الموضوعات مع مدى القرب في فضاء المتجهات على أن المستندات تشترك في المحتوى المفاهيمي أو الموضوعات.5

غير أن نماذج الموضوعات ليست مرادفة لنماذج حقيبة الكلمات. فبينما تكتفي نماذج حقيبة الكلمات بعدّ الكلمات الموجودة داخل مجموعة من المستندات، تجمع نماذج الموضوعات الكلمات التي يشيع تكرار ظهورها مع بعضها في مجموعات الموضوعات. يُصاغ كل موضوع كتوزيع احتمالي عبر مفردات من الكلمات. ثم يُعرض كل مستند في المجموعة بالنظر إلى تلك الموضوعات.6 وبهذه الطريقة، تحاول نماذج الموضوعات بشكل أساسي إجراء هندسة عكسية للخطابات (أي الموضوعات) التي أنتجت المستندات محل الدراسة.7

Mixture of Experts | 28 أغسطس، الحلقة 70

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

أنواع خوارزميات نمذجة الموضوعات

ولا تُعد خوارزميات نمذجة الموضوعات مجرد أساليب بديلة لأداء مهمة معينة بقدر أنها عمليات تطوير متسلسلة تهدف إلى حل المشكلات التي وُجدت في البداية في نماذج حقيبة الكلمات. يُعد تكرار المصطلح- تكرار المستند العكسي (TF-IDF) تعديلاً لنموذج حقيبة الكلمات، ويهدف إلى معالجة المشكلات الناتجة عن الكلمات الشائعة ولكن غير ذات الصلة دلاليًا من خلال مراعاة مدى تكرار كل كلمة في كل مستند في المجموعات النصية. ويعتمد التحليل الدلالي الكامن (LSA) على مقياس تكرار المصطلح- تكرار المستند العكسي (TF-IDF) بهدف رئيسي يتمثل في معالجة تعدد الدلالات والترادف. ومن هنا نشأ التحليل الدلالي الكامن الاحتمالي (PLSA)، والذي منه نشأ تخصيص دركليه الكامن (LDA). وتتمثل السمة المميزة لنموذج تخصيص دركليه الكامن (LDA) في تشارك جميع المستندات في المجموعة في مجموعة الموضوعات نفسها، وإن كان ذلك بنسب مختلفة.8

التحليل الدلالي الكامن (LSA)

يستخدم التحليل الدلالي الكامن (LSA) (المعروف أيضًا باسم الفهرسة الدلالية الكامنة)، تقنية تُعرف باسم تحليل القيمة المفردة (SVD) لتقليل التفرق في مصفوفة الوثيقة-المصطلح. ويساعد هذا في التخفيف من وطأة المشكلات الناتجة عن تعدد المعاني والترادف-أي الكلمات التي لها معانٍ متعددة أو الكلمات المتعددة التي تشترك في معنى واحد.

تشير ندرة البيانات بشكل أساسي إلى الحالة التي تكون فيها غالبية القيم الموجودة في مجموعة بيانات معينة لاغية (أي فارغة). ويحدث هذا بانتظام عند إنشاء مصفوفات مصطلحات المستندات، حيث تكون كل كلمة فردية في صف منفصل وذات بُعد مستقل في فضاء المتجهات، إذ ستفتقر المستندات دائمًا إلى غالبية الكلمات التي قد تكون أكثر شيوعًا في مستندات أخرى. وبالطبع يمكن أن تساعد تقنيات مهام ما قبل معالجة البيانات النصية، مثل إزالة الكلمات الشائعة أو استخدام التجذيع والتجريد، على تقليل حجم المصفوفة. ويقدم التحليل الدلالي الكامن نهجًا أكثر استهدافًا لتقليل الندرة والأبعاد.

يبدأ التحليل الدلالي الكامن بمصفوفة المصطلحات والمستندات التي تعرض عدد مرات ظهور كل كلمة في كل مستند. ومن هنا، ينتج التحليل الدلالي الكامن مصفوفة المستندات ومصفوفة المصطلحات. في حال كانت أبعاد مصفوفة المصطلحات والمستندات تساوي d (المستندات) مضروبة في w (الكلمات)، فإن أبعاد مصفوفة المستندات تساوي d مضروبة في d، وأبعاد مصفوفة المصطلحات تساوي w مضروبة في w. وتشير كل قيمة موجودة في مصفوفة المستندات إلى عدد الكلمات المشتركة بين كل مستند. وتشير كل قيمة موجودة في مصفوفة المصطلحات إلى عدد المستندات التي يظهر فيها مصطلحان معًا.9

باستخدام هاتين المصفوفتين الإضافيتين، تجري خوارزمية التحليل الدلالي الكامن (LSA) تحليل القيمة المنفردة على مصفوفة المصطلحات والمستندات الأولية، وينتج عن ذلك مصفوفات خاصة جديدة من المتجهات الذاتية. وتقسم هذه المصفوفات الخاصة العلاقات الأصلية بين المصطلحات والمستندات إلى عوامل مستقلة خطيًا. ونظرًا إلى أن قيمة الكثير من هذه العوامل قريبة من الصفر، يكون التعامل معها على أنها صفر وتحذف من المصفوفات. ويسهم هذا في تقليل أبعاد النموذج.10

بمجرد تقليل أبعاد النموذج من خلال إجراء تحليل القيمة المنفردة، تقارن خوارزمية التحليل الدلالي الكامن المستندات في الفضاء ذي الأبعاد المنخفضة باستخدام تشابه جيب التمام. ويشير تشابه جيب التمام إلى قياس الزاوية بين متجهين في فضاء المتجهات. ويمكن أن تكون قيمته أي قيمة بين -1 و1. فكلما زادت درجة جيب التمام، دل ذلك على زيادة التشابه بين المستندين. يتمثل تشابه جيب التمام بالصيغة التالية، حيث تشير x وy إلى متجهين للعناصر في فضاء المتجهات:11

رسم توضيحي لصيغة تشابه جيب التمام

تخصيص Latent Dirichlet

يُعد تخصيص دركليه الكامن (LDA) —والذي لا ينبغي الخلط بينه وبين تحليل التمايز الخطي — خوارزمية احتمالية لنمذجة الموضوعات. وهذا يعني أنها تُنشئ موضوعات وتصنف الكلمات والمستندات ضمن هذه الموضوعات، بناءً على توزيعات الاحتمالية. وباستخدام مصفوفة المصطلحات والمستندات، تُنشئ خوارزمية تخصيص دركليه الكامن (LDA) توزيعات الموضوعات (أي قوائم بالكلمات الرئيسية مع الاحتمالات ذات الصلة) وفقًا لمعدل تكرار الكلمات وظهورها مع بعضها. وتفترض الخوارزمية أن الكلمات التي تظهر معًا بشكل متكرر تنتمي على الأرجح إلى موضوعات مماثلة. تحدد الخوارزمية توزيعات الموضوعات والمستندات بناءً على مجموعات الكلمات التي تظهر في المستند المحدد.12

على سبيل المثال، لنفترض أننا أنشأنا نموذج تخصيص Dirichlet الكامن (LDA) لمجموعة من المقالات الإخبارية التي تحتوي على المخرجات الجزئية الآتية:

رسم توضيحي يمثل أحد نماذج خوارزمية تخصيص Dirichlet الكامن (LDA)

لدينا هنا موضوعان يمكن وصفهما، على الأرجح، بالهجرة (الموضوع 1) والفلك (الموضوع 2). تمثل الدرجات المرتبطة بكل كلمة احتمالية ظهور تلك الكلمة الرئيسية في الموضوع المحدد لها. أما الاحتمالات المرتبطة بكل وثيقة فهي تمثل احتمالات انتماء تلك الوثيقة إلى مزيج من الموضوعات بناءً على التوزيع وترافق الكلمات من كل موضوع داخل تلك الوثيقة. فعلى سبيل المثال، يسرد الصف الأول في الجدول كلمة الحدود تحت الموضوع 1 باحتمالية 40% وكلمة الفضاء تحت الموضوع 2 باحتمالية 60%. وتشير هذه النسب المئوية إلى احتمالية ورود تلك المصطلحات في الموضوع على مستوى النص الكامل. يقرأ الصف الأول للوثيقة الوثيقة 1: الموضوع 1: 0.95، الموضوع 2: 0.05. وهذا يعني أنه بناءً على ورود الكلمات في الوثيقة 1، يتوقع النموذج أن الوثيقة 1 مشتقة بنسبة 95% من الموضوع 1 وبنسبة 5% من الموضوع 2. بعبارة أخرى، يفترض نموذجنا الافتراضي (LDA) أن هذه هي الموضوعات والنسب المئوية لتلك الموضوعات التي جرى استخدامها لإنشاء النموذج.

وبالطبع فإن الكلمات متعددة المعاني تشكل تحديًّا لهذا التصنيف المنفصل-على سبيل المثال، كلمة alien [دَخِيل] قد تشير إلى مهاجر بشري أو كائن فضائي (من خارج كوكب الأرض). إذا واجهت خوارزميتنا كلمة alien [دَخِيل] في وثيقة، كيف تقرر إلى أي موضوع تنتمي هذه الكلمة (وبالتبعية، الوثيقة)؟

عند تعيين الموضوعات للكلمات، تستخدم خوارزمية تخصيص Dirichlet الكامن (LDA) ما يُعرف بمعاينة Gibbs. صيغة معاينة Gibbs هي:

رسم توضيحي لمعاينة Gibbs

يتطلب فهم العمليات الدقيقة لهذه المعادلة ومعلمات ضبطها الفائقة معرفة أساسية بعلم الإحصاء وتقنيات سلسلة Markov Monte Carlo (تُستَخدَم هذه التقنيات غالبًا في التعلم المعزز). ومع ذلك، يمكننا تلخيص العناصر الرئيسية للمعادلة على النحو التَّالي:

  • النسبة الأولى تعبر عن احتمالية الموضوع t في الوثيقة d. تحسب الخوارزمية هذه الاحتمالية بناءً على عدد الكلمات في الوثيقة d التي تنتمي إلى الموضوع t. ويطرح هذا السؤال بشكل أساسي: ما مدى انتشار الموضوع t في الوثيقة d؟
  • تعبر النسبة الثانية عن احتمالية انتماء الكلمة w إلى الموضوع t. وتحسب الخوارزمية هذه الاحتمالية عن طريق تعداد مرات ورود الكلمة w في الموضوع t على مستوى جميع رموز الكلمات المميزة في الموضوع t. وهذا يطرح سؤالًا: ما معدل تكرار ظهور الكلمة w في الموضوع t طوال بقية النصوص الكامل؟

لاحظ أن معاينة جبس (Gibbs sampling) تُعد عملية متكررة. ما يعني أن الكلمة لا يؤخذ منها عينة واحدة فقط، ثم تُصنف إلى إحدى الموضوعات، ثم تُهمل بعد ذلك. بل تُخضع معاينة جبس كل كلمة إلى العديد من العمليات المتكررة، ما يؤدي إلى تحديث احتمالات الكلمات والموضوعات بناءً على العلاقة بينهما.13

الأبحاث الحديثة

نماذج الموضوعات لها العديد من حالات الاستخدام، بدءًا من النقد الأدبي14 إلى المعلوماتية الحيوية15 وحتى الكشف عن خطاب الكراهية على وسائل التواصل الاجتماعي.16 وكما هو الحال مع العديد من مهام معالجة اللغة الطبيعية، فإن نسبة كبيرة من أبحاث نمذجة الموضوعات على مر السنين تركز على اللغة الإنجليزية واللغات الأخرى التي تكتب بالحروف اللاتينية. ومع ذلك، فقد استكشفت الأبحاث في الآونة الأخيرة أساليب نمذجة الموضوعات بالغة العربية ولغات أخرى غير لاتينية.17

تتطرق الأبحاث الجارية إلى مقاييس تقييم نماذج الموضوعات. في الواقع، لا توجد مقاييس ثابتة تُستَخدَم لتقييم نماذج الموضوعات. وقد تبنت مقاييس التقييم السابقة النهجين النوعي والكمي. ويتطلب النهج النوعي معرفة هائلة ومتخصصة في المجال لتقييم المصطلحات الرئيسية لنموذج الموضوعات حتى يمكن تفسيره.18 وتتألف المقاييس الكمية من درجات أرجحية لوغاريثمية ودرجات ترابط، والتي تهدف إلى قياس مدى أرجحية وتماسك الموضوعات داخل النموذج.19 بيد أن مجموعة كبيرة من الأبحاث توضح أن هذه المقاييس الكمية قد تكون غير موثوقة.20

في محاولة لحل المشكلات المتعلقة بتقييم نماذج الموضوعات، تطرقت إحدى الدراسات إلى تطبيقات الذكاء الاصطناعي، ولا سيِّما النماذج اللغوية الكبرى (LLMs)، من أجل استخدامها كوسيلة لتصميم نماذج تخصيص دركليه الكامن (LDA) وتقييمها لأهداف بحثية محددة. وأوضحت الدراسة أن النماذج اللغوية الكبرى (LLMs) يمكن أن تساعد على حل مشكلات نمذجة الموضوعات طويلة الأمد، ولا سيما كيفية تحديد العدد المناسب من الموضوعات وتقييمها.21 كما لجأت دراسات أخرى إلى تطبيقات النماذج اللغوية الكبرى (LLMs) كوسيلة لمعالجة مشكلة التقييم في نمذجة الموضوعات.22

حلول ذات صلة
IBM watsonx Orchestrate

يمكنك بسهولة تصميم مساعدي ووكلاء الذكاء الاصطناعي القابلين للتوسع وأتمتة المهام المتكررة وتبسيط العمليات المعقدة باستخدام IBM watsonx Orchestrate.

استكشف watsonx Orchestrate
أدوات معالجة اللغة الطبيعية وواجهات برمجة التطبيقات

تسريع قيمة الأعمال باستخدام مجموعة قوية ومرنة من مكتبات وخدمات وتطبيقات الذكاء الاصطناعي.

استكشف حلول معالجة اللغة الطبيعية
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

يمكنك بسهولة تصميم مساعدي ووكلاء الذكاء الاصطناعي القابلين للتوسع وأتمتة المهام المتكررة وتبسيط العمليات المعقدة باستخدام IBM watsonx Orchestrate.

استكشف watsonx Orchestrate استكشف حلول معالجة اللغة الطبيعية
الحواشي

Daniel Jurafsky وJames Martin، معالجة الكلام واللغات: مقدمة في معالجة اللغة الطبيعية، واللغويات الحاسوبية، والتعرف على الكلام، الطبعة الثالثة، عام 2023، https://web.stanford.edu/~jurafsky/slp3/

2 Jay Alammar وMaarten Grootendorst، دليل النماذج اللغوية الكبرى، O’Reilly، عام 2024.

3 David Blei، "Probabilistic Topic Models" (نماذج الموضوعات الاحتمالية)، مجلة Communications of the ACM، المجلد 55، رقم 4، عام 2012، ص. 77-84.

4 Matthew Jockers، كتاب Text Analysis with R for Students of Literature، Springer، عام 2014.

5 Cole Howard وHobson Lane وHannes Hapke، آلية معالجة اللغة الطبيعية، Manning Publications، عام 2019. Sowmya Vajjala، وBodhisattwa Majumder، وAnuj Gupta، وHarshit Surana، دليل عملي لمعالجة اللغة الطبيعية، O’Reilly، عام 2020.

6 Chandler Camille May، "رسالة Topic Modeling in Theory and Practice" (نمذجة الموضوعات: النظرية والتطبيق)، جامعة جون هوبكنز، عام 2022.

7 دليل عملي لمعالجة اللغة الطبيعية، O’Reilly. David Blei، "نمذجة الموضوعات الاحتمالية"، مجلة Communications of the ACM، المجلد 55، رقم 4، عام 2012، ص. 77-84.

8 Cole Howard، وHobson Lane، وHannes Hapke، آلية معالجة اللغة الطبيعية، Manning Publications، Deerwester، "التصنيف بالتحليل الدلالي الكامن"، David Blei، "نمذجة الموضوعات الاحتمالية"، مجلة Communications of the ACM، المجلد 55، رقم 4، عام 2012، ص. 77-84.

9 Hana Nelson، أسس الرياضيات في الذكاء الاصطناعي، O’Reilly، عام 2023. Scott Deerwester، وSusan Dumais، وGeorge Furnas، وThomas Landauer، وRichard Harshman، "التصنيف بالتحليل الدلالي الكامن"، مجلةAmerican Society for Information Science، مجلد 41، العدد 6، عام 1990، ص. 391-407، https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9 

10 Scott Deerwester، وSusan Dumais، وGeorge Furnas، وThomas Landauer، وRichard Harshman، "التصنيف بالتحليل الدلالي الكامن"، مجلة American Society for Information Science، مجلد 41، رقم 6، 1990، ص. 391-407، https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9 

11 Elsa Negre، أنظمة المعلومات والتوصية، مجلد 4، Wiley-ISTE، عام 2015. Hana Nelson، أسس الرياضيات في الذكاء الاصطناعي، O’Reilly، عام 2023.

12 Sowmya Vajjala، وBodhisattwa Majumder، وAnuj Gupta، وHarshit Surana، دليل عملي لمعالجة اللغة الطبيعية، O’Reilly، عام 2020. David Blei، وAndrew Ng، وMichael Jordan، "تخصيص دركليه الكامن"، مجلة Machine Learning Research، مجلد 3، عام 2003، ص. 993-1022.

13 Zhiyuan Chen وBing Liu، "نماذج الموضوعات لتطبيقات معالجة اللغات الطبيعية"، موسوعة التعلم الآلي وعلوم البيانات، Springer، عام 2020.

14 Derek Greene, James Derek Greene، وJames O'Sullivan، وDaragh O'Reilly، " نمذجة الموضوعات في المقابلات الأدبية من مجلة The Paris Review"، المنحة الرقمية في العلوم الإنسانية، عام 2024، https://academic.oup.com/dsh/article/39/1/142/7515230?login=false

15 Yichen Zhang، وMohammadali (Sam) Khalilitousi، و Yongjin Park، " كشف الأنماط النصية الكامنة المشفرة ديناميكيًا في خلايا سرطان البنكرياس من خلال نمذجة الموضوعات"، مجلة Cell Genomics، المجلد 3، العدد 9، عام 2023، https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10504675/ 

16 Richard Shear، وNicholas Johnson Restrepo، وYonatan Lupu، وNeil F. Johnson، "استكشافات نمذجة الموضوعات الديناميكية لخطابات الكراهية المختلفة عبر الإنترنت"، الحوسبة الذكية، عام 2022، https://link.springer.com/chapter/10.1007/978-3-031-10464-0_38 

17 Abeer Abuzayed وHend Al-Khalifa، " BERTلنمذجة الموضوعات باللغة العربية: دراسة تجريبية لتقنية BERTopic"، مجلة Procedia Computer Science، عام 2021، ص. 191-194، https://www.sciencedirect.com/science/article/pii/S1877050921012199 . Raghad Alshalan، وHend Al-Khalifa، وDuaa Alsaeed، وHeyam Al-Baity، وShahad Alshalan، "كشف خطاب الكراهية في التغريدات المتعلقة بجائحة COVID-19 في المنطقة العربية: نهج التعلم العميق ونمذجة الموضوعات"، مجلة Journal of Medical Internet Research، مجلد 22، رقم 12، عام 2020، https://www.jmir.org/2020/12/e22609

18 Matthew Gillings وAndrew Hardie، "The interpretation of topic models for scholarly analysis: An evaluation and critique of current practice" (تفسير نماذج الموضوعات للتحليل العلمي: تقييم الممارسات الحالية ونقدها)، المنحة الرقمية في العلوم الإنسانية، المجلد 38، رقم 2، عام 2023، ص. 530–543، https://academic.oup.com/dsh/article-abstract/38/2/530/6957052 

19 Chandler Camille May، "رسالةTopic Modeling in Theory and Practice" (نمذجة الموضوعات: النظرية والتطبيق)، جامعة جون هوبكنز، عام 2022.

20 Zachary Lipton، "The Mythos of Model Interpretability: In machine learning, the concept of interpretability is both important and slippery"، مجلة Queue، مجلد 13، العدد 3، عام 2018، ص. 31-57، https://dl.acm.org/doi/10.1145/3236386.3241340 Caitlin Doogan وWray Buntine، "نمذجة الموضوعات بين الحقيقة والخيال" "إعادة النظر في مقاييس التفسير الدلالي"، وقائع مؤتمر جمعية اللغويات الحاسوبية الفرع الأمريكي الشمالي لعام 2021: تقنيات اللغة البشرية"، عام 2021، ص. 3824-3848، https://aclanthology.org/2021.naacl-main.300.pdf . Alexander Hoyle، وPranav Goel، و Andrew Hian-Cheong، وDenis Peskov، وJordan Boyd-Graber، و Philip Resnik، "هل فشل التقييم الآلي لنماذج الموضوعات؟ اختلال الاتساق"، مؤتمر أنظمة معالجة المعلومات العصبية المتقدمة، مجلد 34، عام 2021، https://proceedings.neurips.cc/paper_files/paper/2021/hash/0f83556a305d789b1d71815e8ea4f4b0-Abstract.html 

21 Dominik Stammbach، وVilém Zouhar، و Alexander Hoyle، وMrinmaya Sachan، وElliott Ash، "إعادة النظر في التقييم الآلي لنماذج الموضوعات باستخدام النماذج اللغوية الكبرى"، وقائع مؤتمر عام 2023 حول الأساليب التجريبية في معالجة اللغة الطبيعية، عام 2023، https://aclanthology.org/2023.emnlp-main.581

22Eric Chagnon، وRonald Pandolfi، وJeffrey Donatelli، وDaniela Ushizima، "تقييم نماذج الموضوعات في المقالات العلمية باستخدام BERTeley"، مجلة معالجة اللغة الطبيعية، مجلد 6، عام 2024، ص. 2949-7191، https://www.sciencedirect.com/science/article/pii/S2949719123000419 . Han Wang، وNirmalendu Prakash، و Nguyen Khoi Hoang، وMing Shan Hee، وUsman Naseem، و Roy Ka-Wei Lee، "تعزيز النماذج اللغوية الكبرى لنمذجة الموضوعات"، وقائع مؤتمر IEEE الدولي لعام 2023 حول البيانات الضخمة، عام 2023، ص. 1236-1241، https://www.computer.org/csdl/proceedings-article/bigdata/2023/10386113/1TUOz14EiBy