ما تخصيص دركليه الكامن (LDA)؟

المؤلفين

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

ما المقصود بتخصيص Dirichlet الكامن (LDA)؟

تخصيص دركليه الكامن (LDA) هو تقنية لنمذجة المواضيع تستخدم للكشف عن المواضيع المركزية وتوزيعاتها عبر مجموعة من الوثائق.

إن تخصيص دركليه الكامن (LDA) —الذي لا يجب الخلط بينه وبين التحليل التمييزي الخطي في التعلم الآلي—هو نهج بايزي لنمذجة المواضيع. وباختصار، فإن تخصيص دركليه الكامن (LDA) يُعد شكلاً احتماليًا شرطيًا لنمذجة الموضوعات.

نمذجة الموضوعات هي إحدى تقنيات معالجة اللغة الطبيعية (NLP) التي تطبق عملية التعلم غير الموجّه على مجموعات كبيرة من البيانات النصية من أجل إنتاج مجموعة موجزة من المصطلحات المقتبسة من تلك المستندات. تهدف هذه المصطلحات إلى تمثيل مجموعة الموضوعات الأساسية المضمنة في المجموعة. وبهذه الطريقة، يكون الهدف من نماذج الموضوعات متمثلاً في الكشف عن الموضوعات أو الأفكار الكامنة التي تميز مجموعة من المستندات.1

يمكن للمستخدمين إنشاء نماذج موضوعات LDA بسهولة باستخدام مجموعة أدوات اللغة الطبيعية (NLTK) من scikit-learn (أو sklearn) ومكتبة gensim التي تعمل بلغة Python. تحتوي نماذج الموضوعات وحزم lda في R أيضًا على دوال لإنشاء نماذج موضوعات LDA.

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! لقد اشتركت بنجاح.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

افتراض إنشاء النص

تخصيص دركليه الكامن (LDA) هو نموذج احتمالي. وهذا يعني أن خوارزمية تخصيص دركليه الكامن (LDA) تنشئ مواضيع، وتصنف الكلمات والوثائق ضمن هذه المواضيع المختلفة حسب التوزيعات الاحتمالية. ولكن لماذا تعد هذه طريقة مناسبة للكشف عن الهياكل الموضوعية المخفية في البيانات النصية؟ بشكل أساسي، يفترض تخصيص دركليه الكامن (LDA) أن الوثائق قد أُنشِأت من خلال أخذ عينات عشوائية من مواضيع ما قبل المستند، وتحاول إجراء هندسة عكسية لهذه العينات.

تبدأ عملية النص المتخيل لتخصيص دركليه الكامن (LDA) بمواضيع ما قبل المستند. ويتكون كل موضوع من مفردات ثابتة من الكلمات، حيث تخضع كل كلمة لاحتمالية انتمائها إلى هذا الموضوع. لاحظ أن الكلمات تُعيَّن لها احتمالات بدلاً من فئة منفصلة لمراعاة التعددية المحتملة للمدلول والاستخدام. بعد ذلك، لكي تنشئ الآلة مستندًا نصيًا، تقوم بإنشاء توزيع على المواضيع بشكل عشوائي—على سبيل المثال، خمسة وثمانون بالمائة لمواضيع السياسية وعشرة بالمائة لمواضيع التمويل وخمسة بالمائة لمواضيع التاريخ. ولكل كلمة في هذا المستند، تختار الآلة بشكل عشوائي أحد المواضيع المختارة ويصدر كلمة بشكل عشوائي من هذا الموضوع. لاحظ أن تخصيص دركليه الكامن (LDA) نفسه لا يُنشئ الوثائق بهذه الطريقة. بل هذه هي العملية التي يفترض تخصيص دركليه الكامن (LDA) أن الوثائق قد أُنشأت من خلالها. يحاول تخصيص دركليه الكامن (LDA) نفسه أن يعكس هذه العملية للكشف عن المواضيع الشاملة والمخفية التي تنتشر في مجموعة من الوثائق.

يوضح هذا الشكل عملية إنشاء النص المفترضة الكامنة وراء تخصيص دركليه الكامن (LDA):

رسم توضيحي يوضح عملية إنشاء النصوص المفترضة الكامنة وراء تخصيص دركليه الكامن (LDA)

في أسفل هذه الصورة توجد مجموعة عشوائية من الموضوعات المؤلفة من توزيع الكلمات. تختص هذه الموضوعات بكل مستند في المجموعة. لإنشاء مستند معين (في هذا المثال، مسرحية عطيل لشكسبير)، تُنشئ الآلة توزيعًا للموضوعات، وهو الرسم البياني الموجود في أقصى اليمين. يعرض هذا التوزيع الموضوعات (ونسبة محددة لكل منها) التي سيتألف منها المستند. بالنسبة إلى كل كلمة موجودة في المستند، تختار الآلة بشكل عشوائي أحد الموضوعات المختارة (عمود النقاط الملونة)، ثم تختار منه كلمة (المصطلحات المميزة) عشوائيًا.2 لاحظ أن هذا التصور ما هو إلا مثال توضيحي، وليس نتيجة فعلية لنمذجة موضوع أو عملية إنشاء نص. ومع ذلك، كما ذكرنا سابقًا، يتعامل تخصيص دركليه الكامن (LDA) مع كل مستند ينتج عن عملية الإنشاء العامة هذه، والتي يحاول LDA هندستها عكسيًا.

كيف يعمل تخصيص Dirichlet الكامن

ويتعامل تخصيص دركليه الكامن (LDA) مع المستندات عبر المجموعات كحقائب كلمات، مثله مثل الكثير من طرق نمذجة الموضوعات الأخرى كالتحليل الدلالي الكامن (LSA). ما يعني أن تخصيص دركليه الكامن (LDA) يتجاهل ترتيب الكلمات والسياق. ويركز على مدى تكرار الكلمات وعدد مرات تشارك الكلمات في الظهور مع بعضها داخل كل مستند على حدة.3 ويُوضع معدل تكرار الكلمات ومعدل ظهورها مع بعضها في مصفوفة المصطلحات والمستندات. في هذه المصفوفة، تُوضع المستندات في صفوف والكلمات الفردية في أعمدة، أو العكس. تشير قيمة كل خلية في المصفوفة إلى معدل تكرار ظهور كلمة معينة في كل مستند.4

إنشاء الموضوعات

وباستخدام مصفوفة المصطلحات والمستندات، تُنشئ خوارزمية تخصيص دركليه الكامن (LDA) توزيعات الموضوعات (أي قوائم بالكلمات الرئيسية مع الاحتمالات ذات الصلة) وفقًا لمعدل تكرار الكلمات وظهورها مع بعضها. ومن خلال تتبع معدل ظهور الكلمات مع بعضها، تفترض الخوارزمية أن الكلمات التي تظهر معًا تنتمي على الأرجح إلى موضوعات مماثلة. تحدد الخوارزمية توزيعات الموضوعات والمستندات بناءً على مجموعات الكلمات التي تظهر في المستند المحدد.5

فعلى سبيل المثال، لنفترض أننا أنشأنا نموذج تخصيص دركليه الكامن (LDA) لمجموعة من المقالات الإخبارية التي تحتوي على المخرجات الجزئية الآتية:

رسم توضيحي يمثل أحد نماذج خوارزمية تخصيص Dirichlet الكامن (LDA)

لدينا هنا موضوعان يمكن وصفهما، على الأرجح، بالهجرة (الموضوع 1) والفلك (الموضوع 2). تمثل الدرجات المرتبطة بكل كلمة احتمالية ظهور تلك الكلمة الرئيسية في الموضوع المحدد لها. أما الاحتمالات المرتبطة بكل وثيقة فهي تمثل احتمالات انتماء تلك الوثيقة إلى مزيج من الموضوعات بناءً على التوزيع وترافق الكلمات من كل موضوع داخل تلك الوثيقة. فعلى سبيل المثال، يسرد الصف الأول في الجدول كلمة الحدود تحت الموضوع 1 باحتمالية 40% وكلمة الفضاء تحت الموضوع 2 باحتمالية 60%. وتشير هذه النسب المئوية إلى احتمالية ورود تلك المصطلحات في الموضوع على مستوى النص الكامل. يقرأ الصف الأول للوثيقة الوثيقة 1: الموضوع 1: 0.95، الموضوع 2: 0.05. وهذا يعني أنه بناءً على ورود الكلمات في الوثيقة 1، يتوقع النموذج أن الوثيقة 1 مشتقة بنسبة 95% من الموضوع 1 وبنسبة 5% من الموضوع 2. بعبارة أخرى، يفترض نموذجنا الافتراضي (LDA) أن هذه هي الموضوعات والنسب المئوية لتلك الموضوعات التي جرى استخدامها لإنشاء النموذج.

وبالطبع فإن الكلمات متعددة المعاني تشكل تحديًّا لهذا التصنيف المنفصل-على سبيل المثال، كلمة alien [دَخِيل] قد تشير إلى مهاجر بشري أو كائن فضائي (من خارج كوكب الأرض). في مثل هذه الحالات، كيف تحدد خوارزمية تخصيص دركليه الكامن (LDA) الموضوع الذي تنتمي إليه الكلمة (ومن ثَمَّ ينتمي إليه المستند)؟

صيغة جيبس (Gibbs)

عند تعيين الموضوعات للكلمات، تستخدم خوارزمية تخصيص Dirichlet الكامن (LDA) ما يُعرف بمعاينة Gibbs. صيغة معاينة جيبس هي:

رسم توضيحي لمعاينة Gibbs

يتطلب فهم العمليات الدقيقة لهذه المعادلة ومعلمات ضبطها الفائقة معرفة أساسية بعلم الإحصاء وتقنيات سلسلة Markov Monte Carlo (تُستَخدَم هذه التقنيات غالبًا في التعلم المعزز). ومع ذلك، يمكننا تلخيص العناصر الرئيسية للمعادلة على النحو التَّالي:

  • النسبة الأولى تعبر عن احتمالية الموضوع t في الوثيقة d. تحسب الخوارزمية هذه الاحتمالية بناءً على عدد الكلمات في الوثيقة d التي تنتمي إلى الموضوع t. ويسأل هذا بشكل أساسي: ما مدى انتشار الموضوع t في الوثيقة d؟
  • وتعبر النسبة الثانية عن احتمالية انتماء الكلمة w إلى الموضوع t. وتحسب الخوارزمية هذه الاحتمالية عن طريق تعداد مرات ورود الكلمة w في الموضوع t على مستوى جميع رموز الكلمات المميزة في الموضوع t. وهذا يطرح سؤالًا: ما معدل تكرار ظهور الكلمة w في الموضوع t طوال بقية النصوص الكامل؟

لاحظ أن معاينة جبس (Gibbs sampling) تُعد عملية متكررة. ما يعني أن الكلمة لا يؤخذ منها عينة واحدة فقط، ثم تُصنف إلى إحدى الموضوعات، ثم تُهمل بعد ذلك. بل تُخضع معاينة جبس كل كلمة إلى العديد من العمليات المتكررة، ما يؤدي إلى تحديث احتمالات الكلمات والموضوعات بناءً على العلاقة بينهما.6

تصنيف النص

الميزة التي تميز تخصيص دركليه الكامن (LDA) هي التوزيع الاحتمالي لكل مستند على مجموعة مشتركة من الموضوعات. كما هو الحال مع طرق نمذجة الموضوعات الأخرى، فإن هذه الموضوعات وتوزيعاتها في كل مستند تكون مجهولة. نمذجة الموضوعات هي عملية غير موجّهة؛ فلا توجد بيانات مُصنفة يدويًا توجّه عمليات التحليل. ومن خلال الكشف عن هياكل الموضوعات الخفية، يضع تخصيص دركليه الكامن (LDA) في النهاية تعليقات توضيحية للمستندات في المجموعة. يمكن استخدام هذه التعليقات التوضيحية (أي الموضوعات المكتشفة) لتصنيف النصوص. وبهذه الطريقة، يساعد تخصيص دركليه الكامن (LDA) أنظمة استرجاع المعلومات عن طريق أتمتة عملية وضع التعليقات التوضيحية على مجموعات كبيرة من المستندات وتنظيمها.7

Mixture of Experts | 12 ديسمبر، الحلقة 85

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

التحسين

كما هو الحال مع العديد من تقنيات استخراج النصوص في علم البيانات، تعمل مهام ما قبل معالجة النصوص على تحسين نتائج نموذج تخصيص دركليه الكامن (LDA) بشكل كبير. إزالة الكلمات الشائعة تعني إزالة الكلمات المشتركة التي ليس لها معنى دلاليًا. يساعد التجذيع أو التجريد على إرجاع المشتقات الصرفية إلى أصول الكلمات، ومن ثَم تجميع مشتقات الكلمات التي قد تفصلها الآلة في حالة أخرى، مثل كلمة رقص والرقص والراقصة وما إلى ذلك.

ونظرًا لأن نماذج تخصيص دركليه الكامن (LDA) هي نماذج احتمالية وليست حتمية، فقد يكون تحسين النموذج عملية صعبة. ولا يوجد عدد محدد من المواضيع التي تحقق أفضل النتائج، ولا يبدو أن هناك أي مبدأ توجيهي، مثل عدد محدد من المواضيع المناسبة لعدد معين من الوثائق. وفي الواقع إن الضبط الدقيق لمعلمات النماذج لإنتاج مواضيع قابلة للتفسير ومتماسكة ينطوي على قدر كبير من التجربة والخطأ.

مقاييس التقييم

ما الأدوات أو المقاييس المتاحة لمساعدة المستخدم على ضبط نموذج تخصيص دركليه الكامن (LDA)؟ بالنسبة إلى الجدد في نمذجة المواضيع، قد يكون من المحبط معرفة أنه لا يوجد مقياس أداء واحد أو حتى مجموعة من مقاييس الأداء المعتمدة في الأدب.

النوعي. صدق أو لا تصدق، التقييم النوعي ليس أمرًا غير شائع، لا سيما في التطبيقات الواقعية. قد يتضمن ذلك غالبًا فحص أهم خمس أو عشر كلمات رئيسية لكل موضوع. ثم تُستخدم هذه الكلمات بعد ذلك لتقييم الموضوعات وفقًا لمدى قدرة المستخدمين البشر على تفسيرها.8 هذا النوع من "التدقيق البصري"، إذا صح التعبير، يتطلب سعة المعرفة المتخصصة في المجال ومعرفة المستندات المدرجة.9

التماسك. يُعد تماسك الموضوعات أحد الطرق الكمية الشائعة لتقييم الموضوعات التي أُنشئت. تعكس درجة تماسك الموضوع عدد مرات ظهور الكلمات الأكثر احتمالاً مع بعضها في موضوع معين في المستندات نفسها عبر المجموعة. وبشكلٍ أكثر تحديدًا، فهي تحسب معدل تكرار ظهور كل زوج من الكلمات التي تُعد من ضمن أهم عدد من سلاسل الكلمات في الموضوع مع بعضهما مقابل معدل تكرار كل كلمة على حدة عبر المجموعة. وذلك يهدف إلى تحديد مدى تماسك موضوع معين. تعكس درجة التماسك الإجمالية للنموذج متوسط درجة تماسك كل موضوع على حدة. ففي الواقع، تشير هذه النتيجة الإجمالية إلى متوسط درجة تماسك الموضوعات داخل نموذج معين. يُقيّم التماسك - كما هو واضح من اسمه - النماذج فقط على حسب مدى تماسك موضوعاتها. كما ينبغي أن تحافظ الموضوعات على درجة من التميز، إلا إنه لا يوجد حاليًا مقياس كمي لقياس ذلك.10

تُظهر الأبحاث الحديثة أن المقاييس الكمية - مثل مقياس درجة التماسك - لا يمكن الاعتماد عليها في تقييم نماذج الموضوعات. ويرجع ذلك جزئيًا إلى غموض الهدف التقييمي المزعم المتمثل في قابلية التفسير—ما الذي يجعل النموذج ونتائجه قابلة للتفسير؟11 وعلاوة على ذلك، قد لا تكون المقاييس الآلية المصممة للأنظمة القديمة مناسبة للأنظمة الحديثة. وهذه المشكلة تزداد تعقيدًا بسبب انعدام الشفافية في العديد من التجارب المنشورة التي تمنع تعميم طرق التقييم على مجموعات بيانات أو مجالات أخرى.12 وقد لجأت الأبحاث مؤخرًا إلى تطبيقات الذكاء الاصطناعي، وخصوصًا النماذج اللغوية الكبرى (LLMs)، كوسيلة لتصميم نماذج LDA وتقييمها لتحقيق الهدف من البحث.13 ورغم أن هذه الطريقة حققت نتائج مبهرة، إلا إنه لا بد من إجراء المزيد من الأبحاث.

حلول ذات صلة
IBM watsonx Orchestrate

يمكنك بسهولة تصميم مساعدي ووكلاء الذكاء الاصطناعي القابلين للتوسع وأتمتة المهام المتكررة وتبسيط العمليات المعقدة باستخدام IBM watsonx Orchestrate.

استكشف watsonx Orchestrate
أدوات معالجة اللغة الطبيعية وواجهات برمجة التطبيقات

تسريع قيمة الأعمال باستخدام مجموعة قوية ومرنة من مكتبات وخدمات وتطبيقات الذكاء الاصطناعي.

استكشف حلول معالجة اللغة الطبيعية
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

يمكنك بسهولة تصميم مساعدي ووكلاء الذكاء الاصطناعي القابلين للتوسع وأتمتة المهام المتكررة وتبسيط العمليات المعقدة باستخدام IBM watsonx Orchestrate.

استكشف watsonx Orchestrate استكشف حلول معالجة اللغة الطبيعية
الحواشي

1 Daniel Jurafsky and James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023, https://web.stanford.edu/~jurafsky/slp3/. Jay Alammar and Maarten Grootendorst, Hands-On Large Language Models, O’Reilly, 2024.

2 David Blei، "نماذج الموضوعات الاحتمالية"، مجلة Communications of the ACM، مجلد 55، العدد 4، عام 2012، ص. 77-84. Zhiyuan Chen وBing Liu، "نماذج الموضوعات لتطبيقات معالجة اللغات الطبيعية"، موسوعة التعلم الآلي واستخراج البيانات، Springer، عام 2020.

3 Matthew Jockers، كتاب Text Analysis with R for Students of Literature، Springer، عام 2014.

4 Cole Howard، وHobson Lane، وHannes Hapke، آلية معالجة اللغة الطبيعية، Manning Publications، عام 2019. Sowmya Vajjala، وBodhisattwa Majumder، وAnuj Gupta، وHarshit Surana، دليل عملي لمعالجة اللغة الطبيعية، O’Reilly، عام 2020.

5 Sowmya Vajjala، وBodhisattwa Majumder، وAnuj Gupta، وHarshit Surana، دليل عملي لمعالجة اللغة الطبيعية، O’Reilly، عام 2020.David Blei، وAndrew Ng، وMichael Jordan، "تخصيص دركليه الكامن"، مجلة Machine Learning Research، مجلد 3، عام 2003، ص. 993-1022.

6 Zhiyuan Chen وBing Liu، "نماذج الموضوعات لتطبيقات معالجة اللغات الطبيعية"، موسوعة التعلم الآلي واستخراج البيانات، Springer، عام 2017.

7 7 David Blei، "نماذج الموضوعات الاحتمالية"، مجلة Communications of the ACM، المجلد 55، العدد 4، عام 2012، ص. 77-84.

8 Chandler Camille May، "رسالة Topic Modeling in Theory and Practice" (نمذجة الموضوعات: النظرية والتطبيق)، جامعة جون هوبكنز، عام 2022.

9 Matthew Gillings and Andrew Hardie, “The interpretation of topic models for scholarly analysis: An evaluation and critique of current practice,” Digital Scholarship in the Humanities, Vol. 38, No. 2, 2023, pp. 530-543, https://academic.oup.com/dsh/article-abstract/38/2/530/6957052

10 Chandler Camille May, “Topic Modeling in Theory and Practice,” Dissertation, John Hopkins University, 2022. https://aclanthology.org/D11-1024/

11 Zachary Lipton, “The Mythos of Model Interpretability: In machine learning, the concept of interpretability is both important and slippery,” Queue, Vol. 16, No. 3, pp. 31-57, https://dl.acm.org/doi/10.1145/3236386.3241340. Caitlin Doogan and Wray Buntine, “Topic Model or Topic Twaddle? Re-evaluating Semantic Interpretability Measures,” Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2021, pp. 3824-3848, https://aclanthology.org/2021.naacl-main.300.

12 Alexander Hoyle, Pranav Goel, Andrew Hian-Cheong, Denis Peskov, Jordan Boyd-Graber, Philip Resnik, “Is Automated Topic Model Evaluation Broken? The Incoherence of Coherence,” Advances in Neural Information Processing Systems, 2021, pp. 2018-2033, https://proceedings.neurips.cc/paper_files/paper/2021/hash/0f83556a305d789b1d71815e8ea4f4b0-Abstract.html . Caitlin Doogan and Wray Buntine, “Topic Model or Topic Twaddle? Re-evaluating Semantic Interpretability Measures,” Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2021, pp. 3824-3848, https://aclanthology.org/2021.naacl-main.300.

13 Dominik Stammbach, Vilém Zouhar, Alexander Hoyle, Mrinmaya Sachan, and Elliott Ash, “Revisiting Automated Topic Model Evaluation with Large Language Models,” Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, 2023, pp. 9348-9357, https://aclanthology.org/2023.emnlp-main.581/.