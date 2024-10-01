توضح هذه المصفوفة تكرار الكلمات لكل كلمة عبر جميع المستندات الثلاثة بعد الترميز وإزالة كلمات التوقف. يتوافق كل عمود مع مستند، بينما يتوافق كل صف مع كلمة معينة موجودة عبر مجموعة النص بأكملها. تشير القيم الموجودة في المصفوفة إلى عدد المرات التي يظهر فيها مصطلح معين في مستند معين. إذا تكرر المصطلح w مرات في المستند d، فإن [w، d] = n. لذلك، على سبيل المثال، يستخدم المستند 1 "أحمر" مرتين، وهكذا [أحمر، d1] = 2.

من مصفوفة المصطلح - المستند، تنتج LSA مصفوفة المستند- المستند ومصفوفة المصطلحات. وإذا تم تعريف أبعاد مصفوفة المستند-المصطلح على أنها d مستندات مضروبة في w كلمات، فإن مصفوفة المستند-المستند تكون d مضروبة في d، ومصفوفة المصطلح-المصطلح w مضروبة في w. وتشير كل قيمة في مصفوفة المستند-المستند إلى عدد الكلمات المشتركة بين كل وثيقة. وتشير كل قيمة في مصفوفة المصطلح-المصطلح إلى عدد الوثائق التي يظهر فيها مصطلحان معًا.9

تناثر البيانات، الذي يؤدي إلى الإفراط في تجهيزالنموذج، يحدث عندما تكون غالبية قيم البيانات في مجموعة بيانات معينة صفر (أي فارغة). يحدث هذا بانتظام عند إنشاء مصفوفات المستند- المصطلح، حيث تكون كل كلمة فردية عبارة عن بعد منفصل لصف ومساحة متجه، حيث سيفتقر مستند واحد بانتظام إلى غالبية الكلمات الأكثر شيوعًا في المستندات الأخرى. في الواقع، تحتوي مصفوفة المصطلح - المستند النموذجية المستخدمة هنا على استخدامات عديدة لكلمات مثل موسى والبنفسج والأزرق التي تظهر في مستند واحد فقط. بالطبع، يمكن أن تساعد تقنيات المعالجة المسبقة للنص، مثل إزالة كلمات التوقف، والجذع، وتجريد الكلمة، في تقليل التناثر. ومع ذلك، تقدم LSA نهجًا أكثر استهدافًا.