يستخدم التحليل الدلالي الكامن (LSA) (المعروف أيضًا باسم الفهرسة الدلالية الكامنة)، تقنية تُعرف باسم تحليل القيمة المفردة (SVD) لتقليل التفرق في مصفوفة الوثيقة-المصطلح. ويساعد هذا في التخفيف من وطأة المشكلات الناتجة عن تعدد المعاني والترادف-أي الكلمات التي لها معانٍ متعددة أو الكلمات المتعددة التي تشترك في معنى واحد.
تشير ندرة البيانات بشكل أساسي إلى الحالة التي تكون فيها غالبية القيم الموجودة في مجموعة بيانات معينة لاغية (أي فارغة). ويحدث هذا بانتظام عند إنشاء مصفوفات مصطلحات المستندات، حيث تكون كل كلمة فردية في صف منفصل وذات بُعد مستقل في فضاء المتجهات، إذ ستفتقر المستندات دائمًا إلى غالبية الكلمات التي قد تكون أكثر شيوعًا في مستندات أخرى. وبالطبع يمكن أن تساعد تقنيات مهام ما قبل معالجة البيانات النصية، مثل إزالة الكلمات الشائعة أو استخدام التجذيع والتجريد، على تقليل حجم المصفوفة. ويقدم التحليل الدلالي الكامن نهجًا أكثر استهدافًا لتقليل الندرة والأبعاد.
يبدأ التحليل الدلالي الكامن بمصفوفة المصطلحات والمستندات التي تعرض عدد مرات ظهور كل كلمة في كل مستند. ومن هنا، ينتج التحليل الدلالي الكامن مصفوفة المستندات ومصفوفة المصطلحات. في حال كانت أبعاد مصفوفة المصطلحات والمستندات تساوي d (المستندات) مضروبة في w (الكلمات)، فإن أبعاد مصفوفة المستندات تساوي d مضروبة في d، وأبعاد مصفوفة المصطلحات تساوي w مضروبة في w. وتشير كل قيمة موجودة في مصفوفة المستندات إلى عدد الكلمات المشتركة بين كل مستند. وتشير كل قيمة موجودة في مصفوفة المصطلحات إلى عدد المستندات التي يظهر فيها مصطلحان معًا.9
باستخدام هاتين المصفوفتين الإضافيتين، تجري خوارزمية التحليل الدلالي الكامن (LSA) تحليل القيمة المنفردة على مصفوفة المصطلحات والمستندات الأولية، وينتج عن ذلك مصفوفات خاصة جديدة من المتجهات الذاتية. وتقسم هذه المصفوفات الخاصة العلاقات الأصلية بين المصطلحات والمستندات إلى عوامل مستقلة خطيًا. ونظرًا إلى أن قيمة الكثير من هذه العوامل قريبة من الصفر، يكون التعامل معها على أنها صفر وتحذف من المصفوفات. ويسهم هذا في تقليل أبعاد النموذج.10
بمجرد تقليل أبعاد النموذج من خلال إجراء تحليل القيمة المنفردة، تقارن خوارزمية التحليل الدلالي الكامن المستندات في الفضاء ذي الأبعاد المنخفضة باستخدام تشابه جيب التمام. ويشير تشابه جيب التمام إلى قياس الزاوية بين متجهين في فضاء المتجهات. ويمكن أن تكون قيمته أي قيمة بين -1 و1. فكلما زادت درجة جيب التمام، دل ذلك على زيادة التشابه بين المستندين. يتمثل تشابه جيب التمام بالصيغة التالية، حيث تشير x وy إلى متجهين للعناصر في فضاء المتجهات:11