Matriks ini menunjukkan frekuensi kata dari setiap kata di ketiga dokumen setelah tokenisasi dan penghapusan stopword. Setiap kolom berhubungan dengan dokumen, sementara setiap baris berhubungan dengan kata tertentu yang ditemukan di seluruh korpus teks. Nilai dalam matriks menandakan berapa kali satu istilah tertentu muncul dalam dokumen tertentu. Jika istilah w muncul sebanyak n kali dalam dokumen d, maka [w,d] = n. Jadi, misalnya, dokumen 1 menggunakan 'merah' dua kali sehingga [merah, d1] = 2.
Dari matriks dokumen-istilah, LSA menghasilkan matriks dokumen-dokumen dan matriks istilah-istilah. Jika dimensi matriks dokumen-istilah ditetapkan sebagai d dokumen dikali w kata, maka matriks dokumen-dokumen adalah d dikali d dan matriks istilah-istilah w dikali w. Setiap nilai dalam matriks dokumen-dokumen menunjukkan jumlah kata yang dimiliki bersama-sama oleh setiap dokumen. Setiap nilai dalam matriks istilah-istilah menunjukkan jumlah dokumen di mana kedua istilah muncul bersamaan.3
Keterbatasan data yang menyebabkan overfitting pada model terjadi ketika sebagian besar nilai data dalam kumpulan data tertentu adalah nol (atau kosong). Hal ini sering terjadi ketika membuat matriks dokumen-istilah, di mana setiap kata adalah dimensi baris dan ruang vektor terpisah, karena satu dokumen akan sering tidak memiliki sebagian besar kata yang lebih sering muncul di dokumen lain. Memang, contoh matriks dokumen-istilah yang digunakan di sini berisi banyak penggunaan kata-kata seperti Musa, violet, dan biru yang hanya muncul dalam satu dokumen. Tentu saja, teknik prapemrosesan teks, seperti penghapusan stopword, stemming, dan lematisasi dapat membantu mengurangi sparsitas. Namun, LSA menawarkan pendekatan yang lebih ditargetkan.