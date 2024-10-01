该矩阵显示了标记化和停用词删除后所有三个文档中每个单词的单词频率。每列对应一个文档，而每行对应于整个文本语料库中找到的特定单词。矩阵中的数值表示特定术语在特定文档中出现的次数。如果词语 w 在文档 d 中出现 n 次，则 [w,d] = n。例如，文档 1 使用了两次 'red'，因此 [red, d1] = 2。

从文档-词项矩阵出发，LSA 会生成文档-文档矩阵和词项-词项矩阵。如果文档-词项矩阵矩阵维度被定义为 d 个文档乘以 w 个单词，文档-文档矩阵则是 d 乘以 d，而词项-词项矩阵则是 w 乘以 w。文档-文档矩阵中的每个值均表示每个文档共有的单词数。词项-词项矩阵中的每个值则表示两个词项同时出现的文档数。3

数据稀疏会导致模型过拟合，当给定数据集中大多数数据值为空（即缺失）时，就会出现数据稀疏。这在构建文档-词项矩阵时经常发生，因为每个单独的词都是独立的行和矢量空间维度，而一个文档通常缺少其他文档中更频繁出现的大多数词。事实上，这里使用的示例文档-词项矩阵中，像 Moses、violets 和 blue 等词只出现在一个文档中。当然，文本预处理技术，如停用词去除、词干提取和词形还原，可以帮助减少稀疏性。然而，LSA 提供了一种更有针对性的方法。