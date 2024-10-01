この行列は、トークン化とストップワードの削除後の3つの文書すべてにおける各単語の単語頻度を示します。各列は文書に対応し、各行はテキスト・コーパス全体にある特定の単語に対応します。行列内の値は、特定の文書内に特定の用語が出現する回数を表します。用語wが文書d内にn回出現する場合、 、[w,d]=nとなる。たとえば、ドキュメント 1 は 'red' を 2 回使用するため、[red, d1] = 2 です。

LSA は、文書-用語マトリックスから、ドキュメント-ドキュメント・マトリックスおよび用語-用語マトリックスを生成します。文書-単語行列の次元が「d文書 x w単語」として定義される場合、文書-文書行列は「d x d」、単語-単語行列は「w x w」になります。文書-文書行列の各値は、各文書に共通に含まれる単語の数を示します。単語-単語行列の各値は、2つの単語が共起する文書の数を示します。3

データのスパース性は、特定のデータセット内のデータ値の大部分が null (つまり、空) である場合に、モデルの 過剰適合につながります。これは、個々の単語が別々の行とベクトル空間次元である文書用語マトリックスを構築するときによく発生します。これは、1 つの文書には、他の文書でより頻繁に使用される単語の大部分が欠けていることがよくあるためです。実際、ここで使用する文書用語マトリックスの例では、 Moses 、 violets 、 blue など、1 つの文書にしか出現しない単語が多数使用されています。もちろん、ストップワード削除、ステミング 、レンマ化などのテキスト前処理手法は、スパース性を低減するのに役立ちます。ただし、LSA はよりターゲットを絞ったアプローチを提供します。