IBMニュースレター
The DX Leaders
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
機械学習では、潜在セマンティック分析 (LSA) は、単語の共起を分析してドキュメント内の潜在的なトピックを明らかにするトピック・モデリング手法です。LSA は次元削減を使用して、非構造化テキストから構造化データを作成し、テキストの分類と検索を支援します。
LSA は 2 つの主要なトピック モデリング手法の 1 つであり、もう 1 つは潜在的ディリクレ分布(LDA) です。トピック・モデリングは、 自然言語処理 (NLP)の手法であり、大規模なテキスト・データセットに 教師なし学習 を適用して、ドキュメントから派生した用語の要約セットを生成します。その用語は、コレクション全体の主なトピックのセットを表すことを目的としています。トピック・モデルの目的は、一連の文書を特徴付ける潜在的なトピックまたはテーマを明らかにすることです。1
ユーザーは、scikit-learn (一般にsklearnと呼ばれる) の自然言語ツールキット(NLTK) と Python のgensim を使用して LSA トピック・モデルを生成できます。R の トピック・モデル と lsa パッケージには、LSA トピック・モデルを生成するための関数も含まれています。
潜在的意味解析は、情報検索技術である潜在的意味索引 (LSI) と関連しています。情報検索システムでは、LSIはLSAの基礎となる同じ数学的手順を使用して、単語の共起に基づいてユーザー・クエリーを文書にマッピングします。ユーザーがシステムにおいてワルツとフォックストロットのクエリーを実行すると、これらの用語のいずれも含まれていないが、クエリー用語と共起することが多い用語を含むドキュメントに関心がある可能性があります。たとえば、 タンゴ と ボレロ はクエリ用語と頻繁に同時出現する場合があり、同じトピックに関するドキュメントを示す必要があります。LSI は、一般的に共起する単語で構成される潜在的な意味論的な単語グループに従ってドキュメントをインデックスします。このようにして、検索エンジンの成果を改善できます。LSA は、大規模なドキュメント・コレクションの根底にある隠れた意味構造をキャプチャするために、LSI と同じ数学的手順を適用します。2
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
LSA は、文書-用語マトリックス、または場合によっては用語-文書マトリックスから始まります。これにより、すべての文書の各単語の出現回数が表示されます。Pythonでは(1つの例を挙げると)、ユーザーはpandasデータフレームを使用してこれらのマトリックスを構築できます。以下は、次の3つのテキスト文字列を個々の文書として使用した文書-用語マトリックスの例です。
d1:私の愛は赤い赤いバラのよう
d2:バラは赤、スミレは青
d3:モーゼは自分のつま先をバラだと思っている
この行列は、トークン化とストップワードの削除後の3つの文書すべてにおける各単語の単語頻度を示します。各列は文書に対応し、各行はテキスト・コーパス全体にある特定の単語に対応します。行列内の値は、特定の文書内に特定の用語が出現する回数を表します。用語wが文書d内にn回出現する場合、 、[w,d]=nとなる。たとえば、ドキュメント 1 は 'red' を 2 回使用するため、[red, d1] = 2 です。
LSA は、文書-用語マトリックスから、ドキュメント-ドキュメント・マトリックスおよび用語-用語マトリックスを生成します。文書-単語行列の次元が「d文書 x w単語」として定義される場合、文書-文書行列は「d x d」、単語-単語行列は「w x w」になります。文書-文書行列の各値は、各文書に共通に含まれる単語の数を示します。単語-単語行列の各値は、2つの単語が共起する文書の数を示します。3
データのスパース性は、特定のデータセット内のデータ値の大部分が null (つまり、空) である場合に、モデルの 過剰適合につながります。これは、個々の単語が別々の行とベクトル空間次元である文書用語マトリックスを構築するときによく発生します。これは、1 つの文書には、他の文書でより頻繁に使用される単語の大部分が欠けていることがよくあるためです。実際、ここで使用する文書用語マトリックスの例では、 Moses 、 violets 、 blue など、1 つの文書にしか出現しない単語が多数使用されています。もちろん、ストップワード削除、ステミング 、レンマ化などのテキスト前処理手法は、スパース性を低減するのに役立ちます。ただし、LSA はよりターゲットを絞ったアプローチを提供します。
LSA は、特異値分解 (SVD) として知られる次元削減技術をデプロイして、文書-用語行列のスパース性を低減します。SVDは主コンポーネント分析などの他の多くの次元削減アプローチを強化します。SVD は、複数の意味を持つ単一の単語である多義性や、似たような意味を持つ異なる単語である同義語に起因する問題を軽減するのに役立ちます。
LSAアルゴリズムは、文書-文書および用語-用語行列にわたる用語から計算された行列を使用して、初期の用語-文書行列に対してSVDを実行します。これにより、元の用語と文書の関係を線形に独立した要因に分解する固有ベクトルの新しい特別な行列が生成されます。これらの中で最も重要なのは、文書-文書行列の固有値の平方根から生成される特異値の対角行列です。この対角行列は、しばしば「シグマ(Σ)」で表され、値は常に正であり、行列の対角線上に減少する順に配置されます。
このシグマ行列の例が示すように、より低い値の多くはゼロに近い。開発者は、状況に適したカットオフ値を決定し、そのしきい値を下回る Σ のすべての特異値をゼロに減らします。これは、完全にゼロで占められているすべての行と列を事実上削除することを意味します。次に、Σ と同じ行と列の数になるまで、他の元の行列から行と列を削除します。これにより、モデルの次元が削減されます。4
SVD によってモデルの次元が削減されると、LSA アルゴリズムはコサイン類似性を使用して、低次元の意味空間内のドキュメントを比較します。この比較段階の最初のステップでは、ベクトル空間へのマッピングを行います。ここで、LSA はテキストをbag of wordsモデルとして扱います。アルゴリズムは、コーパスからの各テキストを文書ベクトルとしてプロットし、削減された行列の個々の単語をそのベクトルの次元としてプロットします。プロットでは語順や文脈は無視され、代わりに単語の出現頻度と文書間での共起頻度に焦点が当てられます。5
標準のbag of wordsモデルでは、意味的に無関係な単語 (たとえば、the や some などの単語、およびその他の類似の単語) は、用語の頻度が最も高いため、モデル内で最大の重みを持つことができます。用語頻度文書頻度 (TF-IDF) は、これを補正する手法の 1 つです。これは、テキスト・セット内のすべてのドキュメント全体での単語の普及率を考慮し、コーパス全体での単語の普及率に応じて各文書内の単語に重みを付けることによって行われます。6
ドキュメントがベクトル空間にプロットされると、LSA アルゴリズムはコサイン類似度メトリックを使用してドキュメントを比較します。コサイン類似性は、ベクトル空間内の2つのベクトル間の角度の測定を意味します。-1 から 1 までの任意の値にすることができます。コサインスコアが高いほど、2つのドキュメントはより類似していると見なされます。コサイン類似性は次の式で表され、 a と b は 2 つのドキュメント ベクトルを示します。
トピックモデルの使用例は、文学批評8からバイオインフォマティクス9 、ソーシャルメディアにおけるヘイトスピーチの検出10まで、数多くあります。多くのNLPタスクと同様に、長年にわたるトピック・モデリング研究の大部分は、英語やその他のラテン文字言語に関連しています。しかし、最近では、アラビア語やその他の非ラテン語のトピック・モデリング・アプローチが研究されています。11大規模言語モデル(LLM) がトピック・モデルをどのように進化させ、改善できるかについても研究が進められています。たとえば、ある研究では、LLM はトピック・モデリングにおける長年の問題、つまり適切なトピック数を決定する方法と生成されたトピックを評価する方法を解決するための自動化された方法を提供すると主張しています。12
IBM® watsonx Orchestrateを使用すると、スケーラブルなAIアシスタントとエージェントを簡単に設計し、反復的なタスクを自動化し、複雑なプロセスを簡素化できます。
ライブラリー、サービス、アプリケーションの強力かつ柔軟なポートフォリオにより、人工知能のビジネス価値を促進します。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。
1 Daniel Jurafsky and James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023,https://web.stanford.edu/~jurafsky/slp3/(ibm.com外部へのリンク)Jay Alammar and Maarten Grootendorst, Hands-On Large Language Models, O’Reilly, 2024.
2 Christopher Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press, 2000.
3 Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer, and Richard Harshman, “Indexing by Latent Semantic Analysis,” Journal of the American Society for Information Science, Vol. 41, No. 6, 1990, pp. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9 (ibm.com外部へのリンク)Alex Thomo, “Latent Semantic Analysis,” https://www.engr.uvic.ca/~seng474/svd.pdf (ibm.com外部へのリンク)
4 Hana Nelson, Essential Math for AI, O’Reilly, 2023.Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer, and Richard Harshman, “Indexing by Latent Semantic Analysis,” Journal of the American Society for Information Science, Vol. 41, No. 6, 1990, pp. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9 (ibm.com外部へのリンク)
5 Matthew Jockers, Text Analysis with R for Students of Literature, Springer, 2014.
6 Alice Zheng and Amanda Casari, Feature Engineering for Machine Learning, O’Reilly, 2018.
7 Elsa Negre, Information and Recommender Systems, Vol. 4, Wiley-ISTE, 2015.Hana Nelson, Essential Math for AI, O’Reilly, 2023.
8 Derek Greene, James O'Sullivan, and Daragh O'Reilly, “Topic modelling literary interviews from The Paris Review,” Digital Scholarship in the Humanities, 2024,https://academic.oup.com/dsh/article/39/1/142/7515230?login=false(ibm.com外部へのリンク)
9 Yichen Zhang, Mohammadali (Sam) Khalilitousi, and Yongjin Park, “Unraveling dynamically encoded latent transcriptomic patterns in pancreatic cancer cells by topic modeling,” Cell Genomics, Vol. 3, No. 9, 2023, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10504675/(ibm.com外部へのリンク)
10 Richard Shear, Nicholas Johnson Restrepo, Yonatan Lupu, and Neil F. Johnson, “Dynamic Topic Modeling Reveals Variations in Online Hate Narratives,” Intelligent Computing, 2022, https://link.springer.com/chapter/10.1007/978-3-031-10464-0_38(ibm.com外部へのリンク)
11 Abeer Abuzayed and Hend Al-Khalifa, “BERT for Arabic Topic Modeling: An Experimental Study on BERTopic Technique,” Procedia Computer Science, 2021, pp.191-194, https://www.sciencedirect.com/science/article/pii/S1877050921012199(ibm.com外部へのリンク)Raghad Alshalan、Hend Al-Khalifa、Duaa Alsaeed、Heyam Al-Baity, and Shahad Alshalan, “Detection of Hate Speech in COVID-19--Related Tweets in the Arab Region: Deep Learning and Topic Modeling Approach,” Journal of Medical Internet Research, Vol. 22, No. 12, 2020, https://www.jmir.org/2020/12/e22609/(ibm.com外部へのリンク)
12 Dominik Stammbach, Vilém Zouhar, Alexander Hoyle, Mrinmaya Sachan, and Elliott Ash, “Revisiting Automated Topic Model Evaluation with Large Language Models,” Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, 2023, https://aclanthology.org/2023.emnlp-main.581/(ibm.com外部へのリンク)