トピック・モデルは、単語グループを通じてテキスト・データを要約するための教師なしNLP手法です。これらは、テキストの分類と情報検索タスクを支援します。
自然言語処理(NLP)におけるトピック・モデリングは、大規模なテキスト・セットに教師なし学習を適用して、コレクション全体の主要なトピック・セットを表す文書から派生した用語のサマリー・セットを生成するテキスト・マイニングの手法です。1 トピック・モデルは、テキスト・データ・セット内の一般的なキーワードまたは語句を識別して、それらの単語をいくつかのトピックにグループ化します。トピック・モデルの目的は、一連の文書を特徴付ける潜在的なトピックまたはテーマを明らかにすることです。このように、トピック・モデルは、大規模なテキスト・コーパスにテーマ別に注釈を付けるために使用される、機械学習ベースのテキスト分析方法です。2
Users can readily generate topic models using scikit-learn’s Natural Language Toolkit (NLTK) and gensim in Python.
教師なし学習方法であるトピック・モデルでは、教師ありテキスト分類タスクのように、ユーザーが生成したトレーニング・データのラベルを必要としません。トピック・モデルは、トピックと呼ばれる単語グループの形式でテーマ別の情報を含む文書の大規模なコレクションを生成し、ひいては注釈を付けます。3ですが、トピック・モデルはどのようにして、これらの単語のグループを生成するのでしょうか。
トピック・モデリングは、基本的に、テキストのコレクション内の個々の文書をBag-of-Words(BoW)モデルとして扱います。つまり、トピック・モデリング・アルゴリズムは語順と文脈を無視して、個々の文書内で単語が出現する頻度と共起する頻度にのみ焦点を当てます。4
ほとんどのトピック・モデリングのアプローチは、まず文書と用語の行列を生成することから始まります。この行列は、文書を行として、個々の単語を列として(もしくは、その逆で)、テキスト・データ・セットをモデル化します。行列内の値は、特定の単語が各文書に出現する頻度を示します。この行列は、n単語がn次元に等しい、ベクトル空間を生成するために使用できます。特定の行の値は、ベクトル空間におけるその文書の位置を示します。したがって、類似したグループに属し、同じ頻度で単語を使用する文書は、ベクトル空間内で互いに接近して配置されます。ここから、トピック・モデルは、ベクトル空間での近接性を、同様の概念コンテンツまたはトピックを共有する文書として扱います。5
ただし、トピック・モデルはBag-of-Wordsと同義ではありません。後者は、単に文書の集合内の単語の存在をカウントするだけですが、トピック・モデルは通常、共起する単語をトピックのセットにグループ化します。各トピックは、単語の語彙全体にわたる確率分布としてモデル化されます。コレクション内の各文書は、それらのトピックの観点から表されます。6 このように、トピック・モデルは基本的に、問題としている文書を生成した談話(つまり、トピック)をリバース・エンジニアリングしようとします。7
トピック・モデリング・アルゴリズムは、「Bag-of-Words」モデル内に当初存在した問題を解決することを目的とした逐次手法であるため、1つのタスクの代替方法とは言えません。Term frequency-inverse document frequency(TF-IDF)は、テキスト・セット内のすべての文書にわたる各単語の出現率を考慮することにより、一般的であるものの意味的には無関係な単語から生じる問題に対処することを目的とした「Bag-of-Words」の修正版です。潜在意味解析は、多義性と同義語に対処することを主な目的として、TF-IDFに基づいて構築されます。これにより、確率的潜在意味解析が生まれ、そこから潜在的ディリクレ配分法が生まれました。後者の際立った特徴は、コレクション内のすべての文書が、比率は異なりますが、同じトピックのセットを共有していることです。8
潜在意味分析(LSA)(潜在意味インデクシングとも呼ばれます)では、文書-単語行列のスパース性を減らすために、特異値分解という技術を用います。これにより、多義性と同義性、つまり複数の意味を持つ単一の単語や、単一の共通の意味を持つ複数の単語から生じる問題が軽減されます。
データのスパース性とは、本質的に、特定のデータ・セット内のデータ値の大部分がnull(つまり空)であることを意味します。個々の単語が別々の行とベクトル空間の次元である文書-用語行列を構築するときに定期的に発生します。これは、文書が他の文書でより頻繁に発生する可能性のある単語の大部分が含まれないことがよくあるためです。もちろん、ストップ・ワードの削除や ステミング 、 レンマ化などのテキスト・データの前処理方法は、行列のサイズを小さくするのに役立ちます。LSAは、スパース性と次元を削減するための、より的を絞ったアプローチを提供します。
LSA は、各文書に各単語が出現する回数を表示する文書-単語行列から始まります。ここから、文書-文書行列および単語-単語行列を生成します。文書-単語行列の次元が「d文書 x w単語」として定義される場合、文書-文書行列は「d x d」、単語-単語行列は「w x w」になります。文書-文書行列の各値は、各文書に共通に含まれる単語の数を示します。単語-単語行列の各値は、2つの単語が共起する文書の数を示します。9
LSAアルゴリズムは、これら2つの追加の行列を使用して、最初の文書-単語行列に対して特異値分解を行い、固有ベクトルの新しい特別な行列を生成します。これらの特別な行列は、元の文書と単語の関係を線形に独立した要素に分解します。これらの要素の多くはゼロに近いため、ゼロとして扱われ、行列から除外されます。これにより、モデルの次元が削減されます。10
特異値分解によりモデル次元が削減されると、LSAアルゴリズムはコサイン類似度を使用して低次元空間内の文書を比較します。コサイン類似性は、ベクトル空間内の2つのベクトル間の角度を表します(-1~1の任意の値)。コサインス類似度が高いほど、2つの文書が類似していると見なされます。コサイン類似度は次の式で表され、xとyは、ベクトル空間内の2つのアイテム・ベクトルを示します。11
潜在ディリクレ配分(LDA)(線形判別分析と混同しないでください)は、確率的トピック・モデリング・アルゴリズムです。これは、トピックを生成し、確率分布に従って単語や文書をトピック間で分類することを意味します。LDAアルゴリズムは、文書-単語行列を使用して、単語の頻度と共起に従ってトピック分布(つまり、それぞれの確率を持つキーワードのリスト)を生成します。同時に出現する単語は、類似したトピックの一部である可能性が高いと仮定します。アルゴリズムは、特定の文書に表示される単語のクラスターに基づいて、文書とトピックの分布を割り当てます。12
例えば、次のような部分的な出力を持つニュース記事のコレクションのLDAモデルを生成するとします。
ここでは、移民(トピック1)および天文学(トピック2)と表現できる2つのトピックがあります。各単語に付けられたスコアは、そのキーワードが特定のトピックに出現する確率です。各ドキュメントに付加された確率は、そのドキュメント内の各トピックの単語の分布と共起を考慮して、そのドキュメントがトピックの混合に属するそれぞれの確率です。例えば、テーブルの最初の行には、トピック1の境界線が確率40%でリストされ、トピック2のスペースが確率60%でリストされています。これらのパーセントは、コーパス全体にわたってそのトピックでそれぞれの用語が発生する確率を示しています。最初のドキュメントの行には「Document 1: Topic 1: .95, Topic 2: .05」とあります。つまり、モデルは、ドキュメント1の単語の出現に基づいて、ドキュメント1はトピック1からの派生が95%、トピック2からの派生が5%であると予測しています。言い換えると、仮説LDAモデルでは、これらのトピックがモデルの生成に使用されたトピックとその割合であると想定しています。
もちろん、特に多義語では、このような個別の分類において問題を引き起こします。例えば、alienという単語は、移民を指すこともあれば、地球外生物を指すこともあります。アルゴリズムが文書でalienに遭遇した場合、LDAアルゴリズムはその単語(ひいては文書)がどのトピックに属するかをどのように判断するのでしょうか。
トピックを単語に割り当てるとき、LDAアルゴリズムはギブス・サンプリングとして知られているものを使用します。ギブス・サンプリングの公式は次のとおりです。
この方程式の正確な演算とハイパーパラメーターを理解するには、統計とマルコフ連鎖モンテカルロ法(後者は強化学習でよく採用される)に関する基礎知識が必要です。それでも、方程式の主成分を要約すると次のようになります。
ギブス・サンプリングは反復プロセスであることに注意してください。つまり、単語は一度サンプリングされ、トピックが割り当てられ、それでおしまいではありません。そうではなく、ギブス・サンプリングは各単語を複数回反復し、トピック-単語の確率を相互を考慮して更新します。13
トピック・モデルのユースケースは、文学批評14からバイオインフォマティクス15、ソーシャルメディアでのヘイトスピーチ検知16まで多岐にわたります。多くのNLPタスクと同様に、長年にわたるトピック・モデリング研究の大部分は、英語やその他のラテン文字の言語に関するものです。しかし、最近では、アラビア語やその他の非ラテン語のトピック・モデリング・アプローチが研究されています。17
現在進行中の研究では、トピック・モデルの評価メトリクスについても行われています。実際、トピック・モデルの評価に使用されるメトリクスは存在しません。過去の評価メトリクスでは、定性的および定量的アプローチが採用されています。前者は、トピック・モードのキーワードの解釈可能性を評価するために、かなりの専門知識を必要とします。18 定量的なスコアは、モデル内のトピックの尤度と凝集性を測定することを目的とした対数尤度スコアと一貫性スコアで構成されてます。19 しかし、多くの研究では、このような定量的な指標は信頼できない可能性があると主張されています。20
トピック・モデルの評価に関連する問題を解決するために、ある研究では、特定の研究目的のためのLDAモデルを設計および評価する手段として、人工知能の応用、特に大規模言語モデル(LLM)が調査されています。この研究では、LLMは、トピック・モデリングにおける長年の問題、つまり適切な数のトピックをどのように決定および評価するかを解決するのに役立つと主張しています。21 他の研究も、トピック・モデリングの評価ギャップに対処する手段として、LLMの応用に注目しています。22
IBM® watsonx Orchestrateを使用すると、スケーラブルなAIアシスタントとエージェントを簡単に設計し、反復的なタスクを自動化し、複雑なプロセスを簡素化できます。
ライブラリー、サービス、アプリケーションの強力かつ柔軟なポートフォリオにより、人工知能のビジネス価値を促進します。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。
1 Daniel Jurafsky、James Martin共著、Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition、第3版、2023年、https://web.stanford.edu/~jurafsky/slp3/
2 Jay Alammar and Maarten Grootendorst, Hands-On Large Language Models, O’Reilly, 2024.
3 David Blei, “Probabilistic Topic Models,” Communications of the ACM, Vol. 55, No. 4, 2012, pp. 77-84.
4 Matthew Jockers, Text Analysis with R for Students of Literature, Springer, 2014.
5 Cole Howard, Hobson Lane, and Hannes Hapke, Natural Language Processing in Action, Manning Publications, 2019. Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana Practical Natural Language Processing, O’Reilly, 2020.
6 Chandler Camille May, “Topic Modeling in Theory and Practice,” Dissertation, John Hopkins University, 2022.
7 Practical Natural Language Processing, O’Reilly. David Blei, “Probabilistic Topic Models,” Communications of the ACM, Vol. 55, No. 4, 2012, pp. 77-84.
8 Cole Howard, Hobson Lane, and Hannes Hapke, Natural Language Processing in Action, Manning Publications, Deerwester, “Indexing by Latent Semantic Analysis,” David Blei, “Probabilistic Topic Models,” Communications of the ACM, Vol. 55, No. 4, 2012, pp. 77-84.
9 Hana Nelson, Essential Math for AI, O’Reilly, 2023. Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer, and Richard Harshman, “Indexing by Latent Semantic Analysis,” Journal of the American Society for Information Science, Vol. 41, No. 6, 1990, pp. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9
10 Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer, and Richard Harshman, “Indexing by Latent Semantic Analysis,” Journal of the American Society for Information Science, Vol. 41, No. 6, 1990, pp. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9
11 Elsa Negre, Information and Recommender Systems, Vol. 4, Wiley-ISTE, 2015. Hana Nelson, Essential Math for AI, O’Reilly, 2023.
12 Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana Practical Natural Language Processing, O’Reilly, 2020. David Blei, Andrew Ng, and Michael Jordan, “Lantent Dirichlet Allocation,” Journal of Machine Learning Research, Vol. 3, 2003, pp. 993-1022.
13 Zhiyuan Chen and Bing Liu, “Topic Models for NLP Applications,” Encyclopedia of Machine Learning and Data Science, Springer, 2020.
14 Derek Greene, James O'Sullivan, and Daragh O'Reilly, “Topic modelling literary interviews from The Paris Review,” Digital Scholarship in the Humanities, 2024, https://academic.oup.com/dsh/article/39/1/142/7515230?login=false
15 Yichen Zhang, Mohammadali (Sam) Khalilitousi, and Yongjin Park, “Unraveling dynamically encoded latent transcriptomic patterns in pancreatic cancer cells by topic modeling,” Cell Genomics, Vol. 3, No. 9, 2023, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10504675/
16 Richard Shear, Nicholas Johnson Restrepo, Yonatan Lupu, and Neil F. Johnson, “Dynamic Topic Modeling Reveals Variations in Online Hate Narratives,” Intelligent Computing, 2022, https://link.springer.com/chapter/10.1007/978-3-031-10464-0_38
17 Abeer Abuzayed and Hend Al-Khalifa, “BERT for Arabic Topic Modeling: An Experimental Study on BERTopic Technique,” Procedia Computer Science, 2021, pp. 191-194, https://www.sciencedirect.com/science/article/pii/S1877050921012199 . Raghad Alshalan, Hend Al-Khalifa, Duaa Alsaeed, Heyam Al-Baity, and Shahad Alshalan, “Detection of Hate Speech in COVID-19--Related Tweets in the Arab Region: Deep Learning and Topic Modeling Approach,” Journal of Medical Internet Research, Vol. 22, No. 12, 2020, https://www.jmir.org/2020/12/e22609
18 Matthew Gillings and Andrew Hardie, “The interpretation of topic models for scholarly analysis: An evaluation and critique of current practice,” Digital Scholarship in the Humanities, Vol. 38, No. 2, 2023, pp. 530–543, https://academic.oup.com/dsh/article-abstract/38/2/530/6957052
19 Chandler Camille May, “Topic Modeling in Theory and Practice,” Dissertation, John Hopkins University, 2022.
20 Zachary Lipton, “The Mythos of Model Interpretability: In machine learning, the concept of interpretability is both important and slippery,” Queue, Vol. 13, No. 3, 2018, pp. 31-57, https://dl.acm.org/doi/10.1145/3236386.3241340 Caitlin Doogan and Wray Buntine, “Topic Model or Topic Twaddle? Re-evaluating Semantic Interpretability Measures,” Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies” 2021, pp. 3824-3848, https://aclanthology.org/2021.naacl-main.300.pdf . Alexander Hoyle, Pranav Goel, Andrew Hian-Cheong, Denis Peskov, Jordan Boyd-Graber, and Philip Resnik, “Is Automated Topic Model Evaluation Broken? The Incoherence of Coherence,” Advances in Neural Processing Systems, vol. 34, 2021, https://proceedings.neurips.cc/paper_files/paper/2021/hash/0f83556a305d789b1d71815e8ea4f4b0-Abstract.html
21 Dominik Stammbach, Vilém Zouhar, Alexander Hoyle, Mrinmaya Sachan, and Elliott Ash, “Revisiting Automated Topic Model Evaluation with Large Language Models,” Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, 2023, https://aclanthology.org/2023.emnlp-main.581
22 Eric Chagnon, Ronald Pandolfi, Jeffrey Donatelli, and Daniela Ushizima, “Benchmarking topic models on scientific articles using BERTeley,” Natural Language Processing Journal, Vol. 6, 2024, pp. 2949-7191, https://www.sciencedirect.com/science/article/pii/S2949719123000419 . Han Wang, Nirmalendu Prakash, Nguyen Khoi Hoang, Ming Shan Hee, Usman Naseem, and Roy Ka-Wei Lee, “Prompting Large Language Models for Topic Modeling,” Proceedings of the 2023 IEEE International Conference on Big Data, 2023, pp. 1236-1241, https://www.computer.org/csdl/proceedings-article/bigdata/2023/10386113/1TUOz14EiBy