トピック・モデリングとは

共同執筆者

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

トピック・モデリングとは

自然言語処理(NLP) におけるトピックモデリングは、大規模なテキスト・セットに教師なし学習を適用して、コレクション全体の主要なトピック・セットを表す用語の要約セットを生成するテキスト・マイニング手法です^。1これらは、テキストの分類と情報検索タスクを支援します。

トピック・モデルは、テキスト・データセット内で一般的なキーワードやフレーズを具体的に特定し、それらの単語をいくつかのトピックの下にグループ化します。これらは、一連の文書を特徴付ける潜在的なトピックやテーマを明らかにすることを目的としています。このように、トピック・モデルは、大規模なテキスト・コーパスにテーマ別に注釈を付けるために使用される、機械学習ベースのテキスト分析方法です。²

ユーザーはPythonのscikit-learnのNatural Language Toolkit（NLTK）とgensimを用いて、容易にLDAトピック・モデルを生成できます。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

トピック・モデリングの仕組み

教師なし学習方法であるトピック・モデルでは、教師ありテキスト分類タスクのように、ユーザーが生成したトレーニング・データのラベルを必要としません。トピック・モデルは、トピックと呼ばれる単語グループの形式でテーマ別の情報を含む文書の大規模なコレクションを生成し、ひいては注釈を付けます。³ですが、トピック・モデルはどのようにして、これらの単語のグループを生成するのでしょうか。

トピック・モデリングは、基本的に、テキストのコレクション内の個々の文書をBag-of-Words（BoW）モデルとして扱います。つまり、トピック・モデリング・アルゴリズムは語順と文脈を無視して、個々の文書内で単語が出現する頻度と共起する頻度にのみ焦点を当てます。⁴

ほとんどのトピック・モデリングのアプローチは、まず文書と用語の行列を生成することから始まります。この行列は、文書を行として、個々の単語を列として（もしくは、その逆で）、テキスト・データ・セットをモデル化します。行列内の値は、特定の単語が各文書に出現する頻度を示します。この行列は、n単語がn次元に等しい、ベクトル空間を生成するために使用できます。特定の行の値は、ベクトル空間におけるその文書の位置を示します。したがって、類似したグループに属し、同じ頻度で単語を使用する文書は、ベクトル空間内で互いに接近して配置されます。ここから、トピック・モデルは、ベクトル空間での近接性を、同様の概念コンテンツまたはトピックを共有する文書として扱います。⁵

ただし、トピック・モデルはBag-of-Wordsと同義ではありません。後者は、単に文書の集合内の単語の存在をカウントするだけですが、トピック・モデルは通常、共起する単語をトピックのセットにグループ化します。各トピックは、単語の語彙全体にわたる確率分布としてモデル化されます。コレクション内の各文書は、それらのトピックの観点から表されます。⁶ このように、トピック・モデルは基本的に、問題としている文書を生成した談話（つまり、トピック）をリバース・エンジニアリングしようとします。⁷

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

トピック・モデリング・アルゴリズムの種類

トピック・モデリング・アルゴリズムは、「Bag-of-Words」モデル内に当初存在した問題を解決することを目的とした逐次手法であるため、1つのタスクの代替方法とは言えません。Term frequency-inverse document frequency（TF-IDF）は、テキスト・セット内のすべての文書にわたる各単語の出現率を考慮することにより、一般的であるものの意味的には無関係な単語から生じる問題に対処することを目的とした「Bag-of-Words」の修正版です。潜在意味解析は、多義性と同義語に対処することを主な目的として、TF-IDFに基づいて構築されます。これにより、確率的潜在意味解析が生まれ、そこから潜在的ディリクレ配分法が生まれました。後者の際立った特徴は、コレクション内のすべての文書が、比率は異なりますが、同じトピックのセットを共有していることです。⁸

潜在意味解析

潜在意味分析（LSA）（潜在意味インデクシングとも呼ばれます）では、文書-単語行列のスパース性を減らすために、特異値分解という技術を用います。これにより、多義性と同義性、つまり複数の意味を持つ単一の単語や、単一の共通の意味を持つ複数の単語から生じる問題が軽減されます。

データのスパース性とは、本質的に、特定のデータ・セット内のデータ値の大部分がnull（つまり空）であることを意味します。個々の単語が別々の行とベクトル空間の次元である文書-用語行列を構築するときに定期的に発生します。これは、文書が他の文書でより頻繁に発生する可能性のある単語の大部分が含まれないことがよくあるためです。もちろん、ストップ・ワードの削除やステミング、レンマ化などのテキスト・データの前処理方法は、行列のサイズを小さくするのに役立ちます。LSAは、スパース性と次元を削減するための、より的を絞ったアプローチを提供します。

LSA は、各文書に各単語が出現する回数を表示する文書-単語行列から始まります。ここから、文書-文書行列および単語-単語行列を生成します。文書-単語行列の次元が「d文書 x w単語」として定義される場合、文書-文書行列は「d x d」、単語-単語行列は「w x w」になります。文書-文書行列の各値は、各文書に共通に含まれる単語の数を示します。単語-単語行列の各値は、2つの単語が共起する文書の数を示します。⁹

LSAアルゴリズムは、これら2つの追加の行列を使用して、最初の文書-単語行列に対して特異値分解を行い、固有ベクトルの新しい特別な行列を生成します。これらの特別な行列は、元の文書と単語の関係を線形に独立した要素に分解します。これらの要素の多くはゼロに近いため、ゼロとして扱われ、行列から除外されます。これにより、モデルの次元が削減されます。¹⁰

特異値分解によりモデル次元が削減されると、LSAアルゴリズムはコサイン類似度を使用して低次元空間内の文書を比較します。コサイン類似性は、ベクトル空間内の2つのベクトル間の角度を表します（-1～1の任意の値）。コサインス類似度が高いほど、2つの文書が類似していると見なされます。コサイン類似度は次の式で表され、xとyは、ベクトル空間内の2つのアイテム・ベクトルを示します。¹¹

潜在ディリクレ配分

潜在ディリクレ配分（LDA）（線形判別分析と混同しないでください）は、確率的トピック・モデリング・アルゴリズムです。これは、トピックを生成し、確率分布に従って単語や文書をトピック間で分類することを意味します。LDAアルゴリズムは、文書-単語行列を使用して、単語の頻度と共起に従ってトピック分布（つまり、それぞれの確率を持つキーワードのリスト）を生成します。同時に出現する単語は、類似したトピックの一部である可能性が高いと仮定します。アルゴリズムは、特定の文書に表示される単語のクラスターに基づいて、文書とトピックの分布を割り当てます。¹²

例えば、次のような部分的な出力を持つニュース記事のコレクションのLDAモデルを生成するとします。

ここでは、移民（トピック1）および天文学（トピック2）と表現できる2つのトピックがあります。各単語に付けられたスコアは、そのキーワードが特定のトピックに出現する確率です。各ドキュメントに付加された確率は、そのドキュメント内の各トピックの単語の分布と共起を考慮して、そのドキュメントがトピックの混合に属するそれぞれの確率です。例えば、テーブルの最初の行には、トピック1の境界線が確率40%でリストされ、トピック2のスペースが確率60%でリストされています。これらのパーセントは、コーパス全体にわたってそのトピックでそれぞれの用語が発生する確率を示しています。最初のドキュメントの行には「Document 1: Topic 1: .95, Topic 2: .05」とあります。つまり、モデルは、ドキュメント1の単語の出現に基づいて、ドキュメント1はトピック1からの派生が95%、トピック2からの派生が5%であると予測しています。言い換えると、仮説LDAモデルでは、これらのトピックがモデルの生成に使用されたトピックとその割合であると想定しています。

もちろん、特に多義語では、このような個別の分類において問題を引き起こします。例えば、alienという単語は、移民を指すこともあれば、地球外生物を指すこともあります。アルゴリズムが文書でalienに遭遇した場合、LDAアルゴリズムはその単語（ひいては文書）がどのトピックに属するかをどのように判断するのでしょうか。

トピックを単語に割り当てるとき、LDAアルゴリズムはギブス・サンプリングとして知られているものを使用します。ギブス・サンプリングの公式は次のとおりです。

この方程式の正確な演算とハイパーパラメーターを理解するには、統計とマルコフ連鎖モンテカルロ法（後者は強化学習でよく採用される）に関する基礎知識が必要です。それでも、方程式の主成分を要約すると次のようになります。

最初の比率は、ドキュメントdのトピックtの確率を表します。このアルゴリズムは、トピックtに属するドキュメントd内の単語数に従って、この確率を計算します。これは基本的に、「トピックtはドキュメントd内でどの程度行き渡っているか」という問い合わせです。
2番目の比率は、単語wがトピックtに属する確率を表します。このアルゴリズムは、t内のすべての単語-トークンにわたるtでのwの出現を列挙することで、この確率を計算します。これは「コーパスの残りの部分全体で、単語wがトピックtにどのくらいの頻度で現れるか」という問い合わせです。

ギブス・サンプリングは反復プロセスであることに注意してください。つまり、単語は一度サンプリングされ、トピックが割り当てられ、それでおしまいではありません。そうではなく、ギブス・サンプリングは各単語を複数回反復し、トピック-単語の確率を相互を考慮して更新します。¹³

参考情報

IBM Graniteはこちら

IBM Graniteは、ビジネス向けにカスタマイズされ、AIアプリケーションの拡張に合わせて最適化された、オープンで高性能、かつ信頼性の高いAIモデル・ファミリーです。言語、コード、時系列、ガードレールのオプションをご覧ください。

NLPの初心者向けガイド

自然言語処理がコンピューターとのより自然な対話にどのように役立つかをご覧ください。

AI in Action 2024

2,000の組織を対象に、AIへの取り組みについて調査を行い、何が機能し、何が機能していないのか、どうすれば前進できるのかを明らかにしました。

IBMの組み込み可能AIでアプリケーションを強化

IBM DeveloperのWebサイトのブログ、記事、ニュースレターには、IBMの組み込み型AIに関する詳細が記載されています。

生成AIを試してみる

ハンズオン・ラボ、コース、指導付きプロジェクト、トライアルなどで、基本的な概念を学び、スキルを身につけていただけます。

脚注

¹Daniel Jurafsky and James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023,https://web.stanford.edu/~jurafsky/slp3/

² Jay Alammar and Maarten Grootendorst, Hands-On Large Language Models, O’Reilly, 2024.

³ David Blei, “Probabilistic Topic Models,” Communications of the ACM, Vol. 55, No. 4, 2012, pp. 77-84.

⁴ Matthew Jockers, Text Analysis with R for Students of Literature, Springer, 2014.

⁵ Cole Howard, Hobson Lane, and Hannes Hapke, Natural Language Processing in Action, Manning Publications, 2019. Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana Practical Natural Language Processing, O’Reilly, 2020.

⁶ Chandler Camille May, “Topic Modeling in Theory and Practice,” Dissertation, John Hopkins University, 2022.

⁷ Practical Natural Language Processing, O’Reilly. David Blei, “Probabilistic Topic Models,” Communications of the ACM, Vol. 55, No. 4, 2012, pp. 77-84.

⁸ Cole Howard, Hobson Lane, and Hannes Hapke, Natural Language Processing in Action, Manning Publications, Deerwester, “Indexing by Latent Semantic Analysis,” David Blei, “Probabilistic Topic Models,” Communications of the ACM, Vol. 55, No. 4, 2012, pp. 77-84.

⁹Hana Nelson, Essential Math for AI, O’Reilly, 2023.Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer, and Richard Harshman, “Indexing by Latent Semantic Analysis,” Journal of the American Society for Information Science, Vol. 41, No. 6, 1990, pp. 391-407,https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9

¹⁰Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer, and Richard Harshman, “Indexing by Latent Semantic Analysis,” Journal of the American Society for Information Science, Vol. 41, No. 6, 1990, pp. 391-407,https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9

¹¹ Elsa Negre, Information and Recommender Systems, Vol. 4, Wiley-ISTE, 2015. Hana Nelson, Essential Math for AI, O’Reilly, 2023.

¹² Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana Practical Natural Language Processing, O’Reilly, 2020. David Blei, Andrew Ng, and Michael Jordan, “Lantent Dirichlet Allocation,” Journal of Machine Learning Research, Vol. 3, 2003, pp. 993-1022.

¹³ Zhiyuan Chen and Bing Liu, “Topic Models for NLP Applications,” Encyclopedia of Machine Learning and Data Science, Springer, 2020.

¹⁴ Derek Greene, James O'Sullivan, and Daragh O'Reilly, “Topic modelling literary interviews from The Paris Review,” Digital Scholarship in the Humanities, 2024, https://academic.oup.com/dsh/article/39/1/142/7515230?login=false(link resides outside ibm.com).

¹⁵ Yichen Zhang, Mohammadali (Sam) Khalilitousi, and Yongjin Park, “Unraveling dynamically encoded latent transcriptomic patterns in pancreatic cancer cells by topic modeling,” Cell Genomics, Vol. 3, No. 9, 2023, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10504675/ (link resides outside ibm.com).

¹⁶Richard Shear, Nicholas Johnson Restrepo, Yonatan Lupu, and Neil F. Johnson, “Dynamic Topic Modeling Reveals Variations in Online Hate Narratives,” Intelligent Computing, 2022,https://link.springer.com/chapter/10.1007/978-3-031-10464-0_38

¹⁷Abeer Abuzayed and Hend Al-Khalifa, “BERT for Arabic Topic Modeling: An Experimental Study on BERTopic Technique,” Procedia Computer Science, 2021, pp. 191-194,https://www.sciencedirect.com/science/article/pii/S1877050921012199.Raghad Alshalan, Hend Al-Khalifa, Duaa Alsaeed, Heyam Al-Baity, and Shahad Alshalan, “Detection of Hate Speech in COVID-19--Related Tweets in the Arab Region: Deep Learning and Topic Modeling Approach,” Journal of Medical Internet Research, Vol. 22, No. 12, 2020, https://www.jmir.org/2020/12/e22609

¹⁸Matthew Gillings and Andrew Hardie, “The interpretation of topic models for scholarly analysis: An evaluation and critique of current practice,” Digital Scholarship in the Humanities, Vol. 38, No. 2, 2023, pp. 530–543,https://academic.oup.com/dsh/article-abstract/38/2/530/6957052

¹⁹ Chandler Camille May, “Topic Modeling in Theory and Practice,” Dissertation, John Hopkins University, 2022.

²⁰Zachary Lipton, “The Mythos of Model Interpretability: In machine learning, the concept of interpretability is both important and slippery,” Queue, Vol. 13, No. 3, 2018, pp. 31-57,https://dl.acm.org/doi/10.1145/3236386.3241340Caitlin Doogan and Wray Buntine, “Topic Model or Topic Twaddle? Re-evaluating Semantic Interpretability Measures,” Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies” 2021, pp. 3824-3848, https://aclanthology.org/2021.naacl-main.300.pdf.Alexander Hoyle, Pranav Goel, Andrew Hian-Cheong, Denis Peskov, Jordan Boyd-Graber, and Philip Resnik, “Is Automated Topic Model Evaluation Broken? The Incoherence of Coherence,” Advances in Neural Processing Systems, vol. 34, 2021, https://proceedings.neurips.cc/paper_files/paper/2021/hash/0f83556a305d789b1d71815e8ea4f4b0-Abstract.html

²¹Dominik Stammbach, Vilém Zouhar, Alexander Hoyle, Mrinmaya Sachan, and Elliott Ash, “Revisiting Automated Topic Model Evaluation with Large Language Models,” Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, 2023,https://aclanthology.org/2023.emnlp-main.581

²²Eric Chagnon, Ronald Pandolfi, Jeffrey Donatelli, and Daniela Ushizima, “Benchmarking topic models on scientific articles using BERTeley,” Natural Language Processing Journal, Vol. 6, 2024, pp. 2949-7191, https://www.sciencedirect.com/science/article/pii/S2949719123000419 .Han Wang, Nirmalendu Prakash, Nguyen Khoi Hoang, Ming Shan Hee, Usman Naseem, and Roy Ka-Wei Lee, “Prompting Large Language Models for Topic Modeling,” Proceedings of the 2023 IEEE International Conference on Big Data, 2023, pp. 1236-1241, https://www.computer.org/csdl/proceedings-article/bigdata/2023/10386113/1TUOz14EiBy

トピック・モデリングとは

共同執筆者

トピック・モデリングとは

The DX Leaders

ご登録いただきありがとうございます。

トピック・モデリングの仕組み

IBMお客様事例

トピック・モデリング・アルゴリズムの種類

潜在意味解析

潜在ディリクレ配分

最近の研究

参考情報

脚注