I modelli di argomento sono un metodo NLP non supervisionato che consente di riassumere dati di testo attraverso gruppi di parole. Aiutano nelle attività di classificazione dei testi e di recupero delle informazioni.
Nell'elaborazione del linguaggio naturale (NLP), la modellazione degli argomenti è una tecnica di text mining che applica l'apprendimento non supervisionato su grandi serie di testi per produrre una serie riassuntiva di termini derivati da quei documenti che rappresentano la serie principale complessiva di argomenti della raccolta.1 I modelli di argomento identificano specificamente le parole chiave o le frasi comuni in un set di dati di testo e le raggruppano in una serie di argomenti. I modelli di argomento mirano pertanto a scoprire i temi o gli argomenti latenti che caratterizzano un insieme di documenti. In questo modo, i modelli di argomento sono una forma di analisi del testo basata sull'apprendimento automatico utilizzata per annotare tematicamente grandi corpora di testo.2
Gli utenti possono generare prontamente modelli di argomenti utilizzando il Natural Language Toolkit (NLTK) di scikit-learn e gensim in Python.
In quanto metodo di apprendimento senza supervisione, i modelli tematici non richiedono etichette di dati di addestramento generate dall'utente, come nelle attività di classificazione del testo supervisionata. Piuttosto, i modelli di argomento generano e, per estensione, annotano grandi raccolte di documenti con informazioni tematiche sotto forma di gruppi di parole noti come argomenti.3 In che modo i modelli tematici producono questi gruppi di parole?
La modellazione degli argomenti tratta essenzialmente ogni singolo documento di una raccolta di testi come un ammasso di parole, o "bag of words". Ciò significa che l'algoritmo di modellazione degli argomenti ignora l'ordine delle parole e il loro contesto, concentrandosi semplicemente sulla frequenza con cui esse ricorrono, e ricorrono in concomitanza con altre, all'interno di ogni singolo documento.4
La maggior parte degli approcci alla modellazione degli argomenti inizia generando una matrice dei termini del documento. Questa matrice modella il set di dati del testo con i documenti come righe e le singole parole come colonne, o viceversa. I valori nella matrice indicano la frequenza con cui una determinata parola compare in ciascun documento. Questa matrice può quindi essere utilizzata per generare uno spazio vettoriale, dove n parole sono uguali a n dimensioni. Il valore di una data riga indica la posizione del documento nello spazio vettoriale. I documenti che usano parole in gruppi simili e con frequenza comparabile risiederanno quindi più vicini nello spazio vettoriale. Da qui, i modelli di argomento trattano la prossimità nello spazio vettoriale come documenti che condividono contenuti concettuali o argomenti simili.5
I modelli di argomento non sono tuttavia sinonimo di "bag of words". Mentre queste ultime contano semplicemente la presenza di parole all'interno di una raccolta di documenti, i modelli di argomento raggruppano le parole comunemente co-occorrenti in insiemi di argomenti. Ogni argomento è modellato come una distribuzione di probabilità attraverso un vocabolario di parole. Ogni documento nella raccolta è quindi rappresentato in relazione a quegli argomenti.6 In questo modo, i modelli tematici tentano essenzialmente di decodificare i discorsi (cioè gli argomenti) che hanno prodotto i documenti in questione.7
Gli algoritmi di modellazione degli argomenti non sono tanto metodi alternativi a un'attività, quanto sviluppi sequenziali destinati a risolvere problemi inizialmente riscontrati nei modelli bag of words. La frequenza inversa del documento (TF-IDF) è una modifica del concetto di bag of words, concepita per affrontare i problemi derivanti da parole comuni ma semanticamente irrilevanti, tenendo conto della prevalenza di ciascuna parola in ogni documento di un set di testo. L'analisi semantica latente si basa su TF-IDF con l'intento principale di affrontare la polisemia e la sinonimia. Ciò ha dato vita all'analisi semantica latente probabilistica, da cui è nata l'allocazione latente di Dirichlet. La caratteristica distintiva di quest'ultima è che tutti i documenti di una collezione condividono lo stesso insieme di argomenti, anche se in proporzioni diverse.8
L'analisi semantica latente (Latent semantic analysis, LSA), nota anche come "indicizzazione semantica latente" utilizza una tecnica nota come "decomposizione ai valori singolari" al fine di ridurre la sparsità nella matrice documento-termine. Questo allevia i problemi derivanti dalla polisemia e dalla sinonimia, ovvero dalla presenza di singole parole con più significati o di più parole con un unico significato condiviso.
Il termine "sparsità dei dati" indica essenzialmente che la maggior parte dei valori dei dati in un determinato set di dati è nullo (ovvero vuoto). Ciò accade regolarmente quando si costruiscono matrici documento-termine, per le quali ogni singola parola è costituita da una riga e da una dimensione dello spazio vettoriale separate, poiché i documenti solitamente non contengono la maggior parte delle parole che potrebbero essere più frequenti in altri documenti. Naturalmente, le tecniche di pre-elaborazione dei dati di testo, come la rimozione delle stopword o lo stemming e la lemmatizzazione, possono aiutare a ridurre le dimensioni della matrice. L'LSA offre un approccio più mirato per ridurre sparsità e dimensionalità.
L'LSA inizia con la matrice dei termini del documento, che mostra il numero di volte in cui ogni parola appare in ogni documento. Da qui, l'LSA produce una matrice documento-documento e una matrice termine-termine. Se le dimensioni della matrice documento-termine sono definite come d documenti per w parole, allora la matrice documento-documento è d volte d e la matrice termine-termine è w volte w. Ogni valore nella matrice documento-documento indica il numero di parole che ogni documento ha in comune. Ogni valore nella matrice termine-termine indica il numero di documenti in cui coesistono due termini.9
Utilizzando queste due matrici aggiuntive, l'algoritmo LSA effettua la decomposizione ai singoli valori sulla matrice iniziale dei termini del documento, producendo nuove matrici speciali di autovettori. Queste matrici speciali suddividono le relazioni originali tra i termini del documento in fattori linearmente indipendenti. Poiché molti di questi fattori sono prossimi allo zero, essi vengono trattati come zero ed eliminati dalle matrici, riducendo le dimensioni del modello.10
Una volta che le dimensioni del modello sono state ridotte attraverso la decomposizione, l'algoritmo LSA confronta i documenti nello spazio dimensionale inferiore utilizzando la similarità del coseno. La similarità del coseno indica la misura dell'angolo tra due vettori nello spazio vettoriale. Esso può assumere qualsiasi valore compreso tra -1 e 1. Più alto è il valore del coseno, più due documenti sono considerati simili. La similarità del coseno è rappresentata da questa formula, in cui x e y indicano due vettori-elemento nello spazio vettoriale:11
L'allocazione latente di Dirichlet (Latent Dirichlet Allocation, LDA), da non confondere con l'analisi discriminante lineare, è un algoritmo probabilistico di modellazione degli argomenti. Questo significa che l'algoritmo LDA genera argomenti, classificando parole e documenti tra essi, in base alla distribuzione probabilistica. Utilizzando la matrice documento-termine, l'algoritmo LDA genera distribuzioni di argomenti (ovvero elenchi di parole chiave con rispettive probabilità) in base alla frequenza delle parole e a quanto spesso si ripresentano nel testo. Questa ipotesi parte dal presupposto che le parole che compaiono insieme appartengano probabilmente ad argomenti simili. L'algoritmo assegna quindi distribuzioni documento-argomento in base ai cluster di parole che sono presenti nel documento considerato.12
Ad esempio, supponiamo di generare un modello LDA per una raccolta di nuovi articoli di notizie con il seguente output parziale:
Qui abbiamo due argomenti che potrebbero essere descritti probabilmente come immigrazione (Argomento 1) e astronomia (Argomento 2). I punteggi assegnati a ciascuna parola sono la probabilità che quella parola chiave sia presente nell'argomento specificato. Le probabilità allegate a ciascun documento sono le rispettive probabilità di appartenenza di quel documento a una combinazione di argomenti, data la distribuzione e la ripresentazione delle parole di ciascun argomento all'interno di quel documento. Ad esempio, la prima riga della tabella elenca confine in Argomento 1 con una probabilità del 40% e spazio nell'Argomento 2 con una probabilità del 60%. Queste percentuali indicano la probabilità che i rispettivi termini ricorrano in quell'argomento nell'intero corpus. La prima riga del documento è Documento 1: Argomento 1: .95, Argomento 2: .05. Questo significa che, in base alla presenza di parole nel Documento 1, il modello proietta il Documento 1 come derivato al 95% dall'Argomento 1 e al 5% derivato dall'Argomento 2. In altre parole, il nostro ipotetico modello LDA presuppone che questi siano gli argomenti e le proporzioni degli argomenti utilizzati per generare il modello.
Naturalmente, le parole polisemiche in particolare creano problemi per queste categorizzazioni separate: ad esempio, la parola estraneo può riferirsi a uno sconosciuto o a una creatura extra-terrestre. Se il nostro algoritmo incontra la parola estraneo in un documento, come determina a quale argomento (e, per estensione, a quale documento) appartiene la parola ?
Quando si assegnano argomenti a parole, l'algoritmo LDA utilizza quello che è noto come campionamento di Gibbs. La formula di campionamento Gibbs è:
Conoscere le operazioni e gli iperparametri esatti di questa equazione richiede la conoscenza fondamentale delle statistiche e delle tecniche di Markov Chain Monte Carlo (le seconde spesso impiegate nell'apprendimento per rinforzo). Possiamo tuttavia riassumere i componenti principali dell'equazione:
È opportuno notare che il campionamento di Gibbs è un processo iterativo. Cioè, una parola non viene campionata una sola volta, le viene assegnato un argomento e poi viene messa da parte. Il campionamento di Gibbs passa invece ogni parola attraverso più iterazioni, aggiornando le probabilità argomento-parola alla luce l'una dell'altra.13
Esistono numerosi casi d'uso per i modelli di argomento, dalla critica letteraria14 alla bioinformatica15 al rilevamento dell'incitamento all'odio nei social media.16 Come per molte attività di NLP, una percentuale significativa della ricerca sulla modellazione degli argomenti nel corso degli anni riguarda l'inglese e altre lingue latine. Più recentemente, tuttavia, la ricerca ha esplorato gli approcci di modellazione tematica per l'arabo e altre lingue non latine.17
Le ricerche attuali affrontano anche le metriche di valutazione per i modelli di argomento. In effetti, non esiste una metrica univoca utilizzata per valutare i modelli di argomento, e metriche di valutazione passate hanno adottato approcci qualitativi e quantitativi. Il primo richiede una notevole conoscenza specifica del dominio per valutare l'interpretabilità dei termini chiave della modalità dell'argomento.18 Le misure quantitative consistono in punteggi di verosimiglianza logaritmica e coerenza, che mirano a misurare la probabilità e la coesione degli argomenti all'interno di un modello.19 Un'ampia gamma di ricerche sostiene, tuttavia, che tali metriche quantitative potrebbero essere inaffidabili.20
Nel tentativo di risolvere i problemi relativi alla valutazione dei modelli tematici, uno studio analizza le applicazioni di intelligenza artificiale, in particolare i Large Language Models (LLM), come mezzo per progettare e valutare modelli LDA per obiettivi di ricerca specifici. Gli LLM, sostiene lo studio, possono aiutare a risolvere problemi di lunga data nel topic modeling, ovvero come determinare e valutare il numero appropriato di argomenti.21 Anche altri studi si rivolgono alle applicazioni LLM come mezzo per affrontare il gap di valutazione nel topic modeling.22
IBM Granite è la nostra famiglia di modelli AI aperti, efficienti e affidabili, su misura per le aziende e ottimizzati per scalare le applicazioni di AI. Esplora le opzioni di linguaggio, codice, serie temporali e guardrail.
Scopri come l’elaborazione del linguaggio naturale può aiutarti a conversare in modo più naturale con i computer.
Abbiamo intervistato 2.000 organizzazioni in merito alle loro iniziative di AI per scoprire cosa funziona, cosa non funziona e come giocare d’anticipo.
Esplora il sito web di IBM Developer per accedere a blog, articoli, newsletter e per saperne di più sull’AI incorporabile di IBM.
Progetta facilmente assistenti e agenti di AI scalabili, automatizza le attività ripetitive e semplifica i processi complessi con IBM watsonx Orchestrate.
Accelera il valore aziendale dell'intelligenza artificiale con un portfolio potente e flessibile di librerie, servizi e applicazioni.
Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.
1 Daniel Jurafsky e James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3a edizione, 2023, https://web.stanford.edu/~jurafsky/slp3/
2 Jay Alammar e Maarten Grootendorst, Hands-On Large Language Models, O'Reilly, 2024.
3 David Blei, “Probabilistic Topic Models,” Communications of the ACM, Vol. 55, No. 4, 2012, pp. 77-84.
4 Matthew Jockers, Text Analysis with R for Students of Literature, Springer, 2014.
5 Cole Howard, Hobson Lane e Hannes Hapke, Natural Language Processing in Action, Manning Publications, 2019. Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana Practical Natural Language Processing, O'Reilly, 2020.
6 Chandler Camille May, "Topic Modeling in Theory and Practice", Dissertation, John Hopkins University, 2022.
7 Practical Natural Language Processing, O'Reilly. David Blei, "Probabilistic Topic Models", Communications of the ACM, Vol. 55, n. 4, 2012, pagg. 77-84.
8 Cole Howard, Hobson Lane e Hannes Hapke, Natural Language Processing in Action, Manning Publications, Deerwester, "Indexing by Latent Semantic Analysis", David Blei, "Probabilistic Topic Models", Communications of the ACM, Vol. 55, n. 4, 2012, pagg. 77-84.
9 Hana Nelson, Essential Math for AI, O'Reilly, 2023. Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer e Richard Harshman, "Indexing by Latent Semantic Analysis", Journal of the American Society for Information Science, Vol. 41, n. 6, 1990, pagg. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9
10 Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer e Richard Harshman, "Indexing by Latent Semantic Analysis", Journal of the American Society for Information Science, Vol. 41, n. 6, 1990, pagg. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9
11 Elsa Negre, Information and Recommender Systems, Vol. 4, Wiley-ISTE, 2015. Hana Nelson, Essential Math for AI, O'Reilly, 2023.
12 Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana Practical Natural Language Processing, O'Reilly, 2020. David Blei, Andrew Ng, e Michael Jordan, "Lantent Dirichlet Allocation", Journal of Machine Learning Research, Vol. 3, 2003, pagg. 993-1022.
13 Zhiyuan Chen e Bing Liu, "Topic Models for NLP Applications", Encyclopedia of Machine Learning and Data Science, Springer, 2020.
14 Derek Greene, James O'Sullivan e Daragh O'Reilly, "Topic modelling literary interviews from The Paris Review", Digital Scholarship in the Humanities, 2024, https://academic.oup.com/dsh/article/39/1/142/7515230?login=false
15 Yichen Zhang, Mohammadali (Sam) Khalilitousi e Yongjin Park, "Unraveling dynamically encoded latent transcriptomic patterns in pancreatic cancer cells by topic modeling", Cell Genomics, Vol. 3, n. 9, 2023, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10504675/
16 Richard Shear, Nicholas Johnson Restrepo, Yonatan Lupu, and Neil F. Johnson, “Dynamic Topic Modeling Reveals Variations in Online Hate Narratives,” Intelligent Computing, 2022, https://link.springer.com/chapter/10.1007/978-3-031-10464-0_38
17 Abeer Abuzayed and Hend Al-Khalifa, “BERT for Arabic Topic Modeling: An Experimental Study on BERTopic Technique,” Procedia Computer Science, 2021, pp. 191-194, https://www.sciencedirect.com/science/article/pii/S1877050921012199 . Raghad Alshalan, Hend Al-Khalifa, Duaa Alsaeed, Heyam Al-Baity e Shahad Alshalan, “Detection of Hate Speech in COVID-19--Related Tweets in the Arab Region: Deep Learning and Topic Modeling Approach,” Journal of Medical Internet Research, Vol. 22, No. 12, 2020, https://www.jmir.org/2020/12/e22609
18 Matthew Gillings e Andrew Hardie, "The interpretation of topic models for scholarly analysis: An evaluation and critique of current practice", Digital Scholarship in the Humanities, Vol. 38, n. 2, 2023, pagg. 530-543, https://academic.oup.com/dsh/article-abstract/38/2/530/6957052
19 Chandler Camille May, “Topic Modeling in Theory and Practice,” Dissertation, John Hopkins University, 2022.
20 Zachary Lipton, “The Mythos of Model Interpretability: In machine learning, the concept of interpretability is both important and slippery,” Queue, Vol. 13, No. 3, 2018, pp. 31-57, https://dl.acm.org/doi/10.1145/3236386.3241340 Caitlin Doogan and Wray Buntine, "Topic Model or Topic Twaddle? Re-evaluating Semantic Interpretability Measures,” Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies” 2021, pp. 3824-3848, https://aclanthology.org/2021.naacl-main.300.pdf . Alexander Hoyle, Pranav Goel, Andrew Hian-Cheong, Denis Peskov, Jordan Boyd-Graber, and Philip Resnik, “Is Automated Topic Model Evaluation Broken? The Incoherence of Coherence,” Advances in Neural Processing Systems, vol. 34, 2021, https://proceedings.neurips.cc/paper_files/paper/2021/hash/0f83556a305d789b1d71815e8ea4f4b0-Abstract.html
21 Dominik Stammbach, Vilém Zouhar, Alexander Hoyle, Mrinmaya Sachan ed Elliott Ash, "Revisiting Automated Topic Model Evaluation with Large Language Models", Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, 2023, https://aclanthology.org/2023.emnlp-main.581
22 Eric Chagnon, Ronald Pandolfi, Jeffrey Donatelli e Daniela Ushizima, "Benchmarking topic models on scientific articles using BERTeley", Natural Language Processing Journal, Vol. 6, 2024, pagg. 2949-7191, https://www.sciencedirect.com/science/article/pii/S2949719123000419 . Han Wang, Nirmalendu Prakash, Nguyen Khoi Hoang, Ming Shan Hee, Usman Naseem e Roy Ka-Wei Lee, "Prompting Large Language Models for Topic Modeling", Proceedings of the 2023 IEEE International Conference on Big Data, 2023, pagg. 1236-1241, https://www.computer.org/csdl/proceedings-article/bigdata/2023/10386113/1TUOz14EiBy