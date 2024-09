Qui abbiamo due argomenti che potrebbero essere descritti probabilmente come immigrazione (Argomento 1) e astronomia (Argomento 2). I punteggi assegnati a ciascuna parola sono la probabilità che quella parola chiave sia presente nell'argomento specificato. Le probabilità allegate a ciascun documento sono le rispettive probabilità di appartenenza di quel documento a una combinazione di argomenti, data la distribuzione e la ripresentazione delle parole di ciascun argomento all'interno di quel documento. Ad esempio, la prima riga della tabella elenca confine in Argomento 1 con una probabilità del 40% e spazio nell'Argomento 2 con una probabilità del 60%. Queste percentuali indicano la probabilità che i rispettivi termini ricorrano in quell'argomento nell'intero corpus. La prima riga del documento è Documento 1: Argomento 1: .95, Argomento 2: .05. Questo significa che, in base alla presenza di parole nel Documento 1, il modello proietta il Documento 1 come derivato al 95% dall'Argomento 1 e al 5% derivato dall'Argomento 2. In altre parole, il nostro ipotetico modello LDA presuppone che questi siano gli argomenti e le proporzioni degli argomenti utilizzati per generare il modello.

Naturalmente, le parole polisemiche in particolare creano problemi per queste categorizzazioni separate: ad esempio, la parola estraneo può riferirsi a un immigrato o a una creatura extra-terrestre. In questi casi, come fa l'algoritmo LDA a stabilire a quale argomento appartiene la parola (e, per estensione, il documento)?