Los algoritmos de modelado de temas no son tanto métodos alternativos a una tarea como desarrollos secuenciales destinados a resolver problemas encontrados inicialmente en modelos de Bag of words. La recurrencia del término frecuencia inversa de documentos (TF-IDF) es una modificación de una Bag of words destinada a abordar los problemas resultantes de palabras comunes pero semánticamente irrelevantes al tener en cuenta la prevalencia de cada palabra en cada documento en un conjunto de texto. El análisis semántico latente se basa en TF-IDF con la intención principal de abordar la polisemia y la sinonimia. Esto dio origen al análisis semántico latente probabilístico, a partir del cual creció la asignación latente de Dirichlet. La característica distintiva de este último es que todos los documentos de una colección comparten el mismo conjunto de temas, aunque en proporciones diferentes.8