Aunque los clasificadores probabilísticos que utilizan un enfoque de bolsa de palabras resultan muy eficaces, la bolsa de palabras tiene varias desventajas.
Correlación de palabras. La bag of words supone que las palabras son independientes entre sí en un documento o corpus. Es más probable que la palabra elección aparezca en un contexto compartido con presidente que con poeta. Al medir la frecuencia de términos individuales, la bag of words no tiene en cuenta las correlaciones en el uso entre palabras. Debido a que la bag of words extrae cada palabra de un documento como una característica del modelo de la bag of words, donde la frecuencia del término es el peso de esa característica, dos o más palabras correlacionadas pueden, teóricamente, inducir multicolinealidad en clasificadores estadísticos que utilizan ese modelo. Sin embargo, se ha demostrado que el supuesto de simplificación de Naïve Bayes produce modelos robustos a pesar de las posibles deficiencias.5
Palabras compuestas. La correlación de palabras se extiende a las representaciones de frases compuestas, en las que dos o más palabras funcionan como una unidad semántica. Por ejemplo, un modelo simple de bolsa de palabras puede representar a Sr. Darcy como dos palabras únicas y no relacionadas, aunque funcionen en conjunto. Tal representación de una bolsa de palabras no refleja la naturaleza semántica y sintáctica de los conceptos de varias palabras.
Palabras polisémicas. Muchas palabras tienen significados múltiples y notoriamente diferentes. Por ejemplo, bat puede significar un instrumento deportivo [bate] o un animal [murciélago], y estos significados suelen ocurrir en contextos claramente diferentes. Del mismo modo, las palabras pueden cambiar de significado dependiendo de la ubicación del acento en el lenguaje hablado, por ejemplo, CON-tent [contenido] versus con-TENT [satisfacción]. Debido a que la bolsa de palabras no tiene en cuenta el contexto y el significado al modelar palabras, contrae todos estos significados distintos en una sola palabra, eliminando así información potencialmente significativa sobre el tema de un texto (y, por lo tanto, la clasificación potencial).
Dispersión. En un modelo de bag of words, cada palabra es una característica, o dimensión, del modelo, y cada documento es un vector. Dado que un documento no utiliza todas las palabras del vocabulario del modelo generado, muchos de los valores de las características de un vector determinado pueden ser cero. Cuando la mayoría de los valores de los vectores son cero, el modelo es disperso (si se representan los vectores como una matriz, se denomina matriz dispersa). La esparcialidad del modelo da como resultado una alta dimensionalidad, lo que, a su vez, conduce a un sobreajuste en los datos de entrenamiento.6