Aunque los clasificadores probabilísticos que utilizan un enfoque de bolsa de palabras resultan muy eficaces, la bolsa de palabras tiene varias desventajas.
Correlación de palabras. La bag of words supone que las palabras son independientes unas de otras en un documento o corpus. Es más probable que elección aparezca en un contexto compartido con presidente que con poeta. Al medir la frecuencia de los términos individuales, la bag of words no tiene en cuenta las correlaciones de uso entre las palabras. Como la bag of words extrae cada palabra de un documento como una característica del modelo de bag of words, siendo la frecuencia de los términos la ponderación de esa característica, dos o más palabras correlacionadas pueden inducir teóricamente la multicolinealidad en los clasificadores estadísticos que utilizan ese modelo. Sin embargo, la suposición simplificadora de Naïve Bayes ha demostrado producir modelos sólidos a pesar de estas posibles deficiencias5.
Palabras compuestas. La correlación de palabras se extiende a las representaciones en bolsas de palabras de frases compuestas, en las que dos o más palabras funcionan como una unidad semántica. Por ejemplo, un modelo simple de bolsa de palabras puede representar al Sr. Darcy como dos palabras únicas y no relacionadas, aunque funcionen en conjunto. Esta representación de un conjunto de palabras no refleja la naturaleza semántica y sintáctica de conceptos compuestos por varias palabras.
Palabras polisémicas. Muchas palabras tienen significados múltiples y marcadamente diferentes. Por ejemplo, ratón puede significar un animal o un dispositivo electrónico, y estos significados suelen aparecer en contextos significativamente diferentes. Del mismo modo, las palabras pueden cambiar de significado en función de la ubicación de su acento en el lenguaje hablado, por ejemplo, PÚ-blico frente a publi-CÓ. Dado que la bolsa de palabras no tiene en cuenta el contexto y el significado al modelar las palabras, colapsa todos estos significados distintos en una sola palabra, eliminando así información potencialmente significativa sobre el tema de un texto (y, por lo tanto, la clasificación potencial).
Dispersión. En un modelo de bag of words, cada palabra es una característica, o dimensión, del modelo, y cada uno de los denominados documentos es un vector. Dado que un documento no utiliza todas las palabras del vocabulario del modelo generado, muchos de los valores de las características de un vector determinado pueden ser cero. Cuando la mayoría de los valores de los vectores son cero, el modelo es disperso (si se representan los vectores como una matriz, esto se denomina matriz dispersa). La escasez de modelos se traduce en una alta dimensionalidad, lo que, a su vez, lleva a un sobreajuste de los datos de entrenamiento6.