Embora os classificadores probabilísticos que usam a abordagem do saco de palavras se mostrem amplamente eficazes, o saco de palavras tem várias desvantagens.
Correlação de palavras. O bag of words pressupõe que as palavras são independentes umas das outras em um documento ou corpus. É mais provável que eleição apareça em um contexto compartilhado com presidente do que com poeta. Ao medir a frequência de termos individuais, o bag of words não leva em conta correlações no uso entre palavras. Como o bag of words extrai cada palavra em um documento como uma funcionalidade do modelo de bag of words, com a frequência de termos sendo o peso dessa funcionalidade, duas ou mais palavras correlacionadas podem teoricamente induzir multicolinearidade em classificadores estatísticos usando esse modelo. No entanto, a suposição simplificadora do Naïve Bayes demonstrou produzir modelos robustos, apesar dessas limitações potenciais.5
Palavras compostas. A correlação de palavras se estende a representações de sacos de palavras de frases compostas, nas quais duas ou mais palavras operam como uma unidade semântica. Por exemplo, um modelo simples de saco de palavras pode representar Sr. Darcy como duas palavras únicas e não relacionadas, mesmo que funcionem em conjunto. Tal representação com um saco de palavras não reflete a natureza semântica e sintática dos conceitos com múltiplas palavras.
Palavras polissêmicas. Muitas palavras têm significados múltiplos e marcadamente diferentes. Por exemplo, taco pode significar um instrumento esportivo ou um alimento, e esses significados geralmente ocorrem em contextos significativamente diferentes. Da mesma forma, as palavras podem mudar de significado dependendo da colocação de sua ênfase na linguagem falada — por exemplo, CON-teúdo versus con-TEÚDO. Como o saco de palavras não leva em conta o contexto e o significado ao modelar palavras, ele agrupa todos esses significados distintos em uma única palavra, omitindo, assim, informações potencialmente significativas sobre o assunto de um texto (e, portanto, a classificação potencial).
Dispersão. Em um modelo de bag of words, cada palavra é uma funcionalidade, ou dimensão, do modelo, e cada assim chamado documento é um vetor. Como um documento não utiliza todas as palavras do vocabulário do modelo gerado, muitos dos valores das funcionalidades de um determinado vetor podem ser zero. Quando a maioria dos valores para vetores é zero, o modelo é disperso (se estiver representando vetores como uma matriz, isso é chamado de matriz dispersa). A dispersão do modelo resulta em alta dimensionalidade, o que, por sua vez, leva ao overfitting nos dados de treinamento.6