Embora os classificadores probabilísticos que usam a abordagem do saco de palavras se mostrem amplamente eficazes, o saco de palavras tem várias desvantagens.

Correlação de palavras. O saco de palavras pressupõe que as palavras são independentes umas das outras em um documento ou corpus. É mais provável que eleição apareça em um contexto compartilhado com presidente do que com poeta. Ao medir a frequência de termos individuais, o saco de palavras não leva em conta correlações no uso entre palavras. Como o saco de palavras extrai cada palavra em um documento como um recurso do modelo de saco de palavras, com a frequência de termos sendo o peso desse recurso, duas ou mais palavras correlacionadas podem teoricamente induzir multicolinearidade em classificadores estatísticos usando esse modelo. No entanto, o parâmetro simplificador do Naïve Bayes demonstrou produzir modelos robustos, apesar de tais potenciais limitações.5

Palavras compostas. A correlação de palavras se estende a representações de sacos de palavras de frases compostas, nas quais duas ou mais palavras operam como uma unidade semântica. Por exemplo, um modelo simples de saco de palavras pode representar Sr. Darcy como duas palavras únicas e não relacionadas, mesmo que funcionem em conjunto. Tal representação com um saco de palavras não reflete a natureza semântica e sintática dos conceitos com múltiplas palavras.

Palavras polissêmicas. Muitas palavras têm significados múltiplos e marcadamente diferentes. Por exemplo, taco pode significar um instrumento esportivo ou um alimento, e esses significados geralmente ocorrem em contextos significativamente diferentes. Da mesma forma, as palavras podem mudar de significado dependendo da colocação de sua ênfase na linguagem falada — por exemplo, CON-teúdo versus con-TEÚDO. Como o saco de palavras não leva em conta o contexto e o significado ao modelar palavras, ele agrupa todos esses significados distintos em uma única palavra, omitindo, assim, informações potencialmente significativas sobre o assunto de um texto (e, portanto, a classificação potencial).

Dispersão. Em um modelo de saco de palavras, cada palavra é uma funcionalidade, ou dimensão, do modelo, e cada assim chamado documento é um vetor. Como um documento não utiliza todas as palavras do vocabulário do modelo gerado, muitos dos valores das funcionalidades de um determinado vetor podem ser zero. Quando a maioria dos valores para vetores é zero, o modelo é disperso (se estiver representando vetores como uma matriz, isso é chamado de matriz dispersa). A dispersão do modelo resulta em alta dimensionalidade, o que, por sua vez, leva ao sobreajuste dos dados de treinamento.6