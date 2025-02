Sebbene i classificatori probabilistici che utilizzano un approccio bag of words si dimostrino ampiamente efficaci, il modello bag of words presenta diversi svantaggi.

Correlazione di parole. La tecnica bag of words presuppone che le parole siano indipendenti l'una dall'altra in un documento o corpus. È più probabile che la parola elezione appaia in un contesto insieme a presidente piuttosto che con poeta. Nella misurazione della frequenza dei singoli termini, il sistema bag of words non tiene conto delle correlazioni nell'uso tra le parole. Poiché bag of words estrae ogni parola in un documento come caratteristica del modello bag of words, dove la frequenza dei termini è il peso di quella caratteristica, due o più parole correlate possono teoricamente indurre la multicollinearità nei classificatori statistici che utilizzano quel modello. Ciononostante, l'ipotesi semplificatrice di Naïve Bayes ha dimostrato di produrre modelli efficaci nonostante tali potenziali carenze.5

Parole composte. La correlazione delle parole si estende alle rappresentazioni di frasi composte, in cui due o più parole operano come un'unica unità semantica. Ad esempio, un semplice modello bag of words può rappresentare Mr. Darcy come due parole uniche e non correlate anche se funzionano in tandem. Una tale rappresentazione di un insieme di parole non riesce a riflettere la natura semantica e sintattica dei concetti multi-parola.

Parole polisemiche. Molte parole hanno significati multipli e marcatamente diversi. Ad esempio, batteria può indicare uno strumento musicale o un dispositivo per conservare e dispensare elettricità e questi significati di solito si verificano in contesti significativamente diversi. Allo stesso modo, le parole possono cambiare significato a seconda della posizione dell'accento nella lingua parlata, ad esempio AN-cora e an-CORA. Poiché la bag of words non considera il contesto e il significato quando modella le parole, raggruppa tutti questi significati distinti in un'unica parola, eludendo così informazioni potenzialmente significative sull'oggetto di un testo (e quindi una potenziale classificazione).

Scarsità. In un modello bag of words, ogni parola è una funzione, o dimensione, del modello, e ogni cosiddetto documento è un vettore. Poiché un documento non utilizza ogni parola nel vocabolario del modello generato, molti valori delle funzioni per un determinato vettore potrebbero essere pari a zero. Quando la maggior parte dei valori per i vettori è zero, il modello è sparso (se si rappresentano vettori come una matrice, questa è chiamata matrice sparsa). La scarsità del modello si traduce in un'elevata dimensionalità, che a sua volta porta all'overfitting sui dati di addestramento.6