Bag of n-grams. Mengadopsi n-gram daripada kata-kata dapat memperbaiki sejumlah kelemahan yang melekat pada model bag of words. Alih-alih membuat model di mana setiap kata adalah fitur, seseorang dapat menggunakan n-gram sebagai fitur vektor. Dalam konteks ini, n mengacu kepada jumlah kata yang diperlakukan sebagai satu unit semantik, mungkin yang paling umum dalam bag of n-gram adalah bigram (yaitu, dua kata). Kata-bigram berguna karena dapat memperhitungkan kata majemuk, seperti New York atau Menara Eiffel. Tentu saja, tidak semua kata-bigram informatif, misalnya on the atau of the. Namun demikian, ini adalah salah satu cara untuk memperhitungkan masalah seperti kata majemuk dan korelasi kata.7

Teknik normalisasi teks. Data teks mentah mungkin perlu dinormalisasi untuk meningkatkan struktur dan fungsi model bag of words. Saat membuat Bag of words, atau bag of n-grams, model, kata-kata seperti artikel (misalnya, a, the, dll.) dan preposisi (misalnya, from, of, on, dll.) mungkin memiliki jumlah kemunculan tertinggi. Kata-kata ini tidak memberikan banyak informasi tentang isi atau jenis dokumen, sehingga tidak berguna dalam tugas klasifikasi. Teknik prapemrosesan teks seperti penghapusan kata berhenti (sering digunakan dalam stemming) dapat membantu menghapus kata-kata yang tidak relevan dari kumpulan data teks untuk membantu meningkatkan struktur model bag of words. Untungnya, banyak pustaka dan paket python, seperti NLTK atau sklearn yang dilengkapi dengan fungsi-fungsi untuk melakukan teknik-teknik prapemrosesan yang umum.

Hashing. Fitur hashing pada dasarnya mengubah kata-kata individu dari data teks input ke set numerik ukuran tetap. Rentang angka tetap ini kemudian digunakan untuk membangun ruang vektor untuk model bag of words. Membatasi kisaran angka, dan juga dimensi model, ke ukuran yang tetap, membantu mencegah kerapatan dan dimensi yang tinggi. Kerugian utama dari hashing adalah apa yang disebut tabrakan. Tabrakan hashing terjadi ketika dua token yang tidak terkait dipetakan ke bilangan bulat yang sama. Kerugian lain dengan hashing adalah tidak memperhitungkan kata-kata polisemus.8