Bag of n-grams。采用 n-grams 而不是单词可以纠正 Bag of Words 模型固有的一些缺点。不用创建一个以每个单词为特征的模型,而是可以使用 n-grams 作为向量特征。在这种情况下,n 是指被视为一个语义单元的单词数量,在 Bag of n-grams 中最常见的可能是 bigrams(即两个单词)。word-bigrams 很有用,因为它们可以解释复合词,例如 New York 或 Eiffel Tower。当然,并非所有的 word-bigram 都是信息性的,例如 the 或 of the。然而,这是解释复合词和词相关性等问题的一种方式。7

文本规范化技术。原始文本数据可能需进行规范化,以便改进 Bag of Words 模型的结构和功能。在创建 Bag of Words 或 n 连字符串袋模型时,冠词(例如,a、the 等)和介词(例如,from、of、on 等)一类的单词可能出现次数最高。这些单词未提供太多有关文档内容或类型的信息,因此在分类任务中基本无用。文本预处理技术(例如,非索引字删除(通常用于词干提取))有助于从文本数据集中删除不相关的单词,从而帮助改善 Bag of Words 模型的结构。幸运的是,很多 Python 库和软件包(例如 NLTK 或 sklearn)均有执行常见预处理技术的功能。

哈希。特征哈希本质上是将输入文本数据中的各个单词转换为固定大小的数值集。然后使用这个固定的数字范围来构建 Bag of Words 模型的矢量空间。将数字范围(即模型维度)限制为固定大小有助于防止稀疏性和高维度。哈希的一个主要缺点是所谓的冲突。当两个不相关的标记映射到同一个整数时,会发生哈希冲突。哈希的另一个缺点是它不考虑多义词。8