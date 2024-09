尽管情感分析及其支持技术正在迅速发展,但它仍然是一个相对较新的领域。根据刘冰(2020 年)的《情感分析》,该术语自 2003 年以来才被广泛使用。2还有很多东西需要学习和完善,以下是一些最常见的缺点和挑战。

缺乏上下文

上下文是理解文本块中表达的情绪的关键组成部分,也是经常导致情感分析工具出错的一个组成部分。例如,在客户调查中,客户可能会就以下问题给出两个答案:“What did you like about our app?”第一个答案可能是“functionality”,第二个答案是“UX”。如果以另一种方式提问,例如,“What didn’t you like about our app?”,客户答案的意义就变了,但单词本身并没有改变。为了纠正这个问题,需要为算法提供客户所回答问题的原始上下文,这种耗时的策略称为预处理或后处理。

使用反讽和讽刺

无论训练水平或程度如何,软件都很难正确识别文本中的反讽和讽刺。这是因为,当某人表达反讽和讽刺时,通常是通过语气或面部表情来传达的,而他们所使用的词语没有明显的区别。例如,在分析短语“Awesome, another thousand-dollar parking ticket – just what I need”时,情感分析工具可能会因为使用“awesome”一词而错误地表达情绪的本质,并将其标记为正面评价。

否定

否定是指在句子中使用否定词来表达相反的意思。例如,这句话:“I wouldn’t say the shoes were cheap.”,它所表达的是,这双鞋可能很昂贵,或者至少价格适中,但情感分析工具可能会忽略这一微妙之处。

习惯用语

习惯用语(例如使用常见的英语短语,如“Let’s not beat around the bush”或“Break a leg”)经常会让情感分析工具及其所基于的 ML 算法混淆。当在社交媒体渠道或产品评论中使用上述人类语言短语时,情感分析工具会识别错误:例如,“break a leg”可能会被错误地识别为让人痛苦或者悲伤的事情,或者完全忽略这些词。