文本分类是一项机器学习任务,涉及为文本数据分配预定义标签,以便自动将其分组。随着企业和平台处理的非结构化文本数量不断增加,文本分类为大规模组织、解释和处理文本数据提供了一种强大的方法。
当今组织通过网站、应用程序和其他网络以客户评论、社交媒体帖子、法律文件、电子邮件等形式产生海量文本数据。这些数据中蕴含的洞察可帮助组织做出更优决策。文本分类是该过程的第一步。
标记为“紧急”的支持工单可被路由到优先处理工作流。标记为“垃圾邮件” 的电子邮件可被自动存档。标记为“积极”的客户评论可以为有关新产品的客户情绪报告提供信息。可对分类数据进行汇总和可视化处理,以揭示原本隐藏的趋势和模式。
文本分类是自然语言处理 (NLP) 中的一项基础任务,用于广泛的应用程序。文本分类器是一种机器学习模型,可解决不同的分类问题,如按主题、情感或意图对文本进行分类。以下是它的工作原理:
通常使用监督模型执行文本分类。第一步是收集大型文本样本数据集。这些可能是电子邮件、社交帖子、客户评论或文档。
人工标注员为每段文本添加标签。例如,“垃圾邮件”或“非垃圾邮件”,或“积极”与“消极”情绪。此标注训练数据集构成了机器学习模型的训练基础。通常来说,数据越多,输出就越准确。
预处理输入文本将文本转换为标准化的机器可读格式。分类器只能处理已翻译成数字表示的文本,通常使用词嵌入或更先进的编码器架构来捕获语言的语义含义。
超参数配置诸如神经网络层数、每层神经元数或使用激活函数等变量。这些超参数是在训练开始前选择的。
然后,数据被输入分类算法,该算法学习将数据中的模式与其关联的标签相联系。
文本分类算法包括:
训练后的模型会在单独验证或测试数据集上进行测试,通过准确率、精确率、召回率和 F1 分数等指标评估模型性能,并与既定基准进行比较。
表现良好的文本分类模型可集成到生产系统中,对传入文本进行实时分类。
先进模型可通过纳入新数据和重新训练来持续改进。BERT 等预训练语言模型已经深入理解语言,只需相对较少数据即可针对特定分类任务进行微调。微调可以减少训练时间并提高表现,尤其适用于复杂或细微的类别。
虽然监督方法更为常见,但可以使用无监督学习在没有标记数据的情况下训练模型。该模型不会被告知每个文本的正确类别,而是尝试自行发现数据中的结构或模式。这与有监督文本分类形成鲜明对比,后者每个训练样本都带有预定义分类标签。有监督方法更为常见。
例如通过称为聚类的技术,该模型可根据共享的功能将相似的文本片段分组为簇,然后将其解释为一个类别。
以下是一些涉及分类的常见 NLP 任务:
垃圾邮件检测系统分析收到的消息,并将其分类为“垃圾邮件”或“非垃圾邮件”。它们混合使用规则、统计模式和机器学习技术来检测网络钓鱼电子邮件、来自未知发件人的批量营销信息、可疑链接、恶意软件等。
主题分类的目标是为文本分配预定义主题类别。它通常用于内容管理、聚合、学术研究和客户反馈分析,整理大量非结构化文本。
主题分类告诉您消息的内容,而意图检测则告诉您用户尝试执行的操作。意图检测可用于客户服务或电子商务中的自动化对话和任务路由。如果缺乏此功能,系统将难以提供有意义的协助。
毒性及滥用内容检测是一种文本分类任务,专注于识别和标记网络中有害、攻击性或辱骂性内容。这可能包括仇恨言论、威胁、骚扰、淫秽或其他不当语言。大型社交媒体平台使用分类算法协助其支持人员管理庞大的全球用户群。
许多开源工具可用于构建文本分类器。TensorFlow 和 PyTorch 等框架提供了用于创建和训练模型的组件。例如,基于 TensorFlow 的分类器可以使用 KerasAPI 及 validation_data、optimizer 和 loss 等模块在标注数据上训练模型。PyTorch 作为以灵活性著称的基于 Python 的机器学习库,也广泛使用 DataLoader 和 nn.Module 等工具。
传统分类器使用固定标签,而大型语言模型 (LLM) 的兴起引入了生成式分类方法 。可以提示模型用自然语言生成标签和解释。例如,可以用句子提示LLM,要求它对情感进行分类、生成理由或建议类别,所有这些都无需额外的训练。
借助 GPU加速,训练时间大幅缩短,尤其对于大型数据集或复杂的深度学习架构而言更是如此。研究人员和开发人员经常在 GitHub 上分享其训练管道和模型。
使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。
借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。