什么是文本挖掘?
了解有关文本挖掘的信息,这是一种分析大量文本材料的做法,旨在捕捉关键概念、趋势和隐藏的关系
绿色和黑色的背景
什么是文本挖掘?

文本挖掘,也称文本数据挖掘,这个过程旨在将非结构化文本转换为结构化格式,以发现有意义的模式和全新洞察。 通过应用高级分析方法,例如朴素贝叶斯、支持向量机 (SVM) 和其他深度学习算法,企业能够探索和发现非结构化数据中隐藏的关系。

文本是数据库中最常见的数据类型之一。 根据数据库的不同,这些数据可组织为:

  • 结构化数据:这些数据被标准化为具有大量行和列的表格格式,因此更易于存储和处理,以供分析和机器学习算法使用。 结构化数据的例子包括姓名、地址和电话号码等。

  • 非结构化数据: 这种数据没有预定义的数据格式。 例子包括来自社交媒体或产品评论等来源的文本,以及视频和音频文件等富媒体格式。

  • 半结构化数据:顾名思义,这些数据由结构化和非结构化数据格式混合而成。 虽然这种数据经过了一定的组织,但其结构不足以满足关系数据库的要求。 半结构化数据的例子包括 XML、JSON 和 HTML 文件。

由于世界上约 80% 的数据都属于非结构化格式(链接位于 ibm.com 外部),因此对于组织而言,文本挖掘是一种非常有价值的实践。 文本挖掘工具和自然语言处理 (NLP) 方法,比如信息抽取  (PDF, 131 KB)(链接位于 IBM 外部),可以帮助我们将非结构化文档转换为结构化格式,以支持分析和生成高质量的洞察。 这又能帮助组织改进决策,从而实现更出色的业务成果。

文本挖掘与文本分析

术语“文本挖掘”和“文本分析”在对话中很大程度上是同义词,但它们可能具有更微妙的含义。  文本挖掘和文本分析都通过使用机器学习、统计和语言学,发现非结构化数据中的文本模式和趋势。 通过文本挖掘和文本分析可将数据转换为更为结构化的格式,通过文本分析可找到更为定量的洞察。 然后可以利用数据可视化方法,将发现的结果传达给更广泛的受众。

文本挖掘方法

文本挖掘过程包括多项活动,旨在从非结构化文本数据中推断出信息。 在应用各种文本挖掘方法之前,必须首先进行文本预处理,也就是对文本数据进行清理,将其转换为可用的格式。 这种实践是自然语言处理 (NLP) 的核心,它通常涉及使用语言识别、标记化、词性标记、分块和语法解析等方法,对数据进行适当的格式处理,以供进行分析。 文本预处理完成后,可应用文本挖掘算法,从数据中获取洞察。 一些常见的文本挖掘方法包括:

信息检索

信息检索 (IR) 根据一组预定义的查询或短语,返回相关信息或文档。 IR 系统利用各种算法,跟踪用户行为并发现相关的数据。 信息检索常用于图书馆目录系统和流行的搜索引擎(例如 Google)。 一些常见的 IR 子任务包括:

  • 标记化:这是将较长的文本分解为称为"标记"的句子和单词的过程。 然后,在模型(如词袋)中使用标记,以执行文本聚类和文档匹配等任务。 

  • 词干:这是指从单词中分离前缀和后缀以获得词根形式和含义的过程。 这种方法通过减少索引文件的大小,改进信息检索的性能。

自然语言处理 (NLP)

自然语言处理从计算语言学发展而来,使用计算机科学、人工智能、语言学和数据科学等各个学科的方法,使计算机能够理解人类的书面语言和口头语言。 通过分析句子结构和语法,NLP 子任务可以让计算机"阅读"内容。 常见的子任务包括:

  • 摘要:这种方法提供长篇文本的概要,以创建简明连贯的文档要点摘要。

  • 词性 (PoS) 标记:这种方法根据词性为文档中的每个标记分配一个标签 — 表示该词为名词、动词、形容词等。 这个步骤可用于对非结构化文本进行语义分析。

  • 文本分类:这个任务也称为文本归类,负责分析文本文档并根据预定义的主题或类别对它们进行分类。 这个子任务在对同义词和缩略词进行分类时特别有用。

  • 情绪分析:这个任务从内部或外部数据源检测正面或负面的情绪,帮助跟踪客户态度随时间的变化。 它通常用于提供有关对品牌、产品和服务的看法的信息。 这些洞察有助于推动企业与客户建立联系以及改进流程和用户体验。

信息抽取

在搜索各种文档时,信息抽取 (IE) 会得到数据的相关部分。 它还侧重于从自由格式文本中抽取结构化信息,并将这些实体、属性和关系信息存储到数据库中。 常见的信息抽取子任务包括:

  • 特征选择(或称属性选择):这是选择重要特征(维度)的过程,旨在对预测性分析模型的输出做出最大贡献。

  • 特征抽取:这是选择特征子集的过程,旨在提高分类任务的准确性。 这对于降维尤为重要。

  • 指定实体识别 (NER) :也称为实体识别或实体抽取,旨在查找和分类文本中的特定实体,例如名称或地点。 例如,NER 会将"California"识别为地点,将"Mary"标识为女性的名字。

数据挖掘

数据挖掘是发现模式并从大数据集中提取有用洞察的过程。 这种做法评估结构化和非结构化数据,以发现新信息,通常用于分析营销和销售领域的消费者行为。 文本挖掘本质上是数据挖掘的一个子领域,因为它专注于为非结构化数据赋予结构,并对其进行分析以产生全新洞察。 上面提到的方法都是不同形式的数据挖掘,但属于文本数据分析的范围。

文本挖掘应用

文本分析软件影响着许多行业的工作方式,支持改善用户的产品体验,帮助企业更快做出更明智的业务决策。 一些用例包括:

客户服务:可通过多种方式征求客户反馈。 将客户服务与文本分析工具、反馈系统(例如聊天机器人、客户调研、净推荐值分数 (NPS)、在线评论、支持凭单和社交媒体个人档案)结合使用时,能够帮助企业快速改善客户体验。 文本挖掘和情绪分析可以提供一种机制,帮助企业优先考虑客户的关键痛点,从而能够实时响应紧急问题,提高客户满意度。 了解 Verizon 如何在客户服务中使用文本分析。

风险管理:文本挖掘在风险管理方面也有应用,它可以通过监控情绪变化以及从分析机构报告和白皮书中提取信息,提供有关行业趋势和金融市场的洞察。 这对银行机构特别有价值,因为在考虑各个领域的商业投资时,这些数据有助于增强信心。 了解 CIBC 和 EquBot 如何使用文本分析来降低风险。

维护:对于产品和机器的运行和功能,文本挖掘可提供丰富而完整的信息。 文本挖掘可通过揭示与问题以及预防性和被动式维护过程相关的模式,逐步实现决策动化。 文本分析可帮助维护专业人员更快地找出挑战和故障的根本原因。

医疗保健:文本挖掘方法对生物医学领域的研究人员越来越有价值,尤其在信息聚类领域。 医学研究的人工调查可能既费钱又耗时;文本挖掘提供了一种从医学文献中提取有价值信息的自动化方法。

垃圾邮件过滤:垃圾邮件经常成为黑客使用恶意软件感染计算机系统的切入点。 文本挖掘可从收件箱中过滤和排除这些电子邮件,从而改善整体用户体验,并最大程度地降低最终用户遭受网络攻击的风险。

相关解决方案
IBM Watson Discovery

IBM Watson Discovery 是一项屡获殊荣、基于 AI 的搜索技术,有助于消除数据孤岛,检索企业数据中隐藏的信息。

探索 Watson Discovery
自然语言理解

Watson Natural Language Understanding 是一种云原生产品,它使用深度学习从文本中提取元数据,例如关键字、情绪和语法。

探索 Watson Natural Language Understanding
自然语言处理

NLP 是一种人工智能技术,会说特定于贵企业业务的语言。 使用 IBM Watson Discovery 构建的解决方案在三年内实现了 383% 的投资回报率。

探索自然语言处理
资源 IBM Watson 帮助您的企业开始使用文本分析

了解 IBM Watson 如何帮助您进行文本分析。

历史领域的文本挖掘:构建大型数据集的第一步

本报告介绍了在历史领域创建新语料库的初步尝试。

采取下一步行动

使用 IBM Watson Discovery 发现趋势,帮助贵组织根据数据做出更明智的决策。 文本分析实时挖掘数据,以揭示各个内容部分中隐藏的模式、趋势和关系。 使用文本分析深入了解客户和用户行为,分析社交媒体和电子商务的趋势,找出问题的根源,等等。 隐藏的洞察中的业务价值有待开发。

立即试用 IBM Watson Discovery