主页
topics
什么是文本挖掘?
文本挖掘,也称文本数据挖掘,这个过程旨在将非结构化文本转换为结构化格式,以发现有意义的模式和全新洞察。 通过应用高级分析方法,例如朴素贝叶斯、支持向量机 (SVM) 和其他深度学习算法,企业能够探索和发现非结构化数据中隐藏的关系。
文本是数据库中最常见的数据类型之一。 根据数据库的不同,这些数据可组织为:
由于世界上约 80% 的数据都属于非结构化格式(链接位于 ibm.com 外部),因此对于组织而言,文本挖掘是一种非常有价值的实践。 文本挖掘工具和自然语言处理 (NLP) 方法,比如信息抽取 (PDF, 131 KB)(链接位于 IBM 外部),可以帮助我们将非结构化文档转换为结构化格式,以支持分析和生成高质量的洞察。 这又能帮助组织改进决策,从而实现更出色的业务成果。
术语“文本挖掘”和“文本分析”在对话中很大程度上是同义词,但它们可能具有更微妙的含义。 文本挖掘和文本分析都通过使用机器学习、统计和语言学,发现非结构化数据中的文本模式和趋势。 通过文本挖掘和文本分析可将数据转换为更为结构化的格式,通过文本分析可找到更为定量的洞察。 然后可以利用数据可视化方法,将发现的结果传达给更广泛的受众。
文本挖掘过程包括多项活动,旨在从非结构化文本数据中推断出信息。 在应用各种文本挖掘方法之前,必须首先进行文本预处理,也就是对文本数据进行清理,将其转换为可用的格式。 这种实践是自然语言处理 (NLP) 的核心,它通常涉及使用语言识别、标记化、词性标记、分块和语法解析等方法,对数据进行适当的格式处理,以供进行分析。 文本预处理完成后,可应用文本挖掘算法,从数据中获取洞察。 一些常见的文本挖掘方法包括:
信息检索 (IR) 根据一组预定义的查询或短语,返回相关信息或文档。 IR 系统利用各种算法,跟踪用户行为并发现相关的数据。 信息检索常用于图书馆目录系统和流行的搜索引擎(例如 Google)。 一些常见的 IR 子任务包括:
自然语言处理从计算语言学发展而来,使用计算机科学、人工智能、语言学和数据科学等各个学科的方法,使计算机能够理解人类的书面语言和口头语言。 通过分析句子结构和语法,NLP 子任务可以让计算机"阅读"内容。 常见的子任务包括:
在搜索各种文档时,信息抽取 (IE) 会得到数据的相关部分。 它还侧重于从自由格式文本中抽取结构化信息,并将这些实体、属性和关系信息存储到数据库中。 常见的信息抽取子任务包括:
数据挖掘是发现模式并从大数据集中提取有用洞察的过程。 这种做法评估结构化和非结构化数据,以发现新信息,通常用于分析营销和销售领域的消费者行为。 文本挖掘本质上是数据挖掘的一个子领域,因为它专注于为非结构化数据赋予结构,并对其进行分析以产生全新洞察。 上面提到的方法都是不同形式的数据挖掘,但属于文本数据分析的范围。
文本分析软件影响着许多行业的工作方式,支持改善用户的产品体验,帮助企业更快做出更明智的业务决策。 一些用例包括:
客户服务:可通过多种方式征求客户反馈。 将客户服务与文本分析工具、反馈系统(例如聊天机器人、客户调研、净推荐值分数 (NPS)、在线评论、支持凭单和社交媒体个人档案)结合使用时,能够帮助企业快速改善客户体验。 文本挖掘和情绪分析可以提供一种机制,帮助企业优先考虑客户的关键痛点,从而能够实时响应紧急问题,提高客户满意度。 了解 Verizon 如何在客户服务中使用文本分析。
风险管理:文本挖掘在风险管理方面也有应用,它可以通过监控情绪变化以及从分析机构报告和白皮书中提取信息,提供有关行业趋势和金融市场的洞察。 这对银行机构特别有价值,因为在考虑各个领域的商业投资时,这些数据有助于增强信心。 了解 CIBC 和 EquBot 如何使用文本分析来降低风险。
维护:对于产品和机器的运行和功能,文本挖掘可提供丰富而完整的信息。 文本挖掘可通过揭示与问题以及预防性和被动式维护过程相关的模式,逐步实现决策动化。 文本分析可帮助维护专业人员更快地找出挑战和故障的根本原因。
医疗保健:文本挖掘方法对生物医学领域的研究人员越来越有价值,尤其在信息聚类领域。 医学研究的人工调查可能既费钱又耗时;文本挖掘提供了一种从医学文献中提取有价值信息的自动化方法。
垃圾邮件过滤:垃圾邮件经常成为黑客使用恶意软件感染计算机系统的切入点。 文本挖掘可从收件箱中过滤和排除这些电子邮件,从而改善整体用户体验,并最大程度地降低最终用户遭受网络攻击的风险。
IBM Watson Discovery 是一项屡获殊荣、基于 AI 的搜索技术,有助于消除数据孤岛,检索企业数据中隐藏的信息。
Watson Natural Language Understanding 是一种云原生产品,它使用深度学习从文本中提取元数据,例如关键字、情绪和语法。
NLP 是一种人工智能技术,会说特定于贵企业业务的语言。 使用 IBM Watson Discovery 构建的解决方案在三年内实现了 383% 的投资回报率。