什么是数据挖掘？| IBM

什么是数据挖掘？

数据挖掘是指利用机器学习和统计分析从大型数据集中发现模式和其他有价值的信息。

随着机器学习 (ML) 的演进、数据仓库的发展和大数据的增长，数据挖掘 - 也称为数据库知识发现 (KDD) - 在近几十年里的应用不断加速。然而，尽管这项技术在处理海量数据方面不断进步，企业领导者仍然可能面临可扩展性和自动化方面的挑战。

支撑数据分析的数据挖掘技术主要有两个作用：一是描述目标数据集，二是利用机器学习算法预测结果。

这些方法用于组织和过滤数据，帮助我们发现其中最有用的信息，例如欺诈、用户行为、瓶颈，甚至安全漏洞。使用 ML 算法和人工智能 (AI) 可以实现分析的自动化，从而大大加快这一过程。

借助数据分析和可视化工具，例如 Apache Spark，数据挖掘软件变得更加简便高效，提取相关洞察的速度也比以往更快。AI 的进步不断加速数据挖掘在各行各业的应用。

辅以专家洞察分析的最新科技新闻

通过 Think 时事通讯，了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明。

优势与挑战

优势

发现隐藏的洞察和趋势：数据挖掘就是在原始数据中寻找规律，在混乱中发现秩序，好比在茂密的森林中看清整体的树木分布。数据挖掘可以使企业各职能部门和各行业（包括广告、财务、政府、医疗保健、人力资源 (HR)、制造、市场营销、研究、销售和供应链管理 (SCM)）的规划更有依据。

节省预算：通过分析多个来源的性能数据，可以识别业务流程中的瓶颈，从而加快解决速度并提高效率。

解决多重挑战：数据挖掘是一种多功能工具。来自几乎任何来源和组织任何方面的数据都可以进行分析，以发现模式和更好的经营方式。组织中几乎每个收集和分析数据的部门都可以从数据挖掘中受益。

挑战

复杂性和风险：要想得出有用的洞察，必须具备有效的数据，同时还需要有编程经验的专家来进行分析。了解数据挖掘语言（包括 Python、R 和 SQL）会很有帮助。不够谨慎的数据挖掘方法可能会产生误导性或危险的结果。数据挖掘中使用的一些消费者数据可能是个人身份信息 (PII)，应谨慎处理以避免法律或公共关系问题。

成本：为了取得最佳结果，通常需要广泛而深入地收集数据集。如果组织要收集新信息，则设置数据管道可能会产生新的费用。如果需要从外部来源购买数据，这也会产生成本。

不确定性：比如，一项大型数据挖掘工作可能运行良好，但产生的结果并不明确，也不会带来重大收益。或者，如果选择的数据不正确，或是预处理不当，那么产生的洞察可能不正确。其他风险包括建模错误或来自快速变化的市场的数据已过时。

另一个潜在问题是，结果可能看似有效，但实际上是随机的，不可信。必须牢记：“相关性不等于因果关系”。最近，博主 Tyler Vigen 给出了一个“数据挖掘”的经典案例，生动地说明了人们有时会看到表面相关性并夸大其重要性：“从 2002 年到 2022 年，亚马逊公司股票的价格与名为 ‘Stevie’ 的儿童数量密切相关”1。显然，Stevies 这个名字并不会影响股价，反之亦然。数据挖掘应用程序会找到这些模式，但人工判断仍然很重要。

Mixture of Experts | 12 月 12 日，第 85 集

解码 AI：每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见，带来最新的 AI 资讯与深度解析。

观看 Mixture of Experts 所有剧集

数据挖掘、文本挖掘与流程挖掘

数据挖掘是从大数据集中识别模式和提取有用洞察的整体过程。它可用于评估结构化和非结构化数据，以识别新信息。营销和销售团队经常使用它来分析消费者行为。例如，数据挖掘方法可用于观察和预测行为，包括客户流失、欺诈检测、市场篮子分析等。

文本挖掘又称文本数据挖掘，是数据挖掘的一个子领域，旨在将非结构化文本转换为结构化格式，以识别有意义的模式并产生新的洞察。非结构化数据可能包含来自社交媒体帖子、产品评论、文章、电子邮件等来源的文本，或者视频和音频文件等富媒体内容。世界上许多公开的数据都是非结构化的，因此文本挖掘是一种有价值的实践。

流程挖掘位于业务流程管理 (BPM) 和数据挖掘的交叉点上。流程挖掘提供了一种将算法应用于事件日志数据的方法，用以确定有关流程如何展开的趋势、模式和详细信息。流程挖掘应用数据科学来发现瓶颈，然后验证和改进工作流程。

BPM 通常通过研讨会和访谈等非正式的方式收集数据，然后使用软件将该工作流程记录为流程图。由于为这些流程图提供信息的数据往往是定性数据，因此流程挖掘为解决流程问题带来了一种更倾向于定量的方法，通过事件数据来详细说明实际流程。

信息系统（例如企业资源规划 (ERP) 或客户关系管理 (CRM) 工具）可根据日志数据提供流程的审计跟踪。流程挖掘利用 IT 系统中的这些数据来建立流程模型或流程图。在此基础上，组织可以对端到端流程进行审查，并了解其细节和任何变化。

数据挖掘的工作原理

数据挖掘过程涉及从数据收集到可视化等多个步骤，以从大型数据集中提取有价值的信息。数据挖掘技术可用于生成对目标数据集的描述和预测。

数据科学家或商业智能 (BI) 专家通过对模式、关联和相关性的观察来描述数据。他们还通过分类和回归方法对数据进行分类和聚类，并确定用例（如垃圾邮件检测）的异常值。

数据挖掘通常包括五个主要步骤：设立目标、数据选择、数据准备、数据模型构建以及模式挖掘和评估结果。

1. 设定业务目标：这可能是数据挖掘过程中最难的部分，许多组织在这一重要步骤上花费的时间太少。甚至在识别、提取或清理数据之前，数据科学家和业务利益相关者就可以共同来准确定义业务问题，帮助大家聚焦于关键的数据问题和参数上。分析师可能还需要做更多的研究，以充分了解业务背景。

2. 数据选择：问题的范围明确后，数据科学家就更容易确定哪组数据有助于回答与业务相关的问题。他们和 IT 团队还可以确定应当在哪里存储和保护数据。

3. 数据准备：收集和清理相关数据以消除任何噪声，例如重复值、缺失值和异常值。根据数据集的情况，可能需要采取额外的数据管理步骤来减少维数，因为过多的特征会降低后续计算的速度。

数据科学家希望保留最重要的预测因子，以帮助确保模型具有最佳准确性。负责任的数据科学不仅仅关注模型的代码和性能，更要关注数据本身的质量和可靠性。

4. 模型构建和模式挖掘：根据分析的类型，数据科学家可能会调查任何趋势或有趣的数据关系，例如顺序模式、关联规则或相关性。虽然高频模式具有更广泛的应用，但数据中的异常情况有时更值得关注，因为它们可能预示着潜在的欺诈行为。预测模型可以帮助评估未来趋势或结果。在最复杂的系统中，预测模型可以作出实时预测，以快速响应不断变化的市场。

深度学习算法也可用于根据可用数据对数据集进行分类或聚类。如果输入数据有标签（例如在监督学习中），则可以使用分类模型对数据进行分类，或者应用回归来预测某个数据属于特定类别的可能性。如果数据集没有标签（即无监督学习），则比较训练集中的各个数据点以发现潜在的相似性，并根据这些特征对其进行聚类。

5. 结果评估和知识实施：汇总数据后，通常可以利用数据可视化技术为呈现做好准备，以便对结果进行评估和解读。理想情况下，最终结果是有效的、新颖的、有用的且可以理解的。当满足这些标准时，决策者可以利用这些知识来实施新的战略，实现其预期目标。

数据挖掘技术

以下是一些最常见的数据挖掘类型：

关联规则：关联规则是一种基于“如果...那么”形式的规则分析方法，用于发现数据集中变量之间的关系。关系的强度通过支持度和置信度来衡量。置信度基于“如果”或“那么”语句的正确率。支持度衡量相关元素在数据中出现的频率。

这些方法经常用于市场篮子分析，使公司能够更好地了解不同产品之间的关系，例如经常一起购买的产品。了解客户习惯可以让企业开发出更好的交叉销售策略和推荐引擎。

分类：对象的类别是根据组织需要而预定义的，其定义了对象共有的特征。分类使得基础数据能够被分组，以便于分析。

例如，消费品公司可能会检查其优惠券策略，查看过去的优惠券兑换情况以及销售数据、库存统计和手头的消费者数据，以找到未来的最佳活动策略。

聚类：聚类与分类密切相关，聚类报告相似度，但随后也会根据差异提供更多分组。肥皂制造商的预设分类可能包括洗涤剂、漂白剂、洗衣软化剂、地板清洁剂和地板蜡，而聚类可能会创建包括洗衣产品和地板护理的分组。

决策树：这种数据挖掘技术使用分类或回归分析，根据一组决策对潜在结果进行分类或预测。顾名思义，决策树使用树状可视化来表示这些决策的潜在结果。

K 近邻 (KNN)：又称为 KNN 算法，K 近邻是一种非参数算法，它根据数据点与其他可用数据的接近度和关联度对数据点进行分类。这种算法假定在各数据点附近会找到相似的数据点。因此，它通常通过欧几里得距离来计算数据点之间的距离，然后根据最常见的类别或平均值来制定类别。

神经网络：主要用于深度学习算法，神经网络通过节点层模仿人脑的互连来处理训练数据。每个节点由输入、权重、偏置（或阈值）和输出组成。

如果输出值超过设定的阈值，则会“触发”或激活节点，并将数据传递到网络中的下一层。神经网络通过监督学习来学习此映射函数，并通过梯度下降过程，基于损失函数执行调整。当成本函数为零或接近零时，组织可以确信模型的准确度足以获得正确答案。

预测分析：将数据挖掘与统计建模技术和机器学习相结合，利用预测分析来分析历史数据，创建图形或数学模型，从而发现模式、预测未来事件和结果以及识别风险和机会。
回归分析
：该技术根据预定变量预测结果，从而发现数据中的关系。这可以包括决策树以及多变量和线性回归。结果可以根据关系的密切程度来排序，以帮助确定哪些数据最重要或最不重要。例如，软饮料制造商在预报的炎热夏季天气到来之前估计所需的饮料库存。

数据挖掘用例

数据挖掘技术被商业智能和数据分析团队广泛采用，帮助他们为其组织和行业提取有用知识。数据挖掘的一些用例包括：

异常检测

虽然数据中经常出现的模式可以为团队提供宝贵的洞察，但观察数据异常也有好处，可以帮助组织进行欺诈检测、应对网络入侵和修复产品缺陷。这是银行和其他金融机构中一个众所周知的用例，但基于 SaaS 的公司也开始采用这些做法来消除数据集中的虚假用户帐户。借助异常检测，我们还可以发现以往被忽视的新颖策略或目标市场。

评估风险

组织可以通过数据挖掘更准确地定位风险和确定风险规模。在网络安全、金融和法律领域，组织可以发现模式和异常，查明疏忽或威胁。

聚焦目标市场

数据挖掘可以搜索多个数据库以发现密切关系，从而准确地将行为和客户背景与特定商品的销售联系起来。这让组织可以开展更有针对性的营销活动，以帮助提升销售额。

改善客户服务

组织可以通过数据挖掘来审查客户的全部操作，包括现场、线上、通过移动应用程序或通过电话进行的操作，从而更快地发现和解决客户问题。客户服务代理可以获得有关其所服务客户的更完整、更深入的信息。

增加设备运行时间

组织可以挖掘工业设备的运行数据，以帮助预测未来的性能和停机时间，并支持规划保护性维护。

运营优化

流程挖掘利用数据挖掘技术降低运营职能成本，使组织运行更高效。这种做法可以帮助找出成本高昂的瓶颈问题，并让企业领导者做出更好的决策。

行业用例

客户服务

数据挖掘可以为客户服务创建更丰富的数据源，帮助确定哪些因素最能取悦客户，以及哪些因素会导致摩擦或不满。

教育

教育机构已开始收集数据，以了解其学生群体以及哪些环境有利于成功。由于课程通常使用在线平台，因此他们可以利用数据挖掘使用各种维度和指标来观察和评估绩效，例如击键次数、学生概况、参加的上课和花费的时间。

财务

在研究风险时，金融机构和银行通常希望广撒网，以捕获任何可能对现金流和回收产生负面影响的因素。数据挖掘工具可用于找出各种风险因素，并综合评估其影响。

医疗保健

数据挖掘是一种有用的工具，可帮助诊断病情，包括判读扫描影像，并协助提出有益的治疗建议。

人力资源

组织可以通过分析多种因素并发现模式，获得对员工绩效和满意度的新洞察。数据可以包括入职日期、任期、晋升、薪资、培训、同行表现、工作交付、福利使用和差旅。

制造业物联网

从原材料到最终交付，制造过程的所有方面都可以分析，从而提升性能。材料成本是多少？有哪些选择？生产效率如何？瓶颈在哪里？质量问题有哪些？这些问题出现在哪里（内部和客户方面）？

零售业

通过挖掘客户数据和行为，零售商可以确定最有成效的营销活动、定价、促销、特殊产品优惠以及成功的交叉销售和追加销售。

销售和市场营销

公司收集大量关于客户和潜在客户的数据。公司可以观察消费者人口统计数据、媒体反响和客户行为，利用数据来优化营销活动，更精准地划分目标客户群体，改善客户忠诚度计划，所有这些都有助于提高营销工作的投资回报率 (ROI)。预测分析还可以帮助团队与利益相关者一起设定期望，为营销投资的增加或减少提供收益估算。

社交媒体

通过分析用户数据，可以挖掘出新的编辑选题，或者找到更精准的广告投放目标，从而增加广告收入。

供应链管理 (SCM)

通过数据挖掘，产品经理可以更好地预测需求、加快生产、调整供应商或调整营销策略。供应链经理可以更好地规划运输和仓储。

下载我们的电子书，获取可操作的步骤，让您组织的数据实现 AI 就绪。

什么是数据挖掘？