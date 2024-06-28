更新日期：2024 年 6 月 28 日
撰稿人：Jim Holdsworth
数据挖掘是指利用机器学习和统计分析从大型数据集中发现模式和其他有价值的信息。
随着机器学习 (ML) 的演进、数据仓库的发展和大数据的增长，数据挖掘 - 也称为数据库知识发现 (KDD) - 在近几十年里的应用不断加速。然而，尽管这项技术在处理海量数据方面不断进步，企业领导者仍然可能面临可扩展性和自动化方面的挑战。
支撑数据分析的数据挖掘技术主要有两个作用：一是描述目标数据集，二是利用机器学习算法预测结果。
这些方法用于组织和过滤数据，帮助我们发现其中最有用的信息，例如欺诈、用户行为、瓶颈，甚至安全漏洞。使用 ML 算法和人工智能 (AI) 可以实现分析的自动化，从而大大加快这一过程。
借助数据分析和可视化工具，例如 Apache Spark，数据挖掘软件变得更加简便高效，提取相关洞察的速度也比以往更快。AI 的进步不断加速数据挖掘在各行各业的应用。
数据挖掘是从大数据集中识别模式和提取有用洞察的整体过程。它可用于评估结构化和非结构化数据，以识别新信息。营销和销售团队经常使用它来分析消费者行为。例如，数据挖掘方法可用于观察和预测行为，包括客户流失、欺诈检测、市场篮子分析等。
文本挖掘又称文本数据挖掘，是数据挖掘的一个子领域，旨在将非结构化文本转换为结构化格式，以识别有意义的模式并产生新的洞察。非结构化数据可能包含来自社交媒体帖子、产品评论、文章、电子邮件等来源的文本，或者视频和音频文件等富媒体内容。世界上许多公开的数据都是非结构化的，因此文本挖掘是一种有价值的实践。
流程挖掘位于业务流程管理 (BPM) 和数据挖掘的交叉点上。流程挖掘提供了一种将算法应用于事件日志数据的方法，用以确定有关流程如何展开的趋势、模式和详细信息。流程挖掘应用数据科学来发现瓶颈，然后验证和改进工作流程。
BPM 通常通过研讨会和访谈等非正式的方式收集数据，然后使用软件将该工作流程记录为流程图。由于为这些流程图提供信息的数据往往是定性数据，因此流程挖掘为解决流程问题带来了一种更倾向于定量的方法，通过事件数据来详细说明实际流程。
信息系统（例如企业资源规划 (ERP) 或客户关系管理 (CRM) 工具）可根据日志数据提供流程的审计跟踪。流程挖掘利用 IT 系统中的这些数据来建立流程模型或流程图。在此基础上，组织可以对端到端流程进行审查，并了解其细节和任何变化。
数据挖掘过程涉及从数据收集到可视化等多个步骤，以从大型数据集中提取有价值的信息。数据挖掘技术可用于生成对目标数据集的描述和预测。
数据科学家或商业智能 (BI) 专家通过对模式、关联和相关性的观察来描述数据。他们还通过分类和回归方法对数据进行分类和聚类，并确定用例（如垃圾邮件检测）的异常值。
数据挖掘通常包括五个主要步骤：设立目标、数据选择、数据准备、数据模型构建以及模式挖掘和评估结果。
1. 设定业务目标：这可能是数据挖掘过程中最难的部分，许多组织在这一重要步骤上花费的时间太少。甚至在识别、提取或清理数据之前，数据科学家和业务利益相关者就可以共同来准确定义业务问题，帮助大家聚焦于关键的数据问题和参数上。分析师可能还需要做更多的研究，以充分了解业务背景。
2. 数据选择：问题的范围明确后，数据科学家就更容易确定哪组数据有助于回答与业务相关的问题。他们和 IT 团队还可以确定应当在哪里存储和保护数据。
3. 数据准备：收集和清理相关数据以消除任何噪声，例如重复值、缺失值和异常值。根据数据集的情况，可能需要采取额外的数据管理步骤来减少维数，因为过多的特征会降低后续计算的速度。
数据科学家希望保留最重要的预测因子，以帮助确保模型具有最佳准确性。负责任的数据科学不仅仅关注模型的代码和性能，更要关注数据本身的质量和可靠性。
4. 模型构建和模式挖掘：根据分析的类型，数据科学家可能会调查任何趋势或有趣的数据关系，例如顺序模式、关联规则或相关性。虽然高频模式具有更广泛的应用，但数据中的异常情况有时更值得关注，因为它们可能预示着潜在的欺诈行为。预测模型可以帮助评估未来趋势或结果。在最复杂的系统中，预测模型可以作出实时预测，以快速响应不断变化的市场。
深度学习算法也可用于根据可用数据对数据集进行分类或聚类。如果输入数据有标签（例如在监督学习中），则可以使用分类模型对数据进行分类，或者应用回归来预测某个数据属于特定类别的可能性。如果数据集没有标签（即无监督学习），则比较训练集中的各个数据点以发现潜在的相似性，并根据这些特征对其进行聚类。
5. 结果评估和知识实施：汇总数据后，通常可以利用数据可视化技术为呈现做好准备，以便对结果进行评估和解读。理想情况下，最终结果是有效的、新颖的、有用的且可以理解的。当满足这些标准时，决策者可以利用这些知识来实施新的战略，实现其预期目标。
数据挖掘是指利用各种算法和技术把大量的数据转化为有用的信息。 以下是一些最常见的方法：
关联规则：关联规则是一种基于规则的方法，用于发现给定数据集中各变量之间的关系。 这些方法常用于市场购物篮分析，使企业能够更好地了解不同产品之间的关系。 了解顾客的消费习惯有助于企业制定更好的交叉销售策略，开发更出色的推荐引擎。
神经网络：神经网络主要用于深度学习算法，通过节点层模拟人脑的互联性来处理训练数据。 每个节点由输入、权重、偏差（或阈值）和输出组成。 如果该输出值超过给定的阈值，它会“触发”或激活节点，并将数据传递到网络中的下一层。 神经网络通过监督式学习来学习这个映射函数，并通过梯度下降过程根据损失函数进行调整。 当损失函数等于或接近于零时，我们可以相信模型的准确度，从而得出正确答案。
决策树：这种数据挖掘技术使用分类或回归方法，基于一系列决策对潜在的结果进行分类或预测。 顾名思义，它使用树状可视化效果来表示这些决策的潜在结果。
K 近邻算法 (KNN)：K 近邻算法，又称 KNN 算法，是一种非参数算法，它根据数据点的邻近程度以及与其他可用数据的关联程度，对数据点进行分类。 这个算法假设相似的数据点可以在彼此的附近找到。 因此，它通常通过欧氏距离计算数据点之间的距离，然后根据出现频率最多的类别或平均值来分配类别。
数据挖掘技术在商业智能和数据分析团队中被广泛采用，帮助他们为组织和行业提取知识。 以下是一些数据挖掘用例：
公司收集了大量关于客户和潜在客户的数据。 通过观察消费者人口统计信息和在线用户行为，企业可以使用数据来优化他们的市场营销活动，改善市场细分、交叉销售情况和客户忠诚度计划，进而提高市场营销的投资回报率。 预测性分析还可以帮助团队与利益相关方一起设定预期，根据营销投资的增减情况预估收益。
教育机构已经开始收集数据，旨在了解他们的学生群体，以及哪些环境有利于取得成功。 随着课程不断转移至在线平台，他们可以使用各种维度和指标来观察和评估业绩，如击键、学生档案、课程、大学以及花费的时间等。
流程挖掘利用数据挖掘技术降低整个运营部门的成本，使得组织可以更高效地运转。 这种实践有助于识别代价不菲的瓶颈，帮助企业领导者完善决策。
虽然数据中频繁出现的模式可以为团队提供有价值的洞察，但观察数据异常也很有用，可帮助公司检测欺诈行为。 在银行和其他金融机构中，这是一个众所周知的用例，基于 SaaS 的企业也已开始采用这些做法，着力消除数据集中的虚假用户帐户。
客户服务
数据挖掘可以为客户服务创建更丰富的数据源，帮助确定哪些因素最能取悦客户，以及哪些因素会导致摩擦或不满。
教育
教育机构已开始收集数据，以了解其学生群体以及哪些环境有利于成功。由于课程通常使用在线平台，因此他们可以利用数据挖掘使用各种维度和指标来观察和评估绩效，例如击键次数、学生概况、参加的上课和花费的时间。
财务
在研究风险时，金融机构和银行通常希望广撒网，以捕获任何可能对现金流和回收产生负面影响的因素。数据挖掘工具可用于找出各种风险因素，并综合评估其影响。
医疗保健
数据挖掘是一种有用的工具，可帮助诊断病情，包括判读扫描影像，并协助提出有益的治疗建议。
人力资源
组织可以通过分析多种因素并发现模式，获得对员工绩效和满意度的新洞察。数据可以包括入职日期、任期、晋升、薪资、培训、同行表现、工作交付、福利使用和差旅。
制造
从原材料到最终交付，制造过程的所有方面都可以分析，从而提升性能。材料成本是多少？有哪些选择？生产效率如何？瓶颈在哪里？质量问题有哪些？这些问题出现在哪里（内部和客户方面）？
零售
通过挖掘客户数据和行为，零售商可以确定最有成效的营销活动、定价、促销、特殊产品优惠以及成功的交叉销售和追加销售。
销售和营销
公司收集大量有关其现有客户和潜在客户的数据。公司可以观察消费者人口统计数据、媒体反响和客户行为，利用数据来优化营销活动，更精准地划分目标客户群体，改善客户忠诚度计划，所有这些都有助于提高营销工作的投资回报率 (ROI)。预测分析还可以帮助团队与利益相关者一起设定期望，为营销投资的增加或减少提供收益估算。
社交媒体
通过分析用户数据，可以挖掘出新的编辑选题，或者找到更精准的广告投放目标，从而增加广告收入。
供应链管理 (SCM)
通过数据挖掘，产品经理可以更好地预测需求、加快生产、调整供应商或调整营销工作。供应链经理可以更好地规划运输和仓储。
