什么是数据挖掘?
了解数据挖掘,它结合了统计和人工智能来分析大量的数据集以发现有用的信息。
黑蓝相间的背景
什么是数据挖掘?

数据挖掘,又称知识发现 (KDD),是从大量的数据集中发现模式和其他有价值信息的过程。 鉴于数据仓储技术的发展和大数据的增长,数据挖掘技术的采用在过去几十年中迅速加快,它通过将原始数据转化为有用的知识来助力公司发展。   然而,尽管该技术不断发展以处理大规模的数据,但领导者仍面临可扩展性和自动化方面的挑战。

数据挖掘通过透彻的数据分析完善了组织决策。 支持这些分析的数据挖掘技术可分为两大用途;它们既可以描述目标数据集,也可以通过使用机器学习算法来预测结果。   这些方法用于组织和过滤数据,揭示最有趣的信息,从欺诈检测到用户行为、瓶颈,甚至是安全漏洞。

当与 Apache Spark 等数据分析和可视化工具结合使用时,深入探索数据挖掘世界从未如此轻松,提取相关见解的速度也从未如此之快。 人工智能领域的进步,只会继续加速其在各行各业内的采用。   

数据挖掘过程

数据挖掘过程涉及从数据收集到可视化的许多步骤,旨在从大量的数据集中提取有价值的信息。 如上所述,数据挖掘技术用于生成目标数据集描述和预测。 数据科学家通过对模式、关联和相关性的观察来描述数据。 他们还通过分类和回归方法对数据进行分类和聚类,并识别用例的异常值,如垃圾邮件检测。

数据挖掘通常包括四个主要步骤:设定目标、数据收集和准备、应用数据挖掘算法以及评估结果。

1. 设定业务目标:这可能是数据挖掘过程中最难的部分,很多组织在这一重要步骤上花费的时间太少。  数据科学家和业务利益相关方需要共同来定义业务问题,这有助于为给定的项目提供数据问题和参数。 分析师可能还需要进行额外的研究,以便适当地了解业务环境。

2. 数据准备:一旦确定了问题的范围,数据科学家就可以更容易地确定哪个数据集将有助于回答与业务相关的问题。  收集了相关数据后,他们会对数据进行清理,去除任何噪声,如重复值、缺失值和异常值。 根据数据集的不同,可以采取额外的步骤来减少维数,因为太多的特性会减慢任何后续的计算。 数据科学家将寻求保留最重要的预测因子,确保任意模型的最佳准确度。

3. 模型构建和模式挖掘:根据分析的类型,数据科学家可以调查任何有趣的数据关系,如序列模式、关联规则或相关性。  虽然高频模式有着更广泛的应用,但有时数据中的偏差可能更有趣,它突出了潜在欺诈的领域。

深度学习算法也可应用于根据可用数据对数据集进行分类或聚类。   如果标记了输入数据(即监督式学习),那么分类模型可以用于对数据进行分类,或者也可以应用回归模型来预测特定分配的可能性。  如果未标记数据集(即无监督学习),那么会将训练集中的单个数据点进行相互比较,找出潜在的相似性,并根据这些特征对它们进行聚类。

4. 结果评估和知识实施:数据汇总后,需要对结果进行评估和解释。  在最终确定结果时,它们应该是有效的、新颖的、有用的和可理解的。 当满足这一标准时,组织可以利用这一知识来实施新的战略,实现其预期目标。

数据挖掘技术

数据挖掘是指利用各种算法和技术把大量的数据转化为有用的信息。 以下是一些最常见的方法:

关联规则:关联规则是一种基于规则的方法,用于发现给定数据集中各变量之间的关系。  这些方法常用于市场购物篮分析,使企业能够更好地了解不同产品之间的关系。 了解顾客的消费习惯有助于企业制定更好的交叉销售策略,开发更出色的推荐引擎。

神经网络:神经网络主要用于深度学习算法,通过节点层模拟人脑的互联性来处理训练数据。    每个节点由输入、权重、偏差(或阈值)和输出组成。 如果该输出值超过给定的阈值,它会“触发”或激活节点,并将数据传递到网络中的下一层。 神经网络通过监督式学习来学习这个映射函数,并通过梯度下降过程根据损失函数进行调整。 当损失函数等于或接近于零时,我们可以相信模型的准确度,从而得出正确答案。

决策树:这种数据挖掘技术使用分类或回归方法,基于一系列决策对潜在的结果进行分类或预测。  顾名思义,它使用树状可视化效果来表示这些决策的潜在结果。

K 近邻算法 (KNN):K  近邻算法,又称 KNN 算法,是一种非参数算法,它根据数据点的邻近程度以及与其他可用数据的关联程度,对数据点进行分类。 这个算法假设相似的数据点可以在彼此的附近找到。 因此,它通常通过欧氏距离计算数据点之间的距离,然后根据出现频率最多的类别或平均值来分配类别。

数据挖掘应用

数据挖掘技术在商业智能和数据分析团队中被广泛采用,帮助他们为组织和行业提取知识。 以下是一些数据挖掘用例:

销售与市场营销
 

公司收集了大量关于客户和潜在客户的数据。 通过观察消费者人口统计信息和在线用户行为,企业可以使用数据来优化他们的市场营销活动,改善市场细分、交叉销售情况和客户忠诚度计划,进而提高市场营销的投资回报率。 预测性分析还可以帮助团队与利益相关方一起设定预期,根据营销投资的增减情况预估收益。

教育培训
 

教育机构已经开始收集数据,旨在了解他们的学生群体,以及哪些环境有利于取得成功。 随着课程不断转移至在线平台,他们可以使用各种维度和指标来观察和评估业绩,如击键、学生档案、课程、大学以及花费的时间等。

运营优化
 

流程挖掘利用数据挖掘技术降低整个运营部门的成本,使得组织可以更高效地运转。  这种实践有助于识别代价不菲的瓶颈,帮助企业领导者完善决策。

欺诈检测
 

虽然数据中频繁出现的模式可以为团队提供有价值的洞察,但观察数据异常也很有用,可帮助公司检测欺诈行为。 在银行和其他金融机构中,这是一个众所周知的用例,基于 SaaS 的企业也已开始采用这些做法,着力消除数据集中的虚假用户帐户。

相关解决方案
企业搜索平台

使用 AI 驱动的企业级搜索技术,从业务数据中查找关键答案与洞察。

探索 IBM Watson Discovery
数据仓库

为高性能分析和 AI 而构建的完全托管、安全永续的云数据仓库

探索 IBM Db2 Warehouse on Cloud
IBM Watson® Studio

在任何云中构建和扩展可信 AI。 实现 ModelOps 的 AI 生命周期自动化。

了解 IBM Watson® Studio
采取下一步行动

与 IBM 合作,启动最新的数据挖掘项目。 IBM Watson Discovery 可实时挖掘您的数据,揭示不同内容之间隐藏的模式、趋势和关系。 使用数据挖掘技术深入了解客户和用户行为,分析社交媒体和电子商务的趋势,找出问题的根源等等。 在您隐藏的洞察中蕴含着有待开发的商业价值。

立即开始使用 IBM Watson Discovery