线性回归
逻辑回归
数据科学
监督式学习使用训练集训练模式以产出预期输出。 该训练数据集包括输入和正确输出,允许模型随着时间逐步学习。 该算法通过损失函数衡量其准确性,并进行调整,直到将错误最小化到可接受的范围。
在进行数据挖掘时,监督式学习可以分为两种类型的问题 - 分类和回归:
神经网络 主要利用深度学习算法,通过节点层模拟人脑的互联性来处理训练数据。 每个节点由输入、权重、偏差(或阈值)和输出组成。 如果输出超过给定阈值,就会"触发"(或激活)节点,并将数据传递到网络中的下一层。 神经网络法通过监督学习来学习映射函数,基于损失函数通过梯度下降过程来进行调整。 当成本函数等于或接近于零,我们可以相信模型的准确度,从而得出正确答案。
朴素贝叶斯是采用贝叶斯定理中的类条件独立性定律的分类方法。 这意味着一个特征的存在不影响指定结果概率中另一个特征的存在,并且每个预测变量对该结果具有等效影响。 朴素贝叶斯有三种类型的分类器:多项式朴素贝叶斯、伯努利朴素贝叶斯和高斯朴素贝叶斯。 这种方法主要用于文本分类、垃圾邮件标识和推荐系统。
线性回归用于识别从属变量与一个或多个独立变量之间的关系,通常用于对未来结果进行预测。 当只有一个独立变量和一个从属变量时,称为简单线性回归。 随着独立变量数量的增加,称为多元线性回归。 每个类型的线性回归都试图绘制一条最佳拟合线,这是通过最小平方方法计算得出的。 但是,不同于其他回归模型,在图形上绘制时,这条线是笔直的。
从属变量为连续时使用线性回归,从属变量为无条件时使用逻辑回归,这意味着它们都使用二进制输出,如“true”和“false”或“yes”和“no”。虽然两个回归模型都试图了解数据输入之间的关系,但逻辑回归主要用于解决二进制分类问题,例如垃圾邮件识别。
支持向量机是流行的监督式学习模型,由 Vladimir Vapnik 开发,主要用于数据分类和回归。 也就是说,它通常用于分类问题,构造一个超平面,其中两类数据点保持最大距离。 这种超平面称为决策边界,将数据点类别(例如,橙子和苹果)分隔在平面两端。
K 最近邻算法又称 KNN 算法,是一种非参数算法,根据数据点的邻近程度和与其他可用数据的关联程度对数据点进行分类。 这个算法假设相似的数据点可以在彼此的附近找到。 因此,它通常通过欧氏距离计算数据点之间的距离,然后根据出现频率最多的类别或平均值来分配类别。
它容易使用,计算时间短,因此是数据科学家最喜欢的算法,但随着测试数据集的增长,处理时间会延长,因此不太适合分类任务。 KNN 通常用于推荐引擎和图像识别。
随机林是另一种用于分类和回归目的的灵活得监督式机器学习算法。 这里的“林”指的是无关决策树的一个集合,这些决策树合并在一起,以减少差异并产出更准确的数据预测。
人们经常会将无监督机器学习 和监督式机器学习一起讨论。 与监督式学习不同,无监督学习使用未标记的数据。 从这些数据中,它发现能够帮助解决集群或关联问题的模式。 主题专家不确定数据集中的共同属性时,这种方法特别有用。 常见的集群算法是分层、k 均值和高斯混合模型。
如果给定输入数据中只有一部分被标记,就会进行半监督学习。 无监督学习和半监督学习可能是更具吸引力的替代方案,因为依赖领域专业知识为有监督学习恰当标记数据可能既耗时又成本高昂。
要深入了解这些方法之间的差异,请查看"有监督与无监督学习:有什么区别?"
监督使学习模型可用于构建和推动一些业务应用,包括:
虽然监督式学习可以提供深度数据洞察、改进自动化等业务优势,但构建可持续的监督式学习模型也面临着一些挑战。 以下是其中一些挑战:
监督式学习模型是一种非常宝贵的解决方案,可以消除手动分类工作,并根据带有标签的数据做出未来预测。 但是,设计机器学习算法要求具备人类知识和专业技能,以避免数据模型过度拟合。
IBM 及其数据科学和人工智能团队花费了数年时间完善监督式学习模型的开发和部署以及大量业务用例。 借助 IBM Watson Studio on IBM Cloud Pak for Data 等强大工具,组织可以创建高度可扩展的机器学习模型,无论数据位于何处,IBM 强大的混合式多云环境都能提供支持。
有关 IBM 如何帮助您创建自己的监督式机器学习模型的更多信息,请浏览 IBM Watson Studio。
注册一个 IBMid 并 创建 IBM Cloud 账户。