什么是统计机器学习?

作者

Fangfang Lee

Developer Advocate

IBM

统计机器学习

简介:什么是机器学习中的统计思维?

在当今的生成式 AI 时代,我们看到从业者构建机器学习 (ML) 模型,从简单的回归到复杂而精密的神经网络和生成式大型语言模型 (LLM)。我们还看到数据科学和数据分析被广泛用于预测客户流失、推荐系统和其他用例。然而,尽管机器学习 (ML) 模型看起来像是在海量数据集和强大的算法上运行,但深入了解,它们是一个统计过程。

机器学习建立在统计技术和数学工具(包括贝叶斯方法、线性代数和验证策略)的基础上,这些技术和工具为该过程提供了结构和严谨性。无论是在 Python 中构建非线性分类器、调整推荐系统还是开发生成式模型,您都是在应用统计机器学习的核心原则。

无论何时培训模型,您都是在根据数据估计参数。测试时,您可能会问:这种规律是真实的,还是随机噪声?我们如何使用评估指标来量化误差?这些都是统计问题。统计测试流程有助于我们在构建和解释模型指标中融入信心。了解这些先决条件不仅是基础,而且对于构建基于计算机科学和数学推理的、强大且可解释的 AI 系统至关重要。

本文解读了现代 ML 背后的统计支柱,不仅为您揭开数学的神秘面纱,还为您提供了自信地构建、调试和解释机器学习系统所需的心智模型。

我们将介绍六个相互关联的概念:

1. 统计学:从根本上来说,什么是统计学以及它在现代 AI 中如何应用?

2. 概率:如何量化数据的不确定性?

3. 分布:如何为数据行为建模?

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明

谢谢!您已订阅。

您的订阅将以英语提供。您会在每份时事通讯中找到一个取消订阅链接。您可以在此处管理您的订阅或取消订阅。有关更多信息,请参阅我们的 IBM 隐私声明

什么是统计学?

统计学是一门从数据中提取洞察分析的科学。它通过组织、分析和解释信息来发现规律,并在不确定的情况下做出决策。在数据科学和机器学习算法的背景下,统计学为理解数据行为、指导模型选择和评估结果提供了数学基础。它将杂乱、嘈杂的数据集转化为可操作的情报。

现代机器学习建立在统计方法之上。无论您应用监督学习(例如回归或分类)、无监督学习(例如聚类)还是强化学习,您都是在使用基于统计推理的工具。统计学使我们能够量化不确定性、从样本中进行概括并得出关于更广泛人群的结论 — 所有这些对于构建值得信赖的人工智能 (AI) 系统都至关重要。

描述性统计:了解基础知识

在训练模型之前,我们会进行探索性数据分析 (EDA),这是一个依靠描述性统计来总结数据关键特征的过程。这些摘要告诉我们每个功能的集中趋势和变量,帮助识别异常值、数据质量和预处理需求。了解这些特性是构建有效模型和选择合适机器学习算法的先决条件。

主要度量:

    • 平均数(平均值):

    数值的算术平均值。常见于测量中心性和均方误差 (MSE) 等损失函数。

    示例:如果客户购买价值不断增加,则平均值会检测到行为的变化。

    • 中位数:

    数据排序时的中间值。对异常值比对平均值更具有稳健性。

    示例:在收入数据中,中位数更能反映存在偏差财富的“典型”案例。

    • 模式:

    最常出现的值。适用于分类功能或多数投票(如某些集成方法)。

    示例:查找网站访问者最常用的浏览器。

    • 标准差 (SD):

    测量值与平均值的分散程度。低 SD 表示数据点聚集在平均值附近,而高 SD 表示变量较大。

    示例:在模型验证中,方差较大的功能可能需要标准化,以避免在基于距离的算法(如 k 最近邻算法)中压倒其他功能。

    • 四分位距 (IQR):

    75 和 25 百分位之间的范围 (Q3 - Q1)。它捕捉中间 50% 的数据,可用于检测异常值。

    示例:在客户细分任务中,支出的高 IQR 可能表明子组之间的行为不一致。

    • 偏斜性:

    表示分布的不对称性。正偏斜意味着右尾更长,而负偏斜意味着左尾更长。偏斜的功能可能会违反线性模型的假设,或者夸大基于平均值的指标。

    示例:右偏分布(如收入)可能需要在应用线性回归之前进行对数变换。

    • 峰度:

    描述分布的“尾度”,即极值出现的可能性。高峰度意味着更频繁的异常值,而低峰度意味着更平坦的分布。

    示例:在欺诈检测中,交易金额的高峰度可能表明异常的支出模式。

    这些度量还指导预处理决策,例如规范化、标准化或缺失插补,并影响我们设计新功能的方式。

    机器学习中的描述性统计

    在 EDA 过程中,描述性统计可以帮助我们:

    • 评估数据分布:变量是否服从高斯分布?出现偏斜?多模态?
    • 识别异常值和误差:平均值和中位数不匹配可能表示存在异常值。
    • 发现数据质量问题:例如,检测负年龄或不可能的类别。
    • 帮助选择模型:连续目标变量表示回归;分类目标变量表示类别。功能之间的关系(如相关性)也可能影响是否使用线性、非参数或基于核的方法。

    运用统计学知识理解数据还有助于准备模型以处理大型数据集、评估模型指标以及降低过度拟合等风险。例如,描述性摘要可能会揭示需要规范化的不平衡类或功能尺度,而这两者都会影响模型的性能和公平性。

    Mixture of Experts | 12 月 12 日,第 85 集

    解码 AI:每周新闻摘要

    加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

    概率:不确定性的语言

    由于不确定性的存在,利用机器学习进行建模。如果我们能够完美地将输入映射到输出,则无需模型。但现实世界的数据是混乱、不完整和嘈杂的,因此我们按照可能性建模,而非按照确定性建模。了解概率奠定了一切机器学习和人工智能 (AI) 的基础。概率论使我们能够以一种美丽而优雅的方式理解我们用来建模的数据。它在对 ML 模型预测中的不确定性进行建模时发挥着关键作用。它可以帮助我们量化统计模型的可能性、概率和确定性,以便我们可以自信地衡量我们创建的结果模型。深入了解概率世界并学习基础知识将有助于确保您理解所有统计学习模型的基础及其预测结果的产生方式。您将了解我们如何进行推理并得出概率结果。

    为了学习受欢迎的分布并自信地建模数据,让我们了解基础知识并澄清一些术语。

    随机变量:表示随机现象结果的数值。它是一个变量,其可能值是随机过程的数值结果。

    离散随机变量:可取有限个或可数无限个不同值的随机变量。例如,抛硬币的结果(正面 = 1,反面 = 0),或一小时内收到的垃圾邮件数量。

    连续随机变量:可在给定范围内取任意值的随机变量。例如,一个人的身高、房间的温度或降雨量。

    事件:随机过程中一个或多个结果的集。例如,掷骰子得到偶数(结果:2、4、6)或客户流失。

    结果:随机实验的单一可能结果。例如,抛硬币的结果是“正面”或“反面”。

    概率 P(A)事件发生可能性的数字度量, A 范围从 0(不可能)到 1(确定)。

    条件概率 P(A|B):事件发生的概率,A鉴于该事件 A 已经发生。这一步在 ML 中至关重要,因为我们通常希望在给定具体功能的情况下预测结果。

    概率是衡量事件发生可能性的指标,范围从 0(不可能)到 1(确定)。

    在机器学习中,通常采用条件概率的形式

    示例:逻辑回归模型可能会表示为

    > “给定年龄 = 45 岁,收入 = 60 美元,以及既往史,

    > 客户流失的概率为 0.82。”

    这个示例并不意味着客户流失,而是基于训练数据中的统计模式得出的看法

    在现代生成式 AI 时代,回归等概率模型在确定模型的结果和输出方面发挥着巨大的作用。这种作用通常以神经网络层中激活函数的形式出现。

    分布:为数据行为建模

    概率分布是一种数学函数,用于描述随机变量在特定范围内的可能值和可能性。了解分布在 ML 方面至关重要,因为数据很少以单个孤点的形式存在;它有固定的结构和“形状”。我们需要说明的一些术语是:

    • 离散分布:适用于采用不同可数值的变量(例如抛硬币和字数统计)。
    • 连续分布: 适用于可接受一定范围内任意值的变量(例如,身高、体重、时间)。

    核心概念

    • 概率质量函数 (PMF):PMF 采用不同可数值的变量,适用于离散随机变量,例如 0 或 1、正面或反面,或者到店的顾客数量。PMF 会告诉您每种可能结果的确切概率。例如,如果您掷出一个公平的 6 面骰子,则 PMF 会为每个结果分配 1/6 的概率。 1,2,3,4,5,6与 PDF(将概率密度分散在一个范围内)不同,PMF 将概率集中在精确值上。
    • 概率密度函数 (PDF):它帮助我们推理百分位数、分位数和概率阈值,这些概念通常用于阈值模型、公平性审计和可解释性。
    • 累积分布函数 (CDF):CDF 给出值小于或等于特定阈值的累积概率。沿 x 轴移动时,该值将从 0 增长到 1,在回答诸如“有多少比例的客户消费低于 50 美元?”之类的问题时特别有用。
    • 累积质量函数 (CMF):CMF 是 CDF 的离散对应部分。它给出了离散变量取值小于或等于某一特定点的累积概率。

    对数据分布做出正确假设十分关键 — 许多机器学习算法都依赖这些假设来选择和解释模型。不正确的假设会导致估算有偏倚、损失函数不一致,并最终导致应用中泛化能力差或结论无效。

    概率分布支撑:

    • 误差建模:关于回归中残差的假设(通常是高斯)。
    • 损失函数:MSE 与高斯假设相对应;交叉熵与伯努利或数理逻辑相对应。
    • 模型设计:分类目标通常通过伯努利建模;深度生成模型中的潜在变量使用高斯先验。
    • 生成式 AI:从学习到的高维分布中采样是生成式对抗网络 (GAN) 和 VAE 等模型的基础。

    离散分布示例:伯努利试验

    伯努利分布是离散随机事件单次试验成功或失败概率的模型。也就是说,它只有两种结果:1(成功)或 0(失败)。它是统计学中最简单的分布类型,但却是机器学习中许多分类问题的基础。例如,如果您抛一枚硬币 10 次,有 7 次正面(成功)和 3 次反面(失败),则概率质量函数 (PMF) 可绘制如下:

    分布抛硬币 - 柱状图

    抛硬币是典型的伯努利试验。让我们将概率质量函数应用到抛硬币示例中

    - 让 X 是一个随机变量,代表一次抛硬币的结果

    - 如果正面视为成功,我们定义 X=1 正面和 X=0 背面

    - 如果硬币是公平的,则出现正面概率为 p=0.5

    伯努利分布的概率质量函数 (PMF) 为:

     P(X=x)=px(1-p)1-x,forx{0,1}

    伯努利分布 - 棒棒糖图

    其中:

    • p 是成功概率 (X=1)
    • 1 - p 是失败概率 (X=0)
    • x 是观测到的结果(1 或 0)

     

    在机器学习中的应用:离散分布

    了解伯努利 PMF 至关重要,因为它构成了许多分类模型的概率支柱。特别是,逻辑回归不仅输出类标记,还估算特定输入属于第 1 类的概率。该预测概率被解释为伯努利分布中的参数 𝑝:

    逻辑回归中使用的逻辑 (sigmoid) 函数可确保预测值落在 [0,1] 范围内,使其成为有效的伯努利概率。该模型经过训练,以最大限度地提高观测到真实二元结果的可能性,假设每个目标值都是从伯努利分布中提取的,概率 𝑝 由功能 𝑋 预测。在这种情况下,由于我们希望最大限度地减少训练损失,因此我们采用最大似然估算 (MLE) 方法,在给定数据的情况下最大化结果的可能性。通常,对于伯努利等离散分布,我们将概率转换为更容易操作的可能性。似然与几率一样不成比例,因此我们通常应用称为对数似然的对数转换,而损失函数称为对数损失。如果本节晦涩难懂,您可以访问前面提到的回归阅读解释器,了解如何使用 MLE 逐步推导对数似然函数。这种联系为将输出结果解释为概率估算提供了统计基础。其他应用包括:

    • 二元分类器(决策树随机森林、具有二元结果的支持向量机)隐含地将分类视为预测伯努利结果,尤其是在训练后应用概率校准时。
    • 评估指标:精确度、召回率和 F1 分数从根本上源于每个预测都是二元事件(伯努利试验)的假设。

    连续分布示例:高斯(正态)分布

    正态分布描述的是一个连续的随机变量,其数值趋向于围绕一个中心均值的聚簇,在两个方向上具有对称的变异性。它在统计学中无处不在,因为许多自然现象(身高、测试分数、测量误差)都遵循这种模式,尤其是在跨样本汇总时。

     

    正态分布 - 钟形曲线

    想象一下,您记录了 1,000 名成年人的身高。绘制这些数据会发现一条钟形曲线:大多数人接近平均值,少数人处于极端值。正态分布的概率密度函数 (PDF) 反映了这种形状:

     f(xμ,σ2)=12πσ2exp(-(x-μ)22σ2)

    其中:

    • 𝑥 是一个连续变量(例如,身高)
    • 𝜇 是平均值(分布的中心)
    •  σ2 方差(控制点差)
    • 分母 2πσ2 确保曲线下的面积总和为 1
    • 指数项会惩罚远离均值的值,从而降低其可能性

    在机器学习中的应用:连续分布

    • 线性回归:假设残差(误差)呈正态分布,因此可以使用均方误差 (MSE) 作为损失函数。这一假设使模型能够做出概率解释并有助于统计推理(例如,置信区间、系数的假设检验)。
    • 生成模型:变分自编码器 (VAE)、GAN 和其他生成式模型通常假设潜在变量遵循标准正态分布。新数据就是从这个空间采样并通过学习网络进行转换而产生的。
    • 正则化:L2 正则化(也称为岭回归)等技术通过在损失函数中添加与权重平方成比例的项来惩罚较大的模型权重。这个惩罚项相当于假设模型参数具有高斯先验 — 用贝叶斯术语来说,就好像我们相信权重是从以零为中心的正态分布中得出的。这一原理将正则化变成了一个植根于概率的优化问题,促进了更简单的模型并减少了过度拟合

    总结

    每个机器学习系统的核心都有一个统计支柱,这是一个无形的支架,支持从模型设计到解释的所有工作。我们首先深入了解了什么是统计学:不仅仅是数学的一个分支,而是一种理解不确定性和从数据中提取意义的语言。描述性统计为我们提供了审视和总结世界复杂性的第一视角,甚至在开始建模之前就能提供清晰的信息。

    接下来,我们深入探讨了概率,即在不确定的情况下进行推理的正式工具集。在机器学习中,概率帮助我们量化结果的可能性,使模型能够表达置信度,而不仅仅是硬性预测。无论是客户流失的几率还是分类标记的可能性,概率论都能将原始数据转化为可解释的洞察分析。

    最后,我们深入了解了分布,定义了数据在不同场景中的行为方式。从建模二元结果的离散伯努利分布,到影响回归和生成模型假设的连续高斯分布,了解这些分布至关重要。它们既是我们观测到的数据,也是我们构建算法的基础,并且指导模型选择、塑造损失函数并实现有意义的推理。

    在现代机器学习算法中,从逻辑回归和朴素贝叶斯深度学习和核方法,这些统计原理不是可选的附加功能,因为它们就是机器学习的根本机制。它们帮助我们推理不确定性、优化性能并从有限的观测推广到现实世界的决策。通过掌握这些基础知识,您不仅可以学会使用机器学习,还可以学会理解、构建并从中推理。

    即使在生成式 AI 和大规模深度学习模型的时代,统计数据仍然比以往任何时候都更加相关。每个转换器层和扩散步骤的背后都是建立在概率、估算和分布假设之上的基础。理解概念,如偏差方差权衡和不确定性等,不仅是学术方面,它对于解释黑匣模型、诊断故障模式和构建负责任的、可解释的 AI 都至关重要。无论您是在微调基础模型、应用贝叶斯技术量化不确定性还是评估生成输出,统计推理都能为您提供清晰应对复杂性的工具。随着生成式 AI 系统变得越来越强大,将您的实践建立在统计学基础之上,可以确保您的模型不仅保持最先进的水平,而且还具有原则性和可信度。

    相关解决方案
    IBM watsonx.ai

    使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。

    了解 watsonx.ai
    人工智能 (AI) 解决方案

    借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。

    深入了解 AI 解决方案
    AI 咨询与服务

    通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

    深入了解人工智能服务
    采取后续步骤

    一站式访问跨越 AI 开发生命周期的功能。利用用户友好型界面、工作流并访问行业标准 API 和 SDK,生成功能强大的 AI 解决方案。

    深入了解 watsonx.ai 预约实时演示