在当今的生成式 AI 时代,我们看到从业者构建机器学习 (ML) 模型,从简单的回归到复杂而精密的神经网络和生成式大型语言模型 (LLM)。我们还看到数据科学和数据分析被广泛用于预测客户流失、推荐系统和其他用例。然而,尽管机器学习 (ML) 模型看起来像是在海量数据集和强大的算法上运行,但深入了解,它们是一个统计过程。
机器学习建立在统计技术和数学工具(包括贝叶斯方法、线性代数和验证策略)的基础上,这些技术和工具为该过程提供了结构和严谨性。无论是在 Python 中构建非线性分类器、调整推荐系统还是开发生成式模型,您都是在应用统计机器学习的核心原则。
无论何时培训模型,您都是在根据数据估计参数。测试时,您可能会问:这种规律是真实的,还是随机噪声?我们如何使用评估指标来量化误差?这些都是统计问题。统计测试流程有助于我们在构建和解释模型指标中融入信心。了解这些先决条件不仅是基础,而且对于构建基于计算机科学和数学推理的、强大且可解释的 AI 系统至关重要。
本文解读了现代 ML 背后的统计支柱,不仅为您揭开数学的神秘面纱,还为您提供了自信地构建、调试和解释机器学习系统所需的心智模型。
我们将介绍六个相互关联的概念:
1. 统计学:从根本上来说,什么是统计学以及它在现代 AI 中如何应用?
2. 概率:如何量化数据的不确定性?
3. 分布:如何为数据行为建模?
在训练模型之前,我们会进行探索性数据分析 (EDA),这是一个依靠描述性统计来总结数据关键特征的过程。这些摘要告诉我们每个功能的集中趋势和变量,帮助识别异常值、数据质量和预处理需求。了解这些特性是构建有效模型和选择合适机器学习算法的先决条件。
数值的算术平均值。常见于测量中心性和均方误差 (MSE) 等损失函数。
示例:如果客户购买价值不断增加,则平均值会检测到行为的变化。
数据排序时的中间值。对异常值比对平均值更具有稳健性。
示例:在收入数据中,中位数更能反映存在偏差财富的“典型”案例。
最常出现的值。适用于分类功能或多数投票(如某些集成方法)。
示例:查找网站访问者最常用的浏览器。
测量值与平均值的分散程度。低 SD 表示数据点聚集在平均值附近,而高 SD 表示变量较大。
示例:在模型验证中,方差较大的功能可能需要标准化,以避免在基于距离的算法(如 k 最近邻算法)中压倒其他功能。
75 和 25 百分位之间的范围 (Q3 - Q1)。它捕捉中间 50% 的数据,可用于检测异常值。
示例:在客户细分任务中,支出的高 IQR 可能表明子组之间的行为不一致。
表示分布的不对称性。正偏斜意味着右尾更长,而负偏斜意味着左尾更长。偏斜的功能可能会违反线性模型的假设,或者夸大基于平均值的指标。
示例:右偏分布(如收入)可能需要在应用线性回归之前进行对数变换。
描述分布的“尾度”,即极值出现的可能性。高峰度意味着更频繁的异常值,而低峰度意味着更平坦的分布。
示例:在欺诈检测中,交易金额的高峰度可能表明异常的支出模式。
这些度量还指导预处理决策,例如规范化、标准化或缺失插补,并影响我们设计新功能的方式。
在 EDA 过程中,描述性统计可以帮助我们:
运用统计学知识理解数据还有助于准备模型以处理大型数据集、评估模型指标以及降低过度拟合等风险。例如,描述性摘要可能会揭示需要规范化的不平衡类或功能尺度,而这两者都会影响模型的性能和公平性。
由于不确定性的存在,利用机器学习进行建模。如果我们能够完美地将输入映射到输出,则无需模型。但现实世界的数据是混乱、不完整和嘈杂的,因此我们按照可能性建模,而非按照确定性建模。了解概率奠定了一切机器学习和人工智能 (AI) 的基础。概率论使我们能够以一种美丽而优雅的方式理解我们用来建模的数据。它在对 ML 模型预测中的不确定性进行建模时发挥着关键作用。它可以帮助我们量化统计模型的可能性、概率和确定性,以便我们可以自信地衡量我们创建的结果模型。深入了解概率世界并学习基础知识将有助于确保您理解所有统计学习模型的基础及其预测结果的产生方式。您将了解我们如何进行推理并得出概率结果。
为了学习受欢迎的分布并自信地建模数据,让我们了解基础知识并澄清一些术语。
随机变量:表示随机现象结果的数值。它是一个变量,其可能值是随机过程的数值结果。
离散随机变量:可取有限个或可数无限个不同值的随机变量。例如,抛硬币的结果(正面 = 1,反面 = 0),或一小时内收到的垃圾邮件数量。
连续随机变量:可在给定范围内取任意值的随机变量。例如,一个人的身高、房间的温度或降雨量。
事件:随机过程中一个或多个结果的集。例如,掷骰子得到偶数(结果:2、4、6)或客户流失。
结果:随机实验的单一可能结果。例如,抛硬币的结果是“正面”或“反面”。
概率 事件发生可能性的数字度量, 范围从 0(不可能)到 1(确定)。
条件概率 :事件发生的概率,鉴于该事件 已经发生。这一步在 ML 中至关重要,因为我们通常希望在给定具体功能的情况下预测结果。
概率是衡量事件发生可能性的指标,范围从 0(不可能)到 1(确定)。
在机器学习中,通常采用条件概率的形式
示例:逻辑回归模型可能会表示为
> “给定年龄 = 45 岁,收入 = 60 美元,以及既往史,
> 客户流失的概率为 0.82。”
这个示例并不意味着客户会流失,而是基于训练数据中的统计模式得出的看法。
在现代生成式 AI 时代,回归等概率模型在确定模型的结果和输出方面发挥着巨大的作用。这种作用通常以神经网络层中激活函数的形式出现。
概率分布是一种数学函数,用于描述随机变量在特定范围内的可能值和可能性。了解分布在 ML 方面至关重要,因为数据很少以单个孤点的形式存在;它有固定的结构和“形状”。我们需要说明的一些术语是:
对数据分布做出正确假设十分关键 — 许多机器学习算法都依赖这些假设来选择和解释模型。不正确的假设会导致估算有偏倚、损失函数不一致,并最终导致应用中泛化能力差或结论无效。
概率分布支撑:
伯努利分布是离散随机事件单次试验成功或失败概率的模型。也就是说,它只有两种结果:1(成功)或 0(失败)。它是统计学中最简单的分布类型,但却是机器学习中许多分类问题的基础。例如,如果您抛一枚硬币 10 次,有 7 次正面(成功)和 3 次反面(失败),则概率质量函数 (PMF) 可绘制如下:
抛硬币是典型的伯努利试验。让我们将概率质量函数应用到抛硬币示例中
- 让 是一个随机变量,代表一次抛硬币的结果
- 如果正面视为成功,我们定义 正面和 背面
- 如果硬币是公平的,则出现正面概率为
伯努利分布的概率质量函数 (PMF) 为:
其中:
了解伯努利 PMF 至关重要,因为它构成了许多分类模型的概率支柱。特别是,逻辑回归不仅输出类标记,还估算特定输入属于第 1 类的概率。该预测概率被解释为伯努利分布中的参数 𝑝:
逻辑回归中使用的逻辑 (sigmoid) 函数可确保预测值落在 [0,1] 范围内,使其成为有效的伯努利概率。该模型经过训练,以最大限度地提高观测到真实二元结果的可能性,假设每个目标值都是从伯努利分布中提取的,概率 𝑝 由功能 𝑋 预测。在这种情况下,由于我们希望最大限度地减少训练损失,因此我们采用最大似然估算 (MLE) 方法,在给定数据的情况下最大化结果的可能性。通常,对于伯努利等离散分布,我们将概率转换为更容易操作的可能性。似然与几率一样不成比例,因此我们通常应用称为对数似然的对数转换,而损失函数称为对数损失。如果本节晦涩难懂,您可以访问前面提到的回归阅读解释器,了解如何使用 MLE 逐步推导对数似然函数。这种联系为将输出结果解释为概率估算提供了统计基础。其他应用包括:
正态分布描述的是一个连续的随机变量,其数值趋向于围绕一个中心均值的聚簇,在两个方向上具有对称的变异性。它在统计学中无处不在,因为许多自然现象(身高、测试分数、测量误差)都遵循这种模式,尤其是在跨样本汇总时。
想象一下,您记录了 1,000 名成年人的身高。绘制这些数据会发现一条钟形曲线:大多数人接近平均值,少数人处于极端值。正态分布的概率密度函数 (PDF) 反映了这种形状:
其中:
每个机器学习系统的核心都有一个统计支柱,这是一个无形的支架,支持从模型设计到解释的所有工作。我们首先深入了解了什么是统计学:不仅仅是数学的一个分支,而是一种理解不确定性和从数据中提取意义的语言。描述性统计为我们提供了审视和总结世界复杂性的第一视角,甚至在开始建模之前就能提供清晰的信息。
接下来,我们深入探讨了概率,即在不确定的情况下进行推理的正式工具集。在机器学习中,概率帮助我们量化结果的可能性,使模型能够表达置信度,而不仅仅是硬性预测。无论是客户流失的几率还是分类标记的可能性,概率论都能将原始数据转化为可解释的洞察分析。
最后,我们深入了解了分布,定义了数据在不同场景中的行为方式。从建模二元结果的离散伯努利分布,到影响回归和生成模型假设的连续高斯分布,了解这些分布至关重要。它们既是我们观测到的数据,也是我们构建算法的基础,并且指导模型选择、塑造损失函数并实现有意义的推理。
在现代机器学习算法中,从逻辑回归和朴素贝叶斯到深度学习和核方法,这些统计原理不是可选的附加功能,因为它们就是机器学习的根本机制。它们帮助我们推理不确定性、优化性能并从有限的观测推广到现实世界的决策。通过掌握这些基础知识,您不仅可以学会使用机器学习,还可以学会理解、构建并从中推理。
即使在生成式 AI 和大规模深度学习模型的时代,统计数据仍然比以往任何时候都更加相关。每个转换器层和扩散步骤的背后都是建立在概率、估算和分布假设之上的基础。理解概念,如偏差方差权衡和不确定性等,不仅是学术方面,它对于解释黑匣模型、诊断故障模式和构建负责任的、可解释的 AI 都至关重要。无论您是在微调基础模型、应用贝叶斯技术量化不确定性还是评估生成输出,统计推理都能为您提供清晰应对复杂性的工具。随着生成式 AI 系统变得越来越强大,将您的实践建立在统计学基础之上,可以确保您的模型不仅保持最先进的水平,而且还具有原则性和可信度。
使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。
借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。