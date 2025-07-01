AI 模型的性能通常使用测试集来衡量，V将模型的输出与基准测试集上的预测进行比较。通过性能评估获得的洞察分析，有助于确定模型是否已准备好进行现实世界的部署，或者是否需要调整或进行额外训练。
以下是可能影响机器学习模型性能的一些因素：
当模型在训练期间使用在预测时本不可用的信息时，就会发生机器学习中的数据泄漏。这可能是由于数据预处理错误，或由于将数据未能正确划分为训练集、验证集和测试集而造成的数据污染所导致的。数据泄漏会导致预测模型在对未知数据进行泛化时遇到困难，产生不准确或不可靠的结果，或者虚增或虚减性能指标。
模型漂移是指由于数据或输入输出变量之间关系的变化，而导致模型性能下降的现象。这种衰减会对模型性能产生负面影响，导致错误的决策和不良的预测。
将指标与模型要实现的业务目标相结合非常重要。虽然每种类型的机器学习模型都有自己的一套评估指标，但许多模型都共享一些通用指标：
准确率的计算方法是正确预测数除以预测总数。这个百分比是一个非常常见的指标。
模型精度和模型性能常被混为一谈，但模型精度只是模型性能的一个方面。虽然它们相互交织，但仅靠准确的预测无法提供模型性能的整体视图。
召回率量化了真正的数量 - 即实际正确的预测数。它也被称为灵敏度率或真阳性率 (TPR)。
这一指标在医疗保健领域至关重要，例如在诊断疾病或检测癌症时。高召回率的 ML 模型能够正确识别阳性病例，同时最大限度地减少假阴性（即实际阳性但误测为阴性的病例）
准确率是指所有被预测为阳性的样本中实际也阳性的比例。高精度的机器学习模型可以最大限度地减少假阳性（即实际为阴性但被误测为阳性的病例）。
该指标在金融领域至关重要，例如在检测欺诈时。被标记的交易必须确实是欺诈性交易（真阳性），因为将合法交易误标为欺诈（假阳性）可能会产生负面后果。
F1 分数是召回率和精确度的调和平均值，将这两个指标融合至一个指标。它将这两个指标视为同等重要，以平衡假阳性或假阴性。它对于不平衡的数据尤其有用，例如在检测罕见疾病时，因为阴性病例的数量远超阳性病例。
很多 AI 框架（例如基于 Python 的 PyTorch、scikit-learn 和 TensorFlow）均提供了用于计算准确性、召回率、精确率和 F1 分数的内置函数。它们还将模型预测可视化为混淆矩阵，即表示预测值和实际值的表格，其中方框分别表示真阳性、假阳性、真阴性和假阴性的数量。
分类模型将数据点分类到称为类的预定义组中。以下是一些特定于分类模型的指标：
回归模型用于涉及连续值的预测，例如零售额估计和股票价格预测。基于这些算法处理可量化的概念，其指标衡量预测中的误差：
平均绝对误差 (MAE) 的计算方法是所有误差绝对值之和除以样本量。它衡量预测值和实际值之间的平均绝对差。
均方误差 (MSE) 的计算方法是所有训练样本中预测值与真实值之间的平方差的平均值。对误差进行平方可以惩罚大的错误，并激励模型减少这些错误。
均方根误差 (RMSE) 是 MSE 的平方根。在求平均误差之前对误差进行平方，会更严厉地惩罚较大错误，从而再次鼓励模型将其最小化。
这些指标评估自然语言处理 (NLP)模型的性能。它们也被用作大型语言模型 (LLM) 的基准。
以下是一些 NLP 模型的定量指标：
复杂度可衡量模型的预测能力。LLM 的复杂度分数越低，它理解任务的能力就越好。
双语评估辅助研究 (BLEU) 通过计算 LLM 的预测翻译和人工翻译之间匹配的 n 元语法（由 n 个相邻的文本符号组成的序列）来评估机器翻译。
以回忆为导向的摘要评估 (ROUGE) 可文本摘要进行评估，并有多种类型。例如，ROUGE-N 执行与 BLEU 类似的摘要计算，而 ROUGE-L 则计算预测摘要和人工生成摘要之间的最长公共子序列。
定性指标则包含连贯性、相关性和语义含义等指标，通常由人类评估人员对模型进行检查和评分。定量和定性指标的平衡可以进行更细致的评估。
大多数优化机器学习性能的技术，都是在模型开发、训练和评估过程中实施的。但是，一旦模型部署到现实世界中，就必须持续追踪其性能。模型监测能力为如何逐步提升性能提供了决策依据。
优化 ML 模型性能需要采用以下一种或多种技术：
许多 AI 框架都预置了支持上述大部分技术的功能。
谨慎处理数据是防止数据泄露的关键。必须将数据正确地划分为训练集、验证集和测试集，并为每个集单独进行预处理。
交叉验证也有所帮助。交叉验证将数据划分成多个子集，并在规定次数的迭代中，使用不同的子集进行训练和验证。
功能选择可能具有挑战性，需要领域专业知识才能确定最基本、最具影响力的功能。了解每个功能的重要性，并检查功能与目标变量（即模型负责预测的因变量）之间的相关性，这一点非常重要。
监督学习的功能选择方法包括包裹式方法和嵌入式方法。包裹式方法使用不同的功能子集来训练机器学习算法，在每次迭代中添加或删除特征并测试结果，以确定能够实现最佳模型性能的功能集。嵌入式方法将功能选择集成到模型训练中，识别出表现不佳的功能，并将其从未来的迭代中剔除。
通过无监督学习，模型可自行找出数据功能、模式和关系。无监督学习的功能选择方法包括主组件析 (PCA)、独立组件分析 (ICA) 和自动编码器。
集成学习结合多种模型以提升预测性能，其假设模型的集合或集成能够比单个模型产生更好的预测。
以下是一些热门的集成学习技术：
Bagging，也称为引导聚合，以并行且彼此独立的方式进行模型训练。然后，它通过对预测结果取平均值（用于回归任务）或取多数值（用于分类问题），来计算出更准确的估计值。
Boosting 按顺序训练模型，并在每次迭代中纠正先前的错误。它会在后续模型中赋予错误或错误分类实例更大的权重，从而聚焦于具挑战性的数据点，并在此过程中提升性能。
Stacking 使用相同的数据集训练多个模型，但对每个模型应用不同的训练算法。然后，它使用已编译或堆栈的预测来训练最终模型。
迁移学习利用预训练模型在初始任务或数据集上获得的知识，并将其应用于新的但相关的目标任务或数据集。将预训练模型重新用于不同的任务，能够提升该模型的泛化能力，从而有助于优化性能。
管理过度拟合和欠拟合是机器学习的一个核心挑战。最佳拟合模型可以准确识别数据中的模式，而不会对随机波动或噪声过于敏感。
避免过拟合和欠拟合的技术包括：找到合适的训练时长，以给模型足够的学习时间；通过数据增强来扩展训练集；以及通过正则化对具有较大系数的输入参数施加惩罚，以减少模型的方差。
漂移检测是模型监控和可观察性的核心方面，可以帮助防止模型漂移。例如，AI 漂移检测器会自动识别模型的精度何时下降或漂移到预定义的阈值以下，而监控工具会持续观察漂移情况。
一旦检测到漂移，就可以实时更新 ML 模型，或使用包含更新、更相关样本的新数据集进行重新训练。
减轻 AI 偏见始于人工智能治理，其涵盖护栏、流程和标准，以帮助确保 AI 系统和工具合乎道德且安全。以下是一些可以防止偏见的负责任的 AI 实践：
