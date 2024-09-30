当使用训练数据集之外的数据构建模型，而这些未来数据在模型用于预测时不可用时，就会发生数据泄露。该模型在测试和验证阶段表现良好，但在生产环境中会变得完全不准确。

泄漏分为两种类型：目标泄漏和训练与测试污染。

目标泄漏：模型包含了在用于预测时无法获取的数据。

使用真实世界预测中不可用的信息会导致过拟合，即模型在训练和验证数据上表现异常出色，但在生产环境中表现糟糕。

训练与测试污染：当训练数据和验证数据都用于创建模型时，通常是由于分割或预处理不当造成的。