데이터 유출은 학습 데이터 세트 외부의 데이터를 사용하여 모델을 생성할 때 발생하지만, 모델이 예측에 사용될 때는 이 미래 데이터를 사용할 수 없습니다. 이 모델은 테스트 및 검증에서 좋은 성능을 보이지만, 프로덕션에서 사용하면 완전히 부정확해집니다.

유출에는 대상 유출과 학습-테스트 오염의 두 가지 유형이 있습니다.

대상 유출: 모델에는 모델을 사용하여 예측할 때 사용할 수 없는 데이터가 포함됩니다.

실제 예측 중에 사용할 수 없는 정보를 사용하면 모델이 훈련 및 검증 데이터에서는 매우 우수한 성능을 보이지만, 프로덕션에서는 성능이 좋지 않은 과적합이 발생합니다.

학습-테스트 오염: 학습 데이터와 검증 데이터가 모두 모델을 생성하는 데 사용되는 경우, 종종 부적절한 분할이나 전처리로 인해 발생합니다.