다운샘플링이란 무엇인가요?

작성자

Jacob Murel Ph.D.

Senior Technical Content Creator

다운샘플링이란 무엇인가요?

다운샘플링은 데이터 세트의 데이터 샘플 수를 줄여서 불균형한 데이터를 수정하고 모델 성능을 개선하는 것을 목표로 합니다.

다운샘플링은 소수 클래스의 크기와 일치하도록 다수 클래스에서 데이터를 제거하여 데이터 세트의 불균형을 해결하는 일반적인 데이터 처리 기술입니다. 이는 소수 클래스 포인트를 리샘플링하는 업샘플링과 대조됩니다. Python scikit-learn과 Matlab에는 모두 다운샘플링 기술을 구현하기 위한 함수가 내장되어 있습니다.

데이터 과학에서의 다운샘플링은 디지털 신호 처리(DSP)에서의 다운샘플링과 혼동되는 경우가 많습니다. 이 둘은 개념이 비슷합니다. 디지털 신호 처리를 위한 다운샘플링(데시메이션이라고도 함)은 샘플러의 대역폭과 샘플링 속도를 줄여 원본 신호에서 원본 데이터의 일부를 제거하는 프로세스입니다. 샘플링 주파수를 낮추는 프로세스는 종종 샘플링 속도를 일부 정수 계수만큼 낮추어 n번째 샘플 중 하나만 유지함으로써 수행됩니다. 이는 안티앨리어싱 필터라고도 하는 저역 통과 필터를 사용하여 이산 시간 신호의 고주파/노이즈 성분을 앞서 언급한 정수 계수만큼 감소시킴으로써 이루어집니다.

데이터 밸런싱을 위한 다운샘플링은 이미지 처리를 위한 다운샘플링과 혼동될 수도 있습니다. 데이터에 많은 특징이 포함된 경우(고해상도 MRI 영상 등) 연산 비용이 높아질 수 있습니다. 이때 따라서 이미지 처리에서 다운샘플링을 하면 컨볼루션을 통해 각 데이터 포인트의 차원이 줄어듭니다. 이것은 데이터 세트의 균형을 맞추는 것과는 다른, 이후 데이터 원본을 다시 가져오려면 보간을 해야 하는 최적화 기술입니다.

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

감사합니다! 구독이 완료되었습니다.

구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.

왜 다운샘플링을 사용하나요?

다운샘플링은 데이터 세트 내의 불균형을 해소하는 효과적인 방법입니다. 불균형한 데이터 세트란, 데이터 세트에서 한 클래스가 실제 모집단에 비해 지나치게 과소 대표되어 의도치 않은 편향을 생성하는 상태를 뜻합니다. 예를 들어 어떤 모델에 이미지 분류 훈련을 시키면서 고양이나 개를 보여주며 이 훈련에 사용되는 데이터 세트는 고양이 90%와 개 10%로 구성된다고 합시다. 그러면 고양이는 과대 대표되며, 매번 고양이를 예측하는 분류자가 있는 경우 고양이를 분류하는 정확도는 90%이지만 개를 분류하는 정확도는 0%입니다. 이 경우 불균형한 데이터 세트로 인해 분류자의 다수 클래스에 대한 정확도가 높아지고, 대신 소수 클래스가 희생됩니다. 다중 클래스 데이터 세트에서도 동일한 문제가 발생할 수 있습니다.1

다운샘플링 과정에서 데이터 세트 불균형으로 인한 문제가 상쇄됩니다. 지정된 기준에 따라 제거할 다수 클래스 포인트를 식별합니다. 이러한 기준은 선택한 다운샘플링 기술에 따라 변경될 수 있습니다. 과대 대표된 다수 클래스의 샘플 수를 효과적으로 줄여 모든 클래스에 걸쳐 포인트의 비율이 동일해지도록 데이터 세트의 균형을 찾습니다.

각 클래스의 데이터 포인트 수를 단순히 그래프로 나타내서 불균형을 볼 수도 있지만, 이렇게 해서는 모델에 큰 영향을 미치는지 파악할 수 없습니다. 하지만 성능 지표를 사용하면 다운샘플링 기술이 클래스 불균형을 얼마나 잘 보정하는지 측정할 수 있습니다. 이러한 지표의 대부분은 이진 분류를 위한 것이며 클래스가 두 개뿐입니다(양성 클래스와 음성 클래스). 일반적으로 양성 클래스는 소수 클래스, 음성 클래스는 다수 클래스입니다. 널리 사용되는 지표로는 ROC(수신자 조작 특성, Receiver Operating Characteristic) 곡선과 정밀도 재현율 곡선이 있습니다.1

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

다운샘플링의 장단점

장점

  • 스토리지 요구 사항 감소: 클라우드 스토리지와 같이 스토리지 비용이 많이 드는 경우, 비용 증가를 피하기 위해 업샘플링보다 다운샘플링이 선호됩니다.2
  • 훈련 속도 향상: 다운샘플링은 데이터 세트를 줄이고 CPU 또는 GPU에 대한 훈련 집약도를 줄여 경제적이고 친환경적입니다.
  • 과적합 경향 감소: 업샘플링은 과거 데이터에서 새 데이터를 생성하기 때문에, 모델이 주어진 데이터에 과적합될 수 있습니다. 다운샘플링은 이와 반대로 데이터를 삭제하기 때문에 과적합 문제가 생기지 않습니다.2

단점

  • 정보 손실: 다수 클래스에서 포인트를 삭제하면 중요한 정보가 손실될 수 있습니다. 이는 다수 클래스의 분류가 정확해야 하는 경우 문제가 될 수 있습니다. 데이터 세트가 너무 작아져 모델이 학습하기 어려운 경우에도 문제가 될 수 있습니다.2
  • 편향 도입: 나머지 대다수 클래스 샘플 포인트는 원본 데이터의 편향된 세트일 수 있으며, 이는 분류기의 성능에 부정적인 영향을 미칩니다.

다운샘플링 기법

무작위 다운샘플링

무작위 다운샘플링은 다수 클래스의 무작위 포인트를 교체 없이 선택하고 다수 클래스 크기가 소수 클래스 크기와 같아질 때까지 데이터 세트에서 삭제하는 삭제 기술입니다. 이는 균형을 맞추기 위해 데이터의 하위 세트를 무작위로 삭제할 수 있는 간편한 방법입니다. 그러나 이 기술을 사용하면 다수 클래스의 중요한 패턴이나 분포가 사라져 분류기 성능에 부정적인 영향을 미칠 수 있습니다.2

니어 미스 다운샘플링

니어 미스(Near Miss) 다운샘플링은 특정 다수 클래스 예제를 무작위로 제거하여 클래스 분포의 균형을 맞추는 것을 목표로 하는 기법입니다.

개념적으로 니어 미스는 다수 클래스와 소수 클래스가 매우 가까운 장소에 데이터를 보관해야 한다는 원칙에 따라 작동합니다. 이러한 장소는 두 클래스를 구별하는 데 중요한 정보를 제공하기 때문입니다.3 이러한 포인트는 일반적으로 학습하기 "어려운" 데이터 포인트로 알려져 있습니다. 니어 미스 다운샘플링은 일반적으로 다음과 같은 두 단계로 작동합니다.

  • 1단계: 모든 다수-소수 클래스 인스턴스 간의 쌍별 거리를 계산합니다.
  • 2단계: 계산된 거리에 따라 소수 포인트에서 더 멀리 떨어져 있는 다수 클래스 인스턴스를 제거합니다.

니어 미스 알고리즘에는 제거할 다수 클래스 인스턴스를 선택하는 보다 확실한 방법을 제공하는 세 가지 변형이 있습니다.

  • 버전 1: 가장 가까운 소수 클래스 인스턴스 N개와의 평균 거리가 가장 작은 다수 클래스 인스턴스를 유지합니다. 결과 데이터가 불균등하게 분포될 수 있습니다. 일부 다수 클래스 포인트는 많은 소수 클래스 포인트에 가깝고, 다른 클래스 포인트는 극소수에 가까워 정밀도와 재현율이 모두 낮아질 수 있습니다.4
다운샘플링 다이어그램 - 니어 미스 1
  • 버전 2: 가장 먼 소수 클래스 인스턴스 N개와의 평균 거리가 가장 작은 다수 클래스 인스턴스를 유지합니다. 버전 1과 달리 버전 2는 다수 클래스의 분포가 더 균일해져 분류기에서 더 나은 결과를 얻을 수 있습니다.4
다운샘플링 다이어그램 - 니어 미스 2
  • 버전 3: 다수 클래스에 가장 가까운 소수 클래스 인스턴스에 대해 가장 가까운 다수 클래스 샘플을 유지합니다. 두 단계로 작동합니다. 먼저, 각 소수 클래스 인스턴스의 가장 가까운 다수 클래스 이웃 M개를 유지합니다. 그런 다음 나머지 다수 클래스 인스턴스 중에서 평균 거리가 가장 큰 인스턴스를 식별하여 유지합니다. 이 버전은 다수의 소수 클래스 인스턴스와 가까운 다수 클래스 인스턴스를 유지하므로 정밀도는 높지만 재현율은 낮을 수 있습니다.4
다운샘플링 다이어그램 - 니어 미스 3

압축된 최근접 이웃 규칙 다운샘플링

압축된 최근접 이웃(CNN: Condensed Nearest Neighbors, Convolutional Neural Networks와 혼동 주의)은 모델 성능의 손실 없이 학습에 사용할 수 있는 데이터 세트의 하위 세트를 찾으려고 합니다. 이는 전체 데이터 세트를 올바르게 예측하는 모델을 학습시키는 데 사용할 수 있는 데이터의 하위 세트를 식별하여 달성됩니다.

CNN 다운샘플링은 다음 단계로 나눌 수 있습니다.5

  1. 소수 클래스의 모든 인스턴스와 다수 클래스의 무작위 샘플링 단일 인스턴스를 포함하는 새 데이터 세트 S를 만듭니다.
  2. 새 데이터 세트 S에 대해 1-NN 분류기를 학습시킵니다.
  3. S에 없는 모든 다수 클래스 데이터 포인트에 대해 1-NN 분류기를 사용하여 레이블을 예측합니다. 1-NN 분류기가 레이블을 정확하게 예측하는 경우 포인트를 삭제합니다. 그렇지 않으면 S에 추가합니다.

니어 미스와 마찬가지로, 이 프로세스는 기본적으로 분류하기 쉬운 지점인 결정 경계에서 멀리 떨어진 다수 클래스 인스턴스를 모두 제거합니다. 또한 원본 데이터 세트의 모든 데이터를 S 내의 데이터만으로 정확하게 예측할 수 있으므로 의사 결정 경계를 합리적으로 잘 유지하면서 데이터 세트를 크게 축소할 수 있습니다.

소수 클래스 이웃이 있는 다수 클래스 샘플, 소수 클래스 샘플 및 다수 클래스 샘플의 3개 그래픽이 있는 다이어그램입니다.

이 이미지는 1개의 최근접 이웃과 21개의 최근접 이웃을 사용하여 압축된 최근접 이웃을 두 개의 데이터 세트에 적용하는 예를 보여줍니다. 위쪽 두 이미지는 압축된 최근접 이웃을 적용하기 전이고 아래쪽 두 이미지는 적용된 후입니다. 보시다시피, 결정 경계는 상당히 잘 보존되어 있습니다.

토멕 링크(Tomek Link)

토멕 링크(Tomek Link) 다운샘플링의 전제는 결정 경계 근처의 포인트를 제거하고 클래스 분리를 증가시켜 데이터의 노이즈를 줄이는 것입니다. 작동 원리는 "토멕 링크"를 식별하는 것입니다. 이는 서로 다른 클래스에 속한 두 포인트를 그룹화하며 어느 하나와 더 가까운 세 번째 포인트가 없는 경우를 말합니다.2

모든 토멕 링크의 경우 다수 클래스 내의 포인트가 삭제됩니다. 소수 클래스 포인트에 가까운 다수 클래스 포인트를 제거하면 클래스 분리가 증가합니다. 이 방법의 한 가지 단점은 다수 클래스 포인트와 소수 클래스 포인트 사이의 모든 쌍별 거리를 계산하기 때문에 복잡성이 커진다는 것입니다.2 토멕 링크 다운샘플링은 다른 기법과 함께 사용할 때 가장 효과적입니다.

편집된 최근접 이웃

편집된 최근접 이웃(ENN, Edited Nearest Neighbors) 다운샘플링은 결정 경계 근처의 예시를 제거하여 클래스 분리를 늘리는 것이 목표인 토멕 링크 다운샘플링과 유사합니다. 일반적으로 이 방법은 다수의 이웃과 클래스가 다른 데이터 포인트를 제거합니다.2 즉, 이 프로세스는 최근접 이웃의 다수가 소수 클래스에 속하는 다수 클래스 포인트를 제거하며, 그 반대의 경우도 마찬가지입니다. '최근접 이웃의 다수'에서 다수는 자유롭게 정의할 수 있는데, 적어도 하나의 이웃이 다른 클래스에 속하거나 다른 클래스에 속하는 이웃의 비율이 특정 임계값을 초과하는 것을 의미할 수 있습니다.

ENN 다운샘플링은 일반적으로 아래 그림과 같이 가장 가까운 이웃 3개를 사용하여 수행됩니다.

다운샘플링 다이어그램 - 경계 보존

이는 단일 이웃이 아닌 포인트의 일반적인 이웃을 살펴보기 때문에 더 결이 거친 전략이지만 데이터 내의 노이즈를 제거하는 데 효율적인 방법입니다. ENN 다운샘플링은 다른 기법과 함께 사용할 때 가장 효과적입니다.

최근 연구

현재 다운샘플링의 발전은 딥 러닝 통합을 중심으로 이루어지고 있습니다. 다운샘플링은 신경망을 사용하여 데이터를 다운샘플링하는 이미지 처리 및 의료 데이터와 같은 분야에서 사용되고 있습니다.6 이에 대한 예로 2계층 신경망을 사용하는 SOM-US가 있습니다.7 최근에는 불균형한 데이터의 영향을 완화하기 위해 다운샘플링에도 능동 학습이 적용되고 있습니다.8 실험 결과 이러한 모델이 기존 기법보다 훨씬 더 나은 성능을 발휘하는 것으로 나타났습니다.

현재 다운샘플링에 대한 연구는 다른 기법과 결합하여 하이브리드 기법을 만드는 데 중점을 두고 있습니다. 한 가지 조합은 데이터를 다운샘플링하고 업샘플링하여 두 가지의 장점을 모두 얻는 것입니다. SMOTE+토멕 링크, 응집 계층적 클러스터링(AHC), SPIDER가 그 예입니다.9 알고리즘 수준 기법은 또한 '더 어려운' 데이터 포인트에만 초점을 맞춰 학습하는 하드 예제 마이닝과 같은 기존 다운샘플링 기법의 아이디어도 통합할 수 있습니다.2 이러한 결합은 모두 각 기법을 개별적으로 사용하는 것보다 더 나은 성능을 보여줍니다.

관련 솔루션
IBM watsonx.ai

AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.

watsonx.ai에 대해 알아보기
인공 지능 솔루션

업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.

AI 솔루션 살펴보기
AI 컨설팅 및 서비스

AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.

AI 서비스 살펴보기
다음 단계 안내

AI 개발 라이프사이클 전반에 걸친 기능에 원스톱으로 액세스하세요. 사용자 친화적인 인터페이스, 워크플로, 업계 표준 API 및 SDK에 대한 액세스를 통해 강력한 AI 솔루션을 제작할 수 있습니다.

watsonx.ai 살펴보기 라이브 데모 예약하기
각주

1 Haobo He 및 Edwardo Garcia, Learning from Imbalanced Data, IEEE, 2009년 9월, https://ieeexplore.ieee.org/document/5128907 (ibm.com 외부 링크).

2 Kumar Abhishek 및 Mounir Abdelaziz, Machine Learning for Imbalanced Data, Packt, 2023년 11월

3 Ajinkya More, Survey of resampling techniques for improving classification performance in unbalanced datasets, 2016년 8월 22일, https://arxiv.org/pdf/1608.06048 (ibm.com 외부 링크).

4 Jianping Zhang 및 Inderjeet Mani, kNN Approach to Unbalanced Data Distributions: A Case Study involving Information Extraction, 2003년, https://www.site.uottawa.ca/~nat/Workshop2003/jzhang.pdf (ibm.com 외부 링크).

5 More, Survey of resampling techniques for improving calssification performance in unbalanced datasets, 2016년 8월 22일, https://arxiv.org/pdf/1608.06048 (ibm.com 외부 링크). Alberto Fernandez 외 다수, Learning from Imbalanced Data Sets, Springer, 2018년.

6 Md Adnan Arefeen, Sumaiya Tabassum Nimi 및 M. Sohel Rahman, Neural Network-Based Undersampling Techniques, IEEE, 2020년 9월 2일, https://ieeexplore.ieee.org/abstract/document/9184909?casa_token=RnLRvnqyiF8AAAAA:iyxPWT06HX6a9g8X1nhShrllo_ht9ZM1cqHMWjET5wOopeR5dqizBF29cSSmFMRPo9V1D7XBIwg (ibm.com 외부 링크).

7 Ajay Kumar, SOM-US: A NOVEL UNDER-SAMPLING TECHNIQUE FOR HANDLING CLASS IMBALANCE PROBLEM, HRCAK, 2024년 1월 30일, https://hrcak.srce.hr/clanak/454006 (ibm.com 외부 링크).

8 Wonjae Lee 및 Kangwon Seo, Downsampling for Binary Classification with a Highly Imbalanced Dataset Using Active Learning, Science Direct, 2022년 4월 26일, https://www.sciencedirect.com/science/article/pii/S2214579622000089 (ibm.com 외부 링크).

9 Alberto Fernandez 외 다수, Learning from Imbalanced Data Sets, Springer, 2018년.