업계 뉴스레터
전문가가 전하는 최신 AI 트렌드
가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.
구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
데이터 증강은 기존 데이터를 사용하여 모델 최적화 및 일반화를 개선할 수 있는 새 데이터 샘플을 생성하는 것입니다.
가장 일반적인 의미에서 데이터 증강은 데이터 세트의 분석 가능성을 높이기 위해 누락된 데이터 포인트를 제공하여 소위 불완전한 데이터 세트를 보완하는 방법을 의미합니다.1 이는 머신 러닝에서 기존 데이터의 수정된 복사본을 생성하여 데이터 세트의 크기와 다양성을 증가시키는 방식으로 나타납니다. 따라서 머신 러닝과 관련해 증강 데이터는 잠재적으로 부재하는 실제 데이터를 인위적으로 공급하는 것으로 이해할 수 있습니다.
데이터 증강은 머신 러닝 모델 최적화 및 일반화를 개선합니다. 즉, 데이터 증강을 통해 과적합을 줄이고 모델 견고성을 향상할 수 있습니다.2 크고 다양한 데이터 세트가 모델 성능을 향상한다는 것은 머신 러닝의 기본 원칙입니다. 그러나 윤리 및 개인정보 보호 문제부터, 필요한 데이터를 수동으로 수집하는 데 시간이 많이 걸린다는 점까지 여러 가지 이유로 데이터를 충분히 확보하기가 어려울 수 있습니다. 데이터 증강은 데이터 세트의 크기와 가변성을 증가시키는 효과적인 수단 중 하나입니다. 실제로 연구자들은 불균형한 데이터 세트를 수정하기 위해 데이터 증강을 널리 사용하고 있습니다.3
PyTorch, Keras, Tensorflow와 같은 많은 딥 러닝 프레임워크는 주로 이미지 데이터 세트와 같은 데이터를 증강하는 기능을 제공합니다. Python 패키지 Ablumentations(Github에서 사용 가능)는 많은 오픈 소스 프로젝트에서도 채택되고 있습니다. Albumentations를 사용하면 이미지 및 텍스트 데이터를 보강할 수 있습니다.
업계 뉴스레터
가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.
구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
데이터 증강 방법에는 여러 가지가 있습니다. 데이터 증강에 사용되는 구체적인 기술은 사용자가 작업하는 데이터의 특성에 따라 달라집니다. 데이터 증강은 일반적으로 학습 데이터 세트의 전처리 과정에서 구현됩니다. 검증 또는 테스트 세트에 대한 증강의 효과를 조사하는 연구도 있지만, 학습 세트 외부에서 증강을 적용한 사례는 드뭅니다.4
데이터 증강은 이미지 분류부터 물체 감지에 이르기까지 다양한 컴퓨팅 비전 작업에 대한 연구에서 널리 구현되었습니다. 따라서 증강 이미지가 이미지 처리에서 최첨단 컨볼루션 신경망(CNN)의 성능을 개선하는 방법에 대한 연구가 많이 이루어지고 있습니다.
많은 튜토리얼과 비학술 자료에서는 이미지 데이터 증강을 기하학적 변환과 광도(또는 색공간) 변환의 두 가지 범주로 분류합니다. 두 가지 모두 비교적 간단한 이미지 파일 조작으로 구성됩니다. 기하학적 변환은 크기 조정, 확대/축소 또는 방향 변경(예: 가로로 눕히기)과 같이 원본 이미지의 공간과 레이아웃을 변경하는 기술을 포함합니다. 광도 변환은 이미지의 RGB(빨강-녹색-파랑) 채널을 변경합니다. 광도 변환의 예로는 채도 조정과 이미지 회색조 조정이 있습니다.5
일부 자료에서는 노이즈 삽입을 기하학적 변환으로 분류하는 반면,6 광도 변환으로 분류하는 자료도 있습니다.7 노이즈 삽입은 가우스 분포에 따라 이미지에 임의의 검정, 흰색 또는 컬러 픽셀을 삽입하는 것입니다.
노이즈 주입에서 알 수 있듯이, 이미지 증강 기술을 기하학적 변환 및 광도 변환으로 이분법적으로 분류하는 것은 가능한 모든 범위의 증강 전략을 다루지 못합니다. 다뤄지지 않는 이미지 증강 기술은 커널 필터링(이미지를 선명하게 하거나 흐리게 하는 것) 및 이미지 혼합입니다. 이미지 혼합의 예로는 무작위 자르기 및 패치가 있습니다. 이 기술은 여러 이미지에서 무작위로 섹션을 샘플링하여 새 이미지를 생성합니다. 이 새 이미지는 입력 이미지의 샘플링된 섹션으로 만든 합성 이미지입니다. 이와 관련 기술로 이미지에서 무작위 부분을 지우는 무작위 삭제가 있습니다.8 실제 사용 사례에서는 기계가 부분적으로 가려진 물체를 식별해야 할 수 있으므로 이미지 인식 작업에서 유용한 기술입니다.
또 다른 증강으로는 인스턴스 수준 증강이 있습니다. 인스턴스 수준 증강은 기본적으로 한 이미지에서 레이블이 지정된 영역(예: 경계 상자)을 복사하여 다른 이미지에 삽입하는 것입니다. 이러한 접근 방식은 이미지를 학습하여 다른 배경에 있는 물체를 식별하거나 다른 물체에 가려진 물체를 식별합니다. 인스턴스 수준 증강은 물체 감지 및 이미지 세분화 작업과 같은 영역별 인식 작업에서 특히 두드러지는 접근 방식입니다.9
이미지 증강과 마찬가지로 텍스트 데이터 증강은 다양한 자연어 처리(NLP) 작업에서 사용되는 여러 기술과 방법으로 구성되어 있습니다. 몇 가지 리소스에서는 텍스트 증강을 규칙 기반(또는 '쉬운') 방법과 신경망 방법으로 구분합니다. 이미지 증강 기술을 이분법적으로 구분할 때와 마찬가지로 이 분류가 모든 기술을 포괄하는 것은 아닙니다.
규칙 기반 접근 방식에는 무작위 삭제 또는 삽입과 같은 비교적 간단한 찾기 및 바꾸기 기술이 포함됩니다. 동의어 교체도 규칙 기반 접근 방식에 포함됩니다. 이 전략에서는 문자열에 있는 하나 이상의 단어가 WordNet 또는 Paraphrase Database와 같은 사전 정의된 동의서 사전에 기록된 다른 동의어로 대체됩니다. 목적어와 주어가 바뀌는 문장 반전과 수동화도 규칙 기반 접근 방식의 예입니다.10
위의 분류에 따르면, 신경망 방식은 신경망을 활용헤 입력 데이터에서 새로운 텍스트 샘플을 생성합니다. 주목할 만한 신경망 방법 중 하나는 역번역입니다. 기계 번역을 사용해 입력 데이터를 대상 언어로 번역한 후 다시 원래 입력 언어로 번역하는 것입니다. 역번역은 이러한 방식으로 언어적 차이를 활용하여 자동 번역을 수행함으로써 증강을 목적으로 단일 언어 데이터 세트에 의미적 차이를 생성합니다. 연구에 따르면 이는 기계 번역 모델 성능을 개선하는 데 효과적입니다.11
혼합 텍스트 증강도 또 다른 전략입니다. 이 접근 방식은 신경망 임베딩을 사용하여 규칙 기반 삭제 및 삽입 방법을 배포합니다. 특히 사전 학습된 트랜스포머(예: BERT)는 단어 주머니 모델처럼 텍스트를 벡터 포인트로 변환하여 단어 또는 문장 수준의 텍스트 임베딩을 생성합니다. 텍스트를 벡터 포인트로 변환하는 것은 일반적으로 언어적 유사성, 즉 벡터 공간에서 서로 가까운 단어나 문장이 비슷한 의미나 빈도를 공유하는 것으로 간주되는 언어적 유사성을 포착하는 것을 목표로 합니다. 혼합 증강은 특정 거리 내에서 텍스트 문자열을 보간하여 입력 데이터의 집합을 생성하는 새 데이터를 생성합니다.12
많은 사용자가 어떤 데이터 증강 전략을 구현해야 하는지 파악하는 데 어려움을 겪습니다. 데이터 증강 기법은 데이터 세트와 작업에 따라 효율성이 달라지나요? 데이터 증강 기법에 대한 비교 연구에 따르면 여러 형태의 증강이 한 가지 형태보다 더 긍정적인 영향을 미치지만, 최적의 기법 조합을 결정하는 것은 데이터 세트와 작업에 따라 달라집니다.13 그렇다면 최적의 기법을 선택하려면 어떻게 해야 할까요?
이 문제를 해결하기 위해 자동화된 데이터 증강에 대한 연구가 진행되었습니다. 자동화된 증강 접근 방식 중 하나는 강화 학습을 사용하여 주어진 데이터 세트에서 가장 높은 검증 정확도를 반환하는 증강 기술을 식별하는 것입니다.14 이 접근 방식은 샘플 데이터 내부와 외부 모두에서 성능을 개선하는 전략을 구현하는 것으로 나타났습니다.15 자동화된 증강에 대한 또 다른 유망한 접근 방식은 분류기 출력에서 거짓 양성을 식별하여 증강하는 것입니다. 이런 방식으로 자동 증강은 잘못 분류되는 경우가 많은 항목을 수정하기 위한 최상의 전략을 식별합니다.16
최근에는 작업 의존적17 및 클래스 의존적18 최적 증강 전략을 식별하기 위해 생성형 네트워크와 모델을 사용하는 연구가 진행되고 있습니다. 생성적 적대적 네트워크(GAN) 작업이 여기에 포함됩니다. GAN은 일반적으로 합성 데이터를 생성하는 데 사용되는 딥 러닝 네트워크로, 최근 연구에서는 GAN을 데이터 증강에 사용하는 방법을 조사했습니다. 예를 들어, 몇 가지 실험에 따르면 의료 영상 세트의 합성 데이터 증강은 기존 증강보다 분류19 및 세분화20 모델 성능을 더 향상합니다. 이와 관련하여 텍스트 증강에 대한 연구는 대규모 언어 모델(LLM)과 챗봇을 활용해 증강 데이터를 생성합니다. 이 실험에서는 LLM을 사용하여 혼합 및 동의어 기법으로 입력 데이터의 증강 샘플을 생성하여 기존 증강보다 텍스트 분류 모델에 더 큰 긍정적인 영향을 미치는 것으로 나타났습니다.21
연구자와 개발자는 다양한 머신 러닝 작업을 위한 모델을 학습시킬 때 데이터 증강 기술을 널리 채택합니다. 이와 대조적으로 합성 데이터는 비교적 새로운 연구 영역입니다. 합성 데이터와 실제 데이터를 비교 실험한 결과, 합성 데이터로만 학습된 모델이 실제 데이터로 학습된 모델보다 성능이 뛰어난 경우도 있고, 성능이 떨어지는 경우도 있는 등 다양한 결과가 나타났습니다. 당연히 이 연구는 합성 데이터가 실제 데이터의 특성을 반영할 때 가장 유용하다는 것을 보여줍니다.22
AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.
업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.
AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.
모든 링크는 ibm.com 외부에 있습니다.
f Martin Tanner and Wing Hung Wong, 'The Calculation of Posterior Distributions by Data Augmentation', Journal of the American Statistical Association, Vol.82, No. 398(1987년), pp.528-540.
2 Sylvestre-Alvise Rebuffi, Sven Gowal, Dan Andrei Calian, Florian Stimberg, Olivia Wiles 및 Timothy A Mann, “Data Augmentation Can Improve Robustness,” Advances in Neural Information Processing Systems, Vol. 34, 2021년.
3 Manisha Saini 및 Seba Susan, “Tackling class imbalance in computer vision: A contemporary review,” Artificial Intelligence Review, Vol. 54, 2023년.
4 Fabio Perez, Cristina Vasconcelos, Sandra Avila 및 Eduardo Valle, “Data Augmentation for Skin Lesion Analysis,” OR 2.0 Context-Aware Operating Theaters, Computer Assisted Robotic Endoscopy, Clinical Image-Based Procedures, and Skin Image Analysis, 2018년.
5 Connor Shorten 및 Taghi M. Khoshgoftaa, “A survey on Image Data Augmentation for Deep Learning,” Journal of Big Data, 2019년.
6 Duc Haba, Data Augmentation with Python, Packt Publishing, 2023년.
7 Mingle Xu, Sook Yoon, Alvaro Fuentes 및 Dong Sun Park, “A Comprehensive Survey of Image Augmentation Techniques for Deep Learning,” Patter Recognition, Vol. 137.
8 Connor Shorten 및 Taghi M. Khoshgoftaa, “A survey on Image Data Augmentation for Deep Learning,” Journal of Big Data, 2019년, . Terrance DeVries 및 Graham W. Taylor, “Improved Regularization of Convolutional Neural Networks with Cutout,” 2017년.
9 Zhiqiang Shen, Mingyang Huang, Jianping Shi, Xiangyang Xue 및 Thomas S. Huang, “Towards Instance-Level Image-To-Image Translation,” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019년, pp. 3683-3692, . Golnaz Ghiasi, Yin Cui, Aravind Srinivas, Rui Qian, Tsung-Yi Lin, Ekin D. Cubuk, Quoc V. Le 및 Barret Zoph, “Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation,” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021년, pp. 2918-2928.
10 Connor Shorten, Taghi M. Khoshgoftaar 및 Borko Furht, “Text Data Augmentation for Deep Learning,” Journal of Big Data, 2021년, . Junghyun Min, R. Thomas McCoy, Dipanjan Das, Emily Pitler 및 Tal Linzen, “Syntactic Data Augmentation Increases Robustness to Inference Heuristics,” Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020년, pp. 2339-2352.
11 Connor Shorten, Taghi M. Khoshgoftaar 및 Borko Furht, “Text Data Augmentation for Deep Learning,” Journal of Big Data, 2021년, . Rico Sennrich, Barry Haddow 및 Alexandra Birch, “Improving Neural Machine Translation Models with Monolingual Data,” Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, 2016년, pp. 86-96.
12 Connor Shorten, Taghi M. Khoshgoftaar 및 Borko Furht, “Text Data Augmentation for Deep Learning,” Journal of Big Data, 2021년. Lichao Sun, Congying Xia, Wenpeng Yin, Tingting Liang, Philip Yu 및 Lifang He, “Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks,” Proceedings of the 28th International Conference on Computational Linguistics, 2020년. Hongyu Guo, Yongyi Mao 및 Richong Zhang, “Augmenting Data with Mixup for Sentence Classification: An Empirical Study,” 2019년.
13 Suorong Yang, Weikang Xiao, Mengchen Zhang, Suhan Guo, Jian Zhao 및 Furao Shen, “Image Data Augmentation for Deep Learning: A Survey,” 2023년. Alhassan Mumuni 및 Fuseini Mumuni, “Data augmentation: A comprehensive survey of modern approaches,” Array, Vol. 16, 2022년. Evgin Goveri, “Medical image data augmentation: techniques, comparisons and interpretations,” Artificial Intelligence Review, Vol. 56, 2023년, pp. 12561-12605.
14 Ekin D. Cubuk, Barret Zoph, Dandelion Mane, Vijay Vasudevan 및 Quoc V. Le, “AutoAugment: Learning Augmentation Strategies From Data,” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019년, pp. 113-123.
15 Barret Zoph, Ekin D. Cubuk, Golnaz Ghiasi, Tsung-Yi Lin, Jonathon Shlens 및 Quoc V. Le, “Learning Data Augmentation Strategies for Object Detection,” Proceedings of the 16th European Conference on Computer Vision, 2020년.
16 Sandareka Wickramanayake, Wynne Hsu 및 Mong Li Lee, “Explanation-based Data Augmentation for Image Classification,” Advances in Neural Information Processing Systems, Vol. 34, 2021년.
17 rishna Chaitanya, Neerav Karani, Christian F. Baumgartner, Anton Becker, Olivio Donati 및 Ender Konukoglu, “Semi-supervised and Task-Driven Data Augmentation,” Proceedings of the 26th International Conference on Information Processing in Medical Imaging, 2019년.
18 Cédric Rommel, Thomas Moreau, Joseph Paillard 및 Alexandre Gramfort, “ADDA: Class-wise Automatic Differentiable Data Augmentation for EEG Signals,” International Conference on Learning Representations, 2022년.
19 Maayan Frid-Adar, Idit Diamant, Eyal Klang, Michal Amitai, Jacob Goldberger 및 Hayit Greenspan, “GAN-based synthetic medical image augmentation for increased CNN performance in liver lesion classification,” Neurocomputing, 2018년, pp. 321-331.
20 Veit Sandfort, Ke Yan, Perry Pickhardt 및 Ronald Summers, “Data augmentation using generative adversarial networks (CycleGAN) to improve generalizability in CT segmentation tasks,” Scientific Reports, 2019년.
21 Kang Min Yoo, Dongju Park, Jaewook Kang, Sang-Woo Lee 및 Woomyoung Park, “GPT3Mix: Leveraging Large-scale Language Models for Text Augmentation,” Findings of the Association for Computational Linguistics: EMNLP 2021년, pp. 2225-2239. Haixing Dai, Zhengliang Liu, Wenxiong Liao, Xiaoke Huang, Yihan Cao, Zihao Wu, Lin Zhao, Shaochen Xu, Wei Liu, Ninghao Liu, Sheng Li, Dajiang Zhu, Hongmin Cai, Lichao Sun, Quanzheng Li, Dinggang Shen, Tianming Liu 및 Xiang Li, “AugGPT: Leveraging ChatGPT for Text Data Augmentation,” 2023년.
22 Bram Vanherle, Steven Moonen, Frank Van Reeth 및 Nick Michiels, “Analysis of Training Object Detection Models with Synthetic Data,” 33rd British Machine Vision Conference, 2022년. Martin Georg Ljungqvist, Otto Nordander, Markus Skans, Arvid Mildner, Tony Liu 및 Pierre Nugues, “Object Detector Differences When Using Synthetic and Real Training Data,” SN Computer Science, Vol. 4, 2023년. Lei Kang, Marcal Rusinol, Alicia Fornes, Pau Riba 및 Mauricio Villegas, “Unsupervised Writer Adaptation for Synthetic-to-Real Handwritten Word Recognition,” Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2020년, pp. 3502-3511.