게시일: 2024년 2월 12일
기고자: Jacob Murel Ph.D., Eda Kavlakoglu
전이 학습은 하나의 머신 러닝 작업 또는 데이터 세트에서 사전 학습된 모델을 사용하여 관련 작업 또는 데이터 세트의 성능과 일반화 가능성을 개선합니다.
전이 학습은 한 작업 또는 데이터 세트를 통해 얻은 지식을 사용하여 다른 관련 작업 및/또는 다른 데이터 세트에서 모델 성능을 개선하는 머신 러닝 기술입니다.1 다시 말해, 전이 학습은 한 환경에서 학습된 내용을 사용하여 다른 환경에서 일반화를 개선하는 것입니다.2 전이 학습은 데이터 과학의 회귀 문제를 해결하는 것부터 딥 러닝 모델을 훈련하는 것까지 다양한 용도로 사용됩니다. 실제로 심층 신경망을 만드는 데 필요한 대량의 데이터를 고려할 때 후자의 경우 특히 매력적입니다.
기존의 학습 프로세스는 사용 가능한 라벨이 지정된 데이터를 기반으로 각각의 새로운 작업에 대해 새로운 모델을 구축합니다. 이는 기존 머신 러닝 알고리즘이 훈련 데이터와 테스트 데이터가 동일한 주요 공간에서 온다고 가정하기 때문입니다. 따라서 데이터 분포가 변경되거나 학습된 모델이 새 데이터 세트에 적용되는 경우 사용자는 첫 번째 모델과 비슷한 작업을 시도하더라도 새로운 모델을 처음부터 다시 훈련해야 합니다(예: 영화 후기와 노래 후기의 감성 분석 분류기 비교). 그러나 전이 학습 알고리즘은 이미 훈련된 모델이나 네트워크를 시작점으로 사용합니다. 그런 다음 초기 소스 작업 또는 데이터(예: 영화 후기 분류)에서 얻은 해당 모델의 지식을 새롭지만 관련된 대상 작업 또는 데이터(예: 노래 후기 분류)에 적용합니다.3
IBM watsonx를 살펴보고 통계 데이터 세트를 사용하여 머신 러닝 모델을 생성하는 방법을 알아보세요.
IBM 뉴스레터 구독하기
- 계산 비용. 전이 학습은 새로운 문제에 대한 모델을 구축하는 데 필요한 계산 비용을 줄여줍니다. 사전 훈련된 모델 또는 사전 훈련된 네트워크를 다른 작업을 처리하도록 용도를 변경함으로써 사용자는 모델 훈련 시간, 훈련 데이터, 프로세서 단위 및 기타 컴퓨팅 리소스의 양을 줄일 수 있습니다. 예를 들어, 원하는 학습률을 달성할 때 더 적은 수의 Epoch(예: 데이터 세트를 통과하는)가 필요할 수 있습니다. 이러한 방식으로 전이 학습은 모델 학습 프로세스를 가속화하고 단순화할 수 있습니다.
- 데이터 세트 크기. 특히 전이 학습은 대규모 데이터 세트를 수집하는 데 따르는 어려움을 완화하는 데 도움이 됩니다. 예를 들어, 대규모 언어 모델(LLM)은 최적의 성능을 얻기 위해 많은 양의 훈련 데이터를 필요로 합니다. 공개적으로 사용 가능한 양질의 데이터 세트는 제한적일 수 있으며, 수동으로 라벨이 지정된 데이터를 충분히 생성하는 데는 시간과 비용이 많이 들 수 있습니다.
- 일반화 가능성. 전이 학습은 모델 최적화에 도움이 되지만 모델의 일반화 가능성을 더욱 높일 수 있습니다. 전이 학습에는 새 데이터 세트로 기존 모델을 재훈련하는 작업이 포함되기 때문에 다시 훈련된 모델은 여러 데이터 세트에서 얻은 지식으로 구성됩니다. 한 가지 유형의 데이터 집합으로만 훈련된 초기 기본 모델보다 더 다양한 데이터에서 더 나은 성능을 발휘할 수 있습니다. 따라서 전이 학습을 통해 과적합을 억제할 수 있습니다.4
물론 한 도메인에서 다른 도메인으로 지식을 이전한다고 해서 품질이 낮은 데이터의 부정적인 영향을 상쇄할 수는 없습니다. 데이터 증강 및 특징 추출과 같은 전처리 기술과 특징 엔지니어링은 전이 학습을 사용할 때 여전히 필요합니다.
전이 학습에 내재된 단점이 있는 경우보다는 잘못된 적용으로 인해 잠재적으로 부정적인 결과가 발생할 수 있는 경우가 더 많습니다. 전이 학습은 다음 세 가지 조건이 충족될 때 가장 효과적입니다.
이러한 조건이 충족되지 않으면 전이 학습이 모델 성능에 부정적인 영향을 미칠 수 있습니다. 문헌에서는 이를 부정적 전이이라고 합니다. 진행 중인 연구는 데이터 세트와 작업이 위의 조건을 충족하는지 여부를 결정하기 위한 다양한 테스트를 제안하기 때문에 부정적 전이가 발생하지 않습니다.5 원거리 전이는 소스 및 대상 데이터 세트의 데이터 분포가 너무 크게 달라서 발생하는 부정적 전이를 수정하기 위해 개발된 방법 중 하나입니다.6
전이 학습을 위한 작업 간의 유사성을 판단하는 널리 사용되는 표준 메트릭은 없습니다. 그러나 소수의 연구에서는 데이터 세트와 머신 러닝 작업 간의 유사성을 예측하는 다양한 평가 방법을 제안하여 전이 학습의 실행 가능성을 제시합니다.7
전이 학습에는 세 가지 비슷한 관행 또는 하위 설정이 있습니다. 서로 간의 구별뿐만 아니라, 보다 광범위하게 전이 학습은 주로 소스 도메인, 대상 도메인, 완료해야 할 작업 간의 관계 변화에서 비롯됩니다.8
- 유도 전이. 대상 도메인과 소스 도메인 간의 차이점이나 유사성에 관계없이 소스 작업과 대상 작업이 다른 경우입니다(예: 데이터 세트). 이는 대규모 데이터 세트에서 기능 추출을 위해 사전 훈련된 아키텍처가 객체 감지와 같은 특정 작업에 대한 추가 훈련을 위해 채택될 때 컴퓨팅 비전 모델에서 나타날 수 있습니다. 동일한 데이터 세트에서 서로 다른 두 가지 작업(예: 이미지 분류 및 객체 감지)을 동시에 학습하는 멀티태스크 학습은 유도 전이의 한 형태로 간주할 수 있습니다.9
- 비지도 학습. 이는 대상 작업과 소스 작업이 다르기 때문에 유도 전이와 유사합니다. 그러나 유도 전이에서는 소스 및/또는 대상 데이터에 라벨이 지정되는 경우가 많습니다. 이름 그대로 비지도 전이 학습은 지도되지 않는 학습입니다. 즉, 수동으로 라벨이 지정된 데이터가 없습니다.10 이에 비해 유도 전이는 지도되는 학습으로 간주할 수 있습니다. 비지도 학습의 일반적인 응용 분야 중 하나는 사기 탐지입니다. 라벨이 지정되지 않은 거래 데이터 세트에서 공통적인 패턴을 식별함으로써, 모델은 비정상적인 행동을 잠재적인 사기로 식별하는 방법을 추가로 학습할 수 있습니다.
- 변환적 전이. 이는 소스 작업과 대상 작업이 동일하지만 데이터 세트(또는 도메인)가 다른 경우에 발생합니다. 좀 더 구체적으로 말하자면, 소스 데이터에는 일반적으로 라벨이 지정되고 대상 데이터에는 라벨이 지정되지 않습니다. 도메인 적응은 하나의 데이터 배포에서 작업을 수행하여 얻은 지식을 다른 데이터 배포의 동일한 작업에 적용하는 것으로, 변환적 전이 학습의 한 형태입니다.11 전이 학습의 예로는 식당 후기를 학습하고 테스트한 텍스트 분류 모델을 영화 후기를 분류하는 데 적용하는 것을 들 수 있습니다.
전이 학습은 미세 조정과 다릅니다. 물론 두 가지 모두 새로운 모델을 학습시키는 것이 아니라 기존의 머신 러닝 모델을 재사용합니다. 그러나 유사점은 대체로 거기서 끝납니다. 미세 조정은 모델이 구축된 초기의 특정 작업에 대한 성능을 개선하기 위해 작업별 데이터 세트에서 모델을 추가로 훈련하는 프로세스를 말합니다. 예를 들어, COCO 또는 ImageNet과 같은 대규모 이미지 세트를 사용하여 범용 객체 감지 모델을 만든 다음, 자동차 감지에 특화된 더 작은 라벨이 지정된 데이터 세트로 결과 모델을 추가로 훈련할 수 있습니다. 이러한 방식으로 사용자는 차량 감지를 위한 물체 감지 모델을 미세 조정합니다. 반면, 전이 학습은 사용자가 동일한 문제가 아닌 새로운 관련 문제에 모델을 적용하는 것을 의미합니다.
실제 머신 러닝과 인공 지능 분야에서 전이 학습은 다양한 용도로 사용됩니다. 개발자와 데이터 과학자는 전이 학습을 사용하여 수많은 작업을 지원하고 강화 학습과 같은 다른 학습 접근 방식과 결합할 수 있습니다.
NLP에서 전이 학습에 영향을 미치는 한 가지 두드러진 문제는 기능 불일치입니다. 서로 다른 도메인의 기능은 서로 다른 의미를 가질 수 있으므로 함축된 의미가 다를 수 있습니다(예: 빛은 무게와 광학을 나타냅니다). 이러한 기능 표현의 차이는 감정 분류 작업, 언어 모델 등에 영향을 미칩니다. 딥러닝 기반 모델, 특히 단어 임베딩은 도메인 적응 작업을 위한 의미 관계와 방향을 적절히 포착할 수 있기 때문에 이러한 문제를 해결할 수 있는 잠재력을 보여줍니다.12
다양한 컴퓨팅 비전 작업을 위해 수동으로 라벨이 지정된 데이터를 충분히 확보하는 것이 어렵기 때문에, 많은 연구에서 컨볼루션 신경망(CNN)을 사용한 전이 학습 애플리케이션을 검토하고 있습니다. 한 가지 주목할 만한 예는 이미지 분류 및 개체 감지 작업에서 향상된 성능을 보여주는 사전 훈련된 모델 아키텍처인 ResNet입니다.13 최근 연구에서는 전이 학습을 위한 유명한 ImageNet 데이터 세트를 조사하여(컴퓨팅 비전의 통념과 반대로) 안정적으로 일반화 가능한 모델을 훈련하려면 이 데이터 세트의 작은 하위 집합만 있으면 된다고 주장합니다.14 컴퓨팅 비전을 위한 많은 전이 학습 튜토리얼에서는 TensorFlow의 keras 라이브러리와 함께 ResNet과 ImageNet을 모두 사용하거나 둘 중 하나를 사용합니다.
IBM 연구원들은 CodeFlare가 파운데이션 모델에 대한 TL 작업을 훈련하는 데 걸리는 시간을 단축하는 방법에 대해 논의합니다.
IBM 연구원들은 단순성과 일반성을 높이기 위해 기능 가중치를 평균화하는 등변량 TL 알고리즘을 제시합니다.
IBM 연구원들은 분자 탄수화물 반응의 모델 예측을 개선하기 위해 TL 방법을 제안합니다.
1 Emilio Soria Olivas, Jose David Martin Guerrero, Marcelino Martinez Sober, Jose Rafael Magdalena Benedito, Antonio Jose Serrano Lopez, Handbook of Research on Machine Learning Applications and Trends: Algorithms, Methods, and Techniques, Information Science Reference, 2009.
2 Ian Goodfellow, Yoshua Bengio, and Aaron Courville, Deep Learning, MIT Press, 2016.
3 Jiawei Han, Micheline Kamber, Jian Pei, Data Mining: Concepts and Techniques, 3rd edition, Elsevier, 2012.
4 Jindong Wang and Yiqiang Chen, Introduction to Transfer Learning: Applications and Methods, Springer, 2023.
5 Wen Zhang, Lingfei Deng, Lei Zhang, Dongrui Wu, "A Survey on Negative Transfer," IEEE/CAA Journal of Automatica Sinica, vol. 10, no. 2, 2023, pp. 305-329, https://arxiv.org/abs/2009.00909(ibm.com 외부 링크).
6 Ben Tan, Yangqiu Song, Erheng Zhong, Qiang Yang, "Transitive Transfer Learning," Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2015, pp.1155-1164, https://dl.acm.org/doi/10.1145/2783258.2783295(ibm.com 외부 링크). Ben Tan, Yu Zhang, Sinno Jialin Pan, Qiang Yang, "Domain Distant Transfer," Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence, 2017, pp. 2604-2610, https://dl.acm.org/doi/10.5555/3298483.3298614(ibm.com 외부 링크).
7 Changjian Shui, Mahdieh Abbasi, Louis-Émile Robitaille1, Boyu Wang, Christian Gagné, "A Principled Approach for Learning Task Similarity in Multitask Learning," Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence, 2019, pp.3446-3452, https://www.ijcai.org/proceedings/2019/0478.pdf(ibm.com 외부 링크). Kshitij Dwivedi and Gemma Roig, "Representation Similarity Analysis
for Efficient Task taxonomy & Transfer Learning," Proceedings of Conference on Computer Vision and Pattern Recognition, 2019, pp.12387-12396, https://openaccess.thecvf.com/content_CVPR_2019/papers/Dwivedi_Representation_Similarity_Analysis_for_Efficient_Task_Taxonomy__Transfer_Learning_CVPR_2019_paper.pdf(ibm.com 외부 링크). Javier García, Álvaro Visús, and Fernando Fernández, "A taxonomy for similarity metrics between Markov decision processes," Machine Learning, vol. 111, 2022, pp. 4217–4247, https://link.springer.com/article/10.1007/s10994-022-06242-4 (ibm.com 외부 링크).
8 Asmaul Hosna, Ethel Merry, Jigmey Gyalmo, Zulfikar Alom, Zeyar Aung, and Mohammad Abdul Azim, “Transfer learning: a friendly introduction” Journal of Big Data, vol. 9, 2022, https://journalofbigdata.springeropen.com/articles/10.1186/s40537-022-00652-w (ibm.com 외부 링크). Sinno Jialin Pan and Qiang Yang, "A Survey on Transfer Learning," IEEE Transactions on Knowledge and Data Engineering, vol. 22, no. 10, 2010, pp. 1345-1359, https://ieeexplore.ieee.org/document/5288526 (ibm.com 외부 링크).
9 Sinno Jialin Pan and Qiang Yang, "A Survey on Transfer Learning," IEEE Transactions on Knowledge and Data Engineering, vol. 22, no. 10, 2010, pp. 1345-1359, https://ieeexplore.ieee.org/document/5288526 (ibm.com 외부 링크). Ricardo Vilalta, "Inductive Transfer," Encyclopedia of Machine Learning and Data Mining, Springer, 2017.
10 Sinno Jialin Pan and Qiang Yang, "A Survey on Transfer Learning," IEEE Transactions on Knowledge and Data Engineering, vol. 22, no. 10, 2010, pp. 1345-1359, https://ieeexplore.ieee.org/document/5288526 (ibm.com 외부 링크).
11 Sinno Jialin Pan and Qiang Yang, "A Survey on Transfer Learning," IEEE Transactions on Knowledge and Data Engineering, vol. 22, no. 10, 2010, pp. 1345-1359, https://ieeexplore.ieee.org/document/5288526 (ibm.com 외부 링크).
Ian Goodfellow, Yoshua Bengio, and Aaron Courville, Deep Learning, MIT Press, 2016.
12 Qiang Yang, Transfer Learning, Cambridge University Press, 2020. Eyal Ben-David, Carmel Rabinovitz, and Roi Reichart, "PERL: Pivot-based Domain Adaptation for Pre-trained Deep Contextualized Embedding Models," Transactions of the Association for Computational Linguistics, vol. 8, 2020, pp. 504–521, https://aclanthology.org/2020.tacl-1.33.pdf(ibm.com 외부 링크).
13 Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun, "Deep Residual Learning for Image Recognition," IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 770-778, https://ieeexplore.ieee.org/document/7780459 (ibm.com 외부 링크).
14 Minyoung Huh, Pulkit Agrawal, and Alexei Efros, "What makes ImageNet good for transfer learning?" Berkeley Artificial Intelligence Research Laboratory (BAIR), 2017, https://people.csail.mit.edu/minhuh/papers/analysis/ (ibm.com 외부 링크).