My IBM

로그인

전이 학습이란 무엇인가요?

2024년 2월 12일

작성자

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

전이 학습은 하나의 머신 러닝 작업 또는 데이터 세트에서 사전 학습된 모델을 사용하여 관련 작업 또는 데이터 세트의 성능과 일반화 가능성을 개선합니다.

전이 학습은 한 작업 또는 데이터 세트를 통해 얻은 지식을 사용하여 다른 관련 작업 및/또는 다른 데이터 세트에서 모델 성능을 개선하는 머신 러닝 기술입니다.¹ 다시 말해, 전이 학습은 한 환경에서 학습된 내용을 사용하여 다른 환경에서 일반화를 개선하는 것입니다.² 전이 학습은 데이터 과학의 회귀 문제를 해결하는 것부터 딥 러닝 모델을 훈련하는 것까지 다양한 용도로 사용됩니다. 실제로 심층 신경망을 만드는 데 필요한 대량의 데이터를 고려할 때 후자의 경우 특히 매력적입니다.

기존의 학습 프로세스는 사용 가능한 라벨이 지정된 데이터를 기반으로 각각의 새로운 작업에 대해 새로운 모델을 구축합니다. 이는 기존 머신 러닝 알고리즘이 훈련 데이터와 테스트 데이터가 동일한 주요 공간에서 온다고 가정하기 때문입니다. 따라서 데이터 분포가 변경되거나 학습된 모델이 새 데이터 세트에 적용되는 경우 사용자는 첫 번째 모델과 비슷한 작업을 시도하더라도 새로운 모델을 처음부터 다시 훈련해야 합니다(예: 영화 후기와 노래 후기의 감성 분석 분류기 비교). 그러나 전이 학습 알고리즘은 이미 훈련된 모델이나 네트워크를 시작점으로 사용합니다. 그런 다음 초기 소스 작업 또는 데이터(예: 영화 후기 분류)에서 얻은 해당 모델의 지식을 새롭지만 관련된 대상 작업 또는 데이터(예: 노래 후기 분류)에 적용합니다.³

전이 학습의 장단점

장점

- 계산 비용. 전이 학습은 새로운 문제에 대한 모델을 구축하는 데 필요한 계산 비용을 줄여줍니다. 사전 훈련된 모델 또는 사전 훈련된 네트워크를 다른 작업을 처리하도록 용도를 변경함으로써 사용자는 모델 훈련 시간, 훈련 데이터, 프로세서 단위 및 기타 컴퓨팅 리소스의 양을 줄일 수 있습니다. 예를 들어, 원하는 학습률을 달성할 때 더 적은 수의 Epoch(예: 데이터 세트를 통과하는)가 필요할 수 있습니다. 이러한 방식으로 전이 학습은 모델 학습 프로세스를 가속화하고 단순화할 수 있습니다.

- 데이터 세트 크기. 특히 전이 학습은 대규모 데이터 세트를 수집하는 데 따르는 어려움을 완화하는 데 도움이 됩니다. 예를 들어, 대규모 언어 모델(LLM)은 최적의 성능을 얻기 위해 많은 양의 훈련 데이터를 필요로 합니다. 공개적으로 사용 가능한 양질의 데이터 세트는 제한적일 수 있으며, 수동으로 라벨이 지정된 데이터를 충분히 생성하는 데는 시간과 비용이 많이 들 수 있습니다.

- 일반화 가능성. 전이 학습은 모델 최적화에 도움이 되지만 모델의 일반화 가능성을 더욱 높일 수 있습니다. 전이 학습에는 새 데이터 세트로 기존 모델을 재훈련하는 작업이 포함되기 때문에 다시 훈련된 모델은 여러 데이터 세트에서 얻은 지식으로 구성됩니다. 한 가지 유형의 데이터 집합으로만 훈련된 초기 기본 모델보다 더 다양한 데이터에서 더 나은 성능을 발휘할 수 있습니다. 따라서 전이 학습을 통해 과적합을 억제할 수 있습니다.⁴

물론 한 도메인에서 다른 도메인으로 지식을 이전한다고 해서 품질이 낮은 데이터의 부정적인 영향을 상쇄할 수는 없습니다. 데이터 증강 및 특징 추출과 같은 전처리 기술과 특징 엔지니어링은 전이 학습을 사용할 때 여전히 필요합니다.

단점

전이 학습에 내재된 단점이 있는 경우보다는 잘못된 적용으로 인해 잠재적으로 부정적인 결과가 발생할 수 있는 경우가 더 많습니다. 전이 학습은 다음 세 가지 조건이 충족될 때 가장 효과적입니다.

두 학습 과제가 유사합니다.
소스 및 대상 데이터 세트 데이터 분포가 크게 다르지 않습니다.
두 작업 모두에 유사한 모델을 적용할 수 있습니다.

이러한 조건이 충족되지 않으면 전이 학습이 모델 성능에 부정적인 영향을 미칠 수 있습니다. 문헌에서는 이를 부정적 전이이라고 합니다. 진행 중인 연구는 데이터 세트와 작업이 위의 조건을 충족하는지 여부를 결정하기 위한 다양한 테스트를 제안하기 때문에 부정적 전이가 발생하지 않습니다.⁵ 원거리 전이는 소스 및 대상 데이터 세트의 데이터 분포가 너무 크게 달라서 발생하는 부정적 전이를 수정하기 위해 개발된 방법 중 하나입니다.⁶

전이 학습을 위한 작업 간의 유사성을 판단하는 널리 사용되는 표준 메트릭은 없습니다. 그러나 소수의 연구에서는 데이터 세트와 머신 러닝 작업 간의 유사성을 예측하는 다양한 평가 방법을 제안하여 전이 학습의 실행 가능성을 제시합니다.⁷

Mixture of Experts | 팟캐스트

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

에피소드 보기

전이 학습의 유형

전이 학습에는 세 가지 비슷한 관행 또는 하위 설정이 있습니다. 서로 간의 구별뿐만 아니라, 보다 광범위하게 전이 학습은 주로 소스 도메인, 대상 도메인, 완료해야 할 작업 간의 관계 변화에서 비롯됩니다.⁸

- 유도 전이. 대상 도메인과 소스 도메인 간의 차이점이나 유사성에 관계없이 소스 작업과 대상 작업이 다른 경우입니다(예: 데이터 세트). 이는 대규모 데이터 세트에서 기능 추출을 위해 사전 훈련된 아키텍처가 객체 감지와 같은 특정 작업에 대한 추가 훈련을 위해 채택될 때 컴퓨팅 비전 모델에서 나타날 수 있습니다. 동일한 데이터 세트에서 서로 다른 두 가지 작업(예: 이미지 분류 및 객체 감지)을 동시에 학습하는 멀티태스크 학습은 유도 전이의 한 형태로 간주할 수 있습니다.⁹

- 비지도 학습. 이는 대상 작업과 소스 작업이 다르기 때문에 유도 전이와 유사합니다. 그러나 유도 전이에서는 소스 및/또는 대상 데이터에 라벨이 지정되는 경우가 많습니다. 이름 그대로 비지도 전이 학습은 지도되지 않는 학습입니다. 즉, 수동으로 라벨이 지정된 데이터가 없습니다.¹⁰ 이에 비해 유도 전이는 지도 학습으로 간주할 수 있습니다. 비지도 학습의 일반적인 응용 분야 중 하나는 사기 탐지입니다. 라벨이 지정되지 않은 거래 데이터 세트에서 공통적인 패턴을 식별함으로써, 모델은 비정상적인 행동을 잠재적인 사기로 식별하는 방법을 추가로 학습할 수 있습니다.

- 변환적 전이. 이는 소스 작업과 대상 작업이 동일하지만 데이터 세트(또는 도메인)가 다른 경우에 발생합니다. 좀 더 구체적으로 말하자면, 소스 데이터에는 일반적으로 라벨이 지정되고 대상 데이터에는 라벨이 지정되지 않습니다. 도메인 적응은 하나의 데이터 배포에서 작업을 수행하여 얻은 지식을 다른 데이터 배포의 동일한 작업에 적용하는 것으로, 변환적 전이 학습의 한 형태입니다.¹¹ 전이 학습의 예로는 식당 후기를 학습하고 테스트한 텍스트 분류 모델을 영화 후기를 분류하는 데 적용하는 것을 들 수 있습니다.

전이 학습과 미세 조정

전이 학습은 미세 조정과 다릅니다. 물론 두 가지 모두 새로운 모델을 학습시키는 것이 아니라 기존의 머신 러닝 모델을 재사용합니다. 그러나 유사점은 대체로 거기서 끝납니다. 미세 조정은 모델이 구축된 초기의 특정 작업에 대한 성능을 개선하기 위해 작업별 데이터 세트에서 모델을 추가로 훈련하는 프로세스를 말합니다. 예를 들어, COCO 또는 ImageNet과 같은 대규모 이미지 세트를 사용하여 범용 객체 감지 모델을 만든 다음, 자동차 감지에 특화된 더 작은 라벨이 지정된 데이터 세트로 결과 모델을 추가로 훈련할 수 있습니다. 이러한 방식으로 사용자는 차량 감지를 위한 물체 감지 모델을 미세 조정합니다. 반면, 전이 학습은 사용자가 동일한 문제가 아닌 새로운 관련 문제에 모델을 적용하는 것을 의미합니다.

전이 학습 사용 사례

실제 머신 러닝과 인공 지능 분야에서 전이 학습은 다양한 용도로 사용됩니다. 개발자와 데이터 과학자는 전이 학습을 사용하여 수많은 작업을 지원하고 강화 학습과 같은 다른 학습 접근 방식과 결합할 수 있습니다.

자연어 처리

NLP에서 전이 학습에 영향을 미치는 한 가지 두드러진 문제는 기능 불일치입니다. 서로 다른 도메인의 기능은 서로 다른 의미를 가질 수 있으므로 함축된 의미가 다를 수 있습니다(예: 빛은 무게와 광학을 나타냅니다). 이러한 기능 표현의 차이는 감정 분류 작업, 언어 모델 등에 영향을 미칩니다. 딥러닝 기반 모델, 특히 단어 임베딩은 도메인 적응 작업을 위한 의미 관계와 방향을 적절히 포착할 수 있기 때문에 이러한 문제를 해결할 수 있는 잠재력을 보여줍니다.¹²

컴퓨팅 비전

다양한 컴퓨팅 비전 작업을 위해 수동으로 라벨이 지정된 데이터를 충분히 확보하는 것이 어렵기 때문에, 많은 연구에서 컨볼루션 신경망(CNN)을 사용한 전이 학습 애플리케이션을 검토하고 있습니다. 한 가지 주목할 만한 예는 이미지 분류 및 개체 감지 작업에서 향상된 성능을 보여주는 사전 훈련된 모델 아키텍처인 ResNet입니다.¹³ 최근 연구에서는 전이 학습을 위한 유명한 ImageNet 데이터 세트를 조사하여(컴퓨팅 비전의 통념과 반대로) 안정적으로 일반화 가능한 모델을 훈련하려면 이 데이터 세트의 작은 하위 집합만 있으면 된다고 주장합니다.¹⁴ 컴퓨팅 비전을 위한 많은 전이 학습 튜토리얼에서는 TensorFlow의 keras 라이브러리와 함께 ResNet과 ImageNet을 모두 사용하거나 둘 중 하나를 사용합니다.

생성형 AI + ML의 힘 활용하기

생성형 AI와 머신 러닝을 비즈니스에 자신 있게 통합하는 방법 알아보기

리소스

ML 전문성 업그레이드

실습, 강좌, 가이드 프로젝트, 평가판 등을 통해 기본 개념을 배우고 기술을 쌓으세요.

생성형 AI + ML의 힘 활용하기

생성형 AI와 머신 러닝을 비즈니스에 자신 있게 통합하는 방법 알아보기

업무에 AI 활용: 생성형 AI로 ROI 향상

AI 투자에 대해 더 나은 수익을 얻고 싶으신가요? 주요 영역에서 차세대 AI를 확장하여 최고의 인재들이 혁신적인 새 솔루션을 구축하고 제공하도록 지원함으로써 변화를 주도하는 방법을 알아보세요.

적절한 파운데이션 모델을 선택하는 방법

사용 사례에 가장 적합한 AI 파운데이션 모델을 선택하는 방법을 알아보세요.

IBM Granite 살펴보기

IBM Granite는 비즈니스에 맞게 맞춤화되고 AI 애플리케이션 확장에 최적화되었으며 개방적이고 성능이 뛰어나며 신뢰할 수 있는 AI 모델 제품군입니다. 언어, 코드, 시계열 및 가드레일 옵션을 살펴보세요.

신뢰와 확신을 바탕으로 새로운 AI 시대에 성공하는 방법

강력한 AI 전략의 3가지 핵심 요소인 경쟁 우위 확보, 비즈니스 전반의 AI 확장, 신뢰할 수 있는 AI 발전에 대해 자세히 알아보세요.

AI 활용 현황 보고서

IBM은 2,000개 조직을 대상으로 AI 이니셔티브에 대한 설문조사를 실시하여 효과적인 전략과 효과적이지 못한 전략, 그리고 앞서나갈 수 있는 방법을 알아보았습니다.

다음 단계 안내

AI 개발 라이프사이클 전반에 걸친 기능에 원스톱으로 액세스하세요. 사용자 친화적인 인터페이스, 워크플로, 업계 표준 API 및 SDK에 대한 액세스를 통해 강력한 AI 솔루션을 제작할 수 있습니다.

watsonx.ai 살펴보기

라이브 데모 예약하기

각주

¹Emilio Soria Olivas,Jose David Martin Guerrero,Marcelino Martinez Sober,Jose Rafael Magdalena Benedito,Antonio Jose Serrano Lopez, Handbook of Research on Machine Learning Applications and Trends: Algorithms, Methods, and Techniques, Information Science Reference, 2009.

² Ian Goodfellow, Yoshua Bengio, Aaron Courville, Deep Learning, MIT Press, 2016.

³ Jiawei Han, Micheline Kamber, Jian Pei, Data Mining: Concepts and Techniques, 3^rd edition, Elsevier, 2012.

⁴ Jindong Wang 및 Yiqiang Chen, Introduction to Transfer Learning: Applications and Methods, Springer, 2023.

⁵ Wen Zhang, Lingfei Deng, Lei Zhang, Dongrui Wu, "A Survey on Negative Transfer," IEEE/CAA Journal of Automatica Sinica, vol. 10, no. 2, 2023, pp. 305-329, https://arxiv.org/abs/2009.00909.

⁶ Ben Tan, Yangqiu Song, Erheng Zhong, Qiang Yang, "Transitive Transfer Learning," Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2015, pp.1155-1164, https://dl.acm.org/doi/10.1145/2783258.2783295. Ben Tan, Yu Zhang, Sinno Jialin Pan, Qiang Yang, "Domain Distant Transfer," Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence, 2017, pp. 2604-2610, https://dl.acm.org/doi/10.5555/3298483.3298614.

⁷ Changjian Shui, Mahdieh Abbasi, Louis-Émile Robitaille1, Boyu Wang, Christian Gagné, "A Principled Approach for Learning Task Similarity in Multitask Learning," Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence, 2019, pp.3446-3452, https://www.ijcai.org/proceedings/2019/0478.pdf. Kshitij Dwivedi, Gemma Roig, "Representation Similarity Analysis
for Efficient Task taxonomy & Transfer Learning," Proceedings of Conference on Computer Vision and Pattern Recognition, 2019, pp.12387-12396, https://openaccess.thecvf.com/content_CVPR_2019/papers/Dwivedi_Representation_Similarity_Analysis_for_Efficient_Task_Taxonomy__Transfer_Learning_CVPR_2019_paper.pdf. Javier García, Álvaro Visús, Fernando Fernández, "A taxonomy for similarity metrics between Markov decision processes," Machine Learning, vol. 111, 2022, pp. 4217–4247, https://link.springer.com/article/10.1007/s10994-022-06242-4.

⁸ Asmaul Hosna, Ethel Merry, Jigmey Gyalmo, Zulfikar Alom, Zeyar Aung, Mohammad Abdul Azim, “Transfer learning: a friendly introduction” Journal of Big Data, vol. 9, 2022, https://journalofbigdata.springeropen.com/articles/10.1186/s40537-022-00652-w. Sinno Jialin Pan, Qiang Yang, "A Survey on Transfer Learning," IEEE Transactions on Knowledge and Data Engineering, vol. 22, no. 10, 2010, pp. 1345-1359, https://ieeexplore.ieee.org/document/5288526.

⁹ Sinno Jialin Pan, Qiang Yang, "A Survey on Transfer Learning," IEEE Transactions on Knowledge and Data Engineering, vol. 22, no. 10, 2010, pp. 1345-1359, https://ieeexplore.ieee.org/document/5288526. Ricardo Vilalta, "Inductive Transfer," Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

¹⁰ Sinno Jialin Pan ,Qiang Yang, "A Survey on Transfer Learning," IEEE Transactions on Knowledge and Data Engineering, vol. 22, no. 10, 2010, pp. 1345-1359, https://ieeexplore.ieee.org/document/5288526.

¹¹ Sinno Jialin Pan, Qiang Yang, "A Survey on Transfer Learning," IEEE Transactions on Knowledge and Data Engineering, vol. 22, no. 10, 2010, pp. 1345-1359, https://ieeexplore.ieee.org/document/5288526.
Ian Goodfellow, Yoshua Bengio, and Aaron Courville, Deep Learning, MIT Press, 2016.

¹² Qiang Yang, Transfer Learning, Cambridge University Press, 2020. Eyal Ben-David, Carmel Rabinovitz, and Roi Reichart, "PERL: Pivot-based Domain Adaptation for Pre-trained Deep Contextualized Embedding Models," Transactions of the Association for Computational Linguistics, vol. 8, 2020, pp. 504–521, https://aclanthology.org/2020.tacl-1.33.pdf.

¹³ Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, "Deep Residual Learning for Image Recognition," IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 770-778, https://ieeexplore.ieee.org/document/7780459.

¹⁴ Minyoung Huh, Pulkit Agrawal, Alexei Efros, "What makes ImageNet good for transfer learning?" Berkeley Artificial Intelligence Research Laboratory (BAIR), 2017, https://people.csail.mit.edu/minhuh/papers/analysis/.