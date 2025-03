이 모델은 2017년 Google Brain의 Ashish Vaswani 팀과 토론토 대학의 팀이 작성한 'Attention is All You Need'라는 논문에서 처음 설명되었습니다. 현재 트랜스포머가 LLM 훈련과 같은 애플리케이션에서 얼마나 널리 사용되고 있는지를 고려할 때, 이 논문의 발표는 해당 분야의 분수령이 될 만한 순간으로 꼽힙니다.

이러한 모델은 텍스트와 음성을 거의 실시간으로 번역할 수 있습니다. 예를 들어, 이제 관광객이 길거리에서 자신의 모국어로 현지인들과 소통할 수 있게 도와주는 앱이 있습니다. 또 이 모델은 연구자들이 DNA를 더 잘 이해하고 약물 설계 속도를 높일 수 있도록 도와줍니다. 금융 및 보안 분야에서 이상 징후를 감지하고 사기를 방지할 수도 있습니다. 비전 트랜스포머는 컴퓨팅 비전 작업에도 유사하게 사용됩니다.

OpenAI에서 선보인 인기 있는 ChatGPT 텍스트 생성 툴은 예측, 요약, 질문 답변 등에 트랜스포머 아키텍처를 사용하는데, 이 해당 모델이 입력된 텍스트에서 가장 관련성이 높은 부분에 집중할 수 있도록 해주기 때문입니다. 툴의 다양한 버전에 표시되는 'GPT'(예: GPT-2, GPT-3)은 '생성형 사전 학습 트랜스포머'를 의미합니다. ChatGPT와 같은 텍스트 기반의 생성형 AI 툴은 대규모의 복잡한 데이터 세트를 기반으로 텍스트 시퀀스에서 다음 단어를 더 쉽게 예측하는 트랜스포머 모델의 이점을 활용할 수 있습니다.

BERT 모델 또는 트랜스포머의 양방향 인코더 표현은 트랜스포머 아키텍처를 기반으로 합니다. 2019년 현재 BERT는 거의 모든 영어 Google 검색 결과에 사용되고 있으며, 70개 이상의 다른 언어 결과에도 적용되었습니다.1