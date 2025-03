Viswani et al이 작성한 ''Attention is All You Need" 논문은 셀프 어텐션에서 영감을 받아 새로운 신경망 아키텍처인 트랜스포머를 도입했습니다. 이들의 트랜스포머 모델은 컨볼루션과 재귀를 완전히 피하고 대신 어텐션 계층과 표준 선형 피드포워드 계층만 사용했습니다.

저자의 모델은 RNN 기반 이전 모델과 유사한 인코더-디코더 구조를 따랐습니다. 이후 트랜스포머 기반 모델은 인코더-디코더 프레임워크에서 벗어났습니다. 트랜스포머 논문의 여파로 출시된 최초의 획기적인 모델 중 하나인 BERT(트랜스포머의 양방향 인코더 표현의 약자)는 인코더 전용 모델입니다. GPT(Generative Pretrained Transformer) 모델과 같이 텍스트 생성에 혁명을 일으킨 자기 회귀 LLM은 디코더 전용입니다.

"Attention is All You Need"는 어텐션 메커니즘에 대한 여러 혁신을 제안했습니다. 그 중 하나는 확장된 점곱 어텐션으로, 성능을 개선하고 어텐션을 완전히 새로운 모델 구조에 적응시키기 위한 것입니다.