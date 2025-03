Ainslie et al은 트랜스포머 신경망을 확립한 2017년 논문 "Attention is All You Need"에 소개된 혁신적인 자기 주의 알고리즘인 멀티헤드 어텐션(MHA)의 최적화로 그룹화된 쿼리 어텐션을 고안했습니다. 보다 구체적으로, MHA의 초기 최적화인 멀티 쿼리 어텐션(MQA)의 일반화 및 보다 제한적인 적용으로 제안되었습니다.

표준 멀티헤드 어텐션은 머신 러닝, 자연어 처리(NLP), 생성형 AI에서 진화적 도약을 촉진했지만, 컴퓨팅 리소스와 메모리 대역폭에 엄청난 부담을 주었습니다. LLM이 더 크고 정교해짐에 따라 이러한 메모리 사용 요구 사항은 진행에 병목 현상이 되었고, 특히 텍스트 생성, 요약 및 기타 생성형 AI 작업에 사용되는 자기 회귀 디코더 전용 LLM의 경우 이는 더욱 걸림돌이 되었습니다.

후속 연구는 멀티헤드 어텐션을 강화하거나 간소화하는 기술에 초점을 맞췄습니다. 플래시 어텐션 및 링 어텐션과 같은 일부 기능은 모델을 훈련시키고 실행하는 데 사용되는 GPU가 계산 및 메모리 스토리지를 처리하는 방식을 개선합니다. GQA 및 MQA와 같은 다른 기술들은 트랜스포머 아키텍처가 토큰을 처리하는 방식에 대한 변화를 모색했습니다.

그룹화된 쿼리 어텐션은 표준 멀티헤드 어텐션과 멀티 쿼리 어텐션 간의 균형을 맞추는 것을 목표로 합니다. 전자는 메모리 대역폭 오버헤드가 증가하고 속도가 저하되는 대신 정확도를 극대화합니다. 후자의 경우 정확도는 떨어지지만 속도와 효율성은 극대화됩니다.