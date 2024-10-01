인코더와 마찬가지로 디코더는 자기 주의 계층과 피드 포워드 네트워크로 구성됩니다. 이 사이에 디코더에는 멀티헤드 주의 마스킹 계층이 포함되어 있습니다. 이것이 인코더와 디코더의 차이를 나타냅니다. 인코더는 컨텍스트화된 토큰 임베딩을 동시에 생성하는 반면, 디코더의 멀티헤드 주의 계층은 자동 회귀 마스킹을 활용합니다.

먼저 디코더는 인코더로부터 컨텍스트 벡터를 수신합니다. 디코더는 이러한 위치 임베딩을 사용하여 각 토큰의 주의 점수를 계산합니다. 이러한 주의 점수는 입력 시퀀스의 각 토큰이 이후의 토큰에 어느 정도 영향을 미칠지 결정합니다. 즉, 점수는 아웃풋 시퀀스를 생성할 때 각 토큰이 다른 토큰의 결정에 얼마나 가중치를 주는지 결정합니다.

그러나 이 특성 중 하나는 디코더가 같은 시퀀스의 이전 토큰을 결정하기 위해 미래 토큰을 사용하지 않는다는 것입니다. 각 토큰의 생성된 아웃풋은 이전 토큰에만 의존합니다. 즉, 토큰의 아웃풋을 생성할 때 디코더는 현재 토큰 다음의 다음 단어나 토큰을 고려하지 않습니다. 많은 인공 지능 기술의 경우와 마찬가지로 이는 인간이 정보, 특히 언어를 처리하는 방식에 대한 기존의 이해를 모방하는 것을 목표로 합니다. 정보 처리에 대한 이러한 접근 방식을 자동 회귀라고 합니다.7