양방향 순환 신경망(BRNN): RNN의 변종 네트워크 아키텍처 중 하나입니다. 단방향 RNN은 현재 상태에 관해 예측하기 위해 과거의 입력에서 가져오는 것만 가능하지만, 양방향 RNN은 정확도를 높이기 위해 미래의 데이터를 가져옵니다. 앞서 나왔던 “feeling under the weather”의 예에서는 모델이 시퀀스의 마지막 단어가 "weather"임을 알면 2번째 단어가 “under”임을 더 확실히 예측할 수 있습니다.

장단기 메모리(LSTM): Sepp Hochreiter 씨와 Juergen Schmidhuber 씨가 기울기 소실 문제의 해법으로 선보인 인기 있는 RNN 아키텍처 중 하나입니다. 이들은 연구 논문(PDF, 388KB)(IBM 외부 링크)에서 장기 종속성의 문제를 다룹니다. 즉, 현재 예측에 영향을 미치고 있는 이전 상태가 최근 과거가 아닐 경우, 이 RNN 모델에서 현재 상태를 정확히 예측하지 못할 수도 있습니다. 이를테면 “Alice is allergic to nuts. She can’t eat peanut butter.”에서 이탤릭체로 표시된 단어를 예측하고 싶다고 가정해 보겠습니다. 너트 알레르기라는 컨텍스트는 섭취 불가 식품이 너트를 함유하고 있음을 예측하는 데 도움이 될 것입니다. 하지만 이 컨텍스트가 몇 개의 문장 이전에 있다면, RNN에서 그 정보를 연결하는 게 어렵거나 아예 불가능합니다. LSTM에는 이러한 문제를 해결하기 위해 신경망의 숨은 계층에 “셀(cell)”이 있습니다. 이 셀은 3개의 게이트, 즉 입력(input) 게이트, 출력(output) 게이트, 망각(forget) 게이트가 있습니다. 이러한 게이트에서는 신경망에서 출력을 예측하는 데 필요한 정보의 흐름을 제어합니다. 예컨대 “she”와 같은 성별 대명사가 이전 문장에서 여러 차례 반복된 경우, 셀 상태에서 이를 제외할 수 있습니다.

게이트 순환 유닛(GRU): 이 RNN 변종도 RNN 모델의 단기 메모리 문제를 다룬다는 점에서 LSTM과 비슷합니다. 여기서는 "셀 상태"로 정보를 규제하는 게 아니라 숨은 상태를 사용합니다. 그리고 게이트가 3개가 아니라 2개입니다. 재설정(reset) 게이트와 업데이트(update) 게이트입니다. LSTM의 게이트와 비슷하게, 재설정 게이트와 업데이트 게이트는 어떤 정보를 얼마나 많이 보존할지를 제어합니다.