Bahdanau et al. schlugen in ihrem Artikel „Neural Machine Translation by Jointly Learning to Align and Translate“ von 2014 einen Aufmerksamkeitsmechanismus vor, um die Kommunikation zwischen Encoder und Decoder zu verbessern und diesen Informationsengpass zu beseitigen.

Anstatt nur den finalen, versteckten Zustand des Encoders – den Kontextvektor – an den Decoder weiterzugeben, übergab das Modell jeden versteckten Zustand des Encoders an den Decoder. Der Aufmerksamkeitsmechanismus selbst wurde verwendet, um zu bestimmen, welcher verborgene Zustand, d. h. welches Wort im ursprünglichen Satz, bei jedem Übersetzungsschritt des Decoders am relevantesten war.

„Das Modell muss dann nicht mehr einen ganzen Ausgangssatz in einen Vektor fester Länge kodieren, sondern kann sich nur auf die Informationen konzentrieren, die für die Erzeugung des nächsten Zielworts relevant sind“, so die Studie. „Dies wirkt sich sehr positiv auf die Fähigkeit des neuronalen maschinellen Übersetzungssystems aus, bei längeren Sätzen gute Ergebnisse zu erzielen.“5

Die darauf folgende NLP-Forschung konzentrierte sich in erster Linie auf die Verbesserung der Leistung und die Ausweitung der Anwendungsmöglichkeiten von Aufmerksamkeitsmechanismen in rekurrenten Modellen. Mit der Erfindung von Transformatormodellen im Jahr 2017, die ausschließlich durch Aufmerksamkeit angetrieben werden, wurden RNNs für NLP schließlich fast überflüssig.