Bidirektionale rekurrente neuronale Netze (BRNN): Hierbei handelt es sich um eine Variante der Netzarchitektur von RNNs. Während unidirektionale RNNs nur auf frühere Eingaben zurückgreifen können, um Vorhersagen über den aktuellen Zustand zu treffen, ziehen bidirektionale RNNs zukünftige Daten heran, um ihre Genauigkeit zu verbessern. Wenn wir auf das Beispiel von „sich nicht wohl fühlen“ zurückkommen, kann das Modell besser vorhersagen, dass das zweite Wort in diesem Satz „nicht“ ist, wenn es weiß, dass das letzte Wort in der Sequenz „fühlen“ ist.

Langes Kurzzeitgedächtnis (LSTM): Dies ist eine beliebte RNN-Architektur, die von Sepp Hochreiter und Jürgen Schmidhuber als Lösung für das Problem des verschwindenden Gradienten eingeführt wurde. In ihrem Papier (PDF, 388 KB) (IBM-externer Link) befassen sie sich mit dem Problem der langfristigen Abhängigkeiten. Das heißt, wenn der vorherige Zustand, der die aktuelle Vorhersage beeinflusst, nicht in der jüngsten Vergangenheit liegt, ist das RNN-Modell möglicherweise nicht in der Lage, den aktuellen Zustand genau vorherzusagen. Nehmen wir zum Beispiel an, dass wir die kursiv gedruckten Wörter wie folgt vorhersagen wollen: „Alice ist allergisch gegen Nüsse. Sie kann keine Erdnussbutter essen.“ Der Kontext einer Nussallergie kann uns helfen, zu erahnen, dass das Lebensmittel, das nicht gegessen werden darf, Nüsse enthält. Wenn dieser Kontext jedoch einige Sätze zurückliegt, wäre es für das RNN schwierig oder sogar unmöglich, die Informationen zu verknüpfen. Um hier Abhilfe zu schaffen, verfügen LSTMs über „Zellen“ in den verborgenen Schichten des neuronalen Netzes, die drei Gates haben – ein Input-Gate, ein Output-Gate und ein Forget-Gate. Diese Gates steuern den Informationsfluss, der für die Vorhersage der Ausgabe im Netz erforderlich ist. Wenn z. B. Geschlechtspronomen wie „sie“ in früheren Sätzen mehrfach wiederholt wurden, können Sie dies aus dem Zellstatus ausschließen.

Gated Recurrent Units (GRUs): Diese RNN-Variante ähnelt den LSTMs, da sie ebenfalls das Problem des Kurzzeitgedächtnisses von RNN-Modellen angeht. Statt eines „Zellzustands“, der die Informationen reguliert, werden verdeckte Zustände verwendet, und statt drei Gates gibt es nur zwei – ein Reset-Gate und ein Update-Gate. Ähnlich wie bei den Gates in LSTMs steuern die Reset- und Update-Gates, wie viele und welche Informationen gespeichert werden sollen.