双向循环神经网络(BRNN):这是循环神经网络 (RNN) 的网络架构变体。 单向循环神经网络 (RNN) 只能从先前输入中抽取数据,做出有关当前状态的预测;而双向循环神经网络 (RNN) 还可以拉取未来的数据,从而提高预测的精度。 回到前面那个“feeling under the weather”的例子,如果模型知道该序列中的最后一个单词是“weather”,就更有可能预测该词组中的第二个单词是“under”。

长短期记忆 (LSTM):这是一种比较流行的循环神经网络 (RNN) 架构,由 Sepp Hochreiter 和 Juergen Schmidhuber 提出,用于解决梯度消失问题。 在他们的论文(链接位于 IBM 外部)中,他们着力解决长期依赖问题。 也就是说,如果影响当前预测的先前状态不是最近发生的,那么循环神经网络 (RNN) 模型可能无法准确预测当前状态。 例如,假设我们想要预测以下斜体句子“Alice is allergic to nuts. She can't eat peanut butter.”(Alice 对坚果过敏。她不能吃花生酱)。 “坚果过敏”上下文可以帮助我们预测不能吃的食物含有坚果。 但是,如果上下文是之前的几句话,那么循环神经网络 (RNN) 就很难甚至无法连接信息。 作为补救措施,LSTM 在神经网络的隐藏层中包含一些“元胞”(cell),共有三个门:一个输入门、一个输出门和一个遗忘门。 这些门控制着预测网络中的输出所需信息的流动。 例如,如果在先前的句子中,性别代词(比如 she)重复出现了多次,那么可将其从元胞状态中排除。

门控循环单元 (GRU):这种循环神经网络 (RNN) 变体类似于 LSTM,因为它也旨在解决 RNN 模型的短期记忆问题。 但它不使用“元胞状态”来调节信息,而是使用隐藏状态;它不使用三个门,而是两个:一个重置门和一个更新门。 类似于 LSTM 中的门,重置门和更新门控制要保留哪些信息以及保留多少信息。