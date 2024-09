Redes neuronales recurrentes bidireccionales (BRNN): estas son una arquitectura de red variante de las RNN. Mientras que las RNN unidireccionales solo pueden extraerse de entradas anteriores para realizar predicciones sobre el estado actual, las RNN bidireccionales extraen datos futuros para mejorar su exactitud. Si volvemos al ejemplo anterior de "tirar la casa por la ventana" en este artículo, el modelo podrá pronosticar mejor que la tercera palabra en la frase es "casa" si sabe que la última palabra de la secuencia es "ventana".

Memoria a corto-largo plazo (LSTM): esta es una popular arquitectura de RNN, que fue presentada por Sepp Hochreiter y Juergen Schmidhuber como una solución al problema del gradiente desvaneciente. En su estudio (PDF, 388 KB) (enlace externo a IBM), trabajaron para solucionar el problema de las dependencias a largo plazo. Es decir, si el estado anterior que está influyendo en el pronóstico actual no está en un pasado reciente, es posible que el modelo RNN no pueda pronosticar con precisión el estado actual. Por ejemplo, supongamos que queremos pronosticar las palabras en cursiva en la siguiente frase: "Alicia es alérgica a los frutos secos. Ella no puede comer mantequilla de cacahuete". El contexto de una alergia a los frutos secos puede ayudarnos a anticipar que los alimentos que no se pueden comer contienen frutos secos. Sin embargo, si el contexto estuviera varias frases antes, sería más difícil o incluso imposible que la RNN conectara la información. Para remediarlo, las LSTM tienen "celdas" en las capas ocultas de la red neuronal que tienen tres puertas: una puerta de entrada, una puerta de salida y una puerta de olvido. Estas puertas controlan el flujo de información que se necesita para pronosticar la salida en la red. Por ejemplo, si el pronombre de género, como "ella", se ha repetido varias veces en las frases anteriores, puede excluirlo del estado de la celda.

Unidades recurrentes cerradas (GRU): esta variante de RNN es similar a las LSTM, ya que también intenta solucionar el problema de la memoria a corto plazo de los modelos RNN. En lugar de utilizar el "estado de la celda" para regular la información, utiliza estados ocultos y, en lugar de tres puertas, tiene dos: una puerta restablecimiento y una puerta de actualización. Al igual que las puertas en las LSTM, las puertas de restablecimiento y actualización controlan cuánta y qué información se debe retener.