Uma rede neural recorrente (RNN) é um tipo de rede neural artificial que usa dados sequenciais ou de séries temporais. Esses algoritmos de deep learning são comumente usados para problemas ordinais ou temporais, como tradução de idiomas, processamento de linguagem natural (nlp), reconhecimento de fala e legendagem de imagens, e são incorporados a aplicativos populares, como Siri, pesquisa por voz e Google Tradutor. Como as redes neurais feedforward e convolucionais (CNNs), as redes neurais recorrentes utilizam dados de treinamento para aprender. Elas se distinguem por sua “memória”, pois recebem informações de entradas anteriores para influenciar a entrada e a saída atuais. Enquanto as redes neurais profundas tradicionais assumem que as entradas e saídas são independentes umas das outras, a saída das redes neurais recorrentes depende dos elementos anteriores dentro da sequência. Embora os eventos futuros também sejam úteis para determinar a saída de uma determinada sequência, as redes neurais recorrentes unidirecionais não levam esses eventos em conta em suas previsões.

Vamos pensar na expressão “custar os olhos da cara”, que é comumente usada quando algo é muito caro, para nos ajudar na explicação das RNNs. Para que a expressão faça sentido, ela precisa ser expressa nessa ordem específica. Como resultado, as redes recorrentes precisam levar em conta a posição de cada palavra no idioma e usam essa informação para prever a próxima palavra na sequência.

Outra característica distintiva das redes recorrentes é que elas compartilham parâmetros em cada camada da rede. Enquanto as redes feedforward têm pesos diferentes em cada nó, as redes neurais recorrentes compartilham o mesmo parâmetro de peso dentro de cada camada da rede. Dito isso, esses pesos ainda são ajustados por meio dos processos de propagação retroativa e descida de gradiente para facilitar o aprendizado por reforço.

As redes neurais recorrentes utilizam o algoritmo de propagação retroativa através do tempo (BPTT) para determinar os gradientes, o que é ligeiramente diferente da propagação retroativa tradicional, pois isso é específico para dados de sequência. Os princípios do BPTT são os mesmos da propagação retroativa tradicional, na qual o modelo é treinado calculando os erros da camada de saída na camada de entrada. Esses cálculos nos permitem ajustar os parâmetros do modelo de maneira adequada. O BPTT difere da abordagem tradicional porque soma os erros em cada etapa, enquanto as redes feedforward não precisam somar os erros, pois não compartilham parâmetros em cada camada.

Por meio desse processo, as RNNs tendem a se deparar com dois problemas, conhecidos como gradientes explosivos e gradientes que desaparecem. Essas questões são definidas pelo tamanho do gradiente, que é a inclinação da função de perda ao longo da curva de erro. Quando o gradiente é muito pequeno, ele continua diminuindo, atualizando os parâmetros de peso até que se tornem insignificantes, ou seja, 0. Quando isso ocorre, o algoritmo não está mais aprendendo. Os gradientes explosivos ocorrem quando o gradiente é muito grande, criando um modelo instável. Nesse caso, os pesos do modelo ficarão muito grandes e, eventualmente, serão representados como NaN. Uma solução para esses problemas é reduzir o número de camadas ocultas na rede neural, eliminando parte da complexidade do modelo da RNN.