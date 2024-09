As redes neurais recorrentes (RNNs) normalmente são usadas em aplicações de linguagem natural e reconhecimento de fala, pois usam dados sequenciais ou de séries temporais. As RNNs podem ser identificadas pelos seus loops de feedback. Esses algoritmos de aprendizagem são usados sobretudo com dados de séries temporais, para fazer previsões sobre resultados futuros. Os casos de uso incluem previsões de mercado de ações ou previsão de vendas, ou problemas ordinais ou temporais, como tradução de idiomas, processamento de linguagem natural (NLP), reconhecimento de fala e legendas de imagens. Essas funções costumam estar incorporadas a aplicações populares, como Siri, pesquisa por voz e Google Tradutor.

As RNNs usam sua “memória” à medida que coletam informações de inputs anteriores para influenciar a entrada e a saída atuais. Enquanto as redes neurais profundas tradicionais presumem que as inputs e saídas são independentes umas das outras, a saída das RNNs depende dos elementos anteriores da sequência. Embora eventos futuros também sejam úteis para determinar a saída de uma determinada sequência, as redes neurais recorrentes unidirecionais não podem levar em conta esses eventos em suas previsões.

As RNNs compartilham parâmetros entre cada camada da rede e usam os mesmos parâmetros de peso em cada camada. Os pesos são ajustados por meio dos processos de retropropagação e gradiente descendente para promover o aprendizado por reforço.

As RNNs usam um algoritmo de retropropagação ao longo do tempo (BPTT) para determinar os gradientes, o que difere um pouco da retropropagação tradicional, pois é específico para dados de sequência. Os princípios da BPTT são os mesmos da retropropagação tradicional, em que o modelo treina a si mesmo calculando erros da camada de saída para a camada de input. A BPTT difere da abordagem tradicional porque soma erros em cada intervalo de tempo, enquanto as redes feedforward não precisam somar erros, pois não compartilham parâmetros em cada camada.

Uma vantagem sobre outros tipos de rede neural é que as RNNs usam tanto o processamento de dados binários quanto a memória. As RNNs podem planejar vários inputs e saídas para que, em vez de fornecer apenas um resultado para uma único input, as RMMs possam produzir saídas de um para muitos, de muitos para um ou de muitos para muitos.



Há também opções dentro das RNNs. Por exemplo, a rede de memória de curto prazo (LSTM) é superior às RNNs simples, aprendendo e agindo em dependências de longo prazo.

No entanto, as RNNs tendem a se deparar com dois problemas básicos, conhecidos como gradientes de explosão e gradientes de desaparecimento. Esses problemas são definidos pelo tamanho do gradiente, que é a inclinação da função de perda ao longo da curva de erro.

Quando o gradiente está desaparecendo e é muito pequeno, ele continua diminuindo, atualizando os parâmetros de peso até que eles se tornem insignificantes, ou seja: zero (0). Quando isso ocorre, o algoritmo não está mais aprendendo.

Gradientes de explosão ocorrem quando o gradiente é muito grande, criando um modelo instável. Nesse caso, os pesos do modelo ficam muito grandes e, por fim, serão representados como NaN (não como um número). Uma solução para esses problemas é reduzir o número de camadas ocultas na rede neural, eliminando parte da complexidade dos modelos de RNN.

Algumas desvantagens finais: as RNNs também podem exigir um longo tempo de treinamento e serem difíceis de usar em grandes conjuntos de dados. A otimização de RNNs adiciona complexidade quando elas têm muitas camadas e parâmetros.