O que é uma rede neural?

Autora

Fangfang Lee

Developer Advocate

IBM

O que é uma rede neural?

Uma rede neural é um modelo de aprendizado de máquina que empilha neurônios simples em camadas e aprende pesos e vieses que reconhecem padrões a partir dos dados para mapear entradas para saídas.

Redes neurais estão entre os algoritmos mais influentes no aprendizado de máquina e na inteligência artificial (IA). Elas sustentam avanços em computer vision, processamento de linguagem natural, reconhecimento de fala e inúmeras aplicações do mundo real, que vão desde forecasting até reconhecimento facial. Enquanto as redes neurais profundas (DNNs) de hoje alimentam sistemas tão complexos quanto transformadores e redes neurais convolucionais (CNNs), as origens das redes neurais remontam a modelos simples como a regressão linear e como o cérebro humano digere, processa e decide sobre as informações apresentadas a ele.

Como funcionam as redes neurais?

Em um nível elevado, a inspiração para as redes neurais vem dos neurônios biológicos do cérebro humano, que se comunicam por meio de sinais elétricos. Em 1943, Warren McCulloch e Walter Pitts propuseram o primeiro modelo matemático de um neurônio, mostrando que unidades simples poderiam realizar o cálculo de uma função. Mais tarde, em 1958, Frank Rosenblatt introduziu o perceptron, um algoritmo projetado para realizar reconhecimento de padrões. O perceptron é o antecessor histórico das redes atuais: essencialmente um modelo linear com uma saída restrita. Na seção a seguir, nos aprofundaremos em como as redes neurais pedem inspiração nos cérebros humanos para tomar decisões e reconhecer padrões.  

Uma rede neural pode ser compreendida por meio de um exemplo simples: detecção de spam. Um e-mail é alimentado na rede, e funcionalidades como palavras ou frases como "prêmio", "dinheiro", "prezado" ou "ganhar" são usados como entradas. Os neurônios iniciais na rede processam a importância de cada sinal, enquanto as camadas posteriores combinam essas informações em pistas de nível superior que capturam contexto e tom. A camada final, então, calcula uma probabilidade de o e-mail ser spam e, se essa probabilidade for alta o suficiente, o e-mail será sinalizado. Em essência, a rede aprende a transformar funcionalidades brutas em padrões significativos e usá-los para fazer previsões.

Esse processo é alimentado por dois conceitos fundamentais: pesos e vieses. Os pesos atuam como mostradores que controlam a força com que cada funcionalidade de entrada influencia a decisão; uma palavra como "prêmio" pode receber mais peso do que uma palavra comum como "olá". Vieses são valores embutidos que mudam o limite de decisão, permitindo que um neurônio seja ativado mesmo que as entradas em si sejam fracas. Juntos, esses parâmetros do modelo determinam como cada neurônio contribui para a computação geral. Ao ajustar esses valores durante o treinamento, a rede aprende gradualmente a fazer previsões precisas — neste caso, se um e-mail é spam ou não.

De maneira matemática, uma rede neural aprende uma função  f(X)  mapeando um vetor de entrada  X=(x1,x2,x3...)  para prever uma resposta  Y.  O que distingue as redes neurais de outros algoritmos tradicionais de aprendizado de máquina é sua estrutura em camadas e sua capacidade de realizar transformação não linear.  

Uma rede neural é composta por:

  • Camada de entrada: contém as funcionalidades brutas  (X1,X2,X3,..) .

  • Camadas ocultas: consistem em neurônios artificiais (ou nós) que transformam entradas em novas representações. Matematicamente, as camadas ocultas são expressas como as funcionalidades de entrada, multiplicadas por seus pesos associados e viés para passar de uma camada para a próxima camada, chegando finalmente à camada de saída. É aqui que a transformação linear entre a entrada e a saída acontece. 

  • Camada de saída: após realizar a transformação linear na camada oculta, uma função de ativação não linear (tanh, sigmoide, ReLU ) é adicionada para produzir a previsão final (como um número para regressão ou uma distribuição de probabilidade para classificação).  
Diagrama de uma rede neural com três camadas ocultas: camada de entrada, múltiplas camadas ocultas, camada de saída Rede neural feedforward padrão com três camadas ocultas.

Treinamento de redes neurais

Assim como outros algoritmos de aprendizado de máquina, uma rede neural requer um treinamento rigoroso para ter um bom desempenho nos testes. Para treinar uma rede, um único neurônio calcula: 

 z=i=1nwixi+b

 a=σ(z)

Onde:

  •  xi = funcionalidade de entrada,
  •  wi = peso,
  •  b  = viés,
  •  z  = soma ponderada (transformação linear),
  •  σ  = função de ativação (transformação não linear),
  •  a  = saída,

 σ  representa uma função de ativação na camada de saída que transforma a combinação linear para se ajustar à decisão da função. Usando essa arquitetura, as funcionalidades de entrada X são transformadas em uma saída Y, servindo como um modelo de aprendizado de máquina preditivo.  

O poder de uma rede neural vem de sua capacidade de aprender os pesos e vieses corretos a partir dos dados. Isso é feito comparando a previsão da rede  Y^ para o rótulo verdadeiro  Y  e medindo o erro usando uma função de perda. Por exemplo, em tarefas de classificação, a perda pode medir o quanto a probabilidade prevista está da resposta correta.

Para minimizar essa perda, a rede utiliza um algoritmo chamado retropropagação. A rede neural treina em quatro etapas:

  • Passagem para a frente: as entradas fluem pela rede, calculando combinações lineares, passando pela função de ativação não linear e produzindo uma previsão de saída.

  • Cálculo de erros: a função de perda mede a diferença entre previsão e verdade.

  • Passagem para trás (retropropagação): o erro é propagado para trás pela rede. Em cada neurônio, o algoritmo calcula quanto cada peso e viés contribuiu para o erro usando a regra da cadeia do cálculo.

  • Atualização de peso: os pesos e vieses são ajustados ligeiramente na direção que reduz o erro, usando um método de otimização como o gradiente descendente.
Diagrama de gradiente descendente, "valor do peso" no eixo x e "perda" no eixo y, e um "ponto de partida" no lado superior esquerdo do diagrama; há o texto na parte mais baixa "ponto de convergência, ou seja, onde a função de custo está no mínimo"

Esse processo é repetido várias vezes no conjunto de dados de treinamento. Cada aprovação ajuda a rede a “ajustar” seus parâmetros internos para que suas previsões se aproximem cada vez mais das respostas corretas. Com o tempo, a rede converge para um conjunto de pesos e vieses que minimizam os erros e generalizam bem os dados não vistos. A retropropagação, juntamente com o gradiente descendente, é o mecanismo que faz as redes neurais funcionarem. Ela permite que redes com milhões (ou até bilhões) de parâmetros aprendam padrões significativos com enormes conjuntos de dados.  

No entanto, apesar do esforço dos profissionais para treinar modelos de alto desempenho, as redes neurais ainda enfrentam desafios semelhantes a outros modelos de aprendizado de máquina — principalmente o overfitting. Quando uma rede neural se torna excessivamente complexa com muitos parâmetros, o modelo causará overfitting nos dados de treinamento e prevê mal. O overfitting é um problema comum em todos os tipos de redes neurais, e prestar muita atenção à troca viés-variância é fundamental para criar modelos de redes neurais de alto desempenho.  

Arquiteturas modernas de redes neurais, como transformadores e modelos de codificadores-decodificadores, seguem os mesmos princípios fundamentais (pesos aprendidos e viés, camadas empilhadas, ativação não linear, treinamento de ponta a ponta por retropropagação). Eles diferem principalmente na forma como as entradas são misturadas entre as camadas. Em vez de somente mixagem totalmente conectada, transformadores usam atenção para formar combinações ponderadas dependentes de dados, juntamente com conexões residuais, normalização e codificações posicionais para enriquecer a fiação construída sobre os mesmos fundamentos.

Tipos de redes neurais

Enquanto os perceptrons multicamadas são a base, as redes neurais evoluíram para arquiteturas especializadas adequadas para diferentes domínios:

  • Redes neurais convolucionais (CNNs ou convnets): projetadas para dados em grade, como imagens. As CNNs se destacam em reconhecimento de imagem, computer vision e reconhecimento facial graças a filtros convolucionais que detectar hierarquias espaciais de funcionalidades. 

  • Redes neurais recorrentes (RNNs): incorporam laços de feedback que permitem que as informações persistam em etapas de tempo. As RNNs são adequadas para reconhecimento de fala, previsão de séries temporais e dados sequenciais. 

  • Transformadores: uma arquitetura moderna que substituiu as RNNs em muitas tarefas de sequências. Os transformadores aproveitam mecanismos de atenção para capturar dependências em processamento de linguagem natural (NLP) e alimentar modelos de última geração como o GPT. 

  •  Essas variações destacam a versatilidade das redes neurais. Independentemente da arquitetura, todos dependem dos mesmos princípios: neurônios artificiais, ativações não lineares e algoritmos de otimização.
Mixture of Experts | 12 de dezembro, episódio 85

Decodificando a IA: resumo semanal das notícias

Participe do nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Aplicações de redes neurais

As redes neurais são a base de muitos dos sistemas de IA atuais. Algumas aplicações proeminentes das redes neurais incluem:

  • Computer vision: CNNs para reconhecimento de imagens, imagens médicas e veículos autônomos. 

  • Processamento de linguagem natural: transformadores para tradução automática, chatbot e resumo. 

  • Reconhecimento de fala: RNNs e redes profundas para assistentes de transcrição e voz.

  • Forecasting e séries temporais: previsão de demanda, modelagem financeira e previsão do tempo.

  • Aprendizado por reforço: redes neurais como aproximadores de funções em agentes de jogos (por exemplo, o AlphaGo da Deepmind). 

  • Reconhecimento de padrões: identificar fraudes, detectar anomalias ou classificar documentos. 

Essas aplicações impulsionam inovações do mundo real em saúde, finanças, robótica, entretenimento e muito mais.

Por que as redes neurais são importantes 

As redes neurais aprendem representações internas úteis diretamente dos dados, capturando estruturas não lineares que os modelos clássicos não detectam. Com capacidade suficiente, objetivos sólidos e regularização em relação ao overfitting, eles escalam desde pequenos benchmarks até sistemas de produção em computer vision, processamento de linguagem natural, reconhecimento de fala, forecasting e muito mais, proporcionando ganhos mensuráveis em precisão e robustez. 
 
O deep learning moderno amplia essas bases. As CNNs são especializadas na extração de funcionalidades espaciais para imagens; as RNNs modelam dependências temporais em sequências; transformadores substituem a recorrência por atenção, auxiliados por conexões residuais, normalização e paralelismo eficiente em GPUs.  

Apesar das diferenças arquitetônicas, o treinamento permanece completo com retropropagação em grandes conjuntos de dados, e a visão central ainda se mantém:  Y=f(X;σ)  é aprendido ao compor transformações dependentes de dados com ativações não lineares. A IA generativa se baseia nos mesmos princípios em uma escala maior. Grandes modelos de linguagem, modelos de difusão, VAEs e GANs aprendem distribuições sobre dados para sintetizar texto, imagens, áudio e código.  

O salto de um perceptron multicamadas para geradores de última geração é principalmente de arquitetura, dados e computação. Compreender as funções de ativação, os requisitos de treinamento e os principais tipos de redes fornece uma ponte prática das redes neurais clássicas para os sistemas generativos de hoje e esclarece por que esses modelos se tornaram fundamentais para a IA moderna.

Soluções relacionadas
IBM watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Explore o watsonx.ai Agende uma demonstração em tempo real