Uma rede neural é um modelo de aprendizado de máquina que empilha neurônios simples em camadas e aprende pesos e vieses que reconhecem padrões a partir dos dados para mapear entradas para saídas.
Redes neurais estão entre os algoritmos mais influentes no aprendizado de máquina e na inteligência artificial (IA). Elas sustentam avanços em computer vision, processamento de linguagem natural, reconhecimento de fala e inúmeras aplicações do mundo real, que vão desde forecasting até reconhecimento facial. Enquanto as redes neurais profundas (DNNs) de hoje alimentam sistemas tão complexos quanto transformadores e redes neurais convolucionais (CNNs), as origens das redes neurais remontam a modelos simples como a regressão linear e como o cérebro humano digere, processa e decide sobre as informações apresentadas a ele.
Em um nível elevado, a inspiração para as redes neurais vem dos neurônios biológicos do cérebro humano, que se comunicam por meio de sinais elétricos. Em 1943, Warren McCulloch e Walter Pitts propuseram o primeiro modelo matemático de um neurônio, mostrando que unidades simples poderiam realizar o cálculo de uma função. Mais tarde, em 1958, Frank Rosenblatt introduziu o perceptron, um algoritmo projetado para realizar reconhecimento de padrões. O perceptron é o antecessor histórico das redes atuais: essencialmente um modelo linear com uma saída restrita. Na seção a seguir, nos aprofundaremos em como as redes neurais pedem inspiração nos cérebros humanos para tomar decisões e reconhecer padrões.
Uma rede neural pode ser compreendida por meio de um exemplo simples: detecção de spam. Um e-mail é alimentado na rede, e funcionalidades como palavras ou frases como "prêmio", "dinheiro", "prezado" ou "ganhar" são usados como entradas. Os neurônios iniciais na rede processam a importância de cada sinal, enquanto as camadas posteriores combinam essas informações em pistas de nível superior que capturam contexto e tom. A camada final, então, calcula uma probabilidade de o e-mail ser spam e, se essa probabilidade for alta o suficiente, o e-mail será sinalizado. Em essência, a rede aprende a transformar funcionalidades brutas em padrões significativos e usá-los para fazer previsões.
Esse processo é alimentado por dois conceitos fundamentais: pesos e vieses. Os pesos atuam como mostradores que controlam a força com que cada funcionalidade de entrada influencia a decisão; uma palavra como "prêmio" pode receber mais peso do que uma palavra comum como "olá". Vieses são valores embutidos que mudam o limite de decisão, permitindo que um neurônio seja ativado mesmo que as entradas em si sejam fracas. Juntos, esses parâmetros do modelo determinam como cada neurônio contribui para a computação geral. Ao ajustar esses valores durante o treinamento, a rede aprende gradualmente a fazer previsões precisas — neste caso, se um e-mail é spam ou não.
De maneira matemática, uma rede neural aprende uma função mapeando um vetor de entrada para prever uma resposta O que distingue as redes neurais de outros algoritmos tradicionais de aprendizado de máquina é sua estrutura em camadas e sua capacidade de realizar transformação não linear.
Uma rede neural é composta por:
Assim como outros algoritmos de aprendizado de máquina, uma rede neural requer um treinamento rigoroso para ter um bom desempenho nos testes. Para treinar uma rede, um único neurônio calcula:
Onde:
representa uma função de ativação na camada de saída que transforma a combinação linear para se ajustar à decisão da função. Usando essa arquitetura, as funcionalidades de entrada X são transformadas em uma saída Y, servindo como um modelo de aprendizado de máquina preditivo.
O poder de uma rede neural vem de sua capacidade de aprender os pesos e vieses corretos a partir dos dados. Isso é feito comparando a previsão da rede para o rótulo verdadeiro e medindo o erro usando uma função de perda. Por exemplo, em tarefas de classificação, a perda pode medir o quanto a probabilidade prevista está da resposta correta.
Para minimizar essa perda, a rede utiliza um algoritmo chamado retropropagação. A rede neural treina em quatro etapas:
Esse processo é repetido várias vezes no conjunto de dados de treinamento. Cada aprovação ajuda a rede a “ajustar” seus parâmetros internos para que suas previsões se aproximem cada vez mais das respostas corretas. Com o tempo, a rede converge para um conjunto de pesos e vieses que minimizam os erros e generalizam bem os dados não vistos. A retropropagação, juntamente com o gradiente descendente, é o mecanismo que faz as redes neurais funcionarem. Ela permite que redes com milhões (ou até bilhões) de parâmetros aprendam padrões significativos com enormes conjuntos de dados.
No entanto, apesar do esforço dos profissionais para treinar modelos de alto desempenho, as redes neurais ainda enfrentam desafios semelhantes a outros modelos de aprendizado de máquina — principalmente o overfitting. Quando uma rede neural se torna excessivamente complexa com muitos parâmetros, o modelo causará overfitting nos dados de treinamento e prevê mal. O overfitting é um problema comum em todos os tipos de redes neurais, e prestar muita atenção à troca viés-variância é fundamental para criar modelos de redes neurais de alto desempenho.
Arquiteturas modernas de redes neurais, como transformadores e modelos de codificadores-decodificadores, seguem os mesmos princípios fundamentais (pesos aprendidos e viés, camadas empilhadas, ativação não linear, treinamento de ponta a ponta por retropropagação). Eles diferem principalmente na forma como as entradas são misturadas entre as camadas. Em vez de somente mixagem totalmente conectada, transformadores usam atenção para formar combinações ponderadas dependentes de dados, juntamente com conexões residuais, normalização e codificações posicionais para enriquecer a fiação construída sobre os mesmos fundamentos.
Enquanto os perceptrons multicamadas são a base, as redes neurais evoluíram para arquiteturas especializadas adequadas para diferentes domínios:
As redes neurais são a base de muitos dos sistemas de IA atuais. Algumas aplicações proeminentes das redes neurais incluem:
Essas aplicações impulsionam inovações do mundo real em saúde, finanças, robótica, entretenimento e muito mais.
As redes neurais aprendem representações internas úteis diretamente dos dados, capturando estruturas não lineares que os modelos clássicos não detectam. Com capacidade suficiente, objetivos sólidos e regularização em relação ao overfitting, eles escalam desde pequenos benchmarks até sistemas de produção em computer vision, processamento de linguagem natural, reconhecimento de fala, forecasting e muito mais, proporcionando ganhos mensuráveis em precisão e robustez.
O deep learning moderno amplia essas bases. As CNNs são especializadas na extração de funcionalidades espaciais para imagens; as RNNs modelam dependências temporais em sequências; transformadores substituem a recorrência por atenção, auxiliados por conexões residuais, normalização e paralelismo eficiente em GPUs.
Apesar das diferenças arquitetônicas, o treinamento permanece completo com retropropagação em grandes conjuntos de dados, e a visão central ainda se mantém: é aprendido ao compor transformações dependentes de dados com ativações não lineares. A IA generativa se baseia nos mesmos princípios em uma escala maior. Grandes modelos de linguagem, modelos de difusão, VAEs e GANs aprendem distribuições sobre dados para sintetizar texto, imagens, áudio e código.
O salto de um perceptron multicamadas para geradores de última geração é principalmente de arquitetura, dados e computação. Compreender as funções de ativação, os requisitos de treinamento e os principais tipos de redes fornece uma ponte prática das redes neurais clássicas para os sistemas generativos de hoje e esclarece por que esses modelos se tornaram fundamentais para a IA moderna.
Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.
Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.
Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.