O que são parâmetros de modelo?

05 de maio de 2025

Tempo de leitura

Autores

Ivan Belcic

Staff writer

Cole Stryker

Editorial Lead, AI Models

O que são parâmetros do modelo?

Parâmetros de modelo são variáveis de configuração internas de um modelo de aprendizado de máquina que controlam como ele processa dados e faz previsões. Os valores dos parâmetros podem definir se as saídas de um modelo de inteligência artificial (IA) refletem resultados do mundo real e como os dados de entrada são transformados em saídas como textos ou imagens gerados. 

Os algoritmos de aprendizado de máquina estimam os valores dos parâmetros do modelo durante o treinamento. O algoritmo de aprendizado ou otimização ajusta os parâmetros para que o modelo atinja seu desempenho ideal, reduzindo o erro, o custo ou a função de perda

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionados por especialistas e notícias sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

Parâmetros do modelo versus hiperparâmetros

Os parâmetros do modelo são frequentemente confundidos com os hiperparâmetros. Tanto os parâmetros quanto os hiperparâmetros afetam o funcionamento do modelo, embora de formas diferentes. 

Os parâmetros do modelo são internos e o próprio modelo os estima durante o processo de aprendizado, com base nos dados de treinamento. O algoritmo de aprendizado do modelo atualiza os valores dos parâmetros durante o treinamento. Os parâmetros controlam como o modelo reage a dados novos, como, por exemplo, um modelo preditivo faz previsões após a implementação. 

Os hiperparâmetros são externos ao modelo e definidos antes do treinamento por meio do ajuste de hiperparâmetros. Alguns hiperparâmetros influenciam o comportamento do modelo durante o treinamento, como a taxa de aprendizado usada no gradiente descendente ou o número de épocas do processo. 

Outros hiperparâmetros são responsáveis pela forma e estrutura do modelo, como o número de árvores de decisão em uma floresta aleatória, agrupamentos em agrupamentos k-means ou camadas ocultas em uma rede neural

Tipos de parâmetros do modelo

Nem todos os modelos de deep learning usam o mesmo conjunto de parâmetros. Os grandes modelos de linguagem (LLMs) utilizam pesos e vieses para processar os dados. Já os modelos de regressão linear e as máquinas de vetor de suporte (SVMs) têm seus próprios parâmetros, como os coeficientes lineares ou os vetores de suporte. 

Pesos

Os pesos são os principais ajustes de controle de um modelo e determinam como ele avalia novos dados e realiza previsões. Esses pesos representam o núcleo paramétrico de um LLM e são ajustados ao longo do processo de aprendizado. Os LLMs podem ter milhões ou até bilhões de pesos. 

Os pesos são variáveis numéricas que definem o quanto cada característica do conjunto de dados influencia o resultado. Em uma rede neural, os pesos determinam a intensidade das conexões entre os neurônios, ou seja, o quanto a saída de um afeta a entrada do próximo. 

Viés

Os vieses permitem que redes neurais ajustem suas saídas de forma independente dos pesos e das entradas do modelo. Enquanto os pesos são configurações variáveis, os vieses são constantes que funcionam como limites ou compensações. Os vieses ajudam os modelos a generalizar e identificar padrões e tendências amplas nos conjunto de dados. 

As redes neurais utilizam funções de ativação para decidir se um neurônio será ativado e produzirá uma saída. Os vieses ajustam essa função, oferecendo flexibilidade ao permitir que neurônios sejam ativados mesmo sem que a soma das entradas atinja o limite necessário. 

Os parâmetros de viés são diferentes do viés algorítmico, que ocorre quando o modelo gera resultados discriminatórios. Viés também se refere a um tipo de erro causado por suposições incorretas do modelo sobre os dados, o que leva à diferença entre valores previstos e reais. 

Tipos de hiperparâmetros

Como moldam o processo de treinamento, muitos hiperparâmetros influenciam diretamente a configuração final dos parâmetros do modelo. Isso pode incluir: 

  • Época: número de vezes que o conjunto completo de dados de treinamento passa pelo modelo durante o treinamento.

  • Tamanho do lote: quantidade de dados de treinamento usada em cada rodada de treino. Os modelos atualizam iterativamente seus pesos e vieses após cada lote. 

  • Taxa de aprendizado: intensidade com que o modelo ajusta seus pesos.  

  • Momentum: tendência do modelo de continuar ajustando os pesos na mesma direção das atualizações anteriores, em vez de inverter o sentido.

Mixture of Experts | 25 de abril, episódio 52

Decodificando a IA: resumo semanal das notícias

Junte-se ao nosso painel de engenheiros, pesquisadores, líderes de produto e outros especialistas de classe mundial enquanto eles cortam o ruído da IA para trazer a você as últimas notícias e insights sobre IA.

Como os parâmetros afetam o desempenho do modelo?

Os parâmetros exercem um papel essencial no desempenho do modelo. Eles influenciam como os neurônios da rede processam os dados e produzem os resultados. Na ciência de dados, os dados de entrada são compostos por qualidades e características chamadas de features. Mas nem todas as funcionalidades são igualmente relevantes para entender os dados e fazer boas previsões. 

Considere um modelo projetado para classificar animais como mamíferos ou peixes. Como mamíferos e peixes são vertebrados, a funcionalidade “vertebrado” não influencia as previsões do modelo. Por outro lado, como todos os peixes têm brânquias e nenhum mamífero, a funcionalidade "tem brânquias" é muito mais importante para o modelo. 

Pesos associados a informações mais relevantes criam conexões mais fortes entre os neurônios correspondentes. Essas conexões reforçadas aumentam a relevância das informações trocadas entre esses neurônios, em relação às demais. 

Os parâmetros também afetam o desempenho do modelo de uma perspectiva prática: 

  • Overfitting ocorre quando o modelo se ajusta demais aos dados de treinamento e não consegue generalizar para dados novos. Modelos com mais parâmetros tendem a sofrer mais com overfitting, pois se ajustam demais a um conjunto de dados de treino específico. Os criadores de modelos usam técnicas como validação cruzada e regularização com dropout para reduzir o overfitting.  

  • Modelos com mais parâmetros podem lidar com tarefas mais complexas. O aumento do número de parâmetros dá ao modelo uma compreensão mais matizada dos dados. Mas, como mencionado anteriormente, isso pode levar a um ajuste excessivo. 

  • Mais parâmetros aumentam o tamanho do modelo e exigem mais recursos computacionais. Os modelos robustos por trás de aplicativos líderes de IA generativa como o ChatGPT têm bilhões de parâmetros, consomem enormes quantidades de água e energia e custam milhões de dólares para serem treinados.

Como os parâmetros do modelo são determinados?

Nos métodos tradicionais de aprendizado de máquina, os modelos definem seus parâmetros por meio de um treinamento em duas etapas: propagação direta e propagação reversa.   

A propagação direta é o movimento de dados através do modelo. Os neurônios recebem as informações, calculam os pesos correspondentes e somam os vieses. Em seguida, a função de ativação avalia se o valor obtido é suficiente para ativar o neurônio. Se for, o neurônio é ativado e transmite os dados para os próximos neurônios da rede. A cadeia continua até que o modelo gere uma saída final. 

A segunda etapa é a propagação reversa, ou backpropagation. Essa fase calcula o erro do modelo, ou seja, a diferença entre sua saída e os valores reais. Para isso, um algoritmo de otimização por gradiente descendente mede o gradiente da função de perda. O modelo ajusta seus pesos e vieses conforme o gradiente, buscando reduzir a função de perda e melhorar suas previsões. 

O processo de propagação direta e reversa continua até que a função de perda seja minimizada com sucesso, indicando que o modelo alcançou seu desempenho ideal. O desempenho do modelo é avaliado com base nas métricas de avaliação do LLM, como a coerência do texto gerado.

Como otimizar parâmetros do modelo

Os pesquisadores de aprendizado de máquina identificaram uma variedade de técnicas que podem ajudar os modelos a chegarem à melhor configuração de parâmetros. 

  • O ajuste fino adapta um modelo já treinado para tarefas específicas, com base em conjuntos de dados menores e voltados para um domínio específico. Modelos ajustados finamente atualizam seus parâmetros o suficiente para aprender novas tarefas, sem perder a capacidade de generalização. 

  • A regularização adiciona uma penalidade à função de perda para evitar que o modelo altere seus pesos de forma muito severa. 

  • Parada antecipada: interrompe a validação quando o modelo deixa de apresentar melhorias, economizando recursos e evitando retornos decrescentes. 

  • O aprendizado por transferência incentiva os modelos a reutilizar o que já aprenderam, reduzindo as chances de esquecerem conteúdos anteriores. 

  • Isolamento de parâmetros congela certos parâmetros ao treinar modelos para novas tarefas, impedindo que eles sejam atualizados e potencialmente perdendo conhecimento prévio. 

  • Repetir expõe o modelo, periodicamente, a um “buffer de memória” com dados anteriores durante o treinamento de novas tarefas. O buffer é misturado aos novos dados para atualizar a memória do modelo e evitar ajustes de peso exagerados. 

  • A quantização substitui os pesos de um modelo treinado por valores menos precisos, reduzindo seus requisitos computacionais e preservando o conhecimento. Em geral, a quantização é a prática de mapear formatos de alta precisão para formatos de baixa precisão. 

  • A validação cruzada divide os dados de treinamento em subconjuntos conhecidos como dobras, um para treinamento e outro para teste. O processo é repetido várias vezes com diferentes agrupamentos de dados. 

  • O ajuste de hiperparâmetros é o processo de otimização dos hiperparâmetros de um modelo. Hiperparâmetros ideais levam a valores ideais de parâmetros do modelo após o treinamento.

Soluções relacionadas
IBM watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use IA para trabalhar em sua empresa com a experiência em IA líder do setor e com o portfólio de soluções da IBM.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Explore o watsonx.ai Agende uma demonstração em tempo real