O que é ajuste de modelo?

Visão por trás de engenheiro de som manipulando mesa de som

Autores

Staff writer

Staff Editor, AI Models

IBM Think

O que é ajuste de modelo?

O ajuste do modelo otimiza os hiperparâmetros de um modelo de aprendizado de máquina para obter o melhor desempenho de treinamento. O processo envolve fazer ajustes até que o conjunto ideal de valores de hiperparâmetros seja encontrado, resultando em maior precisão, qualidade de geração e outras métricas de desempenho.

Como o ajuste do modelo identifica os hiperparâmetros ideais de um modelo, também é conhecido como otimização de hiperparâmetros ou, opcionalmente, ajuste de hiperparâmetros.

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA  

Descubra insights selecionados por especialistas e notícias sobre IA, nuvem e outros assuntos no boletim informativo semanal Think.

O que são hiperparâmetros?

Hiperparâmetros são variáveis de configuração de modelo que não podem ser derivadas de dados de treinamento. Essas variáveis determinam as características principais e o comportamento de um modelo. Alguns hiperparâmetros, como a taxa de aprendizado, controlam o comportamento do modelo durante o treinamento. Outros determinam a natureza do próprio modelo, como um hiperparâmetro que define o número de camadas em uma rede neural.

Os cientistas de dados devem configurar os valores de hiperparâmetros de um modelo de aprendizado de máquina (ML) antes do início do treinamento. A escolha da combinação correta de hiperparâmetros antecipadamente é essencial para um treinamento bem-sucedido do modelo de ML.

Hiperparâmetros versus parâmetros do modelo

Parâmetros de modelo, ou pesos de modelo, são variáveis que modelos de IA descobrem durante o treinamento. Os algoritmos de IA aprendem as relações, os padrões e as distribuições subjacentes dos seus conjuntos de dados de treinamento e, em seguida, aplicam essas descobertas a novos dados para fazer previsões bem-sucedidas.

À medida que um algoritmo de aprendizado de máquina passa por treinamento, define e atualiza seus parâmetros. Esses parâmetros representam o que um modelo aprende com seu conjunto de dados e mudam ao longo do tempo com cada iteração do seu algoritmo de otimização.

Por que o ajuste do modelo é importante?

O ajuste do modelo é importante devido à forma como os valores dos hiperparâmetros afetam diretamente o desempenho do modelo. Uma boa configuração de hiperparâmetros faz com que os modelos aprendam melhor durante o treinamento.

Sem um bom ajuste, um modelo pode ficar propenso ao overfitting quando se aproxima demais de seus dados de treinamento e não consegue se adaptar a novos conjuntos de dados. Outras deficiências podem ser viés do modelo ou variância do modelo excessivos.

Cada algoritmo de aprendizado de máquina tem sua própria combinação ideal de hiperparâmetros, com alguns influenciando o desempenho mais do que outros. Limitar o ajuste do modelo a um conjunto central dos hiperparâmetros mais impactantes pode reduzir o tempo e as demandas de recursos computacionais.

Overfitting

O overfitting acontece quando um modelo é muito complexo para seus dados de treinamento. Os hiperparâmetros dele criam uma rede neural com muitas camadas ou parâmetros treináveis. Com o overfitting, o modelo se adapta de forma muito precisa ao seu conjunto de dados de treinamento. Um modelo overfitted não pode se adaptar a novos dados porque não conseguiu generalizar a partir de seus dados de treinamento.

Imagine dois alunos em uma sala de aula. Um aluno aprende memorizando fatos, o outro entendendo os conceitos subjacentes que estão sendo ensinados. Até agora, ambos tiveram um bom desempenho nos testes que cobrem o material do curso. Mas o que acontece quando precisam aplicar seu aprendizado a novos tópicos?

O aluno que generalizar vai transferir com sucesso o que aprendeu, enquanto o aluno que depende da memória pode ter dificuldades para fazer o mesmo. Eles têm o "ajuste excessivo" de sua compreensão para as especificidades do conteúdo da sala de aula, ao mesmo tempo em que não conseguem compreender os princípios fundamentais.

Viés

O viés é a diferença entre as previsões de um modelo e os resultados reais do mundo. Embora o viés possa surgir de conjuntos de dados de treinamento falhos, o viés também resulta de ajuste abaixo do ideal do modelo. O modelo não consegue aprender bem, mesmo quando seus dados de treinamento são viáveis.

Modelos com alta tendência ignoram sutilezas nos dados de treinamento e podem não gerar previsões precisas durante o treinamento. Algoritmos mais simples, como regressão, são mais propensos a altos vieses porque não conseguem capturar relações mais complexas em seus dados de treinamento.

Escolher o algoritmo certo para uma tarefa específica é o primeiro passo para obter um bom desempenho, mesmo antes do início do ajuste do modelo.

Variância

A variância retrata inversamente a consistência das previsões de um modelo. Maior variância significa que um modelo tem previsões menos consistentes com dados não vistos, embora geralmente tenha um bom desempenho com conjuntos de dados de treinamento. Modelos com alta variância sofrem de overfitting: não conseguem transferir o que aprenderam dos dados de treinamento para novos dados.

A regularização é uma técnica que reduz o sobreajuste mudando a razão viés-variância em favor de um viés maior. Um bom ajuste de modelo gerencia a compensação entre viés e variância para previsões ideais do mundo real.

Mixture of Experts | 12 de dezembro, episódio 85

Decodificando a IA: resumo semanal das notícias

Participe do nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Veja todos os episódios de Mixture of Experts

Como funciona o ajuste de modelo?

O ajuste do modelo funciona descobrindo a configuração dos hiperparâmetros que resultam no melhor resultado de treinamento. Às vezes, por exemplo, ao criar modelos menores e simples, os cientistas de dados podem configurar manualmente os hiperparâmetros com antecedência. Mas transformadores e outros modelos complexos podem ter milhares de combinações possíveis de hiperparâmetros.

Com tantas opções, os cientistas de dados podem limitar o espaço de busca de hiperparâmetros para cobrir a parte de combinações em potencial com maior probabilidade de produzir resultados ideais. Também podem utilizar métodos automáticos para descobrir via algoritmo os hiperparâmetros ideais para o caso de uso pretendido.

Métodos de ajuste de modelos

Os métodos de ajuste de modelos mais comuns são:

Pesquisa em grade
Pesquisa aleatória
Otimização bayesiana
Hyperband

Pesquisa em grade

A busca em grade é o método de ajuste de modelo por “força bruta”. Cientistas de dados criam um espaço de pesquisa que consiste em todos os valores possíveis de hiperparâmetros. Em seguida, o algoritmo de pesquisa de grade produz todas as combinações disponíveis de hiperparâmetros. O modelo é treinado e validado para cada combinação de hiperparâmetros, com o modelo com melhor desempenho selecionado para uso.

Como testa todos os valores possíveis de hiperparâmetros em vez de um subconjunto menor, a pesquisa em grade é um método de ajuste abrangente. A desvantagem desse escopo ampliado é que a pesquisa da grade é demorada e consome muitos recursos.

Pesquisa aleatória

Em vez de testar todas as configurações de hiperparâmetros possíveis, os algoritmos de pesquisa aleatória escolhem valores de hiperparâmetros em uma distribuição estatística de possíveis opções. Os cientistas de dados reúnem os valores de hiperparâmetros mais prováveis, aumentando as chances do algoritmo de selecionar uma opção viável.

A pesquisa aleatória é mais rápida e fácil de implementar do que a pesquisa em grade. Porém, como nem todas as combinações são testadas, não há garantia de que a melhor configuração de hiperparâmetro seja encontrada.

Otimização bayesiana

Diferentemente das pesquisas em grade e aleatórias, a otimização bayesiana seleciona valores de hiperparâmetros com base nos resultados de tentativas anteriores. O algoritmo utiliza os resultados dos testes de valores anteriores de hiperparâmetros para prever valores que provavelmente levarão a resultados melhores.

A otimização bayesiana funciona construindo-se um modelo probabilístico da função objetiva. Esta função substituta torna-se mais eficiente com o passar do tempo, à medida que seus resultados melhoram. Evita alocar recursos para valores de hiperparâmetros de baixo desempenho, ao mesmo tempo em que se concentra na configuração ideal.

A técnica de otimizar um modelo com base em rodadas anteriores de testes é conhecida como otimização baseada em modelo sequencial (SMBO).

Hyperband

A hiperbanda melhora o fluxo de trabalho de pesquisa aleatória, concentrando-se na promessa de configurações de hiperparâmetros enquanto aborta pesquisas menos viáveis. Em cada interação de teste, o algoritmo de hiperbanda remove a metade com pior desempenho de todas as configurações testadas.

A abordagem de "halving sucessivo" da hiperbanda mantém o foco nas configurações mais promissoras até que o melhor seja descoberto no grupo original de candidatos.

Ajuste de modelo versus treinamento de modelo

Enquanto o ajuste do modelo é o processo de descoberta dos hiperparâmetros ideais, o treinamento do modelo é quando um algoritmo de aprendizado de máquina é ensinado a identificar padrões em seu conjunto de dados de treinamento e fazer previsões precisas sobre novos dados.

O processo de treinamento utiliza um algoritmo de otimização para minimizar uma função de perda, ou função objetiva, que mede a lacuna entre as previsões de um modelo e os valores reais. O objetivo é identificar a melhor combinação de pesos e viés do modelo para o menor valor possível da função objetiva. O algoritmo de otimização atualiza os pesos de um modelo periodicamente durante o treinamento.

A família de descendência gradiente de algoritmos de otimização funciona descendo o gradiente da função de perda para descobrir seu valor mínimo: o ponto em que o modelo é mais preciso. Um mínimo local é um valor mínimo em uma região especificada, mas pode não ser o mínimo global da função — o valor mais baixo absoluto.

Nem sempre é necessário identificar o mínimo global da função de perda. Diz-se que um modelo atingiu a convergência quando sua função de perda é minimizada com sucesso.

Validação cruzada, teste e reaprendizado

Após o treinamento, os modelos passam por validação cruzada, verificando os resultados do treinamento com outra parte dos dados de treinamento. As previsões do modelo são comparadas com os valores reais dos dados de validação. O modelo de melhor desempenho então migra para a fase de testes, onde suas previsões são novamente examinadas quanto à precisão antes da implementação. A validação cruzada e os testes são essenciais para a avaliação de grandes modelos de linguagem (LLM).

O retreinamento é uma parte do ciclo de vida da IA MLOps (operações de aprendizado de máquina) que retreina um modelo de forma contínua e autônoma com o passar do tempo para mantê-lo com o melhor desempenho.

Ajuste de modelo versus ajuste fino tradicional

O ajuste do modelo identifica os melhores valores de hiperparâmetros para treinamento, enquanto o ajuste fino é o processo de ajustar um modelo de base treinado previamente para tarefas posteriores específicas. O ajuste fino é um tipo de aprendizado por transferência, quando o aprendizado preexistente de um modelo é adaptado a novas tarefas.

Com o ajuste fino, um modelo treinado previamente é novamente treinado em um conjunto de dados menor e mais especializado e relevante para o caso de uso pretendido do modelo. Inicialmente, o treinamento de um modelo em um pequeno conjunto de dados corre o risco de sobreajuste, mas o treinamento com um conjunto de dados grande e generalizado ajuda a mitigar esse risco.

Exemplos de hiperparâmetros

Embora cada algoritmo tenha seu próprio conjunto de hiperparâmetros, muitos são compartilhados entre algoritmos semelhantes. Os hiperparâmetros comuns nas redes neurais que alimentam os grandes modelos de linguagem (LLMs) são:

Taxa de aprendizado
Decadência da taxa de aprendizado
Epochs
Tamanho do lote
Momento
Número de camadas ocultas
Nós por camada
Função de ativação

Taxa de aprendizado

A taxa de aprendizado determina a rapidez com que um modelo atualiza seus pesos durante o treinamento. Uma taxa de aprendizado mais alta significa que um modelo aprende mais rápido, mas corre o risco de ultrapassar um mínimo local de sua função de perda. Enquanto isso, uma baixa taxa de aprendizado pode levar a tempos de treinamento excessivos, aumentando os recursos e as demandas de custo.

Decadência da taxa de aprendizado

A queda da taxa de aprendizado é um hiperparâmetro que diminui a taxa de aprendizado de um algoritmo de ML ao longo do tempo. O modelo atualiza seus parâmetros mais rápido no início, depois com maiores nuances à medida que se aproxima da convergência, reduzindo o risco de ultrapassagem.

Epochs

O treinamento de modelo envolve a exposição de um modelo aos seus dados de treinamento várias vezes para que ele atualize seus pesos de forma iterativa. Uma época ocorre cada vez que o modelo processa todo o seu conjunto de dados de treinamento e o hiperparâmetro épocas define o número de épocas que compõem o processo de treinamento.

Tamanho do lote

Os algoritmos de aprendizado de máquina não processam seus conjuntos de dados de treinamento em todas as iterações do algoritmo de otimização. Em vez disso, os dados de treinamento são separados em lotes, com os pesos do modelo sendo atualizados após cada lote. O tamanho do lote determina o número de amostras de dados em cada lote.

Momento

Momentum é uma propensão de um algoritmo de ML para atualizar seus pesos na mesma direção das atualizações anteriores. Pense no momentum como a convicção de um algoritmo em seu aprendizado. O alto momentum leva o algoritmo a uma convergência mais rápida, com o risco de contornar mínimos locais significativos. Enquanto isso, o baixo momentum pode fazer com que um algoritmo fique oscilando entre suas atualizações, paralisando seu progresso.

Número de camadas ocultas

Redes neurais modelam a estrutura do cérebro humano e contêm múltiplas camadas de neurônios interconectados, ou nós. Essa complexidade é o que permite que modelos avançados, como modelos de transformadores, lidem com tarefas generativas complexas. Menos camadas tornam o modelo mais enxuto, mas mais camadas abrem a porta para tarefas mais complexas.

Nós por camada

Cada camada de uma rede neural tem um número predeterminado de nós. À medida que as camadas aumentam de largura, também aumenta a capacidade do modelo de lidar com relacionamentos complexos entre pontos de dados, mas ao custo de maiores requisitos computacionais.

Função de ativação

Uma função de ativação é um hiperparâmetro que concede aos modelos a capacidade de criar limites não lineares entre grupos de dados. Quando é impossível classificar com precisão os pontos de dados em grupos separados por uma linha reta, a ativação apresenta a flexibilidade necessária para divisões mais complexas.

Uma Neural Networks sem uma ativação é essencialmente um modelo de regressão.

Como escolher o modelo de base certo

Aprenda como escolher a abordagem correta na preparação de conjuntos de dados e no emprego de modelos de base.

Recursos

Garantindo o ROI: agentes de IA em sua empresa

Participe do webinar da IBM no qual demonstramos como garantir o ROI real por meio de iniciativas de IA agêntica, com exemplos de setores, casos de uso e até mesmo as histórias de sucesso da própria IBM.

IBM reconhecida como líder em ciência de dados e aprendizado de máquina

Saiba por que a IBM foi reconhecida como líder no Gartner Magic Quadrant de 2025 para plataformas de ciência de dados e aprendizado de máquina.

De projetos de IA a lucros: como a IA agêntica pode sustentar retornos financeiros

Saiba como as organizações estão passando de lançamentos de IA em pilotos díspares para usá-la para impulsionar a transformação no núcleo.

Aumente o nível da sua experiência em IA

Acesse nosso catálogo completo com mais de 100 cursos on-line adquirindo uma assinatura individual ou para múltiplos usuários hoje, permitindo que você expanda suas habilidades em uma variedade de nossos produtos a um preço baixo.

Explore o IBM Granite

IBM® Granite é uma família de modelos de IA de código aberto, de alto desempenho e confiáveis, adaptados para negócios e otimizados para escalar suas aplicações de IA. Explore opções de linguagem, código, séries temporais e proteções.

IBM AI Academy

Liderada pelos principais líderes da IBM, o currículo dessa experiência foi desenvolvido para ajudar líderes empresariais a terem o conhecimento necessário para priorizar os investimentos em IA que podem estimular o crescimento.

IA em ação 2024

Entrevistamos duas mil organizações a respeito de suas iniciativas de IA para descobrir o que está funcionando, o que não está e como se preparar.

Guia do CEO para 2025: 5 mudanças de mentalidade para impulsionar o crescimento dos negócios

Adote essas cinco mudanças de mentalidade para acabar com a incerteza, estimular a reinvenção dos negócios e acelerar o crescimento com a IA agêntica.

Liberar o poder da IA generativa e do aprendizado de máquina

Saiba como incorporar com confiança a IA generativa e o aprendizado de máquina em sua empresa.

Como prosperar nesta nova era da IA com confiança e convicção

Aprofunde-se nos três elementos críticos de uma estratégia de IA sólida: criar uma vantagem competitiva, escalar a IA em todo o negócio e avançar na direção de uma IA confiável.

Soluções relacionadas

IBM® watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em menos tempo com menos dados.

Explore o watsonx.ai

Soluções de inteligência artificial

Coloque a IA em ação na sua empresa com a experiência em IA líder do setor e com o portfólio de soluções da IBM.

Explore as soluções de IA

Consultoria e serviços em inteligência artificial (IA)

Os serviços de IA da IBM Consulting ajudam a reinventar a forma como as empresas trabalham com IA para gerar transformação.

Explore os serviços de IA

Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Explore o watsonx.ai

Agende uma demonstração em tempo real

O que é ajuste de modelo?

Autores

O que é ajuste de modelo?

As últimas notícias e insights sobre IA

O que são hiperparâmetros?

Hiperparâmetros versus parâmetros do modelo

Por que o ajuste do modelo é importante?

Overfitting

Viés

Variância

Decodificando a IA: resumo semanal das notícias

Como funciona o ajuste de modelo?

Métodos de ajuste de modelos

Pesquisa em grade

Pesquisa aleatória

Otimização bayesiana

Hyperband

Ajuste de modelo versus treinamento de modelo

Validação cruzada, teste e reaprendizado

Ajuste de modelo versus ajuste fino tradicional

Exemplos de hiperparâmetros

Taxa de aprendizado

Decadência da taxa de aprendizado

Epochs

Tamanho do lote

Momento

Número de camadas ocultas

Nós por camada

Função de ativação

Share

Recursos

As últimas notícias e insights sobre IA