O que é ajuste de modelo?

Visão por trás de engenheiro de som manipulando mesa de som

Autores

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

O que é ajuste de modelo?

O ajuste do modelo otimiza os hiperparâmetros de um modelo de aprendizado de máquina para obter o melhor desempenho de treinamento. O processo envolve fazer ajustes até que o conjunto ideal de valores de hiperparâmetros seja encontrado, resultando em maior precisão, qualidade de geração e outras métricas de desempenho.

Como o ajuste do modelo identifica os hiperparâmetros ideais de um modelo, também é conhecido como otimização de hiperparâmetros ou, opcionalmente, ajuste de hiperparâmetros.

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionados por especialistas e notícias sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

O que são hiperparâmetros?

Hiperparâmetros são variáveis de configuração de modelo que não podem ser derivadas de dados de treinamento. Essas variáveis determinam as características principais e o comportamento de um modelo. Alguns hiperparâmetros, como a taxa de aprendizado, controlam o comportamento do modelo durante o treinamento. Outros determinam a natureza do próprio modelo, como um hiperparâmetro que define o número de camadas em uma rede neural.

Os cientistas de dados devem configurar os valores de hiperparâmetros de um modelo de aprendizado de máquina (ML) antes do início do treinamento. A escolha da combinação correta de hiperparâmetros antecipadamente é essencial para um treinamento bem-sucedido do modelo de ML.

Hiperparâmetros versus parâmetros do modelo

Parâmetros de modelo, ou pesos de modelo, são variáveis que modelos de IA descobrem durante o treinamento. Os algoritmos de IA aprendem as relações, os padrões e as distribuições subjacentes dos seus conjuntos de dados de treinamento e, em seguida, aplicam essas descobertas a novos dados para fazer previsões bem-sucedidas.

À medida que um algoritmo de aprendizado de máquina passa por treinamento, define e atualiza seus parâmetros. Esses parâmetros representam o que um modelo aprende com seu conjunto de dados e mudam ao longo do tempo com cada iteração do seu algoritmo de otimização.

Por que o ajuste do modelo é importante?

O ajuste do modelo é importante devido à forma como os valores dos hiperparâmetros afetam diretamente o desempenho do modelo. Uma boa configuração de hiperparâmetros faz com que os modelos aprendam melhor durante o treinamento.

Sem um bom ajuste, um modelo pode ficar propenso ao overfitting quando se aproxima demais de seus dados de treinamento e não consegue se adaptar a novos conjuntos de dados. Outras deficiências podem ser viés do modelo ou variância do modelo excessivos.

Cada algoritmo de aprendizado de máquina tem sua própria combinação ideal de hiperparâmetros, com alguns influenciando o desempenho mais do que outros. Limitar o ajuste do modelo a um conjunto central dos hiperparâmetros mais impactantes pode reduzir o tempo e as demandas de recursos computacionais.

      Overfitting

      O overfitting acontece quando um modelo é muito complexo para seus dados de treinamento. Os hiperparâmetros dele criam uma rede neural com muitas camadas ou parâmetros treináveis. Com o overfitting, o modelo se adapta de forma muito precisa ao seu conjunto de dados de treinamento. Um modelo overfitted não pode se adaptar a novos dados porque não conseguiu generalizar a partir de seus dados de treinamento.

      Imagine dois alunos em uma sala de aula. Um aluno aprende memorizando fatos, o outro entendendo os conceitos subjacentes que estão sendo ensinados. Até agora, ambos tiveram um bom desempenho nos testes que cobrem o material do curso. Mas o que acontece quando precisam aplicar seu aprendizado a novos tópicos?

      O aluno que generalizar vai transferir com sucesso o que aprendeu, enquanto o aluno que depende da memória pode ter dificuldades para fazer o mesmo. Eles têm o "ajuste excessivo" de sua compreensão para as especificidades do conteúdo da sala de aula, ao mesmo tempo em que não conseguem compreender os princípios fundamentais.

      Viés

      O viés é a diferença entre as previsões de um modelo e os resultados reais do mundo. Embora o viés possa surgir de conjuntos de dados de treinamento falhos, o viés também resulta de ajuste abaixo do ideal do modelo. O modelo não consegue aprender bem, mesmo quando seus dados de treinamento são viáveis.

      Modelos com alta tendência ignoram sutilezas nos dados de treinamento e podem não gerar previsões precisas durante o treinamento. Algoritmos mais simples, como regressão, são mais propensos a altos vieses porque não conseguem capturar relações mais complexas em seus dados de treinamento.

      Escolher o algoritmo certo para uma tarefa específica é o primeiro passo para obter um bom desempenho, mesmo antes do início do ajuste do modelo.

      Variância

      A variância retrata inversamente a consistência das previsões de um modelo. Maior variância significa que um modelo tem previsões menos consistentes com dados não vistos, embora geralmente tenha um bom desempenho com conjuntos de dados de treinamento. Modelos com alta variância sofrem de overfitting: não conseguem transferir o que aprenderam dos dados de treinamento para novos dados.

      A regularização é uma técnica que reduz o sobreajuste mudando a razão viés-variância em favor de um viés maior. Um bom ajuste de modelo gerencia a compensação entre viés e variância para previsões ideais do mundo real.

      Mixture of Experts | 28 de agosto, episódio 70

      Decodificando a IA: resumo semanal das notícias

      Participe do nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

      Como funciona o ajuste de modelo?

      O ajuste do modelo funciona descobrindo a configuração dos hiperparâmetros que resultam no melhor resultado de treinamento. Às vezes, por exemplo, ao criar modelos menores e simples, os cientistas de dados podem configurar manualmente os hiperparâmetros com antecedência. Mas transformadores e outros modelos complexos podem ter milhares de combinações possíveis de hiperparâmetros.

      Com tantas opções, os cientistas de dados podem limitar o espaço de busca de hiperparâmetros para cobrir a parte de combinações em potencial com maior probabilidade de produzir resultados ideais. Também podem utilizar métodos automáticos para descobrir via algoritmo os hiperparâmetros ideais para o caso de uso pretendido.

        Métodos de ajuste de modelos

        Os métodos de ajuste de modelos mais comuns são:

        • Pesquisa em grade

        • Pesquisa aleatória

        • Otimização bayesiana

        • Hyperband

        Pesquisa em grade

        A busca em grade é o método de ajuste de modelo por “força bruta”. Cientistas de dados criam um espaço de pesquisa que consiste em todos os valores possíveis de hiperparâmetros. Em seguida, o algoritmo de pesquisa de grade produz todas as combinações disponíveis de hiperparâmetros. O modelo é treinado e validado para cada combinação de hiperparâmetros, com o modelo com melhor desempenho selecionado para uso.

        Como testa todos os valores possíveis de hiperparâmetros em vez de um subconjunto menor, a pesquisa em grade é um método de ajuste abrangente. A desvantagem desse escopo ampliado é que a pesquisa da grade é demorada e consome muitos recursos.

          Pesquisa aleatória

          Em vez de testar todas as configurações de hiperparâmetros possíveis, os algoritmos de pesquisa aleatória escolhem valores de hiperparâmetros em uma distribuição estatística de possíveis opções. Os cientistas de dados reúnem os valores de hiperparâmetros mais prováveis, aumentando as chances do algoritmo de selecionar uma opção viável.

          A pesquisa aleatória é mais rápida e fácil de implementar do que a pesquisa em grade. Porém, como nem todas as combinações são testadas, não há garantia de que a melhor configuração de hiperparâmetro seja encontrada.

          Otimização bayesiana

          Diferentemente das pesquisas em grade e aleatórias, a otimização bayesiana seleciona valores de hiperparâmetros com base nos resultados de tentativas anteriores. O algoritmo utiliza os resultados dos testes de valores anteriores de hiperparâmetros para prever valores que provavelmente levarão a resultados melhores.

          A otimização bayesiana funciona construindo-se um modelo probabilístico da função objetiva. Esta função substituta torna-se mais eficiente com o passar do tempo, à medida que seus resultados melhoram. Evita alocar recursos para valores de hiperparâmetros de baixo desempenho, ao mesmo tempo em que se concentra na configuração ideal.

          A técnica de otimizar um modelo com base em rodadas anteriores de testes é conhecida como otimização baseada em modelo sequencial (SMBO).

            Hyperband

            A hiperbanda melhora o fluxo de trabalho de pesquisa aleatória, concentrando-se na promessa de configurações de hiperparâmetros enquanto aborta pesquisas menos viáveis. Em cada interação de teste, o algoritmo de hiperbanda remove a metade com pior desempenho de todas as configurações testadas.

            A abordagem de "halving sucessivo" da hiperbanda mantém o foco nas configurações mais promissoras até que o melhor seja descoberto no grupo original de candidatos.

            Ajuste de modelo versus treinamento de modelo

            Enquanto o ajuste do modelo é o processo de descoberta dos hiperparâmetros ideais, o treinamento do modelo é quando um algoritmo de aprendizado de máquina é ensinado a identificar padrões em seu conjunto de dados de treinamento e fazer previsões precisas sobre novos dados.

            O processo de treinamento utiliza um algoritmo de otimização para minimizar uma função de perda, ou função objetiva, que mede a lacuna entre as previsões de um modelo e os valores reais. O objetivo é identificar a melhor combinação de pesos e viés do modelo para o menor valor possível da função objetiva. O algoritmo de otimização atualiza os pesos de um modelo periodicamente durante o treinamento.

            A família de descendência gradiente de algoritmos de otimização funciona descendo o gradiente da função de perda para descobrir seu valor mínimo: o ponto em que o modelo é mais preciso. Um mínimo local é um valor mínimo em uma região especificada, mas pode não ser o mínimo global da função — o valor mais baixo absoluto.

            Nem sempre é necessário identificar o mínimo global da função de perda. Diz-se que um modelo atingiu a convergência quando sua função de perda é minimizada com sucesso.

            Validação cruzada, teste e reaprendizado

            Após o treinamento, os modelos passam por validação cruzada, verificando os resultados do treinamento com outra parte dos dados de treinamento. As previsões do modelo são comparadas com os valores reais dos dados de validação. O modelo de melhor desempenho então migra para a fase de testes, onde suas previsões são novamente examinadas quanto à precisão antes da implementação. A validação cruzada e os testes são essenciais para a avaliação de grandes modelos de linguagem (LLM).

            O retreinamento é uma parte do ciclo de vida da IA MLOps (operações de aprendizado de máquina) que retreina um modelo de forma contínua e autônoma com o passar do tempo para mantê-lo com o melhor desempenho.

            Ajuste de modelo versus ajuste fino tradicional

            O ajuste do modelo identifica os melhores valores de hiperparâmetros para treinamento, enquanto o ajuste fino é o processo de ajustar um modelo de base treinado previamente para tarefas posteriores específicas. O ajuste fino é um tipo de aprendizado por transferência, quando o aprendizado preexistente de um modelo é adaptado a novas tarefas.

            Com o ajuste fino, um modelo treinado previamente é novamente treinado em um conjunto de dados menor e mais especializado e relevante para o caso de uso pretendido do modelo. Inicialmente, o treinamento de um modelo em um pequeno conjunto de dados corre o risco de sobreajuste, mas o treinamento com um conjunto de dados grande e generalizado ajuda a mitigar esse risco.

            Exemplos de hiperparâmetros

            Embora cada algoritmo tenha seu próprio conjunto de hiperparâmetros, muitos são compartilhados entre algoritmos semelhantes. Os hiperparâmetros comuns nas redes neurais que alimentam os grandes modelos de linguagem (LLMs) são:

            • Taxa de aprendizado

            • Decadência da taxa de aprendizado

            • Epochs

            • Tamanho do lote

            • Momento

            • Número de camadas ocultas

            • Nós por camada

            • Função de ativação

            Taxa de aprendizado

            A taxa de aprendizado determina a rapidez com que um modelo atualiza seus pesos durante o treinamento. Uma taxa de aprendizado mais alta significa que um modelo aprende mais rápido, mas corre o risco de ultrapassar um mínimo local de sua função de perda. Enquanto isso, uma baixa taxa de aprendizado pode levar a tempos de treinamento excessivos, aumentando os recursos e as demandas de custo.

            Decadência da taxa de aprendizado

            A queda da taxa de aprendizado é um hiperparâmetro que diminui a taxa de aprendizado de um algoritmo de ML ao longo do tempo. O modelo atualiza seus parâmetros mais rápido no início, depois com maiores nuances à medida que se aproxima da convergência, reduzindo o risco de ultrapassagem.

            Epochs

            O treinamento de modelo envolve a exposição de um modelo aos seus dados de treinamento várias vezes para que ele atualize seus pesos de forma iterativa. Uma época ocorre cada vez que o modelo processa todo o seu conjunto de dados de treinamento e o hiperparâmetro épocas define o número de épocas que compõem o processo de treinamento.

            Tamanho do lote

            Os algoritmos de aprendizado de máquina não processam seus conjuntos de dados de treinamento em todas as iterações do algoritmo de otimização. Em vez disso, os dados de treinamento são separados em lotes, com os pesos do modelo sendo atualizados após cada lote. O tamanho do lote determina o número de amostras de dados em cada lote.

            Momento

            Momentum é uma propensão de um algoritmo de ML para atualizar seus pesos na mesma direção das atualizações anteriores. Pense no momentum como a convicção de um algoritmo em seu aprendizado. O alto momentum leva o algoritmo a uma convergência mais rápida, com o risco de contornar mínimos locais significativos. Enquanto isso, o baixo momentum pode fazer com que um algoritmo fique oscilando entre suas atualizações, paralisando seu progresso.

            Número de camadas ocultas

            Redes neurais modelam a estrutura do cérebro humano e contêm múltiplas camadas de neurônios interconectados, ou nós. Essa complexidade é o que permite que modelos avançados, como modelos de transformadores, lidem com tarefas generativas complexas. Menos camadas tornam o modelo mais enxuto, mas mais camadas abrem a porta para tarefas mais complexas.

            Nós por camada

            Cada camada de uma rede neural tem um número predeterminado de nós. À medida que as camadas aumentam de largura, também aumenta a capacidade do modelo de lidar com relacionamentos complexos entre pontos de dados, mas ao custo de maiores requisitos computacionais.

            Função de ativação

            Uma função de ativação é um hiperparâmetro que concede aos modelos a capacidade de criar limites não lineares entre grupos de dados. Quando é impossível classificar com precisão os pontos de dados em grupos separados por uma linha reta, a ativação apresenta a flexibilidade necessária para divisões mais complexas.

            Uma Neural Networks sem uma ativação é essencialmente um modelo de regressão.

            Soluções relacionadas
            IBM® watsonx.ai

            Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em menos tempo com menos dados.

            Explore o watsonx.ai
            Soluções de inteligência artificial

            Coloque a IA em ação na sua empresa com a experiência em IA líder do setor e com o portfólio de soluções da IBM.

            Explore as soluções de IA
            Consultoria e serviços em inteligência artificial (IA)

            Os serviços de IA da IBM Consulting ajudam a reinventar a forma como as empresas trabalham com IA para gerar transformação.

            Explore os serviços de IA
            Dê o próximo passo

            Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

            Explore o watsonx.ai Agende uma demonstração em tempo real