O que são os parâmetros do LLM?

Autores

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

Parâmetros do LLM definidos

Os parâmetros LLM são as configurações que controlam e otimizam a saída e o comportamento de um grande modelo de linguagem (LLM). Os parâmetros treináveis incluem pesos e vieses e são configurados à medida que um grande modelo de linguagem (LLM) aprende com seu conjunto de dados de treinamento. Os hiperparâmetros são externos ao modelo, orientando seu processo de aprendizado, determinando sua estrutura e moldando sua saída.

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Sua assinatura será entregue em inglês. Você encontrará um link para cancelar a assinatura em cada boletim informativo. Você pode gerenciar suas assinaturas ou cancelar a assinatura aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

Tipos de parâmetros do LLM

Os parâmetros do LLM podem ser classificados em três categorias principais: 

  • Pesos 

  • Vieses 

  • Hiperparâmetros

Pesos

Os pesos são valores numéricos que representam a importância que o LLM atribui a uma entrada específica. Nem todas as entradas são tratadas igualmente pelo modelo de inteligência artificial (IA) ao gerar respostas. Quanto maior o peso de uma entrada, mais relevante ela é para a saída do modelo. 

As definições de parâmetros treináveis, como pesos, são configuradas pelo algoritmo de aprendizado de um modelo durante o processo de treinamento. O algoritmo de aprendizado mede o desempenho do modelo de aprendizado de máquina (ML) com uma função de perda, que tenta minimizar o erro por meio da otimização dos parâmetros do modelo

Dentro das redes neurais, os pesos são multiplicadores que determinam a intensidade do sinal de uma camada de neurônio para a próxima. Os sinais devem atingir o limite de força da função de ativação para avançar pela rede. Dessa forma, os pesos afetam diretamente como uma rede propaga os dados através de suas camadas. 

A retropropagação é usada para calcular como uma mudança nos valores dos pesos afeta o desempenho do modelo.

Viés

Assim como os pesos, os vieses também são configurados automaticamente durante o treinamento do modelo de IA. Vieses são valores constantes adicionados ao valor de um sinal das camadas anteriores. Os modelos usam vieses para permitir que os neurônios sejam ativados sob condições em que os pesos sozinhos podem não ser suficientes para passar pela função de ativação. 

Os vieses permitem que os modelos sejam mais flexíveis. Os modelos podem aprender com os dados mesmo que as entradas ponderadas não atendam ao limite de ativação. Assim como os pesos, os vieses são ajustados com retropropagação durante o treinamento para otimizar o desempenho do modelo e minimizar os erros. 

A combinação de pesos e vieses nos LLMs pode resultar em modelos com bilhões de parâmetros. Durante o processo de ajuste fino, quando um LLM pré-treinado é treinado ainda mais para tarefas posteriores, seus pesos e vieses são ajustados com dados de treinamento específicos do domínio.

Hiperparâmetros

Os hiperparâmetros são configurações externas que determinam o comportamento, a forma, o tamanho, o uso de recursos e outras características de um modelo. O processo de ajuste de hiperparâmetros ou ajuste do modelo utiliza algoritmos para descobrir a combinação ideal de hiperparâmetros para melhorar o desempenho. Junto com a engenharia de prompts, o ajuste de hiperparâmetros é um dos principais métodos de personalização do LLM

  • Os hiperparâmetros de arquitetura, como o número de camadas e a dimensão das camadas ocultas, configuram o tamanho e a forma de um modelo. 

  • Os hiperparâmetros de treinamento, como a taxa de aprendizado e o tamanho do lote, orientam o processo de treinamento do modelo. Os hiperparâmetros de treinamento afetam fortemente o desempenho do modelo e se um modelo atende aos benchmarks do LLM exigidos. 

  • Os hiperparâmetros de inferência, como temperatura e amostragem top-p, decidem como um modelo de IA generativa produz suas saídas. 

  • Os hiperparâmetros de memória e computação, como a janela de contexto, número máximo de tokens em uma sequência de saída e sequências de parada, equilibram o desempenho e os recursos do modelo com os requisitos de recursos. 

  • Os hiperparâmetros de qualidade da saída, como penalidades de presença e penalidades de frequência, ajudam os LLMs a gerar saídas mais variadas e interessantes enquanto controlam os custos.

Mixture of Experts | 28 de agosto, episódio 70

Decodificando a IA: resumo semanal das notícias

Participe do nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Parâmetros do LLM notáveis

O número de parâmetros em modelos maiores (redes neurais complexas como GPT-4 e GPT-3, Llama, Gemini e outros modelos de transformação) pode chegar aos bilhões. Modelos menores têm menos parâmetros, o que os torna menos exigentes em termos de computação, mas também menos capazes de discernir padrões e relacionamentos complexos. 

Todos os parâmetros ajudam a determinar como o modelo interpreta os dados do mundo real que encontra. Mas os parâmetros que afetam mais diretamente a saída do modelo são seus hiperparâmetros. Um benefício dos modelos de código aberto é que suas configurações de hiperparâmetros são visíveis. 

O ajuste de hiperparâmetros é um pilar significativo da personalização do LLM: ajustar um modelo para tarefas específicas. 

Entre os hiperparâmetros mais significativos de um modelo estão: 

  • Número de camadas 

  • Janela de contexto

  • Temperatura 

  • Top-p (amostragem de núcleo) 

  • Top-k 

  • Número de tokens (máximo de tokens) 

  • Taxa de aprendizado 

  • Penalidade de frequência 

  • Penalidade de presença

  • Sequência de parada

Número de camadas

O número de camadas em uma rede neural é um hiperparâmetro crucial para definir o tamanho e a complexidade do modelo. Redes neurais são feitas de camadas de neurônios ou nós. Quanto mais camadas entre a camada de entrada inicial e a camada de saída final, mais complexo será o modelo. 

Mas a complexidade nem sempre é boa. Um modelo que tem muitas camadas para uma tarefa que não precisa delas pode sofrer com overfitting e desperdiçar recursos computacionais. Enquanto isso, um modelo com camadas insuficientes não conseguirá capturar os padrões, relacionamentos e distribuições em conjuntos de dados complexos.

Janela de contexto

O hiperparâmetro janela de contexto é relevante para qualquer modelo construído com base na arquitetura de transformação, como o LLM de código aberto Llama-2. A janela de contexto é o número máximo de tokens com os quais o modelo pode lidar enquanto mantém a coerência em toda a sequência de entrada. 

A janela de contexto também determina a duração da conversa que um modelo pode manter sem perder o controle do conteúdo anterior. Janelas de contexto maiores levam a uma maior precisão, menos alucinações e à capacidade de processar documentos maiores ou ter conversas mais longas.  

No entanto, grandes janelas de contexto também exigem um maior grau de recursos computacionais e podem estender o tempo de processamento para geração de respostas.

Temperatura

O hiperparâmetro temperatura do LLM é semelhante a um mostrador de aleatoriedade ou criatividade. Aumentar a temperatura aumenta a distribuição de probabilidade para as próximas palavras que aparecem na saída do modelo durante a geração de texto

Uma configuração de temperatura de 1 usa a distribuição de probabilidade padrão para o modelo. Temperaturas superiores a 1 achatam a distribuição de probabilidade, incentivando o modelo a selecionar uma gama mais ampla de tokens. Por outro lado, temperaturas inferiores a 1 alargam a distribuição de probabilidade, tornando mais provável que o modelo selecione o próximo token mais provável. 

Um valor de temperatura mais próximo de 1,0, como 0,8, significa que o LLM fica mais criativo em suas respostas, mas com potencialmente menos previsibilidade. Enquanto isso, uma temperatura mais baixa, de 0,2 produzirá respostas mais determinísticas. Um modelo com baixa temperatura fornece saídas previsíveis, embora contidas. Temperaturas mais elevadas, próximas de 2,0, podem começar a produzir saídas sem sentido. 

O caso de uso informa o valor de temperatura ideal para um LLM. Um chatbot projetado para ser divertido e criativo, como o ChatGPT, precisa de uma temperatura mais alta para criar textos semelhantes aos humanos. Um aplicativo de resumo de textos em áreas altamente regulamentadas, como direito, saúde ou finanças, exige o inverso: seus resumos de textos gerados devem cumprir requisitos rigorosos.

Top-p (amostragem de núcleo)

Assim como a temperatura, a amostragem top-p também afeta a diversidade de palavras nas saídas de texto geradas. O top-p funciona definindo um limite de probabilidade p para o próximo token em uma sequência de saída. O modelo pode gerar respostas usando tokens dentro do limite de probabilidade. 

Com a amostragem top-p, os tokens são classificados em ordem de probabilidade. Os tokens com maior probabilidade de aparecerem a seguir na sequência têm uma pontuação mais alta, com o oposto sendo verdadeiro para os tokens menos prováveis. O modelo monta um grupo de possíveis próximos tokens até que a pontuação cumulativa p atinja o limite definido e, em seguida, seleciona aleatoriamente um token desse grupo. 

Limites de p mais altos resultam em saídas mais diversificadas, enquanto limites mais baixos preservam a precisão e a coerência.

Temperatura versus amostragem top-p

A diferença entre a temperatura e a amostragem top-p é que, enquanto a temperatura ajusta a distribuição de probabilidade de tokens possíveis, a amostragem top-p limita a seleção de tokens a um grupo finito.

Top-k

O hiperparâmetro top-k é outra configuração focada na diversidade. O valor k define o limite para o número de termos que podem ser considerados os próximos na sequência. Os termos são ordenados com base na probabilidade, e os k termos principais são escolhidos como candidatos.

Top-p versus top-k

O top-p limita o pool de tokens até um total de probabilidade p definido, enquanto o top-k limita o pool aos k termos mais prováveis.

Número de tokens (máximo de tokens)

O hiperparâmetro número de tokens ou máximo de tokens define um limite superior para o comprimento do token de saída. Valores numéricos de tokens menores são ideais para tarefas rápidas, como conversas de chatbots e resumos — tarefas que podem ser tratadas por pequenos modelos de linguagem, bem como LLMs. 

Valores numéricos de tokens maiores são melhores para quando são necessárias saídas mais longas, como ao tentar usar um LLM para vibe coding.

Taxa de aprendizado

A taxa de aprendizado é um hiperparâmetro crítico que afeta a velocidade com que o modelo ajusta seus pesos e vieses durante o treinamento e o ajuste fino. Esses processos geralmente usam um algoritmo de aprendizado conhecido como gradiente descendente

Um algoritmo de gradiente descendente tenta minimizar uma função de perda que mede o erro das previsões de um modelo. Em cada iteração de treinamento, o algoritmo atualiza os pesos do modelo para melhorar o desempenho com o próximo lote de dados. 

A taxa de aprendizado controla o grau em que os pesos são atualizados. Uma taxa de aprendizado mais alta leva a aumentos maiores, acelerando o treinamento com o risco de ultrapassar um mínimo local. Taxas de aprendizado mais baixas fazem ajustes mais sutis, mas exigem mais iterações para atingir um mínimo e podem até estagnar. 

Um método eficaz para gerenciar a taxa de aprendizado é começar o treinamento com um valor mais alto e reduzir a taxa de aprendizado à medida que o modelo se aproxima de um mínimo local de sua função de perda.

Penalidade de frequência

O hiperparâmetro penalidade de frequência ajuda a evitar que os modelos usem termos excessivos nas mesmas saídas. Uma vez que um termo aparece na saída, a penalidade de frequência dissuade o modelo de reutilizá-lo novamente mais tarde. 

Os modelos atribuem pontuações a cada token, conhecidas como logits, e usam os logits para calcular valores de probabilidade. As penalidades de frequência reduzem linearmente o valor de logit de um termo cada vez que ele é repetido, tornando-o progressivamente menos provável de ser escolhido na próxima vez. Valores de penalidade de frequência mais altos reduzem o logit em um valor maior por aplicação. 

Como o modelo é dissuasivo de repetir termos, ele deve escolher outros termos, resultando em escolhas de palavras mais diversificadas no texto gerado.

Penalidade de repetição

A penalidade de repetição é semelhante à penalidade de frequência, exceto que é exponencial em vez de linear. A penalidade de repetição reduz o logit de um termo exponencialmente cada vez que ele é reutilizado, tornando-a um desânimo mais forte do que a penalidade de frequência. Por esse motivo, recomenda-se valores mais baixos de penalidade de repetição. 

Penalidade de presença

Penalidade de presença é um hiperparâmetro relacionado que funciona de forma semelhante à penalidade de frequência, exceto que se aplica apenas uma vez. A penalidade de presença reduz o valor de logit de um termo na mesma quantidade, independentemente da frequência com que esse termo está presente na saída, desde que apareça pelo menos uma vez. 

Se o termo urso aparecer na saída 10 vezes, e o termo raposa aparecer uma vez, urso terá uma penalidade de frequência maior do que raposa. No entanto, tanto urso quanto raposa compartilharão a mesma penalidade de presença.

Sequência de parada

A sequência de parada é uma sequência predefinida de tokens que, quando aparece, faz com que o modelo termine a sequência de saída. Por exemplo, se um modelo é projetado para produzir uma única frase de cada vez, a sequência de parada pode ser um ponto final. 

As sequências de parada mantêm a concisão da resposta sem afetar a maneira como o modelo gera sa saída até o ponto de parada. Como truncam as respostas do modelo, as sequências de parada também ajudam a economizar nos custos de tokens ao se conectar a LLMs por meio de APIs.

Otimização de parâmetros do LLM

Otimizar os parâmetros internos treináveis de um modelo (seus pesos e vieses) é essencial para um desempenho forte. Depois que um modelo tiver sido equipado com os hiperparâmetros ideais, seus projetistas têm uma variedade de métodos à disposição para ajudar a moldar os parâmetros internos do LLM. 

  • O aprendizado por transferência é uma ampla escola de técnicas de otimização de modelos que se concentram no uso do conhecimento prévio de um modelo para melhorar o desempenho em novas tarefas. 

  • A quantização simplifica toda a matemática dentro de um modelo, tornando-o menor e mais eficiente, enquanto ainda representa os mesmos dados. 

  • A parada precoce evita o overfitting ao anular o processo de treinamento quando ele para de obter ganhos de desempenho perceptíveis.

Soluções relacionadas
IBM watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Explore o watsonx.ai Agende uma demonstração em tempo real