Tempo de leitura
Parâmetros de modelo são variáveis de configuração internas de um modelo de aprendizado de máquina que controlam como ele processa dados e faz previsões. Os valores dos parâmetros podem definir se as saídas de um modelo de inteligência artificial (IA) refletem resultados do mundo real e como os dados de entrada são transformados em saídas como textos ou imagens gerados.
Os algoritmos de aprendizado de máquina estimam os valores dos parâmetros do modelo durante o treinamento. O algoritmo de aprendizado ou otimização ajusta os parâmetros para que o modelo atinja seu desempenho ideal, reduzindo o erro, o custo ou a função de perda.
Os parâmetros do modelo são frequentemente confundidos com os hiperparâmetros. Tanto os parâmetros quanto os hiperparâmetros afetam o funcionamento do modelo, embora de formas diferentes.
Os parâmetros do modelo são internos e o próprio modelo os estima durante o processo de aprendizado, com base nos dados de treinamento. O algoritmo de aprendizado do modelo atualiza os valores dos parâmetros durante o treinamento. Os parâmetros controlam como o modelo reage a dados novos, como, por exemplo, um modelo preditivo faz previsões após a implementação.
Os hiperparâmetros são externos ao modelo e definidos antes do treinamento por meio do ajuste de hiperparâmetros. Alguns hiperparâmetros influenciam o comportamento do modelo durante o treinamento, como a taxa de aprendizado usada no gradiente descendente ou o número de épocas do processo.
Outros hiperparâmetros são responsáveis pela forma e estrutura do modelo, como o número de árvores de decisão em uma floresta aleatória, agrupamentos em agrupamentos k-means ou camadas ocultas em uma rede neural.
Nem todos os modelos de deep learning usam o mesmo conjunto de parâmetros. Os grandes modelos de linguagem (LLMs) utilizam pesos e vieses para processar os dados. Já os modelos de regressão linear e as máquinas de vetor de suporte (SVMs) têm seus próprios parâmetros, como os coeficientes lineares ou os vetores de suporte.
Os pesos são os principais ajustes de controle de um modelo e determinam como ele avalia novos dados e realiza previsões. Esses pesos representam o núcleo paramétrico de um LLM e são ajustados ao longo do processo de aprendizado. Os LLMs podem ter milhões ou até bilhões de pesos.
Os pesos são variáveis numéricas que definem o quanto cada característica do conjunto de dados influencia o resultado. Em uma rede neural, os pesos determinam a intensidade das conexões entre os neurônios, ou seja, o quanto a saída de um afeta a entrada do próximo.
Os vieses permitem que redes neurais ajustem suas saídas de forma independente dos pesos e das entradas do modelo. Enquanto os pesos são configurações variáveis, os vieses são constantes que funcionam como limites ou compensações. Os vieses ajudam os modelos a generalizar e identificar padrões e tendências amplas nos conjunto de dados.
As redes neurais utilizam funções de ativação para decidir se um neurônio será ativado e produzirá uma saída. Os vieses ajustam essa função, oferecendo flexibilidade ao permitir que neurônios sejam ativados mesmo sem que a soma das entradas atinja o limite necessário.
Os parâmetros de viés são diferentes do viés algorítmico, que ocorre quando o modelo gera resultados discriminatórios. Viés também se refere a um tipo de erro causado por suposições incorretas do modelo sobre os dados, o que leva à diferença entre valores previstos e reais.
Como moldam o processo de treinamento, muitos hiperparâmetros influenciam diretamente a configuração final dos parâmetros do modelo. Isso pode incluir:
Época: número de vezes que o conjunto completo de dados de treinamento passa pelo modelo durante o treinamento.
Tamanho do lote: quantidade de dados de treinamento usada em cada rodada de treino. Os modelos atualizam iterativamente seus pesos e vieses após cada lote.
Taxa de aprendizado: intensidade com que o modelo ajusta seus pesos.
Momentum: tendência do modelo de continuar ajustando os pesos na mesma direção das atualizações anteriores, em vez de inverter o sentido.
Os parâmetros exercem um papel essencial no desempenho do modelo. Eles influenciam como os neurônios da rede processam os dados e produzem os resultados. Na ciência de dados, os dados de entrada são compostos por qualidades e características chamadas de features. Mas nem todas as funcionalidades são igualmente relevantes para entender os dados e fazer boas previsões.
Considere um modelo projetado para classificar animais como mamíferos ou peixes. Como mamíferos e peixes são vertebrados, a funcionalidade “vertebrado” não influencia as previsões do modelo. Por outro lado, como todos os peixes têm brânquias e nenhum mamífero, a funcionalidade "tem brânquias" é muito mais importante para o modelo.
Pesos associados a informações mais relevantes criam conexões mais fortes entre os neurônios correspondentes. Essas conexões reforçadas aumentam a relevância das informações trocadas entre esses neurônios, em relação às demais.
Os parâmetros também afetam o desempenho do modelo de uma perspectiva prática:
Overfitting ocorre quando o modelo se ajusta demais aos dados de treinamento e não consegue generalizar para dados novos. Modelos com mais parâmetros tendem a sofrer mais com overfitting, pois se ajustam demais a um conjunto de dados de treino específico. Os criadores de modelos usam técnicas como validação cruzada e regularização com dropout para reduzir o overfitting.
Modelos com mais parâmetros podem lidar com tarefas mais complexas. O aumento do número de parâmetros dá ao modelo uma compreensão mais matizada dos dados. Mas, como mencionado anteriormente, isso pode levar a um ajuste excessivo.
Mais parâmetros aumentam o tamanho do modelo e exigem mais recursos computacionais. Os modelos robustos por trás de aplicativos líderes de IA generativa como o ChatGPT têm bilhões de parâmetros, consomem enormes quantidades de água e energia e custam milhões de dólares para serem treinados.
Nos métodos tradicionais de aprendizado de máquina, os modelos definem seus parâmetros por meio de um treinamento em duas etapas: propagação direta e propagação reversa.
A propagação direta é o movimento de dados através do modelo. Os neurônios recebem as informações, calculam os pesos correspondentes e somam os vieses. Em seguida, a função de ativação avalia se o valor obtido é suficiente para ativar o neurônio. Se for, o neurônio é ativado e transmite os dados para os próximos neurônios da rede. A cadeia continua até que o modelo gere uma saída final.
A segunda etapa é a propagação reversa, ou backpropagation. Essa fase calcula o erro do modelo, ou seja, a diferença entre sua saída e os valores reais. Para isso, um algoritmo de otimização por gradiente descendente mede o gradiente da função de perda. O modelo ajusta seus pesos e vieses conforme o gradiente, buscando reduzir a função de perda e melhorar suas previsões.
O processo de propagação direta e reversa continua até que a função de perda seja minimizada com sucesso, indicando que o modelo alcançou seu desempenho ideal. O desempenho do modelo é avaliado com base nas métricas de avaliação do LLM, como a coerência do texto gerado.
Os pesquisadores de aprendizado de máquina identificaram uma variedade de técnicas que podem ajudar os modelos a chegarem à melhor configuração de parâmetros.
O ajuste fino adapta um modelo já treinado para tarefas específicas, com base em conjuntos de dados menores e voltados para um domínio específico. Modelos ajustados finamente atualizam seus parâmetros o suficiente para aprender novas tarefas, sem perder a capacidade de generalização.
A regularização adiciona uma penalidade à função de perda para evitar que o modelo altere seus pesos de forma muito severa.
Parada antecipada: interrompe a validação quando o modelo deixa de apresentar melhorias, economizando recursos e evitando retornos decrescentes.
O aprendizado por transferência incentiva os modelos a reutilizar o que já aprenderam, reduzindo as chances de esquecerem conteúdos anteriores.
Isolamento de parâmetros congela certos parâmetros ao treinar modelos para novas tarefas, impedindo que eles sejam atualizados e potencialmente perdendo conhecimento prévio.
Repetir expõe o modelo, periodicamente, a um “buffer de memória” com dados anteriores durante o treinamento de novas tarefas. O buffer é misturado aos novos dados para atualizar a memória do modelo e evitar ajustes de peso exagerados.
A quantização substitui os pesos de um modelo treinado por valores menos precisos, reduzindo seus requisitos computacionais e preservando o conhecimento. Em geral, a quantização é a prática de mapear formatos de alta precisão para formatos de baixa precisão.
A validação cruzada divide os dados de treinamento em subconjuntos conhecidos como dobras, um para treinamento e outro para teste. O processo é repetido várias vezes com diferentes agrupamentos de dados.
O ajuste de hiperparâmetros é o processo de otimização dos hiperparâmetros de um modelo. Hiperparâmetros ideais levam a valores ideais de parâmetros do modelo após o treinamento.