O que são parâmetros de modelo?

O que são parâmetros do modelo?

Parâmetros de modelo são os valores aprendidos dentro de um aprendizado de máquina modelo que determinam como ele mapeia dados de entrada para saídas, como texto gerado ou uma classificação prevista. O propósito de um algoritmo de aprendizado de máquina é ajustar parâmetros até que as saídas de um modelo de inteligência artificial (IA)estejam perfeitamente alinhadas com os resultados esperados.

Os valores desses parâmetros determinam as previsões de um modelo e, em última análise, o desempenho do modelo em uma determinada tarefa. O número de parâmetros em um modelo influencia diretamente a capacidade do modelo de capturar padrões em pontos de dados. Grandes modelos, como os usados em IA generativa, podem ter bilhões de parâmetros, permitindo que gerem saídas altamente sofisticadas. Mais parâmetros permitem que os modelos capturem com mais precisão padrões de dados com mais nuances, mas muitos parâmetros correm o risco de overfitting.

Diferentes algoritmos de aprendizado de máquina têm diferentes tipos de parâmetros. Por exemplo, os modelos de regressão têm coeficientes, as redes neurais têm pesos e viés, e alguns algoritmos, como máquinas de vetores de suporte ou modelos de espaço de estado, têm tipos únicos de parâmetros.

Os parâmetros do modelo, variáveis aprendidas durante o treinamento, não devem ser confundidos com hiperparâmetros, que são definidos com antecedência. Ambos os tipos de parâmetros influenciam o desempenho e o comportamento de um modelo, mas de maneiras significativamente diferentes. 

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Sua assinatura será entregue em inglês. Você encontrará um link para cancelar a assinatura em cada boletim informativo. Você pode gerenciar suas assinaturas ou cancelar a assinatura aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

Parâmetros do modelo simplificados

Os parâmetros do modelo estão presentes em modelos simples, mesmo no modelo matemático mais simples possível, que descreve uma quantidade que varia a uma taxa constante.

Regressão linear

Para descobrir como a metragem quadrada pode afetar o preço de uma casa, pode-se usar um modelo de regressão linear simples que usa a equação y=mx+bondem (a inclinação) e b (a interceptação) são parâmetros. Ao ajustá-los, a linha resultante muda e se inclina até se ajustar melhor aos dados.

Classificação

Um exemplo um pouco mais complexo poderia ser a utilização de um modelo de regressão logística para determinar se uma casa será ou não vendida com base em quantos dias ela permanecerá no mercado.

A regressão logística usa a fórmula:  p=11+e-(wx+b) , onde p = a "probabilidade de venda" e x = “dias no mercado”. Novamente, w e b são parâmetros que o modelo "aprende". A equação ficou um pouco mais complexa, mas ainda há apenas dois parâmetros em jogo.

Mixture of Experts | 12 de dezembro, episódio 85

Decodificando a IA: resumo semanal das notícias

Participe do nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Tipos de parâmetros do modelo

No aprendizado de máquina, os parâmetros do modelo vêm principalmente em dois tipos: pesos e vieses. No exemplo de um modelo de regressão linear simples, y=mx+b , o peso corresponde à inclinação m, controlando a força com que a entrada influencia a saída. Quanto maior o peso, maior o impacto da entrada. O viés corresponde à interceptação b. Isso permite que o modelo mova toda a linha para cima ou para baixo.

Pesos

Os pesos são os principais ajustes de controle de um modelo e determinam como ele avalia novos dados e realiza previsões.

Nos modelos de regressão linear, os pesos determinam a influência relativa de cada funcionalidade usada para representar cada ponto de dados de entrada. Nas redes neurais, os pesos determinam a influência relativa da saída de cada neurônio na de cada um dos neurônios na camada seguinte. 

No exemplo de um modelo que tenta prever se uma casa será vendida com base em fatores como "dias no mercado", cada um desses fatores tem um peso que reflete a força com que esse fator afeta a probabilidade de venda.

Viés

Os vieses permitem que os modelos ajustem as saídas independentemente dos pesos e entradas do modelo, atuando como limites ou compensações. Os vieses ajudam os modelos a generalizar e identificar padrões e tendências amplos nos conjunto de dados. 

Continuando com o modelo de venda de casas, talvez historicamente, 60% de todas as casas na área acabem sendo vendidas, independentemente de quantos dias no mercado, em geral, mesmo que uma determinada casa tenha sido listada há muitos dias ou tenha poucas exibições. O viés permite que o modelo comece com essa probabilidade de linha de base realista e depois ajuste para cima ou para baixo com base nas outras entradas.

Esse uso de "viés" é um conceito separado do viés algorítmico, que ocorre quando um modelo produz resultados discriminatórios. Viés também se refere a um tipo de erro causado por suposições incorretas do modelo sobre os dados, o que leva à diferença entre valores previstos e reais. Ambos não têm relação com o viés de parâmetros.

Outros parâmetros

Existem outros tipos de parâmetros no mundo do aprendizado de máquina. Os modelos simples acima usam pesos e vieses, assim como redes neurais muito mais complexas, juntamente com parâmetros de ganho e deslocamento para normalização.

As redes neurais convolucionais, por exemplo, têm filtros (também conhecidos como kernels), que detectar padrões espaciais. As redes neurais recorrentes com memória de curto prazo usam parâmetros de gating que controlam o fluxo de informações pela rede. Modelos probabilísticos como o Naive Bayes usam parâmetros para definir probabilidades condicionais ou as propriedades das distribuições de probabilidade. As máquinas de vetores de suporte definem parâmetros que posicionam e orientam "hiperplanos" para classes separadas no espaço de funcionalidade. Os modelos de espaço de estado têm parâmetros de observação e ruído.

Esta é uma lista limitada de exemplos e os parâmetros de diferentes modelos funcionam de maneiras distintas. Mas, em todos eles, os parâmetros determinam como os modelos mapeiam dados de entrada para saídas.

Parâmetros do modelo versus hiperparâmetros

Os parâmetros são essencialmente as respostas à pergunta que o modelo está fazendo (por exemplo, "Qual é a melhor inclinação possível da equação que nos dirá com a maior precisão qual será o preço da casa, com base na metragem quadrada?")

Os hiperparâmetros, por outro lado, podem ser percebidos como as regras do jogo que dizem ao modelo como encontrar essa resposta. Os cientistas de dados que treinam o modelo usam sua compreensão do problema para impor boundaries que determinam como o modelo buscará respostas.

Os parâmetros do modelo são internos a um modelo e são atualizados por ele em iterações do processo de aprendizado em resposta aos dados de treinamento. O modelo atualiza os valores dos parâmetros durante o treinamento. Os parâmetros controlam como um modelo reage aos dados não vistos.

Os hiperparâmetros são externos ao modelo e definidos antes do treinamento por meio do ajuste de hiperparâmetros. Alguns hiperparâmetros influenciam o comportamento do modelo durante o treinamento, como a taxa de aprendizado usada no gradiente descendente ou o número de epochs do processo. 

Outros hiperparâmetros são responsáveis pela forma e estrutura do modelo, como o número de árvores de decisão em uma floresta aleatória, agrupamentos em agrupamentos k-means ou camadas ocultas em uma rede neural

Parâmetros do modelo em redes neurais

Os modelos de aprendizado de máquina podem ser muito mais complexos do que os exemplos anteriores. Em uma rede neural, como um grande modelo de linguagem (LLM), um modelo toma decisões de maneira semelhante à maneira como os neurônios biológicos trabalham juntos no cérebro humano. Toda rede neural consiste em camadas de neurônios artificiais, onde cada neurônio representa uma função matemática que processa números. No deep learning, as redes neurais consistem em muitas dessas camadas.

De camada em camada

Cada neurônio controla a força com que uma parte da rede influencia a outra. Os pesos determinam a força das conexões entre os neurônios: o grau em que a saída de um neurônio afeta a entrada do próximo neurônio. 

Durante o treinamento, a rede recebe entradas. Para continuar o exemplo dos preços de residências, isso pode incluir metragem quadrada, ano de construção, dados demográficos de bairros e dezenas de outras entradas.

Essas funcionalidades de entrada são passadas para a primeira camada de neurônios. Cada entrada é multiplicada por um peso, o melhor palpite da rede sobre a importância daquele neurônio, e um viés é adicionado para melhorar a flexibilidade, dando aos neurônios alguma independência em relação à influência da soma ponderada das entradas dos neurônios na camada anterior. Uma função de ativação decide com que força um neurônio "dispara" e passa informações para a próxima camada como entrada para as funções de ativação de cada neurônio individual na próxima camada. Cada uma dessas conexões de neurônio a neurônio tem seu próprio peso.

Os pesos formam uma matriz, os vieses formam um vetor, e a camada calcula combinações lineares de entradas + viés e, em seguida, passa o resultado por uma função de ativação, como uma função sigmoide, Tanh, ReLU ou softmax. A tarefa dessa função é introduzir a não linearidade, o que permite à rede aprender e modelar padrões complexos em vez de apenas relações lineares.

Os dados se movemm pelas camadas "ocultas" subsequentes. A primeira camada oculta pode combinar a metragem quadrada da casa e o número de quartos para chegar ao “espaço vital geral”. Outra camada pode combinar a localização geográfica da casa + a classificação do distrito escolar para determinar a “desejabilidade do bairro”. O modelo não tem a compreensão humana do que é "desejabilidade do bairro": ele simplesmente reconhece padrões nos números de seus dados de treinamento e faz correlações.

De camada em camada, a rede começa a "entender" quais padrões são mais relevantes. Essas camadas empilhadas transformam operações simples em uma rede poderosa capaz de aprender padrões hierárquicos complexos.

Perda e retropropagação

No próximo estágio, a rede calcula a perda (a diferença entre a saída da rede e a verdade fundamental — a estrutura de dados presente no conjunto de dados de treinamento). Isso fornece um único número que representa o quanto o modelo está longe.

Em seguida, durante a retropropagação, a rede calcula o gradiente da perda em relação aos pesos e vieses, o que informa à rede quais parâmetros estão influenciando a perda e como ajustá-los para minimizá-la. Isso acontece em ordem inversa, camada por camada, com um algoritmo de gradiente descendente. Algoritmos de otimização, como gradiente descendente, são projetados para minimizar uma função de perda, informando ao modelo como alterar seus parâmetros de forma eficiente para reduzir a perda.

Os processos acima se repetem até que o modelo seja capaz de entregar saídas (nesse caso, o preço imobiliário previsto) em um nível de desempenho desejado.

O exemplo da previsão de preços de imóveis expressa como as redes neurais pegam muitas funcionalidades de uma só vez, as combinam de maneiras não lineares e produzem uma previsão útil. No entanto, isso poderia ter sido feito por um modelo de regressão linear mais simples. As redes neurais realmente se destacam quando os dados não são estruturados ou quando os padrões são muito complexos ou de alta dimensão para os modelos tradicionais. Por exemplo, uma rede neural poderia ser usada para processar fotos de satélite e dados de mapas de bairros para prever o preço de venda. Ou uma rede neural pode ser treinada para reconhecer termos-chave em descrições de listas, como "rua tranquila" ou "telhado novo".

Ajuste fino

Quando o treinamento inicial é concluído, os modelos de IA podem ser adaptados a tarefas ou áreas de assunto específicas. O ajuste fino é o processo de adaptação de um modelo pré-treinado para casos de uso específicos. Para fazer isso, os parâmetros do modelo são atualizados por meio de treinamento adicional em novos dados.

Outros tipos de aprendizado

O exemplo acima da rede neural usada para prever os preços de imóveis descreve o aprendizado supervisionado, onde os modelos aprendem usando dados rotulados. Nesse contexto, o modelo recebe entradas e saídas corretas. O modelo compara suas previsões com a verdade absoluta (nesse caso, dados rotulados). O ajuste fino geralmente acontece em um contexto supervisionado.

O aprendizado não supervisionado permite que os modelos aprendam parâmetros encontrando padrões ou estruturas em dados não rotulados, sem receberem a "resposta certa". Em vez de comparar as previsões com os rótulos de verdade fundamental (como no aprendizado supervisionado), esses modelos otimizam as metas que medem o quão bem o modelo explica os próprios dados. Por exemplo, no agrupamento, os parâmetros (como os centroides do cluster no k-means) são atualizados de forma iterativa para que os pontos semelhantes sejam agrupados mais próximos. Na redução de dimensionalidade, os parâmetros são aprendidos encontrando direções que capturam a maior variância dos dados.

Na aprendizagem por reforço, um modelo (ou um agente impulsionado por um modelo) interage com um ambiente, recebendo recompensas por ações corretas. Os parâmetros geralmente definem uma política ou função de valor que estima a recompensa esperada. Os parâmetros são atualizados comparando as recompensas previstas com as recompensas reais recebidas.

Validação do desempenho dos parâmetros do modelo

Melhorar o desempenho dos dados de treinamento é o objetivo do treinamento, mas isso é apenas um meio para atingir um fim. O objetivo principal é a generalização, que é alcançada treinando o modelo de forma que ele generalize bem para tarefas do mundo real que não viram em seus dados de treinamento.

É preciso ter cuidado para evitar armadilhas como overfitting, quando parâmetros capturam ruído ou flutuações aleatórias nos dados de treinamento, levando a uma generalização ruim em novos dados. Os parâmetros devem ser flexíveis o suficiente para aprender padrões significativos, mas não tão flexíveis a ponto de memorizar detalhes irrelevantes.

Várias técnicas de ciência de dados são usadas para avaliar o desempenho do modelo. A validação cruzada é uma técnica de avaliação de modelo em que o conjunto de dados é dividido em várias partes (folds). O modelo é treinado em algumas dobras e testado na dobra restante, e esse processo é repetido até que cada fold tenha sido usado como conjunto de teste. Isso reduz o risco de overfitting, já que o modelo é testado em múltiplas partições dos dados. A validação cruzada não altera diretamente os parâmetros, mas testa o quão bem os parâmetros aprendidos se generalizam para dados não vistos. Se o desempenho for consistente entre os folds, os parâmetros provavelmente estarão bem otimizados. Caso contrário, os parâmetros do modelo podem estar excessivamente ajustados ao subconjunto dos dados de treinamento que já utilizou. Treinamento adicional em dados mais diversos pode melhorar a generalização.

Outra técnica é o bootstrapping, um método estatístico que envolve a criação de novos conjuntos de dados por amostragem aleatória com substituição a partir do conjunto de dados original. O bootstrapping produz muitos conjuntos de parâmetros, pois cada amostra de Bootstrapping é ligeiramente diferente. Ao observar a variação entre esses modelos com bootstrapping, pode-se medir a confiabilidade dos parâmetros quando treinados com dados ligeiramente diferentes.

Os profissionais também contam com métricas que quantificam o desempenho do modelo, como exatidão, precisão, recall ou erro quadrático médio. Eles fornecem feedback objetivo sobre se os parâmetros atuais estão movendo o modelo na direção certa.

Soluções relacionadas
IBM watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Explore o watsonx.ai Agende uma demonstração em tempo real