Seleção do modelo em aprendizado de máquina

Autores

Staff writer

Staff Editor, AI Models

IBM Think

O que é seleção de modelo em aprendizado de máquina?

A seleção do modelo no aprendizado de máquina é o processo de escolha do modelo de aprendizado de máquina (modelo de ML) mais apropriado para a tarefa selecionada. O modelo selecionado geralmente é o que melhor generaliza os dados não vistos, ao mesmo tempo em que atende com mais sucesso às métricas de desempenho relevantes do modelo.

O processo de seleção do modelo de ML é uma comparação de diferentes modelos em um grupo de candidatos. Especialistas em aprendizado de máquina avaliam o desempenho de cada modelo de ML e, em seguida, escolhem o melhor modelo com base em um conjunto de métricas de avaliação.

No centro da maioria das tarefas de aprendizado de máquina está o desafio de reconhecer padrões em dados e, então, fazer previsões sobre novos dados com base nesses padrões. A escolha do modelo preditivo de melhor desempenho leva a previsões mais precisas e a uma aplicação de ML mais confiável.

Boletim informativo do setor

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Por que a seleção do modelo é importante?

A seleção do modelo de IA é importante porque determina o desempenho do sistema de aprendizado de máquina. Modelos diferentes têm pontos fortes e fracos, e escolher o certo afeta diretamente o sucesso do projeto. A seleção do modelo é um estágio inicial no pipeline de aprendizado de máquina como um todo para criar e implementar modelos de ML.

Algumas tarefas exigem modelos complexos que podem capturar os detalhes de um grande conjunto de dados, mas que podem ter dificuldades com a generalização para novos dados. Elas também podem vir com maiores demandas de computação e recursos. Outras tarefas são melhores para modelos menores e simples, projetados para um propósito específico.

Escolher o modelo certo para o trabalho pode:

Otimize a eficiência: o mais forte entre todos os modelos candidatos equilibrará a compensação entre desempenho e generalização com complexidade e uso de recursos.
Maximize o desempenho do modelo: uma ferramenta é tão forte quanto a tarefa à qual é aplicada. Testar e avaliar os modelos candidatos revela o modelo com melhor desempenho para o trabalho, dando à aplicação de IA sua melhor chance de viabilidade no mundo real.
Impulsionar o sucesso do projeto: a complexidade do modelo afeta diretamente o tempo de treinamento, os requisitos de recursos e os resultados. Os modelos preditivos variam do simples ao complexo. Modelos mais simples são mais rápidos e baratos de treinar, enquanto modelos complexos exigem mais dados, dinheiro e tempo.

AI Academy

Torne-se um especialista em IA

Adquira conhecimento para priorizar os investimentos em IA que estimulam o crescimento dos negócios. Comece a usar hoje mesmo a nossa AI Academy sem custo e lidere o futuro da IA na sua organização.

Assista à série

O processo de seleção do modelo

O processo de seleção do modelo é projetado para produzir um modelo que seja ajustado ao caso de uso desejado. Especialistas em aprendizado de máquina descrevem o problema, escolhem entre os tipos de modelos com maior probabilidade de ter um bom desempenho e, finalmente, treinam e testam modelos candidatos para identificar a melhor escolha geral.

Os estágios do processo de seleção do modelo normalmente incluem:

Estabelecimento do desafio do ML
Escolha de modelos candidatos
Determinação das métricas de avaliação dos modelos
Treinamento e avaliação dos modelos

Estabelecimento do desafio de ML

Dependendo da natureza da tarefa, alguns algoritmos de aprendizado de máquina são escolhas melhores que outros. Os desafios de ML geralmente se enquadram em uma destas três categorias:

Os problemas de regressão atribuem aos modelos a identificação das relações entre as funcionalidades de entrada e uma variável de saída contínua selecionada, como um preço. Exemplos de problemas de regressão incluem a previsão de benchmarks salariais ou a probabilidade de desastres naturais com base nas condições climáticas. As previsões do modelo são baseadas em funcionalidades de entrada relevantes, como a época do ano ou informações demográficas. O forecasting de séries temporais é um tipo de desafio de regressão que prevê o valor de uma variável ao longo do tempo. Os modelos de séries temporais são uma classe de modelos com eficiência computacional especializada nesse desafio.
Os problemas de classificação classificam os pontos de dados em categorias com base em um conjunto de variáveis de entrada. Exemplos de problemas de classificação incluem reconhecimento de objetos e filtros de spam de e-mail. O conjunto de treinamento pode incluir pontos de dados com saídas rotuladas para que o modelo possa aprender a associação entre entradas e saídas. Essa prática é conhecida como aprendizado supervisionado.
Os problemas de agrupamento agrupam pontos de dados com base em similaridades. O agrupamento não é exatamente o mesmo que a classificação, pois o objetivo é descobrir grupos dentro dos pontos de dados, em vez de classificar os pontos de dados em categorias conhecidas. Os modelos devem discernir semelhanças em um ambiente de aprendizado não supervisionado. A segmentação de mercado é um exemplo de um desafio de agrupamento.

Determinação das métricas de avaliação dos modelos

O processo de testes compara os modelos candidatos e avalia seu desempenho em relação a um conjunto de métricas de avaliação pré-selecionadas. Embora existam muitas métricas, algumas são melhores para determinados tipos de desafios de ML do que outras.

As métricas de avaliação dos modelos para classificação incluem:

Precisão: o percentual de previsões corretas em relação ao total de previsões feitas.
Precisão: a proporção de previsões verdadeiras positivas entre todas as previsões positivas, medindo a precisão das previsões positivas.
Recall: a proporção de previsões positivas verdadeiras entre todas as instâncias positivas reais, medindo a proficiência do modelo na identificação de instâncias positivas.
Pontuação F1: combina precisão e recall para uma visão geral da capacidade do modelo de reconhecer e classificar corretamente as instâncias positivas.
Matriz de confusão: resume o desempenho de um modelo classificador exibindo verdadeiros positivos, falsos positivos, verdadeiros negativos e falsos negativos em uma tabela.
AUC-ROC: um gráfico que traça as taxas de verdadeiros positivos e falsos positivos como uma curva de característica de operação do receptor (ROC). A área sob a curva (AUC) mostra o desempenho do modelo.

As métricas de avaliação de regressão incluem:

Erro quadrático médio (MSE): calcula a média da diferença entre os quadrados das diferenças entre os valores previstos e reais. O MSE é altamente sensível a valores discrepantes e penaliza severamente grandes erros.
Raiz do erro quadrático médio (RMSE): a raiz quadrada do MSE, exibindo a taxa de erro nas mesmas unidades que a variável e aumentando a interpretabilidade da métrica. O MSE exibe o mesmo erro em unidades ao quadrado.
Erro médio absoluto (MAE): a média das diferenças entre os valores reais e praticados para a variável-alvo. O MAE é menos sensível do que o MSE.
Erro percentual médio absoluto (MAPE): transmite o erro médio absoluto como um percentual em vez de nas unidades da variável prevista, facilitando a comparação de modelos.
R-quadrado: dá um benchmark do desempenho do modelo entre 0 e 1. No entanto, o valor de r-quadrado pode ser artificialmente inflado pela adição de mais funcionalidades.
R-quadrado ajustado: reflete as contribuições de funcionalidades que melhoram o desempenho do modelo, ignorando funcionalidades irrelevantes.

Treinamento e avaliação de modelos

Os cientistas de dados se preparam para o treinamento e a avaliação dos modelos dividindo os dados disponíveis em vários conjuntos. O conjunto de dados de treinamento é usado para treinamento dos modelos, durante o qual os modelos candidatos aprendem a reconhecer padrões e relacionamentos nos pontos de dados. Em seguida, o desempenho dos modelos é verificado com uma parte diferente do conjunto de dados.

A forma mais simples e rápida de testes é a divisão de treinar-testar. Cientistas de dados dividem o conjunto de dados em duas partes, uma para treinamento e outra para testes. O modelo não é exposto à divisão de teste até após o treinamento — o conjunto de teste serve como um substituto para os novos dados não vistos que o modelo processará no mundo real.

Técnicas de seleção do modelo

Os criadores de modelos têm acesso a uma ampla gama de técnicas de seleção do modelo. Alguns estão relacionados à configuração inicial e à arquitetura do modelo, que por sua vez influenciam seu comportamento. Outros fornecem uma avaliação dos modelos mais detalhada e rigorosa ou preveem como os modelos se comportarão em um conjunto de dados específico.

As técnicas de seleção do modelo incluem:

Ajuste de hiperparâmetros
Validação cruzada
Autoinicialização
Critérios de informação

Ajuste de hiperparâmetros

O ajuste de hiperparâmetros é o processo de otimização dos hiperparâmetros de um modelo, que são configurações externas que determinam a estrutura e o comportamento do modelo. Os modelos também possuem parâmetros internos que são atualizados em tempo real durante o treinamento. Os parâmetros internos regem como um modelo processa dados. Modelos complexos, como os usados para IA generativa (IA gen), podem ter mais de um trilhão de parâmetros.

O ajuste de hiperparâmetros não é a mesma coisa que o ajuste fino de um modelo, que é quando um modelo é treinado ou ajustado posteriormente após o estágio inicial de treinamento (conhecido como pré-treinamento).

Várias técnicas notáveis de ajuste de hiperparâmetros são:

Pesquisa em grade: cada combinação possível de hiperparâmetros é treinada, testada e avaliada. Um método exaustivo de força bruta, a pesquisa em grade provavelmente descobrirá a melhor combinação de hiperparâmetros. No entanto, é demorada e consome muitos recursos.
Pesquisa aleatória: amostras de combinações de hiperparâmetros são selecionadas aleatoriamente, com cada amostra do subconjunto sendo usada para treinar e testar um modelo. A pesquisa aleatória é uma alternativa à pesquisa em grade quando esta última é inviável.
Otimização bayesiana: um modelo probabilístico é usado para prever quais combinações de hiperparâmetros têm maior probabilidade de resultar no melhor desempenho do modelo. A otimização bayesiana é um método iterativo que melhora a cada rodada de treinamento e testes e funciona bem com grandes espaços de hiperparâmetros.

Validação cruzada

No sistema de reamostragem de validação cruzada k-fold, os dados são divididos em k conjuntos, ou folds. Os dados de treinamento compreendem k-1subconjuntos, e o modelo é validado no conjunto restante. O processo é iterado de modo que cada subconjunto sirva como conjunto de validação. Os pontos de dados são amostrados sem substituição, o que significa que cada ponto de dados aparece uma vez por iteração.

A validação cruzada k-fold fornece uma visão geral mais holística do desempenho de um modelo do que uma única divisão de treinar-testar.

Bootstrapping

Bootstrapping é uma técnica de reamostragem semelhante à validação cruzada, exceto que os pontos de dados são amostrados com substituição. Isso significa que os pontos de dados amostrados podem aparecer em vários folds.

Critérios de informação

Os critérios de informação comparam o grau de complexidade do modelo com suas chances de overfitting ou underfitting do conjunto de dados. O sobreajuste significa que o modelo se adapta muito ao conjunto de treinamento e não pode generalizar para novos dados. Underfitting é o inverso, em que um modelo é insuficientemente complexo para capturar relacionamentos entre pontos de dados.

Tanto o Critério de Informação de Akaike (AIC) quanto o Critério de Informação Bayesiano (BIC) incentivam a adoção do modelo com a menor complexidade possível que possa lidar adequadamente com o conjunto de dados.

Fatores que afetam a seleção do modelo

O desempenho do modelo está longe de ser o único determinante do que torna um modelo “melhor”. Outros fatores podem ser tão ou mais relevantes para a decisão.

Complexidade dos dados: quanto mais complexo for um conjunto de dados, mais complexo será o modelo necessário para processá-lo. Mas aplicar um modelo muito complexo pode levar ao overfitting. E um modelo muito simples pode falhar em capturar adequadamente os padrões nos dados. O modelo apropriado processará os dados de forma capaz e eficiente, evitando o overfitting.
Qualidade dos dados: o pré-processamento de dados e a seleção de funcionalidades são dois processos de ciência de dados que preparam os dados para aplicações de aprendizado de máquina. Valores discrepantes, dados ausentes e outros empecilhos afetam alguns modelos mais do que outros, mas podem ser superados com dados sintéticos, regularização e outras contramedidas.
Interpretabilidade: interpretabilidade ou explicabilidade é o grau em que o funcionamento de um modelo pode ser compreendido por observadores humanos. Um modelo de “caixa-preta” tem pouca ou nenhuma interpretabilidade — seu fluxo de trabalho de tomada de decisão é em grande parte um mistério. Com aplicações de negócios confidenciais, como automação inteligente e tomada de decisão impulsionada por IA, a interpretabilidade é uma prioridade para as organizações que cumprem as diretrizes de uso de IA responsável. Certos setores, como saúde e finanças, têm ampla privacidade de dados e outras regulamentações, enfatizando ainda mais a necessidade de uma interpretabilidade clara.
Eficiência e uso de recursos: limitações práticas, como disponibilidade de computação e finanças, podem descartar totalmente alguns modelos. Redes neurais profundas exigem grandes quantidades de dados (e dinheiro) para treinar e operar. Embora esses modelos sejam empolgantes, eles não são adequados para todos os trabalhos. O AIC e o BIC podem ajudar os líderes de projetos de ML a tomar decisões informadas e manter a complexidade do modelo baixa.

Seleção de LLMs

Os LLMs são os principais modelos de inteligência artificial para muitas aplicações de negócios, como agentes de IA,respostas a perguntas impulsionadas por RAG ou chatbots para atendimento ao cliente com geração de texto automatizada. O processamento de linguagem natural (NLP) é o uso de algoritmos de aprendizado de máquina para entender e gerar a linguagem humana, e os LLMs são um tipo específico de modelo de NLP.

LLMs notáveis incluem a família GPT da OpenAI, como o GPT-4o e o GPT-3.5, alguns dos modelos por trás do ChatGPT, bem como o Claude da Anthropic,Gemini do Google e Llama 3 da Meta. Todos os LLMs são capazes de lidar com tarefas complexas, mas as necessidades específicas de um projeto de aprendizado de máquina podem ajudar a determinar o LLM certo para o trabalho.

A escolha do LLM certo se resume a uma série de fatores, incluindo:

Caso de uso específico: o desafio de aprendizado de máquina afeta diretamente o processo de seleção do LLM. Um LLM pode ser melhor para a compreensão e o resumo de documentos extensos, enquanto outro pode ser mais fácil para realizar ajuste fino para usos específicos de um domínio.
Desempenho: assim como outros modelos, os LLMs podem ser comparados uns com os outros para avaliar o desempenho. Benchmarks de LLMs incluem métricas para raciocínio, programação, matemática, latência, compreensão e conhecimento geral. Ponderar as necessidades de um projeto em relação ao desempenho do benchmark pode ajudar a determinar o melhor LLM a ser escolhido para obter saídas de alta qualidade.
Código aberto versus código fechado: os modelos de código aberto permitem que os observadores monitorem como o modelo toma suas decisões. Diferentes LLMs podem ser propensos a vieses e alucinações de várias maneiras: quando geram previsões que não refletem resultados do mundo real. Quando a moderação de conteúdo e a prevenção de vieses são fundamentais, limitar as escolhas a provedores de código aberto pode ajudar a moldar o processo de seleção de LLMs.
Uso de recursos e custo: os LLMs são modelos famintos por recursos. Muitos LLMs são alimentados por datacenters de hiperescala preenchidos com centenas de milhares de unidades de processamento gráfico (GPUs) ou mais. Os provedores de LLMs também cobram de forma diferente pelas conexões de APIs com seus modelos. A escalabilidade de um modelo e seu sistema de preços afetam diretamente o escopo do projeto.

Ciência de dados e MLOps para líderes de dados

Alinhe-se com outros líderes sobre as três principais metas de MLOps e IA confiável: confiança nos dados, confiança nos modelos e confiança nos processos.

Seleção do modelo no aprendizado de máquina