O que é subajuste?

O subajuste é um cenário em ciência de dados no qual um modelo de dados é incapaz de capturar o relacionamento entre as variáveis de entrada e saída com precisão, gerando uma alta taxa de erro tanto no conjunto de treinamento quanto nos dados não exibidos. Ele ocorre quando um modelo é muito simples, o que pode ser o resultado de um modelo que necessita de mais tempo de treinamento, mais recursos de entrada, ou menos regularização. Assim como no sobreajuste (overfitting), um modelo com subajuste não consegue estabelecer a tendência dominante nos dados, o que resulta em erros de treinamento e baixo desempenho. Se um modelo não fizer uma generalização adequada para novos dados, não poderá ser utilizado para tarefas de classificação ou previsão. É devido à generalização de um modelo para novos dados que é possível usar algoritmos de machine learning, todos os dias, para fazer previsões e classificar dados.

Uma propensão alta e uma variância baixa são indicadores plausíveis de subajuste. Como esse comportamento pode ser notado durante o uso do conjunto de dados de treinamento, os modelos com subajuste geralmente são mais fáceis de identificar do que aqueles com sobreajuste.

Produtos em destaque

Watson Studio

IBM Cloud Pak for Data

Comparando o Subajuste e o Sobreajuste

De maneira simples, o sobreajuste é o oposto do subajuste e ocorre quando o modelo é treinado excessivamente ou contém complexidade acentuada, o que resulta em altas taxas de erro nos dados de teste. É mais comum ter modelos com sobreajuste do que com subajuste e, geralmente, o subajuste ocorre quando há um esforço para evitar o sobreajuste por meio de um processo chamado “parada antecipada” (early stopping).

Se a falta de treinamento ou de complexidade resultar em um subajuste, uma estratégia de prevenção lógica seria aumentar a duração do treinamento ou incluir entradas mais relevantes. No entanto, ao treinar excessivamente o modelo ou incluir nele muitos recursos, é possível causar o sobreajuste, que resulta em baixa propensão, mas alta variância (ou seja, uma compensação de propensão-variância). Nesse cenário, o modelo estatístico está estritamente ajustado aos dados de treinamento, o que o torna incapaz de realizar uma generalização adequada para novos pontos de dados. É importante observar que alguns tipos de modelos podem ser mais propensos ao sobreajuste do que outros, como árvores de decisão ou KNN.

É possível que você tenha mais dificuldade para identificar o sobreajuste do que o subajuste porque, ao contrário do segundo, os dados de treinamento são executados com alta precisão em um modelo com sobreajuste. Normalmente, uma técnica chamada validação cruzada k-fold é usada para avaliar a precisão de um algoritmo.

Nela, os dados são divididos em subconjuntos k de tamanhos iguais, também chamados de "folds". Uma das k-folds atuará como o conjunto de teste, também conhecido como conjunto de validação, e os folds restantes treinarão o modelo. Esse processo se repete até que cada um dos folds tenha atuado como um fold de validação. Uma pontuação é retida depois de cada avaliação e, após a conclusão de todas as iterações, a média das pontuações é calculada para avaliar o desempenho do modelo geral.

Ao ajustar um modelo, o cenário ideal é encontrar o equilíbrio entre o sobreajuste e o subajuste. Ao identificar esse equilíbrio entre os dois, os modelos de machine learning poderão realizar previsões com precisão.

Como evitar o subajuste

Como é possível detectar o subajuste com base no conjunto de treinamento, a melhor forma de estabelecer o relacionamento dominante entre as variáveis de entrada e saída é nesse conjunto. Ao manter a complexidade adequada do modelo, é possível evitar o subajuste e fazer previsões mais precisas. Veja abaixo algumas técnicas que podem ser usadas para reduzir o subajuste:

Diminua a regularização

Normalmente, a regularização é usada para reduzir a variância em um modelo por meio da aplicação de uma penalidade aos parâmetros de entrada com coeficientes maiores. Há diversos métodos diferentes, como regularização L1, regularização Lasso, dropout etc., que ajudam a reduzir o ruído e os valores discrepantes em um modelo. No entanto, se as características dos dados se tornarem muito uniformes, o modelo será incapaz de identificar a tendência dominante, resultando em um subajuste. Ao diminuir a quantidade de regularização, são introduzidas mais complexidade e mais variação no modelo, o que permite um treinamento bem-sucedido.

Aumente a duração do treinamento

Como mencionado anteriormente, parar o treinamento antes da hora também pode resultado em subajuste. Portanto, é possível evitar essa situação ao estender a duração do treinamento. No entanto, é importante estar ciente dos cenários de treinamento excessivo e, subsequentemente, do sobreajuste. É fundamental encontrar o equilíbrio entre as duas situações.

Selecione recursos

Com qualquer modelo, recursos específicos são usados para determinar um resultado estabelecido. Se não houver recursos preditivos suficientes, mais recursos ou recursos com maior importância deverão ser introduzidos. Por exemplo, é possível incluir mais neurônios ocultos em uma rede neural ou mais árvores em uma floresta aleatória. Esse processo injetará mais complexidade no modelo, gerando melhores resultados de treinamento.

Soluções relacionadas

IBM Watson® Studio

Desenvolva, execute e gerencie modelos de IA. Prepare dados e desenvolva modelos em qualquer cloud usando códigos de software livre ou modelagem visual. Preveja e otimize os seus resultados.

Conheça o IBM Watson® Studio

IBM Cloud Pak® for Data

O IBM Cloud Pak for Data é uma plataforma de dados aberta e extensível que fornece uma malha de dados para disponibilizar todos os dados para IA e análise de dados, em qualquer cloud.

Conheça o Cloud Pak for Data

Recursos

A IBM foi nomeada líder no Forrester Wave™: Multimodal Predictive Analytics and Machine Learning, terceiro trimestre de 2020

Veja por que o Watson Studio é “a melhor parte do Cloud Pak for Data”.

Dê o próximo passo

O IBM Watson Studio é uma plataforma de dados aberta que permite que cientistas de dados criem, executem, testem e otimizem modelos de inteligência artificial (IA) em escala em qualquer cloud. Ele permite operacionalizar a IA em qualquer lugar como parte do IBM Cloud Pak® for Data. Reúna equipes, simplifique o gerenciamento do ciclo de vida de IA e acelere o time to value com estruturas de software livre como o PyTorch, o TensorFlow e o scikit-learn, além de linguagens populares como Python, R e Scala.

Teste hoje mesmo o IBM Watson® Studio