Simplificando, o overfitting é o oposto do underfitting: ocorre quando o modelo é treinado em excesso ou tem complexidade demais, resultando em altas taxas de erro nos dados de teste. O overfitting é mais comum do que o underfitting, que normalmente ocorre como tentativa de evitá-lo, por meio de um processo chamado “parada antecipada” (early stopping).
Se o treinamento insuficiente ou a baixa complexidade levam ao underfitting, então uma estratégia lógica de prevenção seria aumentar o tempo de treinamento ou adicionar entradas mais relevantes. No entanto, se o modelo for treinado em excesso ou receber funcionalidades demais, pode acabar sofrendo de overfitting, apresentando baixo viés e alta variância (ou seja, o dilema viés-variância). Nesse cenário, o modelo estatístico se ajusta demais aos dados de treinamento, perdendo a capacidade de generalizar bem para novos pontos de dados. É importante observar que alguns tipos de modelos podem ser mais propensos ao overfitting do que outros, como árvores de decisão ou KNN.
Identificar overfitting pode ser mais difícil do que detectar underfitting porque, ao contrário do underfitting, os dados de treinamento apresentam alta precisão em um modelo com overfitting. Para avaliar a precisão de um algoritmo, normalmente se utiliza uma técnica chamada validação cruzada k-fold.
Na validação cruzada k-folds, os dados são divididos em k subconjuntos de tamanhos iguais, conhecidos como "folds". Um dos k-folds será usado como conjunto de teste, também chamado de conjunto de retenção ou conjunto de validação, enquanto os demais folds serão utilizados para treinar o modelo. Este processo se repete até que cada dobra tenha atuado como uma dobra de resistência. Após cada avaliação, uma pontuação é mantida e, ao término de todas as iterações, as pontuações são calculadas para avaliar o desempenho geral do modelo.
O cenário ideal ao treinar um modelo é encontrar o equilíbrio entre overfitting e underfitting. Identificar esse “ponto ideal” entre os dois permite que modelos de aprendizado de máquina façam previsões com precisão.