O bagging, também conhecido como agregação bootstrap, é o método de aprendizado em conjunto comumente usado para reduzir a variância em um conjunto de dados cheio de ruído.
No bagging, uma amostra aleatória dos dados no conjunto de treinamento é selecionada com reposição, ou seja, os mesmos pontos de dados podem ser escolhidos mais de uma vez. Após gerar várias amostras de dados, esses modelos fracos são treinados de forma independente. Dependendo do tipo de tarefa, por exemplo, regressão ou classificação, a média ou a maioria das previsões resulta em uma estimativa mais precisa.
Vale destacar que o algoritmo de random forest é considerado uma extensão do método bagging, combinando bagging e aleatoriedade de atributos para criar uma floresta não correlacionada de árvores de decisão.
O aprendizado coletivo fundamenta a ideia da "sabedoria das multidões", o que sugere que a tomada de decisão de um grupo maior de pessoas normalmente é melhor do que a de um especialista individual Da mesma forma, o aprendizado em conjunto refere-se a um grupo (ou ensemble) de modelos ou aprendizes básicos que trabalham coletivamente para obter uma previsão final melhor.
Um único modelo, também conhecido como aluno de base ou fraco, pode não ter um bom desempenho individualmente devido à alta variância ou ao alto viés. No entanto, quando os aprendizes fracos são agregados, eles podem formar um aprendiz forte, pois sua combinação reduz o viés ou a variância, resultando em um melhor desempenho do modelo.
Os métodos de conjunto frequentemente usam árvores de decisão para ilustração. Esse algoritmo pode ser suscetível a overfitting, apresentando alta variância e baixo viés, quando não foi podado. Por outro lado, também pode levar a underfitting, com baixa variância e alto viés, quando é muito pequeno, como um decision stump (árvore de decisão com apenas um nível).
Lembre-se de que, quando um algoritmo se ajusta demais ou de menos ao seu conjunto de treinamento, ele é incapaz de fazer boas generalizações em novos conjuntos de dados, portanto, os métodos em conjunto são usados para neutralizar esse comportamento e permitir a generalização do modelo para novos conjuntos de dados. Embora as árvores de decisão possam apresentar uma alta variação ou um alto viés, vale a pena observar que essa não é a única técnica de modelagem que utiliza o aprendizado em conjunto para encontrar o "ponto ideal" no equilíbrio entre a polarização e o viés.
Bagging e boosting são dois dos principais tipos de métodos de aprendizado por conjunto (ensemble learning). Conforme destacado neste estudo, a principal diferença entre esses métodos de aprendizado está em como são treinados.
No bagging, os aprendizes fracos são treinados em paralelo, mas no boosting eles aprendem em sequência. Isso significa que uma série de modelos é construída e, a cada nova iteração do modelo, os pesos dos dados classificados incorretamente no modelo anterior são aumentados.
Essa redistribuição de pesos ajuda o algoritmo a identificar os parâmetros nos quais ele precisa se concentrar para melhorar seu desempenho. AdaBoost, que significa "algoritmo de boosting adaptativo", é um dos algoritmos de boosting mais populares, pois foi um dos primeiros de seu tipo. Outros tipos de algoritmos de boosting incluem XGBoost, GradientBoost e BrownBoost.
Outra diferença na qual bagging e boosting são diferentes são os cenários em que são usados. Por exemplo, os métodos bagging são normalmente usados em aprendizes fracos que apresentam alta variância e baixo viés, enquanto os métodos de boosting são usados quando se observam baixa variância e alto viés.
Em 1996, Leo Breimanintroduziu o algoritmo de bagging, que possui três etapas básicas:
Existem várias vantagens e desafios importantes que o método bagging apresenta quando usado para problemas de classificação ou regressão. Os principais benefícios do bagging incluem:
As principais dificuldades do bagging incluem:
A técnica de bagging é utilizada em diversos setores, oferecendo insights tanto com valor prático quanto com abordagens interessantes, como no projeto GRAMMY Debates with Watson. Os principais casos de uso incluem: