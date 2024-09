Saiba mais sobre algoritmos de boosting e como eles podem melhorar o potencial preditivo de suas iniciativas de mineração de dados.

Boosting é um método de aprendizado por agrupamento que combina um grupo de aprendizes mais simples a um aprendiz mais complexo para minimizar erros de treinamento. No boosting, uma amostra aleatória de dados é selecionada, provida com um modelo e, em seguida, treinada sequencialmente, ou seja, cada modelo tenta compensar os pontos fracos de seu predecessor. Com cada iteração, as regras mais simples de cada classificador individual são combinadas para formar uma única regra de predição complexa.

Antes de prosseguirmos, vamos descobrir a categoria de aprendizado por agrupamento de forma mais ampla, destacando dois dos métodos mais conhecidos: bagging e boosting.

Aprendizado por agrupamento

O aprendizado por agrupamento aumenta a credibilidade do conceito de "sabedoria das multidões", o que sugere que a tomada de decisão de um grupo maior de pessoas é tipicamente melhor do que a de um único especialista. Da mesma forma, o aprendizado por agrupamento refere-se a um grupo (ou agrupamento) de aprendizes de base, ou modelos, que trabalham coletivamente para alcançar uma melhor predição final. Um modelo único, conhecido também como aprendiz de base ou mais simples, pode não ter um bom desempenho individualmente devido à alta variância ou alto viés. No entanto, quando aprendizes simples são agregados, eles podem formar um forte aprendiz, pois sua combinação reduz a propensão a erros ou a variância, resultando em um melhor desempenho do modelo.

Os métodos de agrupamento são normalmente demonstrados usando árvores de decisão, pois este algoritmo pode estar sujeito ao sobreajuste (alta variância e baixo viés) quando não for adaptado e também pode sofrer com o subajuste (baixa variância e alto viés) quando for muito pequeno, que é uma árvore de decisão com um nível. Lembre-se, quando um algoritmo é sobreajustado ou subajustado em relação ao seu conjunto de dados de treinamento, ele não consegue generalizar novos conjuntos de dados, portanto, portanto, métodos de agrupamento são utilizados para balancear esse comportamento e permitir a generalização do modelo em relação aos novos conjuntos de dados. Embora as árvores de decisão possam exibir alta variância ou alto viés, vale a pena notar que essa não é a única técnica de modelagem que utiliza o aprendizado por agrupamento para encontrar o "ponto ideal" no equilíbrio entre viés e variância.

Bagging vs. boosting

Bagging e boosting são os dois tipos principais de métodos de aprendizado por agrupamento. Conforme destacado neste estudo (PDF, 248 KB) (link externo à ibm.com), a principal diferença entre esses métodos de aprendizado é a forma como são treinados. No bagging, os aprendizes simples são treinados simultaneamente, mas no boosting, eles são treinados sequencialmente. Isso significa que uma série de modelos é construída e, a cada nova iteração do modelo, os pesos dos dados mal classificados no modelo anterior aumentam. Essa redistribuição de pesos ajuda o algoritmo a identificar os parâmetros nos quais ele precisa se concentrar para melhorar seu desempenho. AdaBoost, que significa "algoritmo de boosting adaptativo", é um dos algoritmos de boosting mais populares, pois foi um dos primeiros a ser usado. Outros tipos de algoritmos de boosting são XGBoost, GradientBoost e BrownBoost.

Outra diferença entre bagging e boosting está em como eles são usados. Por exemplo, os métodos de bagging são geralmente usados em aprendizes simples que apresentam alta variância e baixo viés, considerando que os métodos de boosting são usados quando há baixa variância e alto viés. Embora o bagging possa ser usado para evitar o sobreajuste, os métodos de boosting podem ser mais propensos a isso (link externo à ibm.com), embora realmente dependa do conjunto de dados. No entanto, o ajuste de parâmetros pode ajudar a evitar o problema.

Como resultado, bagging e boosting também têm diferentes aplicações no mundo real. Bagging tem sido utilizado para processos de aprovação de empréstimos e genômica estatística, enquanto o boosting tem sido mais utilizado nos aplicativos de reconhecimento de imagens e mecanismos de procura.