O gradient boosting é um algoritmo de aprendizado de máquina poderoso e amplamente utilizado na ciência de dados para tarefas de classificação. Ele faz parte de uma família de métodos de aprendizado em conjunto, junto com o bagging, que combina as previsões de vários modelos mais simples para melhorar o desempenho geral. A regressão do gradient boosting usa o boosting de gradiente para gerar melhor os dados de saída com base em uma regressão linear. Um classificador do gradient boosting, que você explorará neste tutorial, usa o gradient boosting para classificar melhor os dados de entrada como pertencentes a duas ou mais classes diferentes.

O gradient boosting é uma atualização do algoritmo adaboost que usa tocos de decisão em vez de árvores. Esses tocos de decisão são semelhantes às árvores em uma floresta aleatória, mas têm apenas um nó e duas folhas. O algoritmo do gradient boosting cria modelos sequencialmente, em que cada etapa tenta corrigir os erros da iteração anterior. O processo de treinamento geralmente começa com a criação de um aprendiz fraco, como uma árvore de decisão superficial para os dados de treinamento. Após esse treinamento inicial, o gradient boosting calcula o erro entre os valores reais e previstos (geralmente chamados de resíduos) e, em seguida, treina um novo estimador para prever esse erro. Essa nova árvore é adicionada ao conjunto para atualizar as previsões e criar um aprendiz forte. O gradient boosting repete esse processo até que a melhoria pare ou até que um número fixo de iterações seja atingido. O boosting é semelhante ao gradiente descendente, mas "desce" o gradiente introduzindo novos modelos.

O boosting tem várias vantagens: tem bom desempenho em dados tabulares e pode lidar com dados numéricos e categóricos. Funciona bem mesmo com parâmetros padrão e é robusto em relação a valores discrepantes no conjunto de dados. No entanto, pode ser lento para treinar e, muitas vezes, altamente sensível aos hiperparâmetros definidos para o processo de treinamento. Manter o número de árvores criadas menor pode acelerar o processo de treinamento ao trabalhar com um grande conjunto de dados. Essa etapa geralmente é feita por meio do parâmetro de profundidade máxima. O gradient boosting também pode ser propenso ao overfitting se não for ajustado corretamente. Para evitar o overfitting, você pode configurar a taxa de aprendizado para o processo de treinamento. Esse processo é aproximadamente o mesmo para um classificador ou um regressor do gradient boosting e é usado no popular xgboost, que se baseia no gradient boosting ao adicionar regularização.

Neste tutorial, você aprenderá a usar duas linguagens de programação diferentes e bibliotecas de gradient boosting para classificar pinguins usando o popular conjunto de dados Palmer Pinguins.

Você pode baixar o Notebook para este tutorial no Github.