Como o modelo de random forest (floresta aleatória) é composto por várias árvores de decisão, vale a pena começar com uma breve descrição do algoritmo de árvore de decisão.
As árvores de decisão começam com uma pergunta básica, como: “Devo surfar?”. A partir daí, você pode fazer uma série de perguntas para determinar uma resposta, como: “São ondas de longa duração?” ou “O vento está soprando para o mar?”. Essas perguntas formam os nós de decisão na árvore, atuando como um meio de dividir os dados.
Cada pergunta ajuda um indivíduo a chegar a uma decisão final, que seria denotada pelo nó folha. Observações que atendem aos critérios seguirão o ramo “Sim“, enquanto aquelas que não atendem seguirão o caminho alternativo. As árvores de decisão buscam encontrar a melhor divisão para subconjuntos de dados, e geralmente são treinadas pelo algoritmo de árvore de classificação e regressão (CART). Métricas, como impureza de Gini, ganho de informação ou erro quadrático médio (MSE), podem ser usadas para avaliar a qualidade da divisão.
Esta decision tree é um exemplo de um problema de classificação, onde os rótulos de classe são “surfar” e “não surfar”.
Embora as decision trees sejam algoritmos de aprendizado supervisionado comuns, elas podem estar sujeitas a problemas, como viés e overfitting. No entanto, quando múltiplas decision trees formam um conjunto no algoritmo de random forest, elas preveem resultados mais precisos, particularmente quando as trees individuais não estão correlacionadas entre si.