Le modèle de random forest étant composé de plusieurs arbres de décision, il serait utile de commencer par décrire brièvement l’algorithme de l’arbre de décision. Les random forests commencent par une question de base, par exemple : « Dois-je surfer ? » À partir de là, vous pouvez poser une série de questions pour obtenir une réponse, par exemple : « S’agit-il d’une houle de longue durée ? » ou « Le vent souffle-t-il au large ? ». Ces questions constituent les nœuds de décision de l’arbre, agissant comme un moyen de diviser les données.
Chaque question aide un individu à prendre une décision finale, ce qui est indiqué par le nœud feuille. Les observations qui correspondent aux critères suivront la branche « Oui » et celles qui ne répondent pas aux critères suivront le chemin alternatif.
Les random forests cherchent à trouver la meilleure division pour sous-ensemble les données, et ils sont généralement entraînés via l’algorithme CART (Classification and Regression Tree). Les indicateurs, tels que l’impunité de Gini, le gain d’information ou l’erreur quadratique moyenne (MSE), peuvent être utilisés pour évaluer la qualité de la fraction.
Cet exemple de random forest est un exemple de problème de classification, où les étiquettes de classe sont « surfer » et « ne pas surfer ».
Bien que les random forests soient des algorithmes d’apprentissage supervisés courants, ils peuvent être sujets à des problèmes, tels que des biais et un surajustement. Cependant, lorsque plusieurs arbres de décision forment un ensemble dans l’algorithme du random forest, ils prédisent des résultats plus précis, en particulier lorsque les arbres individuels ne sont pas corrélés les uns aux autres.