La forêt aléatoire est un algorithme d'apprentissage automatique couramment utilisé, et breveté par Leo Breiman et Adele Cutler, qui permet d'assembler les sorties de plusieurs arbres de décision pour atteindre un résultat unique. Sa souplesse d'utilisation et sa flexibilité ont favorisé son adoption, car il gère à la fois les problèmes de classification et de régression.

Arbres de décision

Le modèle de forêt aléatoire étant constitué de plusieurs arbres de décision, il est utile de commencer par décrire l'algorithme des arbres de décision dans les grandes lignes. Les arbres décisionnels commencent par une question de base, par exemple : « Est-ce que je dois aller surfer ? ». À partir de là, vous pouvez poser une série de questions pour déterminer une réponse, par exemple « La houle va-t-elle durer ? » ou « Est-ce que le vent souffle au large ? ». Ces questions composent les nœuds de décision de l'arbre et agissent comme un moyen de diviser les données. Chaque question aide une personne à prendre une décision finale qui sera désignée par le nœud feuille. Les observations qui correspondent aux critères suivent la branche « oui » et celles qui ne correspondent pas suivent le chemin alternatif. Les arbres de décision cherchent à identifier la meilleure subdivision possible pour créer des sous-ensembles de données et sont généralement entraînés par l'algorithme CART (Classification and Regression Tree). Des mesures, telles que l'impureté de Gini, le gain d'information, le carré moyen des erreurs (MSE), peuvent être utilisées pour évaluer la qualité de la division.

Cet arbre de décision est un exemple de problème de classification, où les étiquettes de classe sont « surfer » et « ne pas surfer ».

Bien que les arbres de décision soient des algorithmes d'apprentissage supervisé courants, ils peuvent être sujets à des problèmes, tels que le biais et l'ajustement excessif. Cependant, lorsque plusieurs arbres de décision forment un ensemble dans l'algorithme de forêt aléatoire, ils prédisent des résultats précis, surtout lorsque les arbres individuels ne sont pas corrélés les uns aux autres.

Méthodes ensemblistes

Les méthodes ensemblistes des algorithmes d'apprentissage sont constituées d'un ensemble de classificateurs (par exemple, arbres de décision), et leurs prédictions sont agrégées pour identifier le résultat le plus fréquent. Les méthodes ensemblistes les plus connues sont le bagging, également appelé boostrap aggregation, et le boosting. En 1996, Leo Breiman (lien externe à ibm.com) (PDF, 810 Ko) introduit la méthode bagging. Dans cette méthode, un échantillon aléatoire de données dans un ensemble d'entraînement est sélectionné avec remplacement, ce qui signifie que chaque point de données peut être choisi plusieurs fois. Après que plusieurs échantillons de données ont été générés, ces modèles sont ensuite entraînés de manière indépendante et en fonction du type de tâche, c'est-a-dire d'une régression ou d'une classification, la moyenne ou la majorité de ces prédictions donne une estimation plus précise. Cette approche est couramment utilisée pour diminuer la variance au sein d'un jeu de données bruyant.

L'algorithme de forêt aléatoire

L'algorithme de forêt aléatoire est une extension de la méthode bagging, car elle repose sur le bagging et le feature randomness (fonction aléatoire) pour créer une forêt d'arbres de décision non corrélés. Le feature randomness, également appelé feature bagging ou « méthode de sous-espace aléatoire » (lien externe à ibm.com) (PDF, 121 Ko), génère un sous-ensemble aléatoire de fonctions, qui assure une faible corrélation entre les arbres de décision. Il s'agit là d'une différence essentielle entre les arbres de décision et les forêts aléatoires. Alors que les arbres de décision tiennent compte de toutes les subdivisions de fonctions possibles, les forêts aléatoires, elles, ne sélectionnent qu'un sous-ensemble de ces fonctions.

Dans l'exemple « Est-ce que je dois aller surfer ? », on constate que les questions qu'une personne peut poser pour déterminer la prédiction peuvent très bien ne pas être aussi complètes que celles posées par une autre personne. En tenant compte de toute la variabilité possible dans les données, nous pouvons réduire le risque de surajustement, de biais ou de variance générale pour produire des prédictions plus précises.