Dado que el modelo de bosque aleatorio se compone de varios árboles de decisión, sería útil empezar describiendo brevemente el algoritmo del árbol de decisión. Los árboles de decisión comienzan con una pregunta básica, como "¿Debería navegar?" A partir de ahí, puede hacer una serie de preguntas para determinar una respuesta, como "¿El oleaje es prolongado?" o "¿Hay viento en alta mar?". Estas preguntas constituyen los nodos de decisión en el árbol, que funcionan como un medio para dividir los datos. Cada pregunta ayuda a un individuo a llegar a una decisión final, que sería señalada por el nodo hoja. Las observaciones que cumplan con los criterios seguirán el ramal "Sí" y las que no, seguirán la ruta alternativa. Los árboles de decisión buscan encontrar la mejor división para los subconjuntos de datos y, por lo general, se entrenan a través del algoritmo del árbol de clasificación y regresión (CART). Las métricas, como la impureza de Gini, la ganancia de información o el error cuadrático medio (MSE), pueden utilizarse para evaluar la calidad de la división.
Este árbol de decisión es un ejemplo de un problema de clasificación, donde las etiquetas de clase son "navegar" y "no navegar".
Si bien los árboles de decisión son algoritmos comunes de aprendizaje supervisado, pueden ser proclives a presentar problemas, como sesgos y sobreajuste. Sin embargo, cuando varios árboles de decisión forman un conjunto en el algoritmo de bosque aleatorio, predicen resultados más precisos, en especial cuando los árboles de decisión individuales no están correlacionados entre sí.