¿Qué es un bosque aleatorio?

El random forest es un algoritmo de machine learning de uso común registrado por Leo Breiman y Adele Cutler, que combina la salida de múltiples árboles de decisión para alcanzar un solo resultado. Su facilidad de uso y flexibilidad han impulsado su adopción, ya que maneja problemas de clasificación y regresión.

Árboles de decisión

Dado que el modelo de random forest se compone de varios árboles de decisión, sería útil comenzar describiendo brevemente el algoritmo del árbol de decisión.

Los árboles de decisión comienzan con una pregunta básica, como "¿Debería navegar?" A partir de ahí, puede hacer una serie de preguntas para determinar una respuesta, como, "¿Es un oleaje prolongado?" o "¿El viento sopla en alta mar?". Estas preguntas constituyen los nodos de decisión en el árbol, actuando como un medio para dividir los datos. Cada pregunta ayuda a un individuo a llegar a una decisión final, que sería indicada por el nodo hoja.

Las observaciones que se ajusten a los criterios seguirán la rama "Sí" y las que no lo hagan seguirán la ruta alternativa. Los árboles de decisión buscan encontrar la mejor división para crear subconjuntos de datos y, por lo general, se entrenan mediante el algoritmo del árbol de clasificación y regresión (CART). Se pueden utilizar métricas, como la impureza de Gini, la ganancia de información o el error cuadrático medio (MSE), para evaluar la calidad de la división.

Este árbol de decisiones es un ejemplo de un problema de clasificación, donde las etiquetas de clase son "navegar" y "no navegar".

Si bien los árboles de decisión son algoritmos comunes de aprendizaje supervisado, pueden ser propensos a problemas, como sesgos y sobreajuste. Sin embargo, cuando varios árboles de decisión forman un conjunto en el algoritmo de random forest, predicen resultados más precisos, especialmente cuando los árboles individuales no están correlacionados entre sí.

Métodos de conjunto

Los métodos de aprendizaje por conjuntos se componen de un conjunto de clasificadores, por ejemplo, árboles de decisión, y sus predicciones se agregan para identificar el resultado más popular.

Los métodos de conjunto más conocidos son el ensacado, también conocido como agregación de arranque, y el impulso. En 1996, Leo Breiman (el enlace se encuentra fuera de ibm.com) (PDF, 810 KB) introdujo el método de ensacado; en este método, se selecciona una muestra aleatoria de datos en un conjunto de entrenamiento con reemplazo, lo que significa que los puntos de datos individuales se pueden elegir más de una vez.

Después de generar varias muestras de datos, estos modelos se entrenan de forma independiente y, según el tipo de tarea, es decir, regresión o clasificación, el promedio o la mayoría de esas predicciones arrojan una estimación más precisa. Este enfoque se usa comúnmente para reducir la variación dentro de un conjunto de datos ruidoso.

Algoritmo de random forest

El algoritmo de bosque aleatorio es una extensión del método de ensacado, ya que utiliza tanto el ensacado como la aleatoriedad de características para crear un bosque no correlacionado de árboles de decisión.

Aleatoriedad de características, también conocida como agrupación de características o "el método del subespacio aleatorio " (enlace externo a ibm.com) (PDF, 121 KB), genera un subconjunto aleatorio de características, lo que garantiza una baja correlación entre los árboles de decisión.Ésta es una diferencia clave entre los árboles de decisión y los bosques aleatorios.

Mientras que los árboles de decisión consideran todas las posibles divisiones de características, los bosques aleatorios solo seleccionan un subconjunto de esas características.

Si volvemos a la pregunta "¿debería navegar?" Por ejemplo, las preguntas que puedo hacer para determinar la predicción pueden no ser tan completas como el conjunto de preguntas de otra persona. Al tener en cuenta toda la variabilidad potencial en los datos, podemos reducir el riesgo de sobreajuste, sesgo y varianza general, lo que da como resultado predicciones más precisas.

Productos destacados

SPSS Modeler

¿Cómo funciona los algoritmos de random forest?

Los algoritmos de random forest tienen tres hiperparámetros principales, que deben configurarse antes del entrenamiento:

Tamaño del nodo
Cantidad de árboles
Cantidad de características muestreadas

A partir de ahí, el clasificador de random forest se puede utilizar para solucionar problemas de regresión o clasificación.

El algoritmo de random forest se compone de un conjunto de árboles de decisión, y cada árbol del conjunto se compone de una muestra de datos extraída de un conjunto de entrenamiento con reemplazo, llamada muestra de arranque.

De esa muestra de entrenamiento, un tercio se reserva como datos de prueba, lo que se conoce como muestra fuera de la bolsa (oob), a la que volveremos más adelante. Luego, se inyecta otra instancia de aleatoriedad a través del agrupamiento de características, lo que agrega más diversidad al conjunto de datos y reduce la correlación entre los árboles de decisión.

Dependiendo del tipo de problema, la determinación de la predicción variará. Para una tarea de regresión, se promediarán los árboles de decisión individuales, y para una tarea de clasificación, un voto mayoritario, es decir, la variable categórica más frecuente, arrojará la clase predicha.

Finalmente, la muestra de oob se utiliza para la validación cruzada, finalizando esa predicción.

Ventajas y desafíos del bosque aleatorio

Hay una serie de ventajas y desafíos clave que presenta el algoritmo de random forest cuando se usa para problemas de clasificación o regresión:

Beneficios clave

Riesgo reducido de sobreajuste

Los árboles de decisión corren el riesgo de sobreajustarse, ya que tienden a ajustar todas las muestras dentro de los datos de entrenamiento. Sin embargo, cuando hay una gran cantidad de árboles de decisión en un random forest, el clasificador no se ajustará demasiado al modelo, ya que el promedio de árboles no correlacionados reduce la varianza general y el error de predicción.

Aporta flexibilidad

Dado que el random forest puede manejar tareas de regresión y clasificación con un alto grado de precisión, es un método popular entre los científicos de datos. El agrupamiento de características también convierte al clasificador de random forest en una herramienta eficaz para estimar los valores perdidos, ya que mantiene la precisión cuando falta una parte de los datos.

Importancia de la característica fácil de determinar

El random forest facilita la evaluación de la importancia o contribución de las variables al modelo. Hay algunas formas de evaluar la importancia de las características. La importancia de Gini y la disminución media de impurezas (MDI) se utilizan generalmente para medir cuánto disminuye la precisión del modelo cuando se excluye una variable determinada.

Sin embargo, la importancia de la permutación, también conocida como precisión de disminución media (MDA), es otra medida de importancia. MDA identifica la disminución promedio en la precisión mediante la permutación aleatoria de los valores de las características en las muestras oob.

Desafíos clave

Proceso que requiere mucho tiempo

Dado que los algoritmos de random forest pueden manejar grandes conjuntos de datos, pueden proporcionar predicciones más precisas, pero pueden ser lentos para procesar los datos, ya que están computando datos para cada árbol de decisión individual.

Requiere más recursos

Dado que los random forest procesan conjuntos de datos más grandes, requerirán más recursos para almacenar esos datos.

Más complejo

La predicción de un único árbol de decisiones es más fácil de interpretar en comparación con un bosque de ellos.

Aplicaciones de bosque aleatorio

El algoritmo de random forest se ha aplicado en varias industrias, lo que les permite tomar mejores decisiones comerciales. Algunos casos de uso incluyen:

Finanzas

Es un algoritmo preferido sobre otros, ya que reduce el tiempo dedicado a la gestión de datos y las tareas de preprocesamiento. Se puede utilizar para evaluar clientes con alto riesgo crediticio, para detectar fraudes y problemas de opciones de precios.

Cuidado de la salud

El algoritmo de random forest tiene aplicaciones dentro de la Biología Computacional (el enlace se encuentra fuera de ibm.com) (PDF, 737 KB), lo que permite a los médicos abordar problemas como la clasificación de la expresión génica, el descubrimiento de biomarcadores y la anotación de secuencias.

Como resultado, los médicos pueden hacer estimaciones sobre las respuestas de los medicamentos a medicamentos específicos.

Comercio electrónico

Se puede utilizar para motores de recomendación con fines de venta cruzada.

Soluciones relacionadas

SPSS® Modeler

IBM® SPSS Modeler proporciona analítica predictiva para ayudarle a descubrir patrones de datos, obtener precisión predictiva y mejorar la toma de decisiones.

Conozca SPSS Modeler

Recursos

Herramienta de ciencia de datos de arrastrar y soltar de IBM® SPSS Modeler

Descubra cómo las organizaciones de todo el mundo utilizan SPSS® Modeler para la preparación y el descubrimiento de datos, la analítica predictiva, la gestión y la implementación de modelos y machine learning para monetizar los activos de datos.

Redes neuronales inspiradas en bosques aleatorios

Descubra cómo una red neuronal cuidadosamente diseñada con una estructura de bosque aleatorio puede tener una mejor capacidad de generalización.

Dé el siguiente paso

IBM® SPSS Modeler es un conjunto de herramientas de minería de datos que le permite desarrollar modelos predictivos para implementarlos en las operaciones empresariales. Diseñado en torno al modelo CRISP-DM estándar de la industria, IBM® SPSS Modeler admite todo el proceso de minería de datos, desde el procesamiento de datos hasta la optimización de los resultados de negocio.

Pruebe IBM® SPSS Modeler hoy mismo