Aprendizaje de las máquinas continuo

Como resultado de una investigación de IBM, e inspirado en la sección natural en biología, el aprendizaje de las máquinas continuo está disponible para el nodo Clasificador automático y para el nodo Autonumérico.

Un inconveniente del modelado de modelos es que queden obsoletos debido a cambios en los datos con el tiempo. Esto se conoce comúnmente como deriva del modelo o desviación conceptual. Para ayudar a solucionar de forma eficiente una deriva del modelo, SPSS Modeler proporciona aprendizaje de las máquinas continuo.

¿Qué es la deriva del modelo? Cuando crea un modelo basado en datos históricos, puede quedar estancado. En muchos casos, entran datos nuevos (nuevas variaciones, nuevos patrones, nuevas tendencias, etc.) que los datos históricos antiguos no capturan. Para solucionar este problema, IBM se ha inspirado en el famoso fenómeno de la biología denominado selección natural de las especies. Piense en los modelos como especies y piense en los datos como naturaleza. Al igual que la naturaleza selecciona las especies, deberíamos dejar que los datos seleccionaran el modelo. Existe una gran diferencia entre modelos y especies: las especies pueden evolucionar, pero los modelos son estáticos una vez creados.

Hay dos condiciones previas para que las especies evolucionen; la primera es la mutación genética y la segunda es la población. Ahora, desde la perspectiva del modelado, para satisfacer la primera condición previa (mutación genética), deberíamos incorporar nuevos cambios de datos en el modelo existente. Para satisfacer la segunda condición previa (población), deberíamos utilizar varios modelos en lugar de uno solo. ¿Podemos representar varios modelos? La respuesta es un conjunto de modelos de conjunto (Ensemble Model Set, EMS).

En la siguiente figura se muestra cómo puede evolucionar un EMS. La parte superior izquierda de la figura representa datos históricos con particiones híbridas. Las particiones híbridas garantizan un EMS inicial fuerte. La parte superior derecha de la figura representa una nueva porción de datos que pasan a estar disponibles, con barras verticales a cada lado. La barra vertical izquierda representa el estado actual y la barra vertical derecha representa el estado cuando hay riesgo de deriva del modelo. En cada nueva ronda de aprendizaje de las máquinas continuo, se llevan a cabo dos pasos para que el modelo evolucione y evitar la deriva del modelo.

En primer lugar, creamos un conjunto de modelos de conjunto (EMS) utilizando los datos de entrenamiento existentes. A continuación, cuando una nueva porción de datos pasa a estar disponible, se crean nuevos modelos sobre estos datos nuevos y se añaden al EMS como modelos de componente. Los pesos de los modelos de componente existentes en el EMS se vuelven a evaluar utilizando los datos nuevos. Como resultado de esta evaluación, los modelos de componente que tienen pesos superiores se seleccionan para la predicción actual y es posible que los modelos de componente que tienen pesos inferiores se supriman del EMS. Este proceso renueva el EMS para pesos del modelo e instancias del modelo, lo que supone una evolución a una forma flexible y eficiente de abordar los cambios inevitables de los datos a lo largo del tiempo.

Figura 1. Aprendizaje de las máquinas automático continuo
Aprendizaje de las máquinas automático continuo

El conjunto de modelos de conjunto (EMS) es un nugget de modelo que se genera automáticamente, y hay un enlace de renovación entre el nodo de modelado automático y el nugget del modelo generado automáticamente que define la relación de renovación entre los mismos. Si habilita el aprendizaje de las máquinas automático continuo, se incorporan continuamente nuevos activos de datos a los nodos de modelado automático para generar nuevos modelos de componente. El nugget del modelo se actualiza, no se sustituye.

En la siguiente figura se proporciona un ejemplo de la estructura interna de un EMS en un escenario de aprendizaje de las máquinas continuo. Solo los tres modelos de componente superiores se seleccionan para la predicción actual. Para cada modelo de componente (llamados M1, M2 y M3), se mantienen dos tipos de pesos. El Peso del modelo actual (Current Model Weight, CMW) describe el comportamiento de un modelo de componente con una nueva porción de datos, y el Peso del modelo acumulado (Accumulated Model Weight, AMW) describe el rendimiento completo de un modelo de componente frente a porciones de datos recientes. AMW se calcula de forma interactiva mediante CMW y los valores anteriores del mismo, y hay un hiperparámetro beta para equilibrarlos. La fórmula para calcular AMW se denomina promedio exponencial en movimiento.

Cuando una nueva porción de datos pasa a estar disponible, SPSS Modeler lo utiliza en primer lugar para crear unos cuantos modelos de componente nuevos. En esta figura de ejemplo, el modelo cuatro (M4) se crea con CMW y AMW calculados durante el proceso inicial de creación del modelo. Luego SPSS Modeler utiliza una nueva porción de datos para volver a evaluar medidas de los modelos de componente existentes (M1, M2 y M3) y actualiza los valores de CMW y AMW en función de los resultados de esta evaluación. Por último SPSS Modeler puede reordenar los modelos de componente en función de CMW o AMW y seleccionar en consecuencia los tres modelos de componente principales.

En esta figura, CMW se describe utilizando el valor normalizado (suma = 1) y AMW se calcula en función de CMW. En SPSS Modeler, el valor absoluto (igual a la medida seleccionada con el peso de la evaluación, por ejemplo precisión) se elige para representar CMW y AMW por motivos de simplicidad.

Figura 2. Estructura de EMS
Estructura de EMS
Tenga en cuenta que hay dos tipos de pesos definidos para cada modelo de componente de EMS, tal como se muestra a continuación; se podría utilizar cualquiera de ellos para seleccionar los N principales modelos y dejar el modelo de componente:
  • Peso del modelo actual (CMW) se calcula mediante una evaluación sobre la porción de datos nuevos (por ejemplo, precisión de la evaluación en la porción de datos nuevos).
  • Peso de modelo acumulado (AMW) se calcula combinando CMW y AMW existente (por ejemplo, promedio en movimiento ponderado exponencialmente (EWMA).

    Fórmula de media móvil exponencial para calcular AMW:
    Fórmula de media móvil exponencial para calcular AMW

En SPSS Modeler, después de ejecutar el nodo Clasificador automático para generar un nugget del modelo, están disponibles las siguientes opciones del modelo para el aprendizaje de las máquinas continuo:

  • Habilitar el aprendizaje de las máquinas automático continuo durante la renovación del modelo. Seleccione esta opción para habilitar el aprendizaje de las máquinas continuo. Tenga en cuenta que se deben utilizar metadatos coherentes (modelo de datos) para entrenar el modelo automático continuo. Si selecciona esta opción, se habilitan las otras opciones que hay debajo.
  • Habilitar reevaluación de pesos del modelo automático. Esta opción controla si las medidas de la evaluación (por ejemplo, precisión) se calculan y se actualizan durante la renovación del modelo. Si selecciona esta opción, se ejecutará un proceso de evaluación automática después de EMS (durante la renovación del modelo). Esto se debe a que generalmente es necesario volver a evaluar los modelos de componente existentes con los datos nuevos para reflejar el estado actual de los datos. Luego los pesos de los modelos de componente EMS se asignan de acuerdo con los resultados de la reevaluación, y los pesos se utilizan para decidir la proporción en que un modelo de componente contribuye a la predicción final del conjunto. Esta opción está seleccionada de forma predeterminada.
    Figura 3. Valores del modelo
    Valores del modelo
    Figura 4. Objetivo de marca
    Objetivo de marca
    Figura 5. Objetivo establecido
    Objetivo establecido
    Estos son los CMW y AMW admitidos para el nodo Clasificador automático:
    Tabla 1. CMW y AMW admitidos
    Tipo de destino CMW AMW
    objetivo de marca Precisión general
    Área bajo curva
    Exactitud acumulada
    AUC acumulada
    objetivo establecido Precisión global Precisión acumulada

    Las tres opciones siguientes están relacionadas con AMW, que se utiliza para evaluar el rendimiento de un modelo de componente durante los periodos de porciones de datos recientes:

  • Habilitar factor acumulado durante la reevaluación de pesos del modelo. Si selecciona esta opción, el cálculo de AMW estará habilitado durante la reevaluación de pesos del modelo. AMW representa el rendimiento general de un modelo de componente EMS durante periodos de porciones de datos recientes, en relación con el factor acumulado β definido en la fórmula de AMW anterior, que puede ajustar en las propiedades del nodo. Si no se selecciona esta opción, solo se calculará CMW. Esta opción está seleccionada de forma predeterminada.
  • Realizar reducción del modelo en función del límite acumulado durante la renovación del modelo. Seleccione esta opción si desea que los modelos de componente con un valor de AMW por debajo del límite especificado se eliminen del EMS del modelo automático durante la renovación del modelo. Esto puede resultar de ayuda para descartar los modelos de componente que no son útiles para evitar que el EMS del modelo automático sea demasiado pesado.
    La evaluación del valor de límite acumulado está relacionada con la medida ponderada utilizada cuando se selecciona Votación ponderada de evaluación como método de conjunto. Consulte a continuación.
    Figura 6. Objetivos
    Objetivos

    Tenga en cuenta que si selecciona Precisión del modelo para la medida ponderada de evaluación, los modelos con una precisión acumulada por debajo del límite especificado se suprimirán. Y, si selecciona Área debajo de la curva para la medida ponderada de evaluación, los modelos con un AUC acumulado por debajo del límite especificado se suprimirán.

    De forma predeterminada se utiliza Precisión del modelo para la medida ponderada de evaluación para el nodo Clasificador automático, y hay una medida AUC ROC opcional en caso de objetivos de marca.

  • Utilizar votación ponderada de evaluación acumulada. Seleccione esta opción si desea que se utilice AMW para la puntuación/predicción actual. De lo contrario, se utilizará CMW de forma predeterminada. Esta opción está habilitada cuando se selecciona Votación ponderada de evaluación para el método de conjunto.

    Tenga en cuenta que, para objetivos de marca, con la selección de esta opción, si selecciona Precisión del modelo para la medida ponderada de evaluación, se utilizará Precisión acumulada como AMW para realizar la puntuación actual. O, si selecciona Área debajo de la curva para la medida ponderada de evaluación, se utilizará AUC acumulado para realizar la puntuación actual. Si no selecciona esta opción y selecciona Precisión del modelo para la medida ponderada de evaluación, se utilizará Precisión global como CMW para realizar la puntuación actual. Si selecciona Área debajo de la curva, se utilizará Área debajo de la curva como CMW para realizar la puntuación actual.

    Para los objetivos establecidos, si selecciona esta opción Utilizar votación ponderada de evaluación acumulada, se utilizará Precisión acumulada como AMW para realizar la puntuación actual. De lo contrario, se utilizará Precisión global como CMW para realizar la puntuación actual.

Con el aprendizaje de las máquinas automático continuo, el nugget de modelo automático está evolucionando continuamente recompilando el modelo automático, lo que garantiza que obtener la versión más actualizada que refleja el estado actual de sus datos. SPSS Modeler proporciona la flexibilidad de seleccionar distintos modelos de N componentes principales en EMS de acuerdo con sus pesos actuales, lo que se ajusta a los datos variables durante distintos periodos.

Nota: El nodo Autonumérico es un caso mucho más sencillo, que proporciona un subconjunto de las opciones del nodo Clasificador automático.
Figura 7. Nodo Autonumérico
Nodo Autonumérico

Ejemplo

En este ejemplo, se utiliza el aprendizaje de las máquinas continuo en la industria de telecomunicaciones para pronosticar el comportamiento y retener clientes.

En el flujo siguiente, el activo de datos incluye información sobre los clientes que se han ido durante el último mes (columna Churn). Puesto que habrá datos nuevos disponibles cada mes, este escenario es adecuado para el aprendizaje de las máquinas continuo. En este ejemplo, los datos de enero (Jan) se utilizan para construir un modelo automático inicial y, a continuación, los datos de febrero (Feb) se utilizan para mejorar el modelo automático mediante el aprendizaje automático continuo.

Figura 8. Ejemplo de telecomunicaciones
Ejemplo de telecomunicaciones
En la rama superior del flujo, después del Nodo Activo de datos, hay un nodo Filtro para filtrar algunos campos que no tienen importancia. Al final de la rama, hay un nodo de modelado de Clasificador automático de terminal. Bajo los valores expertos del nodo, seleccionamos los algoritmos que deseamos utilizar para el proceso de entrenamiento. En este ejemplo, seleccionamos tres algoritmos: regresión logística, red bayesiana y red neuronal. Luego ejecutamos el flujo para generar un nugget de modelo automático.
Ahora vamos a echar un vistazo a lo que hay dentro del nugget del modelo automático. Veremos que contiene tres modelos de componente para los tres algoritmos que hemos seleccionado. Para cada modelo de componente, hay varias medidas de evaluación generadas (como precisión y área debajo de la curva). Estas medidas de evaluación describen el comportamiento del modelo frente a los datos de entrenamiento (el conjunto de datos de enero). Puede seleccionar los modelos de componente que desea utilizar en la predicción del conjunto.
Figura 9. Medidas de evaluaciones
Medidas de evaluaciones

En la rama superior del flujo, después del Nodo Activo de datos, hay un nodo Filtro para filtrar algunos campos que no tienen importancia. Al final de la rama, hay un nodo de modelado de Clasificador automático de terminal. Bajo los valores expertos del nodo, seleccionamos los algoritmos que deseamos utilizar para el proceso de entrenamiento. En este ejemplo, seleccionamos tres algoritmos: regresión logística, red bayesiana y red neuronal. Luego ejecutamos el flujo para generar un nugget de modelo automático.

También puede ver medidas de evaluación acumulada. Estas medidas acumuladas corresponden al aprendizaje de las máquinas continuo, ya que describen el comportamiento del modelo de componente con los cambios recientes de los datos para que conozca el rendimiento general del modelo durante un periodo de tiempo. Como se trata de nuestro modelo automático inicial, vemos que los valores iniciales para las medidas acumuladas son las mismas que las medidas actuales relacionadas. De forma predeterminada, las medidas de evaluación se calculan sobre los datos de entrenamiento, por lo que podría haber cierto grado de sobreajuste. Para evitarlo, el nodo Clasificador automático proporciona una opción de compilación que calcula medidas de evaluación más estables mediante una validación cruzada.

A continuación vamos a examinar cómo se genera la predicción del conjunto final. Si abrimos las propiedades del modelo automático, bajo Objetivos de marca del conjunto, el campo de abandono de objetivo de entrenamiento es un objetivo de marca de tipo sí/no. Bajo Objetivos establecidos del conjunto (para los campos de objetivo establecido que contienen más de dos valores), hay un desplegable Método de conjunto. Hay varias opciones disponibles en el desplegable (por ejemplo, Votación de la mayoría significa que cada modelo de componente retiene un tíquet para votar, y Votación ponderada de confianza significa que se utiliza el campo de confianza de la predicción de cada modelo de componente como peso de la votación; la confianza más alta tiene más influencia en la predicción de conjunto final). Paralelamente, para habilitar un mejor soporte para el aprendizaje de las máquinas continuo, está disponible la opción Votación ponderada de evaluación, de modo que se utilizará la medida de evaluación del modelo de componente (por ejemplo, precisión del modelo o área debajo de la curva) como peso de la votación. En el caso de un objetivo de marca, también existe la opción de seleccionar una medida de evaluación específica como peso de la votación cuando se utiliza Votación ponderada de evaluación. En el caso de un objetivo establecido, actualmente solo se da soporte a Precisión.

Figura 10. Objetivos establecidos y de marca
Objetivos establecidos y de marca
Bajo los valores Común del conjunto es donde se activa el aprendizaje de las máquinas continuo. Luego podemos utilizar los datos de febrero para ver qué sucede. Podemos seleccionar dos algoritmos distintos para diferenciar entre los algoritmos del modelo de componente existentes. Luego, después de volver a compilar el flujo y de ver el contenido del modelo automático, vemos que se añaden los dos nuevos modelos de componente (C5 y C&RT). También observamos que las medidas de evaluación correspondientes a los modelos de componente existentes se han vuelto a calcular. Tanto las medidas de CMW como las medidas de AMW son distintas de las de antes. Ahora podemos compararlas con las medidas correspondientes en el modelo automático original.
Figura 11. Medidas de evaluación
Medidas de evaluación

¿Ahora qué? Con el modelo automático mejorado, podemos seleccionar una medida de evaluación prioritaria y obtener los N mejores modelos de componentes ordenados por esa medida. Luego podemos utilizar los N principales modelos de componente para que participen en la predicción final del conjunto para solicitudes de entrada de análisis de predicción. Y, si se selecciona Votación ponderada de evaluación como Método de conjunto, podemos utilizar las medidas acumuladas como pesos de votación simplemente seleccionando la opción utilizar votación ponderada de evaluación acumulada bajo los valores Comunes del conjunto. Si no se selecciona, se utilizarán las medidas de CMW de forma predeterminada en la votación ponderada de evaluación.

Con el aprendizaje de las máquinas continuo, el modelo automático evoluciona todo el tiempo ya que se vuelve a compilar continuamente con nuevas porciones de datos, lo que garantiza que su modelo es la versión más actualizada que refleja el estado actual de los datos. Esto le ofrece flexibilidad a la hora de seleccionar distintos modelos de N componentes principales en EMS de acuerdo con sus medidas de evaluación actuales o acumuladas, a fin de que se ajusten a los datos variables durante distintos periodos.