Opciones de experto para el nodo Secuencia
Las siguientes opciones de experto permiten a los usuarios con conocimientos sobre la operación del nodo Secuencia ajustar el proceso de generación de modelos. Para acceder a estas opciones, active el modo Experto en la pestaña Experto.
Definir duración máxima. En caso de seleccionar esta opción, las secuencias estarán limitadas a aquellas que tengan una duración (tiempo entre el primer conjunto de elementos y el último) inferior o igual al valor especificado. Si no se ha especificado un campo de tiempo, la duración se expresa en términos de filas (registros) existentes en los datos sin procesar. Si el campo de tiempo utilizado es una hora, una fecha o una marca de tiempo, la duración se expresa en segundos. En el caso de los campos numéricos, la duración se expresa con las mismas unidades que el campo en sí.
Definir valor de poda. El algoritmo CARMA utilizado en el nodo Secuencia elimina periódicamente (poda) los conjuntos de elementos poco frecuentes de la lista de conjuntos de elementos potenciales durante el procesamiento para conservar la memoria. Seleccione esta opción para ajustar la frecuencia de poda. El número especificado determina la frecuencia de poda. Introduzca un valor más pequeño para disminuir los requisitos de memoria del algoritmo (pero aumentar potencialmente el tiempo de entrenamiento necesario) o introduzca un valor mayor para que el entrenamiento sea más rápido (pero aumentar potencialmente los requisitos de memoria).
Definir secuencias máximas en memoria. Si selecciona esta opción, el algoritmo CARMA limitará el almacenamiento en memoria de secuencias de candidatos durante la generación del modelo al número de secuencias especificado. Seleccione esta opción si IBM® SPSS Modeler utiliza demasiada memoria durante la generación de modelos de Secuencia. Observe que el valor máximo de secuencias que se especifica aquí es el número de secuencias de candidatos registrados internamente cuando se genera el modelo. Este número debe ser mucho mayor que el número de secuencias previsto para el modelo final.
Restringir discontinuidades entre conjuntos de elementos. Esta opción permite especificar las restricciones en las discontinuidades de tiempo que separan los conjuntos de elementos. Si se selecciona esta opción, los conjuntos de elementos con discontinuidades de tiempo inferiores a la Discontinuidad mínima o superiores a la Discontinuidad máxima que se especifiquen no se considerarán como parte integrante de una secuencia. Utilice esta opción para evitar el recuento de secuencias que incluyen intervalos de tiempo largos o intervalos que se producen en un marco temporal muy corto.
Nota: si el campo de tiempo utilizado es una hora, una fecha o una marca de tiempo, la discontinuidad de tiempo se expresa en segundos. Para los campos numéricos, la discontinuidad de tiempo se expresa con las mismas unidades que el campo de tiempo.
Por ejemplo, observe la siguiente lista de transacciones.
| ID | Hora | Contenido |
|---|---|---|
| 1001 | 1 | manzanas |
| 1001 | 2 | pan |
| 1001 | 5 | queso |
| 1001 | 6 | ropa |
Si se genera un modelo sobre estos datos con la discontinuidad mínima establecida en 2, se obtendrían las siguientes secuencias:
manzanas > queso
manzanas > ropa
pan > queso
pan > ropa
No aparecerían secuencias tales como manzanas > pan, porque la discontinuidad entre manzanas y pan es inferior a la discontinuidad mínima. Del
mismo modo, tenga en cuenta los siguientes datos alternativos.
| ID | Hora | Contenido |
|---|---|---|
| 1001 | 1 | manzanas |
| 1001 | 2 | pan |
| 1001 | 5 | queso |
| 1001 | 20 | ropa |
Si la discontinuidad máxima se hubiese establecido en 10, no aparecería ninguna secuencia
con ropa, porque la discontinuidad entre queso y ropa
es demasiado amplia para que se consideren parte de la misma secuencia.