Puntuación de datos con modelos predictivos
El proceso de aplicar un modelo predictivo a un conjunto de datos se denomina puntuación de los datos. IBM® SPSS® Statistics tiene procedimientos para crear modelos predictivos como regresión, agrupación en clúster, árbol y modelos de red neuronal. Una vez creado un modelo, sus especificaciones se pueden guardar como un archivo que contenga toda la información necesaria para reconstruirlo. Después podrá usar el archivo de modelo para generar puntuaciones predictivas en otros conjuntos de datos. Nota: algunos procedimientos generan un archivo de modelo XML, mientras que otros generan un archivo de archivado comprimido (archivo .zip).
Ejemplo. El departamento de marketing directo de una empresa utiliza los resultados de un envío de correos de prueba para asignar puntuaciones de propensión al resto de su base de datos de contactos, utilizando diversas características demográficas para identificar los contactos con más posibilidades de responder y realizar una compra.
La puntuación se trata como una transformación de los datos. El modelo se expresa internamente como un conjunto de transformaciones numéricas que se deben aplicar a un determinado conjunto de campos (variables; las variables predictoras especificadas en el modelo), con el fin de obtener un resultado predictivo. En este sentido, el proceso de puntuación de los datos con un modelo dado es, inherentemente, igual que la aplicación de cualquier función, como puede ser una función de raíz cuadrada, a un conjunto de datos.
El proceso de puntuación se compone de dos pasos básicos:
- Crear el modelo y guardar el archivo de modelo. Crea el modelo usando un conjunto de datos cuyo resultado deseado (a menudo conocido como destino) ya se conoce. Por ejemplo, si desea crear un modelo que prediga quién tiene más posibilidades de responder a una campaña de correo directo, deberá comenzar con un conjunto de datos que ya tenga información sobre quién respondió y quién no. Por ejemplo, esto puede tratarse de los resultados de un envío de correos de prueba a un pequeño grupo de clientes o información sobre respuestas a una campaña similar en el pasado.
Nota: en algunos tipos de modelos no hay resultados de destino deseado. Por ejemplo, los modelos de agrupación en clústeres no tienen un destino, y algunos de los modelos de vecinos más próximos tampoco.
- Aplicar ese modelo a un conjunto de datos distinto (para el que no se conocen los resultados deseados) para obtener los resultados pronosticados.