IBM SPSS Data Preparation utiliza técnicas avanzadas para optimizar la etapa de preparación de datos, entregando resultados de análisis de datos más precisos con mayor rapidez.
Este módulo está incluido en la edición SPSS Professional para planes on-premises y en la edición Base para planes de suscripción.
El cuadro de diálogo "validar datos" se utiliza para validar sus datos. La pestaña de variables muestra las variables en su archivo. Comience seleccionando las variables que desee y trasladándolas a la lista de "variables de análisis".
Puede especificar verificaciones básicas para aplicarlas a variables y casos del archivo. Por ejemplo, puede obtener informes que identifiquen variables con un alto porcentaje de valores faltantes o casos vacíos.
Aplique reglas a variables individuales que identifiquen valores no válidos (valores fuera de un rango válido o missing values). También puede crear sus propias reglas, reglas de variables cruzadas o aplicar reglas predefinidas.
La preparación de datos automatizada ofrece recomendaciones y permite a los usuarios profundizar y examinar las recomendaciones.
La preparación manual de datos es un proceso complejo que requiere mucho tiempo. Cuando necesite tener resultados rápidamente, el procedimiento de ADP le ayuda a detectar y corregir errores de calidad e imputar valores faltantes en un solo paso eficiente. La función de ADP proporciona un informe fácil de entender con recomendaciones y visualizaciones integrales para ayudarlo a determinar los datos adecuados que debe utilizar en sus análisis.
Realice verificaciones automáticas de datos y ayude a eliminar las verificaciones manuales y tediosas mediante el procedimiento de validación de datos. Este procedimiento permite aplicar reglas para realizar verificaciones de datos basadas en el nivel de medida de cada variable, ya sea categórica o continua. Luego, determine la validez de los datos y elimine o corrija los casos sospechosos a su discreción antes de realizar análisis.
IBM SPSS Data Preparation incluye características que incluyen validación de datos, preparación de datos automatizada, agrupamiento óptimo e identificación de casos inusuales.
Con el procedimiento de agrupación óptima, puede utilizar con mayor precisión algoritmos diseñados para atributos nominales, como Naive Bayes y modelos logit. La agrupación óptima le permite agrupar (o establecer límites) variables de escala.
Elija uno de estos tipos de agrupamiento óptimo para procesar datos antes de construir el modelo:
1) Sin supervisión: cree contenedores con recuentos iguales.
2) Supervisada: tome en cuenta la variable objetivo para determinar puntos límite. Este método es más preciso que el no supervisado. Sin embargo, también es más intensivo desde el punto de vista computacional.
3) Enfoque híbrido: combina la agrupación óptima sin supervisión y la supervisada. Este método es útil si tiene una gran cantidad de valores distintos.