IBM SPSS Data Preparation utiliza técnicas avanzadas para agilizar la fase de preparación de los datos y proporcionar resultados de análisis de datos más rápidos y precisos.
Este módulo se incluye en la edición SPSS Professional para uso local y en la edición Base para los planes de suscripción.
El cuadro de diálogo "Validar datos" sirve para validar los datos. La pestaña "Variables" muestra las variables de su archivo. Empiece por seleccionar las variables que desee y muévalas a la lista de "Variables de análisis".
Puede especificar comprobaciones básicas para aplicar a las variables y casos de su archivo. Por ejemplo, puede obtener informes que identifican variables con un alto porcentaje de valores omitidos o casos vacíos.
Aplique reglas a variables individuales que identifiquen valores no válidos, es decir, valores fuera del rango válido o valores faltantes. También puede crear sus propias reglas, reglas entre variables o aplicar reglas predefinidas.
La preparación automatizada de los datos ofrece recomendaciones y permite a los usuarios profundizar en ellas y examinarlas.
La preparación de datos manual es un proceso complejo que requiere mucho tiempo. Si necesita resultados rápidos, el procedimiento de ADP le ayudará a detectar y corregir errores de calidad y a imputar valores omitidos en un solo paso eficaz. La función ADP proporciona un informe fácil de entender con recomendaciones y visualizaciones completas para ayudarle a determinar los datos correctos que debe utilizar en su análisis.
Realice comprobaciones automáticas de datos y ayude a eliminar las tediosas y lentas comprobaciones manuales utilizando el procedimiento de validación de datos. Este procedimiento le permite aplicar reglas para realizar comprobaciones de datos en función del nivel de medida de cada variable, ya sea categórica o continua. A continuación, determine la validez de los datos y, si lo considera oportuno, elimine o corrija los casos sospechosos antes del análisis.
IBM SPSS Data Preparation incluye características como la validación de datos, la preparación automatizada de los datos, el binning (o agrupamiento) óptimo y la identificación de casos inusuales.
Con el procedimiento de agrupación óptimo, puede utilizar de forma más precisa algoritmos diseñados para atributos nominales, como los modelos Naive Bayes y logit. La agrupación óptima le permite agrupar variables de escala o establecer puntos de corte para variables de escala.
Elija uno de estos tipos de binning óptimo para preprocesar los datos antes de construir el modelo:
1) No supervisado: se crean bins (o intervalos) con recuentos iguales.
2) Supervisado: se tiene en cuenta la variable objetivo para determinar los puntos de corte. Este método es más preciso que el no supervisado. Sin embargo, también requiere un mayor esfuerzo computacional.
3) Enfoque híbrido: se combinan los enfoques no supervisado y supervisado. Este método es útil cuando se tienen muchos valores distintos.