Recopilación de datos iniciales
En este punto en CRISP-DM, puede acceder a los datos e incluirlos en IBM® SPSS Modeler. Los datos provienen de diversos orígenes como:
- Datos existentes. Incluye una amplia variedad de datos, como datos transaccionales, datos de encuesta, registros Web, etc. Tenga en cuenta si los datos existentes son suficientes para adaptarse a sus necesidades.
- Datos adquiridos. ¿Su organización utiliza datos adicionales, como datos demográficos? Si no los utiliza, considere si son necesarios.
- Datos adicionales. Si los orígenes anteriores no satisfacen sus necesidades, es posible que necesite realizar encuestas o realizar seguimientos adicionales para servir de complemento a los almacenes de datos actuales.
Lista de tareas
Observe los datos de IBM SPSS Modeler y considere las siguientes cuestiones. Asegúrese de tomar notas sobre sus hallazgos. Consulte el tema Escritura de un informe de recopilación de datos para obtener más información.
- ¿Qué atributos (columnas) de la base de datos parecen más prometedores?
- ¿Qué atributos no parecen relevantes y se pueden excluir?
- ¿Existen datos suficientes para obtener conclusiones generales o realizar predicciones precisas?
- ¿Dispone de atributos suficientes para su método de modelado?
- ¿Está fusionando varios orígenes de datos? En caso afirmativo, ¿existen áreas que puedan plantear problemas al fusionar?
- ¿Ha considerado cómo se gestionan los valores perdidos en cada origen de datos?