Recopilación de datos iniciales

En este punto en CRISP-DM, puede acceder a los datos e incluirlos en IBM® SPSS Modeler. Los datos provienen de diversos orígenes como:

  • Datos existentes. Incluye una amplia variedad de datos, como datos transaccionales, datos de encuesta, registros Web, etc. Tenga en cuenta si los datos existentes son suficientes para adaptarse a sus necesidades.
  • Datos adquiridos. ¿Su organización utiliza datos adicionales, como datos demográficos? Si no los utiliza, considere si son necesarios.
  • Datos adicionales. Si los orígenes anteriores no satisfacen sus necesidades, es posible que necesite realizar encuestas o realizar seguimientos adicionales para servir de complemento a los almacenes de datos actuales.

Lista de tareas

Observe los datos de IBM SPSS Modeler y considere las siguientes cuestiones. Asegúrese de tomar notas sobre sus hallazgos. Consulte el tema Escritura de un informe de recopilación de datos para obtener más información.

  • ¿Qué atributos (columnas) de la base de datos parecen más prometedores?
  • ¿Qué atributos no parecen relevantes y se pueden excluir?
  • ¿Existen datos suficientes para obtener conclusiones generales o realizar predicciones precisas?
  • ¿Dispone de atributos suficientes para su método de modelado?
  • ¿Está fusionando varios orígenes de datos? En caso afirmativo, ¿existen áreas que puedan plantear problemas al fusionar?
  • ¿Ha considerado cómo se gestionan los valores perdidos en cada origen de datos?