Conceptos básicos de valores perdidos

Durante la fase Preparación de los datos de la minería de datos, con frecuencia deseará sustituir los valores perdidos de los datos. Los valores perdidos son valores del conjunto de datos desconocidos, sin recopilar o incorrectamente introducidos. Por lo general, estos valores no son válidos en sus campos. Por ejemplo, el campo Sexo debe contener los valores M y F. Si descubre los valores Y o Z en el campo, puede asumir con seguridad que esos valores no son válidos y que se deben interpretar por lo tanto como espacios en blanco. Del mismo modo, un valor negativo para el campo Edad no tendría sentido y, por tanto, también debería interpretarse como un valor vacío. En muchas ocasiones, estos valores obviamente erróneos se han introducido deliberadamente o se han dejado los campos vacíos durante un cuestionario para indicar la omisión de una respuesta. En ocasiones deseará examinar estos elementos vacíos con mayor detenimiento para determinar si una respuesta omitida, como la negativa a proporcionar la edad de una persona, es un factor para predecir un resultado específico.

Algunas técnicas de modelado gestionan ciertos datos perdidos mejor que otros. Por ejemplo, C5.0 y Apriori gestionan correctamente los valores declarados explícitamente "perdidos" en un nodo Tipo. Otras técnicas de modelado presentan problemas al manipular valores perdidos y precisan tiempos de entrenamiento más largos, por lo que se obtienen modelos menos precisos.

Hay varios tipos de valores perdidos reconocidos por IBM® SPSS Modeler:

  • Valores nulos o perdidos por el sistema. Son valores que no son de cadena y que se han dejado en blanco en la base de datos o el archivo de origen y que no se han definido específicamente como "perdidos" en un nodo Tipo o de origen. Los valores perdidos del sistema se muestran como $null$. Tenga en cuenta que las cadenas vacías no se consideran nulas en IBM SPSS Modeler, aunque se pueden tratar como tales en algunas bases de datos.
  • Cadenas vacías y espacios en blanco. Los valores de cadenas vacías y los espacios en blanco (cadenas con caracteres no visibles) se tratan como distintos de los valores nulos. Las cadenas vacías se tratan como equivalentes al espacio en blanco en la mayoría de los casos. Por ejemplo, si selecciona la opción de tratar los espacios en blanco como vacíos en un nodo Tipo o de origen, esta configuración se aplica a las cadenas vacías también.
  • Valores vacíos o perdidos definidos por el usuario. Se trata de valores como desconocidos, 99 o –1, que se definen explícitamente como perdidos en el nodo Tipo o de origen. Si lo prefiere, también puede elegir tratar los valores nulos o espacios en blanco como vacíos, lo que permite que se les marque para un tratamiento especial y que se excluyan de la mayoría de los cálculos. Por ejemplo, puede utilizar la función @BLANK para tratar estos valores junto con otros tipos de valores perdidos, como vacíos.

Lectura de datos mezclados. Tenga en cuenta que al leer los campos con almacenamiento numérico (entero, real, hora, marca de tiempo o fecha), cualquier valor no numérico se establece como nulo o perdido por el sistema. Esto ocurre porque, a diferencia de otras aplicaciones, no permite la combinación de tipos de almacenamiento dentro de un campo. Para evitarlo, cualquier campo con datos mezclados debe leerse como cadenas, ya sea cambiando el tipo de almacenamiento en el nodo de origen o en la aplicación externa, según sea necesario.

Lectura de cadenas vacías desde Oracle. Al leer o grabar en una base de datos Oracle, debe tener en cuenta que, a diferencia de IBM SPSS Modeler y la mayoría del resto de base de datos, Oracle trata y almacena valores de cadenas vacíos tanto como valores equivalentes hasta nulos. Esto significa que los mismos datos extraídos desde una base de datos de Oracle pueden comportarse de manera diferente a cuando se extraen desde otra base de datos o de un archivo, y pueden devolver resultados diferentes.