Valores de dados ausentes

Durante a fase de preparação de dados da mineração de dados, você frequentemente desejará substituir os valores ausentes nos dados.

Valores ausentes são valores no conjunto de dados que são desconhecidos, não coletados ou inseridos incorretamente. Usualmente, tais valores não são válidos para seus campos. Por exemplo, o campo Sex deverá conter os valores M e F. Se você descobrir os valores Y ou Z no campo, é possível presumir com segurança que esses valores não são válidos e, portanto, devem ser interpretados como espaços em branco. Da mesma forma, um valor negativo para o campo Age é sem sentido e deve também ser interpretado como um branco. Freqüentemente, tais valores obviamente errados são propositalmente inseridos, ou campos são deixados em branco, durante um questionário para indicar uma não resposta. Às vezes, você pode querer examinar esses campos em branco mais de perto para determinar se uma ausência de resposta, como uma recusa em fornecer a idade de alguém, é um fator na predição de um resultado específico.

Algumas técnicas de modelagem manipulam dados omissos melhor que outras. Por exemplo, o nó C5.0 e o nó Apriori lidam bem com valores declarados explicitamente como "ausentes" em um nó de tipo. Outras técnicas de modelagem têm problemas para lidar com valores omissos e enfrentam tempos de treinamento mais longos, resultando em modelos menos precisos.

Há vários tipos de valores omissos reconhecidos por:
  • Valores nulos ou ausentes do sistema. Estes são valores sem cordas que foram deixados em branco no banco de dados ou arquivo de origem e não foram especificamente definidos como "ausente" em um nó Importar ou Type. Valores omissos do sistema são exibidos como $null$. Observe que as sequências vazias não são consideradas nulos, embora possam ser tratadas como nulos por determinados bancos de dados.
  • sequências de caracteres vazias e espaço branco. Valores de sequência de caracteres vazia e espaços em branco (sequências de caracteres sem caracteres visíveis) são tratados como sendo diferentes de valores nulos. Sequências de caracteres vazias são tratadas como sendo equivalentes a espaço em branco para a maioria dos propósitos. Por exemplo, se você selecionar a opção de tratar o espaço em branco como em branco em um nó Importar ou nó Tipo, esta configuração também se aplica a sequências de caracteres vazias.
  • Valores ausentes em branco ou definidos pelo usuário. São valores como unknown, 99ou –1 que são explicitamente definidos em um nó de Importação ou nó de Tipo como ausente. Opcionalmente, também é possível escolher tratar nulos e espaços em branco como brancos, o que permite que eles sejam sinalizados para tratamento especial e sejam excluídos da maioria dos cálculos. Por exemplo, é possível usar a função @BLANK para tratar esses valores, com outros tipos de valores omissos, como brancos.

Leitura de dados mistos. Note que quando você está lendo em campos com armazenamento numérico (seja inteiro, real, tempo, timestamp ou data), quaisquer valores não numéricos são configurados para null ou system missing. Isso ocorre porque, ao contrário de alguns aplicativos, não permite tipos de armazenamento combinados em um campo. Para evitar isso, você deve ler todos os campos com dados mistos como cadeias de caracteres, mudando o tipo de armazenamento no nó de importação ou aplicativo externo conforme necessário.

Leitura de sequências de caracteres vazias do Oracle. Ao ler ou gravar em um banco de dados Oracle , esteja ciente de que, ao contrário e ao contrário da maioria dos outros bancos de dados, o Oracle trata e armazena valores de sequência vazios como equivalentes a valores nulos. Isso significa que os mesmos dados extraídos de um banco de dados Oracle podem se comportar diferentemente quando extraídos de um arquivo ou outro banco de dados, e os dados podem retornar resultados diferentes.