O IBM SPSS Data Preparation executa técnicas avançadas para otimizar a etapa de preparação de dados, fornecendo resultados de análise de dados mais rápidos e precisos.
Este módulo está incluído na edição SPSS Professional para instalações no local e na edição Base para planos de assinatura.
A caixa de diálogo "Validar Dados" é utilizada para validar seus dados. A guia de variáveis mostra variáveis em seu arquivo. Comece selecionando as variáveis desejadas e movendo-as para a lista "variáveis de análise".
Você pode especificar verificações básicas a serem aplicadas a variáveis e casos no seu arquivo.Por exemplo, é possível obter relatórios que identificam variáveis com um alto percentual de valores ausentes ou casos vazios.
Aplique regras a variáveis individuais que identificam valores inválidos, ou seja, valores fora de um intervalo válido ou missing values. Além disso, você pode criar regras personalizadas, regras de variável cruzada ou aplicar regras pré-definidas.
A preparação de dados automatizada fornece recomendações e permite que os usuários analisem e examinem as recomendações.
A preparação manual de dados é um processo complexo e demorado. Quando você precisa de resultados rapidamente, o procedimento do ADP ajuda a detectar e corrigir erros de qualidade e imputar valores ausentes em uma etapa eficiente. O recurso ADP fornece um relatório fácil de entender com recomendações e visualizações abrangentes para ajudá-lo a determinar os dados certos a serem usados em sua análise.
Execute verificações automáticas de dados e contribua para a eliminação de verificações manuais demoradas e tediosas ao utilizar o procedimento de validação de dados. Este procedimento permite que você aplique regras para realizar verificações de dados com base no nível de medição de cada variável, seja ela categórica ou contínua. Em seguida, determine a validade dos dados e remova ou corrija casos suspeitos, conforme sua necessidade, antes da análise.
O IBM SPSS Data Preparation inclui funcionalidades como validação de dados, preparação de dados automatizada, categorização ideal e identificação de casos incomuns.
Com o procedimento de categorização otimizada, é possível utilizar algoritmos destinados a atributos nominais, como Naive Bayes e modelos logit, de forma mais precisa.O compartimento ideal permite que você separe, ou defina pontos de corte para, variáveis de escala.
Escolha um destes tipos de categorização ideal para pré-processar dados antes da construção do modelo:
1) Não supervisionada: crie caixas com contagens iguais.
2) Supervisionada: leve em conta a variável alvo para determinar os pontos de corte. Este método é mais preciso do que o não supervisionado. No entanto, também é mais intensivo em termos computacionais.
3) Abordagem híbrida: combine as abordagens não supervisionadas e supervisionadas. Este método é útil se você tiver uma grande quantidade de valores distintos.