Полезные сведения о функциях

Вкладка Переменные

Диалоговое окно Проверка данных служит для проверки данных. На вкладке Переменные отображается список переменных из выбранного файла. Для начала необходимо выбрать переменные, которые следует перенести в список Переменные анализа.

Базовые проверки

К переменным и записям файла можно применить базовые проверки. Например, можно получить отчет по переменным с высоким процентом недостающих значений или пустых записей.

Стандартные и пользовательские правила

К отдельным переменным, обозначающим недопустимые значения (значения, выходящие за пределы диапазона, или пустые значения), можно применять правила. Также можно создавать собственные правила, задавать перекрестные правила и применять готовые правила.

Рекомендации

С помощью автоматизированных процедур подготовки данных можно получить детализированные рекомендации.

Автоматическая подготовка данных за один шаг

Подготовка данных вручную требует больших усилий и затрат времени. Когда же результаты нужны срочно, процедура ADP позволяет обнаружить и исправить качественные ошибки и ввести недостающие значения за одну операцию. С помощью функции ADP можно получить понятные отчеты с подробными рекомендациями и визуализацией результатов, что облегчает выбор данных для анализа.

Дополнительные параметры подготовки данных

Автоматическая проверка данных позволяет избавиться от продолжительных и утомительных проверок, выполняемых вручную. В автоматическом режиме можно задать правила выполнения проверки в зависимости от уровня оценки каждой переменной (по категориям или непрерывно). Затем можно определить достоверность данных и удалить/исправить подозрительные записи.

Группировка большого числа переменных

Оптимизированная процедура группировки позволяет более точно использовать алгоритмы, разработанные для номинальных атрибутов (например, наивный байесовский классификатор и логистическая регрессия). Оптимальные методы группирования позволяют задать точки отсечения для большого числа переменных.

Три варианта оптимальной группировки

Прежде чем приступить к разработке модели, выберите один из доступных вариантов оптимальной группировки для предварительной обработки данных. 1) Неконтролируемый метод: создание групп с одинаковым числом отсчетов. 2) Контролируемый метод: определение точек отсечения в зависимости от переменной. Этот метод более точен, однако предусматривает больший объем вычислений. 3) Гибридный подход: сочетает контролируемый и неконтролируемый методы. Этот метод особенно удобен в случае большого объема различающихся значений.

Техническая информация

Требования к программному обеспечению

Для использования IBM SPSS Data Preparation требуется действующая лицензия на IBM SPSS Statistics Base.

  • Предварительное требование: IBM SPSS Statistics

Требования к аппаратному обеспечению

  • Процессор: тактовая частота не менее 2 ГГц
  • Монитор: разрешение не менее 1024 x 768
  • Оперативная память: не менее 4 ГБ, рекомендуется 8 ГБ
  • Свободное место на диске: не менее 2 ГБ

Узнайте, как это работает

Купите сейчас и начните работу