Обработка значений выбросов и пропущенных значений

На вкладке Качество в отчете аудита выводится информация о выбросах, экстремумах и пропущенных значениях.

Рис. 1. Вкладка Качество браузера аудита данных
Вкладка Качество браузера аудита данных

Можно указать также способы для обработки этих значений и генерирования Надузлов для автоматического применения преобразований. Например, можно выбрать одно или несколько полей и выбрать опцию импутации или замены пропущенных значений для этих полей, используя один из нескольких способов, например, алгоритм C&RT.

Рис. 2. Выбор способа импутации
Выбор способа импутации

После указания способа импутации для одного или нескольких полей, чтобы сгенерировать надузел Пропущенные значения, выберите в меню:

Создать > Надузел пропущенных значений

Рис. 3. Генерирование надузла
Генерирование надузла

Сгенерированный надузел добавляется на холст потока, где его можно присоединить к потоку, чтобы применить преобразования.

Рис. 4. Поток с надузлом пропущенных значений
Поток с надузлом пропущенных значений

Фактически надузел содержит ряд узлов, выполняющих требуемые преобразования. Чтобы понять, как это работает, можно изменить надузел и щелкнуть по Увеличить масштаб.

Рис. 5. Надузел крупным планом
Надузел крупным планом

Для каждого поля, импутированного, например, методом алгоритма, будет отдельная модель C&RT наряду с узлом заполнения, заменяющим пробелы и пустые значение на значение, предсказанное моделью. Можно добавлять, изменять или удалять отдельные узлы в составе надузла, чтобы выполнить дальнейшую настройку поведения.

Вместо этого можно сгенерировать узел Выбор или Фильтр, чтобы удалить поля или записи с пропущенными значениями. Например, можно отфильтровать все поля с процентной долей качества ниже заданного порога.

Рис. 6. Генерирование узла фильтра
Генерирование узла фильтра

Аналогичным образом можно обрабатывать выбросы и экстремальные значения. Задайте действие, которое вы хотите применить для каждого из полей - подавление, отбрасывание или аннулирование, а затем сгенерируйте надузел для применения выбранных преобразований.

Рис. 7. Генерирование узла фильтра
Генерирование узла фильтра

После завершения аудита и добавления сгенерированных узлов в поток можно продолжить анализ. При необходимости вы можете и дальше отбирать свои данные, используя Детектирование аномалий, Выбор характеристик и некоторые другие способы.

Рис. 8. Поток с надузлом пропущенных значений
Поток с надузлом пропущенных значений