Обработка значений выбросов и пропущенных значений
На вкладке Качество в отчете аудита выводится информация о выбросах, экстремумах и пропущенных значениях.

Можно указать также способы для обработки этих значений и генерирования Надузлов для автоматического применения преобразований. Например, можно выбрать одно или несколько полей и выбрать опцию импутации или замены пропущенных значений для этих полей, используя один из нескольких способов, например, алгоритм C&RT.

После указания способа импутации для одного или нескольких полей, чтобы сгенерировать надузел Пропущенные значения, выберите в меню:

Сгенерированный надузел добавляется на холст потока, где его можно присоединить к потоку, чтобы применить преобразования.

Фактически надузел содержит ряд узлов, выполняющих требуемые преобразования. Чтобы понять, как это работает, можно изменить надузел и щелкнуть по Увеличить масштаб.

Для каждого поля, импутированного, например, методом алгоритма, будет отдельная модель C&RT наряду с узлом заполнения, заменяющим пробелы и пустые значение на значение, предсказанное моделью. Можно добавлять, изменять или удалять отдельные узлы в составе надузла, чтобы выполнить дальнейшую настройку поведения.
Вместо этого можно сгенерировать узел Выбор или Фильтр, чтобы удалить поля или записи с пропущенными значениями. Например, можно отфильтровать все поля с процентной долей качества ниже заданного порога.

Аналогичным образом можно обрабатывать выбросы и экстремальные значения. Задайте действие, которое вы хотите применить для каждого из полей - подавление, отбрасывание или аннулирование, а затем сгенерируйте надузел для применения выбранных преобразований.

После завершения аудита и добавления сгенерированных узлов в поток можно продолжить анализ. При необходимости вы можете и дальше отбирать свои данные, используя Детектирование аномалий, Выбор характеристик и некоторые другие способы.
