узел Оценка

Узел Оценка предоставляет простой способ оценки и сравнения моделей предсказания, чтобы выбрать лучшую модель для вашей прикладной программы. Диаграммы оценки показывают, как ведут себя модели при предсказании конкретных выходных данных. Они работают, сортируя записи на основе предсказанного значения и надежности предсказания, распределяя записи по группам равного размера квантили), а затем строя график значений бизнес-критерия для каждой квантили от максимального до минимального. Несколько моделей представляются разными линиями на графике.

Выходные данные обрабатываются с помощью определения конкретного значения или диапазона значений как попаданий. Обычно попадания обозначают успешность в каком-то смысле (например, в продажах) или важное событие (такое как конкретный медицинский диагноз). На вкладке Опции диалогового окна можно определить критерии попаданий, но можно использовать и критерии попаданий по умолчанию следующим образом:

Флаговые поля вывода; попадания соответствуют значениям true.
Номинальные поля вывода; попадание определяется первым значением в наборе.
Для непрерывных полей вывода попадания - это значения больше средней точки диапазона поля.

Существует шесть типов диаграмм оценки, каждая из которых фокусируется на одном из различных критериев оценки.

Диаграммы выигрыша

Выигрыш определяется как доля числа попаданий в данной квантили. Выигрыш вычисляется в процентах: (количество попаданий в квантили / полное количество попаданий) × 100%.

Рис. 1. Диаграмма выигрыша (кумулятивная) с выводом базовой линии, наилучшей линии и бизнес-правила

Диаграммы роста

Рост сравнивает процентную долю записей в каждой квантили, представляющих собой попадания, с общей процентной долей попаданий в обучающих данных. Он вычисляется следующим образом: (число попаданий в квантили / число записей в квантили) / (полное число попаданий / полное число записей).

Рис. 2. Диаграмма роста (кумулятивная), использующая точки и наилучшую линию

Диаграммы откликов

Отклик - это просто процентная доля попаданий по отношению ко всем записям квантили. Отклик вычисляется следующим образом: (число попаданий в квантили / число записей в квантили) × 100%.

Рис. 3. Диаграмма роста (кумулятивная) с наилучшей линией

Диаграммы прибыли

Прибыль равна доходу для каждой записи за вычетом затрат. Прибыли для квантили - просто сумма прибылей для всех записей в квантили. Предполагается, что доходы применимы только к записям, квалифицированным как попадания, а затраты - ко всем записям. Прибыли и затраты в данных можно фиксировать или определять значениями в полях. Прибыли вычисляются следующим образом: (сумма доходов для записей в квантили - сумма затрат для записей в квантили).

Рис. 4. Диаграмма прибыли (кумулятивная) с наилучшей линией

Диаграммы ROI

Прибыль на инвестированный капитал (return on investment, ROI) аналогична прибыли, так как тоже учитывает объем прибыли и затрат. ROI сравнивает прибыли с затратами для квантили. ROI вычисляется следующим образом (прибыли для квантили / затраты для квантили) × 100%.

Рис. 5. Диаграмма ROI (кумулятивная) с наилучшей линией

Диаграммы ROC

ROC (receiver operating characteristic, характеристика работы приемника) можно использовать только с бинарными классификаторами. ROC можно использовать для визуализации, организации и выбора классификаторов на основании их производительности. На диаграмме ROC показывается зависимость доли истинных положительных заключений от доли ложных положительных заключений классификатора. Диаграмма ROC изображает относительные соотношения между прибылями (истинные положительные заключения) и затратами (ложные положительные заключения). Истинное положительные заключение - это экземпляр попадания, классифицируемый как попадание. Поэтому доля истинных положительных заключений вычисляется как количество истинных положительных заключений, деленное на количество экземпляров, представляющих собой фактические попадания. Ложное положительное заключение - это экземпляр промаха, классифицируемый как попадание. Поэтому доля ложных положительных заключений вычисляется как количество ложных положительных заключений, деленное на количество экземпляров, представляющих собой фактические промахи.

Рис. 6. Диаграмма ROC с наилучшей линией

Диаграммы оценки могут также быть кумулятивными, так что значение в каждой точке равно значению для соответствующей квантили плюс для всех более высоких квантилей. Кумулятивные диаграммы обычно лучше представляют общую производительность моделей, в то время как некумулятивные диаграммы часто лучше обозначают конкретные проблемные области для моделей.

Прим.: Узел Оценка не поддерживает использование запятых в именах полей. Если у вас есть имена полей, содержащие запятые, надо или удалить запятые или окружить имя поля кавычками.