Вкладка Анализ узла Анализ
На вкладке Анализ можно задать подробности анализа.
Матрицы совпадений (для символических или категориальных назначений). Шаблон совпадений между каждым сгенерированным (предсказанным) полем и его полем назначения для категориальных назначений (флаговых, номинальных или порядковых). Выводится таблица со строками, определенными по фактическим значениям, столбцами, определенными по предсказанным значениям, и числом записей, каждая ячейка которой содержит этот шаблон. Это полезно для выявления в предсказании систематических ошибок. Если с выходным полем связано несколько сгенерированных полей, но сгенерированных по разным моделям, наблюдения, где эти поля согласованы и несогласованы, подсчитываются, и выводятся их итоговые количества. Для наблюдений, где они согласованы, выводится другой набор правильных/неправильных статистик.
Оценка производительности. Показывает статистику оценки производительности для моделей с категориальными выходными полями. Эта статистика (представляемая для каждой категории выходных полей) является мерой среднего объема информации (в битах) из модели для предсказания числа записей, принадлежащих к данной категории. Она учитывает трудность проблемы классификации, поэтому точные предсказания для редко встречающихся категорий будут получать более высокий индекс оценки производительности, чем точные предсказания для распространенных категорий. Если модель дает результаты не лучше, чем приблизительная оценка для категории, индекс оценки производительности для этой категории будет равен 0.
Показатели оценки (AUC и Gini; только для двоичных классификаторов). Для двоичных классификаторов эта опция возвращает показатели оценки AUC (area under curve - площадь под кривой) и коэффициент Джини. Оба эти показателя вычисляются вместе для каждой двоичной модели. Значения этих показателей выводятся в таблице в браузере вывода анализа.
Показатель оценки AUC вычисляется как площадь под кривой ROC (receiver-operator characteristic curve - график зависимости чувствительности от частоты ложно положительных заключений) и является скалярным представлением ожидаемого выполнения классификатора. Значение AUC всегда находится между 0 и 1, и чем оно больше, тем лучше классификатор. Диагональная кривая ROC между координатами (0,0) и (1,1) представляет случайный классификатор со значением AUC 0,5. Поэтому у реального классификатора не будет значения AUC меньше 0,5.
Показатель оценки коэффициент Джини иногда используется как показатель оценки, альтернативный AUC; эти две меры тесно связаны. Коэффициент Джини вычисляется как двойная площадь между кривой ROC и диагональю (или как Gini = 2AUC - 1). Коэффициент Джини всегда находится между 0 и 1, и чем он больше, тем лучше классификатор. При маловероятном условии, что кривая ROC находится ниже диагонали, коэффициент Джини будет отрицательным.
Показателе совпадений (если доступны). Для моделей, генерирующих поле доверительной вероятности, эта опция сообщает статистику по значениям доверительной вероятности и их взаимосвязи с предсказаниями. У этой опции есть два параметра:
- Порог для. Сообщает уровень доверительной вероятности, выше которого точность будет равной заданному проценту.
- Повысить точность. Сообщает уровень, выше которого точность будет повышена в соответствии с заданным показателем. Например, при общей точности 90% и заданном для этой опции значении 2,0 сообщаемое значение будет соответствовать доверительной вероятности, требуемой для точности 95%.
Найти предсказанные поля / поля предикторов, применив. Определяет способ сопоставления предсказанных полей с исходным полем назначения.
- Метаданные выходных полей модели. Сопоставляет предсказанные поля с полем назначения на основе информации о полях модели, допуская сопоставление, даже если предсказанное поле было переименовано. К информации о полях модели для любого предсказанного поля можно также обратиться из диалогового окна Значения при помощи узла Тип. Дополнительную информацию смотрите в разделе >Использование диалогового окна Значения.
- Формат имени поля. Сопоставляет поля на основе соглашения об именовании. Например, предсказанные значения, сгенерированные по слепку модели C5.0 для назначения с именем отклик, должны находиться в поле с именем $C-отклик.
Разделить по разделам. Если для разбиения записей на обучающую, контрольную и проверочную выборки используется поле раздела, выберите эту опцию, чтобы результаты выводились для каждого раздела по отдельности. Дополнительную информацию смотрите в разделе Узел раздела.
Примечание: При разделении по разделам записи с пустыми значениями в поле раздела исключаются из анализа. Это никогда не становится проблемой, если используется узел Раздел, поскольку узлы Раздел не генерируют пустых значений.
Пользовательский анализ. Вы можете задать свое собственное аналитическое вычисление, используемое для оценки моделей. При помощи выражений CLEM задайте, что следует вычислить для каждой записи и как объединить оценки на уровне записей в общую оценку. При помощи функций @TARGET и @PREDICTED создайте ссылку на значение назначения (фактическое выходное значение) и предсказанное значение соответственно.
- If. Если потребуется использование других вычислений, зависящих от некоторого условия, задайте условное выражение.
- Then. Задайте это вычисление, если условие If = true.
- Else. Задайте это вычисление, если условие If = false.
- Использовать. Выберите статистику для вычисления общей оценки по отдельным оценкам.
Анализ порогов по полям. Показывает категориальные поля, доступные для разложения анализа. В дополнение к общему анализу будет представлен отдельный анализ для каждой категории каждого поля разложения.