ROC-анализ

ROC-анализ (от receiver operating characteristic - рабочая характеристика приемника) - полезный способ оценить точность предсказаний модели путем постройки графика чувствительности в зависимости от значения (1 минус специфичность) теста классификации (поскольку порог различен по всему диапазону результатов диагностического теста). Полная площадь под данной ROC-кривой является важным статистическим показателем, который представляет собой вероятность правильного прогноза при наблюдении тестовой переменной (когда один объект случайным образом выбирается из группы наблюдений, а другой случайным образом выбирается из контрольной группы). ROC-анализ поддерживает вычисление данных площади под кривой, кривых точность-полнота (precision-recall, PR) и опции для сравнения двух ROC-кривых, сгенерированных либо для независимых групп, либо для парных объектов.

PR-кривые, отражающие зависимость точности от полноты, оказываются обычно более информативными, когда выборки наблюдаемых данных сильно неравномерны; это альтернатива ROC-кривым для данных с сильно неравномерным распределением по классам.

Пример
Банк заинтересован в том, чтобы правильно классифицировать заемщиков по признаку возврата или невозврата предоставляемого им кредита. Для такой классификации разработаны специальные модели. ROC-анализ можно использовать для оценки точности предсказаний модели.
Статистика
площадь под кривой, отрицательная группа, отсутствующие значения, положительная классификация, значение отсечения, степень уверенности, двухсторонний асимптотический доверительный интервал, распределение, среднеквадратичная ошибка, структура независимой группы, структура попарной выборки, непараметрическое предположение, предположение о бинегативном экспоненциальном распределении, средняя точка, точка отсечения, PR-кривая, пошаговая интерполяция, асимптотическая значимость (двусторонняя), чувствительность и (1 минус специфичность), точность и полнота.
Методы
Сравниваются площади под двумя ROC-кривыми, сгенерированными либо для независимых групп, либо для парных объектов. Сравнение двух ROC-кривых может дать больше информации о точности при применении двух сравниваемых подходов диагностики.

Данные для ROC-анализа

Данные
PR-кривые, отражающие зависимость точности от полноты, оказываются обычно более информативными, когда выборки наблюдаемых данных сильно неравномерны. Простая линейная интерполяция может ошибочно дать чрезмерно оптимистичную оценку PR-кривой.
Допущения
Прогноз будет правильным при наблюдении тестовой переменной, когда один объект случайным образом выбирается из группы наблюдений, а другой случайным образом выбирается из контрольной группы. Каждая определенная группа будет содержать по крайней мере одно действительное наблюдение. Для одной процедуры используется только одна группирующая переменная.

Получение ROC-анализа

Для этой функциональной возможности требуется модуль База статистики.

  1. Выберите в меню:

    Анализ > Классификация > ROC-анализ

  2. Выберите одну или несколько тестируемых переменных с вероятностями в качестве значений.
  3. Выберите одну переменную состояния.
  4. Задайте положительное значение для переменной состояния.
  5. Можно выбрать опцию Структура попарных выборок или одну группирующую переменную (обе эти опции выбрать нельзя).
    • Используйте параметр Структура попарных выборок, чтобы затребовать структуру попарных выборок для тестовых переменных. Структура попарных выборок сравнивает две ROC-кривые в сценарии попарных выборок, где несколько тестовых значений измеряются для одних и тех же объектов, связанных с переменной состояния.
      Прим.: Когда выбрана Структура попарных выборок, опции Группирующая переменная и Предположение о распределении (в диалоговом окне Опции) отключаются.
    • Когда выбрана числовая группирующая переменная, можно щелкнуть по Определить группы..., чтобы затребовать структуру независимых групп для тестовых переменных, и задать два значения, среднюю точку или точку отсечения.
  6. Если хотите, нажмите кнопку Опции, чтобы определить классификацию, направление проверки, параметры среднеквадратичной ошибки и параметры отсутствующих значений.
  7. Если хотите, нажмите кнопку Вывод, чтобы определить параметры построения графиков и печати (в них входят параметры ROC-кривой, кривой точности-полноты и качества модели).
  8. Нажмите кнопку OK.

Эта процедура вставит синтаксис команды ROC-АНАЛИЗ.