Модели деревьев решений
Модели деревьев решений служат для создания систем классификации, которые предсказывают или классифицируют будущие наблюдения на основе набора решающих правил. Если данные разделяются на интересующие вас классы (например, ссуды высокого и низкого риска, подписчики и не-подписчики, голосующие и неголосующие или типы бактерий), можно использовать существующие данные для построения правил, которые можно применять для классификации старых и новых наблюдений с максимальной точностью. Например, можно построить дерево, классифицирующее кредитные риски или намерение покупки на основании возраста и других факторов.
Такой подход, который иногда называют выводом правила, обладает несколькими преимуществами. Во-первых, процесс рассуждения, стоящий в основе модели, виден вам при просмотре дерева. Это важное отличие от способов типа чёрного ящика, в которой внутреннюю логику бывает трудно понять.
Во-вторых, процесс автоматически включает в свои правила только те атрибуты, которые на самом деле имеют значение при принятии решения. Атрибуты, которые не вносят вклада в точность дерева, игнорируются. Это может дать очень полезную информацию о данных и позволяет сократить данные до релевантных полей перед тренировкой другого метода обучения, такого, как нейросеть.
Слепки модели дерева решений можно преобразовать в собрание правил IF-THEN (набор правил), которое во многих случаях дает информацию в более понятной форме. Презентация дерева решений особенно полезна, когда вы хотите посмотреть, как атрибуты в данных помогут выполнить разбиение или расщепление всей совокупности на подмножества, релевантные для проблемы. Вывод узла Дерево-AS отличается от вывода других узлов дерева решений, так как он включает список правил непосредственно в слепок, без необходимости создания набора правил. Презентация набора правил полезна, если вы хотите посмотреть как конкретные группы элементов соотносятся с конкретным заключением. Например, следующее правило даёт профиль для группы автомобилей, которых стоит покупать:
IF tested = 'yes'
AND mileage = 'low'
THEN -> 'BUY'.
Алгоритмы построения дерева
Для классификационного и сегментационного анализа доступно несколько алгоритмов. Все эти алгоритмы выполняют в основном одно и то же - просматривают все поля из набора данных, чтобы найти то поле, которое даёт наилучшую классификацию или наилучшее предсказание путем разбиения данных на подгруппы. Этот процесс применяется рекурсивно, подгруппы разбиваются на всё меньшие и меньшие блоки до тех пор, пока дерево не будет завершено (что задается определенными критериями остановки). Поля назначения и входные поля, используемые при построении дерева, могут быть непрерывными (числовой диапазон) или категорийными, в зависимости от используемого алгоритма. Если поле назначения непрерывно, генерируется дерево регрессии; если же поле назначения категорийное, генерируется дерево классификации.
|
|
Узел дерева классификации и регрессии (Classification and Regression, C&R) генерирует дерево решений, позволяющее предсказывать или классифицировать будущие наблюдения. Этот метод использует рекурсивное разделение, чтобы расщепить обучающие записи на сегменты, на каждом шаге минимизируя неоднородность, причем узел дерева считается “чистым”, если все 100% наблюдений в узле попадают в конкретную категорию поля назначения. Входные поля и поля назначения могут быть из числового диапазона или категориальными (номинальными, порядковыми или флагами); все расщепления бинарны (только две подгруппы). |
|
|
Узел CHAID генерирует деревья решений, используя статистику хи-квадрат для определения оптимальных расщеплений. В отличие от узлов дерева C&R и QUEST, CHAID может генерировать не только бинарные деревья, то есть у некоторых расщеплений может быть больше двух ветвей. Входные поля и поле назначения могут быть количественными (числовой диапазон) или категориальными. Исчерпывающий CHAID - это модификация метода CHAID, при котором проделывается более тщательная работа по изучению всех возможных расщеплений для каждого предиктора, но это требует больше времени для вычислений. |
|
|
Узел QUEST предоставляет метод бинарной классификации для построения деревьев решений, разработанный для уменьшения времени обработки, требуемого для анализа больших деревьев C&R, при одновременном подавлении обнаруженного в способах деревьев классификации предпочтения входных полей, допускающих больше расщеплений. Входные поля могут быть в числовом диапазоне (количественными), но поле назначения должно быть категориальным. Все расщепления бинарные. |
|
|
Узел C5.0 строит или дерево решений, или набор правил. Эта модель работает, разделяя выборку на основании значения в поле, дающего максимальный информационный выигрыш на каждом уровне. Поле назначения должно быть категориальным. Разрешено несколько разделений на подгруппы, и таких подгрупп может быть больше двух. |
|
|
Узел деревьев-AS аналогичен существующему узлу CHAID, однако узел деревьев-AS сконструирован для обработки большого объема данных с целью создания одного дерева и выводит конечную модель в программе просмотра вывода, добавленной в SPSS Modeler версии 17. Этот узел генерирует дерево решений с использованием статистики хи-квадрат (CHAID) для определения оптимальных расщеплений. Такое использование CHAID может сгенерировать небинарные деревья, то есть у некоторых расщеплений может быть больше двух ветвей. Входные поля и поле назначения могут быть количественными (числовой диапазон) или категориальными. Исчерпывающий CHAID - это модификация метода CHAID, при котором проделывается более тщательная работа по изучению всех возможных расщеплений для каждого предиктора, но это требует больше времени для вычислений. |
|
|
Узел случайных деревьев аналогичен существующему узлу C&RT; однако узел случайных деревьев сконструирован для обработки большого объема данных с целью создания одного дерева и выводит конечную модель в средстве просмотра вывода, добавленном в SPSS Modeler версии 17. Узел случайных деревьев генерирует дерево решений, которое используется для предсказания или классификации будущих наблюдений. Этот метод использует рекурсивное разделение, чтобы расщепить обучающие записи на сегменты, на каждом шаге минимизируя неоднородность, причем узел дерева считается чистым, если все 100% наблюдений в узле попадают в конкретную категорию поля назначения. Входные поля и поля назначения могут быть из числового диапазона или категориальными (номинальными, порядковыми или флагами); все расщепления бинарны (только две подгруппы). |
Общие способы анализа на основе деревьев
Ниже приведены некоторые общие применения анализа на основе деревьев:
Сегментация: Идентифицировать тех, кто, возможно, входит в определенную группу.
Стратификация: Назначить наблюдения в одну из нескольких категорий, например, в группу высокого, среднего или низкого риска.
Предсказание: Создать правила и использовать их для предсказания будущих событий. Прогнозирование может также означать попытки связать предсказываемые атрибуты со значениями некоторых непрерывных переменных.
Сокращение данных и экранирование переменных: Выбрать полезное подмножество предикторов из большого набора переменных для использования при построении формальной параметрической модели.
Идентификация взаимодействия: Идентифицировать взаимосвязи, которые принадлежат определенной подгруппе, и указать их в формальной параметрической модели.
Слияние категорий и дискретизация непрерывных переменных: Перекодировать категории предиктора групп и непрерывные переменные с минимальной потерей информации.