Узел Байесовская сеть
При помощи узла Байесовская сеть можно построить вероятностную модель, которая, опираясь и на наблюдаемые зарегистрированные свидетельства, и на практические соображениями здравого смысла, дает оценку вероятностей тех или иных исходов, привлекая атрибуты, которые на первый взгляд не имеют к этому отношения. Этот узел в основном работает с усиленными деревом наивными байесовскими сетями (Tree Augmented Naïve Bayes, TAN) и полными марковскими сетями, которые изначально используются для классификации.
Байесовские сети используются для прогнозирования в самых различных ситуациях; вот лишь некоторые примеры:
- Выбор адресата кредита с низким риском дефолта.
- Оценка времени, когда нужно выполнить техобслуживание оборудования, замену деталей или замену самого оборудования, с учетом показаний датчиков и существующих записей.
- Решение вопросов клиента через оперативные инструменты устранения неисправностей.
- Диагностика и устранение неисправностей в сетях сотовой телефонии в реальном времени.
- Оценка потенциальных рисков и выигрышей научно-исследовательских проектов с целью сосредоточить ресурсы на многообещающих направлениях.
Байесовская сеть - это графическая модель, в которой переменные из набора данных представлены узлами) графа, для которых имеет место вероятностная, или условная независимость друг от друга. Связи, или дуги, между узлами байесовской сети иногда, но не всегда отвечают причинно-следственным связям. Например, при помощи байесовской сети можно вычислить вероятность наличия у пациента некоторой болезни, зная о наличии или отсутствии определенных симптомов и имея другие важные сведения, если имеет место вероятностная независимость между показанными на графе симптомами и болезнью. Сети обладают весьма высокой устойчивостью к пропускам информации и дают наилучшие возможные предсказания исходя из наличных сведений.
Характерный пример байесовской сети построен Лауритценом и Шпигельхалтером в 1988. Он известен как модель "Азия" и представляет собой упрощенную версию сети для диагноза новых пациентов врача; связи можно считать ведущими из причины в следствие. Каждый узел представляет фасет, который может касаться особенностей пациента; например, "Курит" относится к подтвержденному курильщику, "ПосетилАзию" означает недавний визит в Азию. Вероятностные взаимосвязи показаны как соединения между узлами; так, курение повышает вероятность и бронхита, и рака легких, тогда как пожилой возраст связывается только с вероятностью рака легких. Аналогичным образом аномалии на флюорограмме легких могут вызываться либо туберкулезом, либо раком легких, тогда как шансы того, что пациент страдает от одышки (диспноэ) увеличиваются, если у него также бронхит или рак легких.

Есть несколько причин использовать байесовскую сеть:
- Это помогает узнавать о причинно-следственных взаимосвязях. Благодаря этому у вас появляется возможность изучить проблемную область и предсказать последствия вмешательства.
- Сеть обеспечивает эффективный подход к предотвращению переобучения, или чрезмерной подгонки под данные.
- Сеть обеспечивает удобное, наглядное представление взаимосвязей.
Требования. Поля назначения должны быть категориальными, и их тип измерений может быть только Номинальное, Порядковый номер или Флаг. Входные поля могут быть любого типа. Непрерывные поля (поля числового диапазона) на входе автоматически разбиваются на поддиапазоны и преобразуются в категориальные; учтите, однако, что если распределение несимметричное, то лучшего результата можно добиться, если категоризовать поля вручную, добавив перед узлом Байесовская сеть узел Разделение на интервалы. Например, используйте узел Оптимальная категоризация, задав в качестве управляющего поля - поле назначения узла Байесовская сеть.
Пример. Аналитику банка нужна возможность прогнозировать, какие клиенты или потенциальные клиенты склонны к дефолту по погашению кредита. При помощи модели байесовской сети можно выявить характеристики клиентов, склонных к дефолту, и построить несколько различных типов моделей, чтобы выбрать из них наилучшего прогнозиста потенциальных неплательщиков.
Пример. Оператору телекоммуникационной сети нужно минимизировать число отказов от подписки (так называемое "отток клиентов") и ежемесячно обновлять модель с учетом данных истекшего месяца. При помощи модели байесовской сети можно выявить характеристики клиентов, склонных к оттоку, и продолжить обучение модели по новым данным каждый месяц.