Интеллектуальный анализ данных с помощью программного пакета WEKA: Часть 1: Введение. Регрессионный анализ

По мере того, как компании собирают миллионы информационных показателей о своих клиентах и пытаются найти способ эффективно использовать эти данные для повышения собственной прибыли, интеллектуальный анализ данных (data mining) становится все более популярным технологическим направлением. Цель данной статьи – познакомить читателей с открытым ПО для интеллектуального анализа данных и рассказать о наиболее часто используемых методах интерпретации данных.

Майкл Абернети, автор

Майкл Абернети (Michael Abernethy) в настоящее время работает руководителем группы тестировщиков в IBM WebSphere System Management, расположенной в Austin, TX. До этого он работал разработчиком Swing UI.



02.08.2012

Введение

Что же такое интеллектуальный анализ данных? Вполне возможно, вы уже интересовались этим вопросом, поскольку в сфере современных технологий вопросы анализа данных пользуются растущей популярностью. Например, вы где-то услышали или прочитали, что такие крупные компании как Google и Yahoo! собирают миллиарды различных показателей о своих пользователях, и у вас может возникнуть вполне закономерный вопрос: как же эти компании планируют использовать полученную информацию? Еще один пример, который, возможно, вас удивит - компания Walmart, использующая самые передовые технологии для анализа данных и успешно применяющая результаты этого анализа для развития бизнеса. Практически каждая современная компания использует интеллектуальный анализ данных, а те из них, которые игнорируют подобные технологии, вскоре могут оказаться в весьма невыгодном положении.

Итак, как вам и вашей компании присоединиться к тем, кто успешно использует интеллектуальный анализ данных в бизнесе?

В этой статье мы надеемся ответить на вопросы, возникающие при первом знакомстве с технологиями интеллектуального анализа данных. Мы расскажем о продукте Waikato Environment for Knowledge Analysis(WEKA), который является свободно распространяемым программным пакетом с открытым исходным кодом для анализа данных и который поможет вам эффективно использовать информацию о ваших пользователях, клиентах и компании для повышения прибыльности бизнеса. Вы убедитесь, что результативный анализ данных – это вовсе не так сложно, как вы могли бы предположить.

Помимо этого, в данной статье рассматривается один из методов анализа данных, а именно регрессионный анализ, который позволяет на базе имеющихся показателей рассчитать предполагаемое значение неизвестных данных. Регрессионный анализ считается наиболее простым методом интеллектуального анализа данных. На самом базовом уровне вы, скорее всего, уже пользовались аналогичным подходом при работе с какой-нибудь из наиболее распространенных на рынке программ для работы с электронными таблицами (безусловно, функциональность WEKA позволяет проводить более сложный анализ данных, нежели обычные электронные таблицы). В следующих статьях мы коснемся других методов интеллектуального анализа данных, включая кластеризацию, метод ближайших соседей и классификационные деревья (не пугайтесь, если эти термины для вас пока пустой звук, мы детально рассмотрим их в следующих статьях этой серии).


Что такое интеллектуальный анализ данных?

По своей сути, интеллектуальный анализ данных – это преобразование больших объемов «сырых» данных в имеющие определенный смысл и практически полезные схемы, структуры и правила. Анализ данных может быть разделен на два вида – прямой (прогнозирование) и косвенный (классификация и кластеризация). Задача прямого анализа – прогноз конкретных показателей, например, прогноз продажной стоимости дома на базе информации о ценах на дома в данном районе.

Задача косвенного анализа – создание групп данных или поиск определенных структур или схем в существующем наборе данных, например, определение демографической группы типа «Soccer Mom» (мамы юных футболистов). Каждая перепись населения США подразумевает интеллектуальный анализ данных, так как правительство стремится получить данные о каждом жителе и преобразовать их в информацию, пригодную для дальнейшего практического использования.

Интеллектуальный анализ данных в том смысле, в каком мы рассматриваем его в данной статье, возник в середине 90-х годов прошлого столетия, когда развитие компьютерных технологий вышло на достаточно высокий уровень, а стоимость вычислительных мощностей и систем хранения данных снизилась настолько, что компании смогли позволить себе самостоятельно проводить анализ данных, не прибегая к услугам крупных вычислительных центров.

Кроме того, следует отметить, что термин «интеллектуальный анализ данных», или data mining, является всеобъемлющим и включает в себя множество различных подходов и методов для исследования и преобразования данных. Задача данной серии статей – дать самое общее представление о возможностях интеллектуального анализа данных. Эксперты в этой области обладают, как правило, докторской степенью и огромным (от 10 до 30 лет) опытом практической работы с данными. Однако из этого не следует, что интеллектуальный анализ данных могут позволить себе только крупные компании.

Мы надеемся рассеять большинство заблуждений относительно анализа данных. Безусловно, методы интеллектуального анализа данных не так просты, как выполнение какой-либо функции на выборке данных в электронных таблицах, однако они и не настолько сложны, чтобы их нельзя было использовать самостоятельно. Это прекрасный пример парадигмы 80/20, или даже 90/10. Вы можете создать модель интеллектуального анализа данных, работающую с эффективностью 90%, обладая всего лишь 10% знаний и опыта эксперта в сфере анализа данных. Чтобы увеличить эффективность на оставшиеся 10% и разработать совершенную аналитическую модель, скорее всего, придется увеличить время работы на 90% и потратить еще примерно 20 лет. Так что если вы не планируете сделать головокружительную карьеру в области интеллектуального анализа данных, то «достаточно хорошо» - это тот результат, который вам нужен. При этом «достаточно хороший» результат может оказаться значительно лучше, чем то, чем вы располагаете сейчас.

Основная цель интеллектуального анализа данных состоит в том, чтобы создать модель, позволяющую эффективно интерпретировать и использовать те данные, которыми вы располагаете сейчас, и те данные, которые вы получите в будущем. Поскольку анализ данных включает в себя целое множество методов, то основной этап создания модели данных – это выбор метода анализа, используемого в этой модели. Для правильного выбора метода требуется практический опыт и некоторое руководство. Далее модель нужно доработать, чтобы сделать ее более эффективной. Познакомившись с материалами этой серии статей, вы сможете определить, какой метод наиболее подходит для вашего набора данных, и какие модификации потребуются для повышения точности модели. Вы сможете самостоятельно создать достаточно эффективную модель для интеллектуального анализа ваших данных.


WEKA

Интеллектуальный анализ данных не является исключительной прерогативой крупных компаний и дорогостоящего программного обеспечения. Существует программный продукт, который называется WEKA (см. Ресурсы) и реализует практически те же самые функции, что и дорогие программные комплексы. WEKA – продукт университета Уайкато (Новая Зеландия), который впервые был выпущен в его современном виде в 1997 году. WEKA распространяется по лицензии GNU General Public License (GPL). Это ПО написано на языке Java™ и обеспечивает графический пользовательский интерфейс для работы с файлами данных и генерации визуальных результатов (в виде таблиц и графиков). Кроме того, вы можете интегрировать WEKA, как и любую другую библиотеку, в свои собственные приложения, например, для автоматизации анализа данных на стороне сервера, используя стандартный API.

Теперь пора перейти от слов к делу и установить WEKA. WEKA использует Java, так что если на вашем компьютере нет JRE, выберите для установки версию WEKA, включающую в себя JRE.

Рисунок 1. Стартовое окно WEKA
Screenshot shows opening WEKA screen with choices for Explorer, Experimenter, KnowledgeFlow and Sinple CLI

При запуске WEKA, пакет предлагает вам на выбор 4 графических интерфейса для работы с WEKA и вашими данными. Для всех примеров, рассматриваемых в данной статье, используется опция Explorer. Ее функциональности более чем достаточно для решения наших задач.

Рисунок 2. Окно WEKA Explorer
Screenshot shows the Explorer tool with various displays and action buttons

Теперь, когда вы освоили установку и запуск WEKA, перейдем к рассмотрению первого способа интеллектуального анализа данных: регрессии


Регрессионный анализ

Метод регрессионного анализа является самым простым и, пожалуй, наименее эффективным методом интеллектуального анализа данных (удивительно, как часто эти качества сопутствуют друг другу). Самая простая модель анализа использует один входной (независимый) параметр и один результирующий (зависимый) параметр (примерами такой модели являются точечные диаграммы Excel и аналогичные им XYDiagram в OpenOffice.org). Безусловно, модель можно усложнить, добавив несколько десятков входных параметров, но в любом случае общий подход будет один и тот же: на основании нескольких независимых переменных определяется один зависимый результат. Таким образом, модель регрессионного анализа используется для прогнозирования значения одной зависимой переменной, исходя из известных значений нескольких независимых параметров.

Наверняка, каждый из нас хотя бы раз сталкивался с регрессионной моделью, а может быть, и проводил в уме самостоятельный регрессионный анализ. Наиболее очевидный пример – определение стоимости дома. Цена на дом (зависимая переменная) определяется несколькими независимыми параметрами: какова площадь дома и размер участка, используется ли в оформлении кухни гранитные плиты, каково качество и срок службы сантехники и так далее. Так что, если вам случалось когда-либо продавать или покупать дом, то, скорее всего, вы использовали регрессионный анализ для определения его цены. Вы оценивали параметры похожих домов в этом же районе и цену, по которой эти дома были проданы (т.е. создавали модель), а затем подставляли параметры вашего дома в полученную зависимость и рассчитывали предполагаемую стоимость вашего дома.

Давайте воспользуемся моделью регрессионного анализа для определения цены дома и разберем конкретный пример. В таблице внизу указаны фактические параметры домов, выставленных на продажу в моем районе. На основании этих данных я попробую оценить стоимость моего дома (и воспользуюсь этими результатами, чтобы опротестовать предъявленную мне сумму налога на недвижимость).

Таблица 1. Регрессионная модель оценки стоимости дома
Площадь дома (кв.футы) Размер участка Количество спален Гранитная отделка на кухне Современное сантехническое оборудование? Продажная цена
3529 9191 6 0 0 $205,000
3247 10061 5 1 1 $224,900
4032 10150 5 0 1 $197,900
2397 14156 4 1 0 $189,900
2200 9600 4 0 1` $195,000
3536 19994 6 1 1 $325,000
2983 9365 5 0 1 $230,000
3198 9669 5 1 1 ????

Хорошая новость (или плохая новость, в зависимости от вашей точки зрения) состоит в том, что рассматриваемая нами модель дает лишь самое общее, весьма поверхностное, представление о методе регрессионного анализа. Как правило, общий курс по изучению регрессионного анализа в высших учебных заведениях занимает целый семестр и содержит весьма подробную информацию по разработке и использованию регрессионных моделей, без которой вы вполне могли бы обойтись. Тем не менее, нашего поверхностного рассмотрения вполне достаточно для того, чтобы понять основные принципы и создать модель регрессионного анализа с помощью WEKA. Если вы еще не потеряли интерес к методу регрессионного анализа данных, воспользуйтесь своей любимой поисковой системой, чтобы найти определения следующих терминов: метод наименьших квадратов, средняя дисперсия (гетероскедостичность), нормальное распределение, тесты Уайта, тесты Лиллиефорса, коэффициент детерминации R-квадрат и р-значение (категориальная независимая переменная).


Создание набора данных для загрузки в WEKA

Для того чтобы загрузить данные в WEKA, их следует преобразовать в формат, понятный этому программному пакету. Наиболее подходящим форматом для загрузки данных в WEKA является формат Attribute-Relation File Format (ARFF), который сначала определяет тип загружаемых данных, а потом указывает собственно данные. В файле формата ARFF вы указываете название и тип данных для каждого столбца таблицы, а затем собственно данные по строкам. В моделях регрессионного анализа используются всего два типа данных: NUMERIC и DATE. После того, как вы описали все столбцы таблицы, вы добавляете данные по строкам, используя в качестве разделителя запятую. Ниже приведен файл ARFF с данными о ценах на дома, которые мы будем использовать для построения нашей тестовой модели. Обратите внимание, что в списке отсутствует строка с данными моего дома. Сейчас мы создаем регрессионную модель на базе известных параметров и, следовательно, не можем включить в нее параметры моего дома, поскольку цена его неизвестна.

Листинг 1. Файл данных для загрузки в WEKA
@RELATION house

@ATTRIBUTE houseSize NUMERIC
@ATTRIBUTE lotSize NUMERIC
@ATTRIBUTE bedrooms NUMERIC
@ATTRIBUTE granite NUMERIC
@ATTRIBUTE bathroom NUMERIC
@ATTRIBUTE sellingPrice NUMERIC

@DATA
3529,9191,6,0,0,205000 
3247,10061,5,1,1,224900 
4032,10150,5,0,1,197900 
2397,14156,4,1,0,189900 
2200,9600,4,0,1,195000 
3536,19994,6,1,1,325000 
2983,9365,5,0,1,230000

Загрузка данных в WEKA

Теперь, когда файл с данными готов, его нужно загрузить в WEKA. Запустите WEKA и выберите опцию Explorer. В результате откроется закладка Preprocess окна Explorer. Щелкните на кнопке Open File и выберите созданный вами ARFF-файл. Окно WEKA Explorer с загруженными данными о домах показано на рисунке 3.

Рисунок 3. Окно WEKA Explorer с загруженными данными о домах
Screenshot of WEKA Explorer with data loaded

В этом окне вы можете проверить данные, на основании которых вы собираетесь строить модель. В левой части окна Explorer показаны параметры объектов (Attributes), которые соответствуют заголовкам столбцов нашей исходной таблицы, а также указано количество объектов (Instances), т.е. строк таблицы. Если вы щелкните мышкой на одном из заголовков столбцов, то в правой панели будет выведена полная информация о наборе данных в данном столбце. Например, если мы выберем столбец houseSize в левой панели (он выбран по умолчанию), то в правой панели отобразится дополнительная статистическая информация по этому столбцу. Будет показано максимальное значение в столбце (4032 кв.фута) и минимальное значение (2200 кв.футов). Кроме того, будет подсчитано среднее значение (3131 кв.фут) и стандартное отклонение (655 кв.футов) (стандартное отклонение – статистический показатель рассеивания значений случайной величины). Наконец, здесь же вам предлагается возможность визуального анализа данных (кнопка Visualize All). Поскольку в нашей таблице данных не так много, то их визуальное отображение не дает такой наглядной аналитической картины, как в случае использования сотен или тысяч показателей.

Давайте перейдем от рассмотрения данных к созданию модели и определим, наконец, стоимость моего дома.


Создание регрессионной модели в WEKA

Для того чтобы создать модель, откройте закладку Classify. В качестве первого шага, нам надо выбрать тип модели для анализа, чтобы указать WEKA, каким образом мы хотим анализировать наши данные, и какую модель построить:

  1. Щелкните на копке Choose и разверните меню functions.
  2. Выберите опцию LinearRegression.

Таким образом, мы указали WEKA, что мы хотим создать модель регрессионного анализа. Как вы заметили, меню включает целое множество моделей. Множество! Это еще раз подчеркивает факт нашего весьма поверхностного знакомства с областью интеллектуального анализа данных. Обратите внимание: в меню включена опция SimpleLinearRegression, однако мы не используем ее, поскольку этот тип модели определяет значение зависимой переменной по значениям одного независимого параметра, а у нас их целых шесть. Если вы выбрали правильную модель, то окно WEKA Explorer должно выглядеть так, как показано на рисунке 4.

Рисунок 4. Модель линейного регрессионного анализа WEKA
Screenshot shows the data set viewed in WEKA's linear regression model

Можно ли построить такую модель с помощью электронных таблиц?

Короткий ответ: нет. Длинный ответ: вообще говоря, можно. Большинство популярных электронных таблиц, в отличие от WEKA, не поддерживают готовые методы создания регрессионных линейных моделей, использующих несколько независимых переменных. Тем не менее, вы без особых проблем сможете создать простую линейную модель (аналог Simple Linear Regression в WEKA) на базе одной независимой переменной. Далее, если вы уверены в своих силах и знаниях, вы можете создать регрессионную модель с несколькими независимыми параметрами, однако это будет не так просто и, тем более, не так очевидно, как создание модели средствами WEKA. Видео-пример создания регрессионной модели для Microsoft® Excel® вы найдете в разделе Ресурсы.

После того, как мы выбрали тип модели, нужно указать WEKA, какие данные должны использоваться для ее создания. Несмотря на то, что ответ на этот вопрос для нас вполне очевиден – нужно взять данные из созданного нами ARFF-файла – существует несколько других, более сложных, возможностей предоставления данных для анализа. Опция Supplied test set позволяет указать дополнительный набор тестовых данных для модели, опция Cross-validation использует несколько наборов данных, усредняет их и строит модель на основе средних значений, а опция Percentage split использует в качестве базы для модели процентили набора данных. Эти способы применяются для создания аналитических моделей, которые мы рассмотрим в следующих статьях этой серии. В случае регрессионного анализа нам нужна опция Use training set. В этом случае WEKA создаст модель на базе данных из загруженного ARFF-файла.

Завершающий этап создания модели – выбор зависимой переменной (столбца, в котором находится неизвестное нам значение, которое требуется рассчитать). В нашем примере – это цена дома, так как именно это значение мы и хотим узнать. Сразу после секции Test options находится раскрывающийся список, в котором вам нужно выбрать зависимый параметр. По умолчанию должен быть выбран атрибут sellingPrice. Если это не так, выберите сами этот параметр.

Мы определили все параметры и можем приступить к созданию модели. Нажмите кнопку Start. В результате окно WEKA должно выглядеть так, как показано на рисунке 5.

Рисунок 5. Регрессионная модель WEKA для расчета стоимости дома
Screenshot shows the summary report from WEKA's linear regression model

Интерпретация результатов регрессионного анализа

WEKA не тратит время зря – регрессионный анализ проведен, и его результаты – перед вами. Разберем, какие данные включены в результирующий вывод (см. листинг 2).

Листинг 2. Готовая модель регрессионного анализа
sellingPrice = (-26.6882   * houseSize) + 
               (7.0551     * lotSize) + 
               (43166.0767 * bedrooms) +
               (42292.0901 * bathroom) 
             - 21661.1208

В листинге 3 в полученную модель для определения стоимости подставлены параметры моего дома.

Листинг 3. Расчет стоимости дома на базе готовой модели
sellingPrice = (-26.6882   * 3198) + 
               (7.0551     * 9669) + 
               (43166.0767 * 5) + 
               (42292.0901 * 1) 
             - 21661.1208

sellingPrice = 219,328

Однако, возвращаясь к темам, которые мы обсуждали в начале статьи, возможности интеллектуального анализа данных не ограничиваются определением одного параметра. Основная задача анализа – обнаружение зависимостей и связей в больших наборах данных. Интеллектуальный анализ, как правило, используется не для того, чтобы определить какое-либо конкретное значение, а для того, чтобы построить модель, позволяющую анализировать связи между данными, прогнозировать результаты и делать обоснованные заключения, которые подтверждаются собранными статистическими данными. Давайте и мы не будем ограничиваться рассчитанной ценой дома: рассмотрим зависимости между данными нашей модели и постараемся сделать определенные выводы относительно правил формирования цен на недвижимость.

  • Гранитные элементы в оформлении кухни не влияют на цену дома — WEKA использует только те данные, которые, согласно статистике, влияют на точность модели (влияние каждого независимого параметра на зависимую переменную определяется с помощью коэффициента детерминации R-квадрат, обсуждение которого выходит за рамки этой статьи). Таким образом, параметры, не имеющие достаточного влияния на зависимую переменную, в модели не учитываются. Наша регрессионная модель свидетельствует о том, что использование гранита на кухне не влияет на цену дома.
  • Состояние ванных комнат и сантехники влияет на цену дома — поскольку мы используем значения 0 или 1 в качестве показателя модернизации ванных комнат, то соответствующий коэффициент регрессионной модели демонстрирует нам, как современное сантехническое оборудование влияет на цену дома, а именно добавляет 42292$ к его цене.
  • Большая площадь дома снижает его цену — Согласно модели WEKA, по мере роста площади домов, цена снижается. Это следует из того, что модель включает переменную houseSize с отрицательным коэффициентом. Что же получается? Увеличение площади дома на 1 кв.фут снижает его стоимость на 26$? Подобное утверждение кажется очевидной бессмыслицей. Мы же рассматриваем дома в Америке: чем больше, тем лучше, особенно в Техасе, где я живу. Как же это понимать? Это классический пример случая «каков вопрос, таков и ответ». На самом деле, размер дома не является независимой величиной. Этот параметр связан, например, с количеством спален - очевидно, что в больших домах и количество спален больше. Так что наша модель, увы, не идеальна, но мы можем ее поправить. Запомните: закладка Preprocess позволяет удалить столбцы из набора данных. В качестве самостоятельного упражнения, удалите столбец houseSize и создайте новую модель. Проверьте, как изменение набора данных отразится на цене дома, и какая из двух моделей больше соответствует реальности (уточненная цена моего дома $217,894).

Замечание для специалистов по статистике

Рассматриваемая нами модель не отвечает целому ряду требований, предъявляемых к «корректной» модели линейного анализа, поскольку ни один параметр, вообще говоря, не является вполне независимым, а количество строк данных в таблице недостаточно велико для создания работающей модели. Поскольку основная задача этой статьи - познакомить читателя с аналитическим пакетом WEKA, мы чрезмерно упростили пример для создания регрессионной модели.

Рассмотрим более реальный пример. Для создания модели воспользуемся файлом данных, предлагаемым в качестве базы для регрессионного анализа на Web-сайте проекта WEKA. Теоретически, новый пример будет несколько сложнее нашей примитивной модели, использующей данные о семи домах. Предлагаемый файл предназначен для создания регрессионной модели расчета расхода бензина (MPG - количества миль на галлон), исходя из нескольких параметров автомобиля (пусть вас не удивляют показатели – эти данные собирались с 1970 по 1982 год). Модель учитывает несколько параметров машины – количество цилиндров, рабочий объем двигателя, его мощность, вес автомобиля, время разгона, год выпуска, производителя и марку автомобиля. Этот набор данных содержит 398 строк и отвечает большинству требований к статистическим данным, чего нельзя сказать о нашем предыдущем наборе данных о домах. Теоретически, модель на основе нового набора данных будет значительно сложнее, и WEKA придется приложить определенные усилия на разработку новой модели (хотя, как вы можете догадаться, WEKA с легкостью справится и с этой задачей).

Для построения модели регрессионного анализа на основе нового набора данных вам следует проделать все те же шаги, что и для модели анализа цены дома, так что мы не будем приводить их повторно. Вывод, который должен получиться в результате регрессионного анализа, показан в листинге 4.

Листинг 4. Модель регрессионного анализа для определения MPG
class (aka MPG) =

     -2.2744 * cylinders=6,3,5,4 +
     -4.4421 * cylinders=3,5,4 +
      6.74   * cylinders=5,4 +
      0.012  * displacement +
     -0.0359 * horsepower +
     -0.0056 * weight +
      1.6184 * model=75,71,76,74,77,78,79,81,82,80 +
      1.8307 * model=77,78,79,81,82,80 +
      1.8958 * model=79,81,82,80 +
      1.7754 * model=81,82,80 +
      1.167  * model=82,80 +
      1.2522 * model=80 +
      2.1363 * origin=2,3 +
      37.9165

Когда вы будете самостоятельно выполнять регрессионный анализ данных, обратите внимание на то, что WEKA потребуется меньше секунды на обработку информации и создание модели. Таким образом, с точки зрения выполнения вычислений, создание мощных регрессионных моделей на базе больших массивов данных, не вызывает особых проблем. Модель для определения MPG может показаться гораздо сложнее, чем модель для определения стоимости дома, тем не менее, это не так. Например, первая строчка модели , -2.2744 * cylinders=6,3,5,4 означает, что если у машины 6-цилинровый двигатель, то нужно в формулу подставить 1, а если 8-цилиндровый двигатель – то 0. Давайте подставим в модель реальные данные (например, из строки 10) и проверим, насколько результат вычислений будет соответствовать реальному показателю.

Листинг 5. Вычисление показателя MPG
data = 8,390,190,3850,8.5,70,1,15

class (aka MPG) =

     -2.2744 * 0 +
     -4.4421 * 0 +
      6.74   * 0 +
      0.012  * 390 +
     -0.0359 * 190 +
     -0.0056 * 3850 +
      1.6184 * 0 +
      1.8307 * 0 +
      1.8958 * 0 +
      1.7754 * 0 +
      1.167  * 0 +
      1.2522 * 0 +
      2.1363 * 0 +
     37.9165
     
Expected Value = 15 mpg
Regression Model Output = 14.2 mpg

Таким образом, при использовании случайно выбранных данных, результат работы нашей модели (14.2 MPG) оказался достаточно близким к реальному показателю (15 MPG).


Заключение

Основная задача данной статьи - дать читателю общее представление о том, что такое интеллектуальный анализ данных, каковы его цели и задачи. Интеллектуальный анализ данных позволяет преобразовать множество «сырых» несвязанных данных (как правило, в виде статистического распределения) в пригодные к использованию сведения, благодаря определению связей и зависимостей между данными. При этом вашей целью является использование этих зависимостей и полученных моделей для прогнозирования определенных показателей, повышения эффективности вашего бизнеса или для понимания причин каких-либо глубинных процессов, которые невозможно объяснить, используя другие методы. Модели интеллектуального анализа могут подтвердить ваши предположения или, более того, обратить ваше внимание на тенденции, о существовании которых вы и не предполагали. В качестве занимательного примера использования данных интеллектуального анализа, приведем «городскую легенду» о том, почему по выходным в супермаркетах Walmart прилавки с пивом располагаются в конце рядов с подгузниками: согласно результатам анализа, мужчины по выходным, как правило, закупают подгузники, а поскольку большинство мужчин – любители пива, Walmart использует эти два факта для повышения реализации товара.

Эта статья знакомит читателя со свободно распространяемым программным пакетом WEKA с открытым исходным кодом. Безусловно, существует множество сложных коммерческих программных продуктов для интеллектуального анализа данных, однако, с точки зрения среднестатистического пользователя, пакет WEKA предлагает простой и доступный инструментарий для первоначального знакомства с возможностями интеллектуального анализа данных (особенно учитывая тот факт, что для того, чтобы стать экспертом в вопросах анализа данных вам потребуется как минимум 20 лет серьезных занятий). С помощью WEKA вы легко освоите азы интеллектуального анализа и сможете решить множество аналитических задач. Если вы никогда раньше не сталкивались с анализом данных, то WEKA – это все, что вам нужно.

Кроме того, в этой статье рассматривается конкретный пример интеллектуального анализа данных с использованием модели регрессионного анализа (а именно, линейной модели с несколькими независимыми параметрами) и показывается, как построить такую модель средствами пакета WEKA. Линейная регрессионная модель проста в использовании и может работать с множеством различных наборов данных. Вполне возможно, что линейная регрессионная модель покажется вам наиболее полезной из всех моделей, рассматриваемых в этой серии статей. Тем не менее, возможности интеллектуального анализа данных не ограничиваются созданием регрессионных моделей. Существуют и другие методы, которые позволяют гораздо более эффективно анализировать самые разные наборы данных и использовать полученные результаты для выявления определенных тенденций и закономерностей.

В заключении, я хотел бы еще раз отметить, что эта статья, равно как и последующие статьи этой серии, являются всего лишь кратким введением в статистику и интеллектуальный анализ данных. Для того, чтобы стать «начинающими» аналитиками, люди, как правило, в течение полного семестра изучают статистику, а затем еще полный семестр – интеллектуальный анализ данных. Наша цель – познакомиться с открытым продуктом, с помощью которого вы можете начать изучение и применение методов интеллектуального анализа данных, а также оценить потенциальные возможности эффективного использования информации, полученной средствами интеллектуального анализа данных. Это необходимо иметь в виду в процессе изучения следующих статей этой серии.


Загрузка

ОписаниеИмяРазмер
Код, используемый в примерах данной статьи os-weka1-Examples.zip6 KБ

Ресурсы

Научиться

Получить продукты и технологии

  • Загрузите WEKA, чтобы установить этот пакет на своем компьютере.
  • Ознакомьтесь с отличительными свойствами программного обеспечения IBM DB2 Intelligent Miner и сравните его возможности с возможностями WEKA

Комментарии

developerWorks: Войти

Обязательные поля отмечены звездочкой (*).


Нужен IBM ID?
Забыли Ваш IBM ID?


Забыли Ваш пароль?
Изменить пароль

Нажимая Отправить, Вы принимаете Условия использования developerWorks.

 


Профиль создается, когда вы первый раз заходите в developerWorks. Информация в вашем профиле (имя, страна / регион, название компании) отображается для всех пользователей и будет сопровождать любой опубликованный вами контент пока вы специально не укажите скрыть название вашей компании. Вы можете обновить ваш IBM аккаунт в любое время.

Вся введенная информация защищена.

Выберите имя, которое будет отображаться на экране



При первом входе в developerWorks для Вас будет создан профиль и Вам нужно будет выбрать Отображаемое имя. Оно будет выводиться рядом с контентом, опубликованным Вами в developerWorks.

Отображаемое имя должно иметь длину от 3 символов до 31 символа. Ваше Имя в системе должно быть уникальным. В качестве имени по соображениям приватности нельзя использовать контактный e-mail.

Обязательные поля отмечены звездочкой (*).

(Отображаемое имя должно иметь длину от 3 символов до 31 символа.)

Нажимая Отправить, Вы принимаете Условия использования developerWorks.

 


Вся введенная информация защищена.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=40
Zone=Open source
ArticleID=828715
ArticleTitle=Интеллектуальный анализ данных с помощью программного пакета WEKA: Часть 1: Введение. Регрессионный анализ
publish-date=08022012