Исследовательский анализ данных

menu icon

Исследовательский анализ данных

Все, что необходимо знать об исследовательском анализе данных — методе анализа и обобщения наборов данных.

Что такое исследовательский анализ данных?

Исследовательский анализ данных (EDA) — это подход к анализу и исследованию наборов данных, предназначенный для обобщения их основных характеристик, как правило с применением методов визуализации данных. Этот анализ помогает понять, как лучше всего работать с источниками данных для получения необходимых ответов, и упрощает поиск закономерностей, выявление отклонений, тестирование гипотез и проверку допущений.

Главным образом EDA помогает сделать выводы из данных за пределами формального моделирования или тестирования гипотез, а также понять переменные наборов данных и взаимосвязи между ними. С помощью этого подхода можно определить эффективность статистических технологий, выбранных для анализа данных. Метод исследовательского анализа впервые был разработан американским математиком Джоном Тьюки в 1970-х годах. С тех пор он стал неотъемлемой частью процесса глубокого изучения данных.

Почему исследовательский анализ данных играет важную роль в науке о данных?

Главная задача EDA — проверка данных перед тем, как строить на них какие-либо предположения. Он помогает выявить очевидные ошибки, а также лучше понять закономерности в данных, обнаружить выбросы или аномалии и, возможно, найти интересные взаимосвязи между переменными.

Аналитикам этот метод помогает убедиться в правильности интерпретации полученных результатов и их применимости к тем или иным бизнес-показателям и целям. А другие заинтересованные лица могут с помощью EDA проверить правильность задаваемых вопросов. EDA может дать ответы на вопросы о стандартных отклонениях, категорийных переменных и доверительных интервалах. После проведения EDA и получения нужных результатов его методы можно применять для более сложного анализа данных или моделирования, в том числе для машинного обучения.

Инструменты исследовательского анализа данных

Инструменты EDA поддерживают следующие статистические функции и технологии:

  • Технологии кластеризации и снижения размерности, помогающие создавать графические преставления данных с высокой размерностью и большим количеством переменных.
  • Одномерная визуализация каждого поля в исходном наборе данных со сводной статистикой.
  • Двумерные визуализации и сводные статистические данные, позволяющие оценить связь между каждой переменной в наборе данных и целевой исследуемой переменной.
  • Многомерные визуализации для отображения и понимания взаимодействий между разными полями данных.
  • Кластерный анализ методом K-средних — метод в неконтролируемом машинном обучении, где точки данных распределяются по группам K (кластерам) в зависимости от расстояния до центроида каждой группы. Точки данных, расположенные ближе всего к центроиду кластера, будут отнесены к этому кластеру. Кластерный анализ методом K-средних используется при сегментации рынка, распознавании закономерностей и сжатии изображений.
  • Прогнозные модели (например, линейная регрессия) для прогнозирования результатов на основе статистических данных.

Типы исследовательского анализа данных

Существует четыре основных типа EDA:

  • Одномерный неграфический. Простейший вид анализа данных, состоящих всего из одной переменной. Поскольку переменная всего одна, ни о каких причинах или взаимосвязях речь не идет. Главная цель одномерного анализа — описать данные и найти в них закономерности.
  • Одномерный графический. Неграфические методы не дают полного представления о данных. Поэтому без графических методов не обойтись. Основные типы одномерного графического анализа:
    • Диаграмма «стебель с листьями», показывающая все значения данных и форму их распределения.
    • Гистограмма: столбиковая диаграмма, каждый столбик которой показывает частоту (количество) или долю (количество к общему количеству) случаев для заданного диапазона значений.
    • Блочные диаграммы, графически показывающие сводку по пяти показателям: минимум, первый квартиль, среднее значение, третий квартиль и максимум.
  • Многомерный неграфический: если переменных несколько, то данные считаются многомерными. Как правило, многомерные неграфические методы EDA показывают взаимосвязи между двумя или более переменными набора данных в виде перекрестных таблиц или статистических показателей.
  • Многомерный графический: отображение взаимосвязей между двумя или более наборами многомерных данных в графическом виде. Чаще всего для отображения используется сгруппированная столбиковая диаграмма (гистограмма), на которой каждая группа представляет один уровень одной из переменных, а каждый столбик в группе отражает уровни остальных переменных.

Есть и другие, не менее популярные виды многомерных графических представлений:

  • График разброса: точки данных отображаются на горизонтальной и вертикальной осях для иллюстрации степени зависимости одной переменной от других.
  • Многомерная диаграмма: графическое представление взаимосвязей между признаками и ответом.
  • Линейный график данных по времени.
  • Пузырьковая диаграмма: двумерное представление данных в виде многочисленных окружностей (пузырьков).
  • Тепловая карта: графическое представление данных с цветовой дифференциацией значений.

Инструменты исследовательского анализа данных

В процессе EDA часто используются следующие инструменты анализа и обработки данных:

  • Python: интерпретируемый, объектно-ориентированный язык программирования с динамической семантикой. Встроенные высокоуровневые структуры данных, динамическая типизация и динамическое связывание делают этот язык идеальным вариантом для быстрой разработки приложений. Также Python часто используется в качестве языка сценариев или интегрирующего языка для склейки уже написанных компонентов. Совместное использование Python и EDA помогает выявить пропущенные значения в наборе данных, позволяя выработать стратегию их интерпретации для машинного обучения.
  • R: язык программирования с открытым исходным кодом и бесплатная программная среда для статистических вычислений и работы с графикой, поддерживаемая R Foundation for Statistical Computing. Язык R популярен среди специалистов по статистике и обработке данных, так как помогает составлять статистические наблюдения и анализировать данные.

Более подробно разница между этими подходами описана в разделе «Python и R: в чем разница?»

IBM и исследовательский анализ данных

У IBM есть процедура Explore, предоставляющая множество визуальных и числовых сводок данных по всем наблюдениям или отдельно по их группам. В качестве зависимой переменной должна выступать переменная масштаба, а группирующими переменными могут быть порядковые или номинальные.

Процедура IBM Explore позволяет решать следующие задачи:

  • Оценка данных
  • Выявление выбросов
  • Проверка предположений
  • Определение различий между группами наблюдений

Более подробные сведения о процедуре IBM Explore см. по этой ссылке. Для получения более подробной информации об исследовательском анализе данных зарегистрируйтесь, чтобы получить IBMid и создать учетную запись IBM Cloud.