Eksploracyjna analiza danych

menu icon

Eksploracyjna analiza danych

Dowiedz się wszystkiego, co należy wiedzieć o eksploracyjnej analizie danych — metodzie używanej do analizy oraz podsumowywania zestawów danych.

Czym jest eksploracyjna analiza danych?

Eksploracyjna analiza danych (EDA) jest wykorzystywana przez analityków danych do analizy i badania zestawów danych oraz kompilowania ich głównych cech, często przy użyciu metod wizualizacji danych. Pomaga określić, jak najlepiej używać źródeł danych, aby uzyskać żądane odpowiedzi. Ułatwia analitykom danych odkrywanie wzorców, dostrzeganie nieprawidłowości, testowanie hipotez oraz weryfikowanie założeń.

Metody EDA są używane przede wszystkim do interpretowania danych w sposób wykraczający poza formalne modelowanie oraz testowanie hipotez, a także pomagają lepiej zrozumieć zmienne w zestawach danych i relacje między nimi. Metody tego typu pomagają też ustalić, czy techniki statystyczne, które planujemy zastosować do analizy danych, są właściwe. Techniki EDA, które w latach siedemdziesiątych opracował amerykański matematyk John Tukey, do dziś są powszechnie stosowane w procesie badania danych.

Dlaczego eksploracyjna analiza danych jest ważnym elementem danologii?

Głównym celem EDA jest zapewnienie wglądu w dane jeszcze przed sformułowaniem jakichkolwiek założeń. Pomaga identyfikować oczywiste błędy, lepiej pojmować wzorce występujące w obrębie danych, wykrywać wartości odstające i anomalie, a także odnajdywać interesujące relacje między zmiennymi.

Analitycy danych stosują analizę eksploracyjną, aby generowane wyniki były prawidłowe i przekładały się na różne cele i zamierzenia biznesowe. Analiza EDA pomaga też interesariuszom zyskać pewność, że zadają właściwe pytania. EDA pozwala zdobyć wiedzę na temat odchyleń standardowych, zmiennych kategorialnych oraz przedziałów ufności. Po przeprowadzeniu analizy EDA i uzyskaniu istotnych spostrzeżeń wciąż można wykorzystać tę metodę do bardziej zaawansowanej analizy danych lub modelowania, w tym na potrzeby uczenia maszynowego.

Narzędzia do eksploracyjnej analizy danych

Oto konkretne funkcje statystyczne i techniki, które można realizować za pomocą narzędzi EDA:

  • Techniki grupowania i redukcji wymiarów, które pomagają w tworzeniu graficznych obrazów wysokowymiarowych danych z wieloma zmiennymi.
  • Wizualizacja jednej zmiennej dla każdego pola w zestawie danych surowych wraz z podsumowaniem statystycznym.
  • Wizualizacje dwóch zmiennych i podsumowanie statystyczne, które pozwalają ocenić relacje między poszczególnymi zmiennymi w zestawie danych oraz zmienną docelową.
  • Wizualizacje wielu zmiennych pomagają mapować i rozumieć interakcje pomiędzy różnymi polami danych.
  • Grupowanie metodą k-średnich należy do dziedziny uczenia nienadzorowanego, punkty danych są tutaj przypisywane do grup K, tzn. wielu skupień, na podstawie odległości od środka każdego skupienia. Punkty danych znajdujące się najbliżej danego środka skupienia są grupowane w tej samej kategorii. Grupowanie metodą k-średnich jest powszechnie stosowane przy segmentacji rynku, rozpoznawaniu wzorców i kompresji obrazów.
  • Modele predykcyjne, takie jak regresja liniowa, pozwalają wykorzystać statystyki i dane do prognozowania rezultatów.

Rodzaje eksploracyjnej analizy danych

Istnieją cztery podstawowe rodzaje analizy EDA:

  • Niegraficzna z jedną zmienną. Jest to najprostsza forma analizy danych, kiedy analizowane są tylko te dane, które zawierają jedną zmienną. Ponieważ występuje tylko jedna zmienna, nie są tu brane pod uwagę przyczyny ani relacje. Głównym celem analizy z jedną zmienną jest opisanie danych i znalezienie wzorców, które istnieją w ich obrębie.
  • Graficzna z jedną zmienną. Metody niegraficzne nie pozwalają uzyskać pełnego obrazu danych. Dlatego wymagane są metody graficzne. Oto standardowe rodzaje metod graficznych z jedną zmienną:
    • Wykresy łodygowo-listkowe, na których prezentowane są wszystkie wartości danych oraz ich rozkład.
    • Histogramy, czyli wykresy słupkowe, na których każdy słupek odzwierciedla częstość (liczbę) lub proporcję (liczba / łączna liczba) elementów dla danego zakresu wartości.
    • Wykresy pudełkowe, na których przedstawiane jest pięciocyfrowe podsumowanie wartości minimalnej, pierwszego kwartyla, mediany, trzeciego kwartyla oraz wartości maksymalnej.
  • Niegraficzne z wieloma zmiennymi. Dane z wieloma zmiennymi powstają w wyniku połączenia co najmniej dwóch zmiennych. Niegraficzne techniki EDA z wieloma zmiennymi zasadniczo ilustrują relacje między co najmniej dwiema zmiennymi danych na tabelach przestawnych lub w ujęciu statystycznym.
  • Graficzne z wieloma zmiennymi. Dane z wieloma zmiennymi są prezentowane na grafikach, aby zilustrować relacje między co najmniej dwoma zestawami danych. Najczęściej używaną grafiką jest pogrupowany wykres lub diagram słupkowy, na którym każda grupa odzwierciedla jeden poziom jednej ze zmiennych, a każdy słupek w grupie odzwierciedla poziom innej zmiennej.

Inne popularne typy grafik z wieloma zmiennymi:

  • Wykres punktowy, na którym punkty danych są umieszczane na osi poziomej i pionowej, aby zobrazować, w jaki sposób jedna zmienna wpływa na drugą.
  • Wykres z wieloma zmiennymi, który stanowi graficzne odwzorowanie relacji między czynnikami a reakcją.
  • Wykres przebiegu, czyli wykres liniowy z kolejnymi danymi umieszczanymi wraz z upływem czasu.
  • Wykres bąbelkowy oferujący wizualizację danych pod postacią wielu kółek (bąbelków) na dwuwymiarowej płaszczyźnie.
  • Mapa cieplna stanowiąca graficzne odwzorowanie danych z wartościami oznaczonymi kolorystycznie.

Narzędzia do eksploracyjnej analizy danych

Oto niektóre z najpopularniejszych narzędzi analitycznych stosowanych do tworzenia analiz EDA:

  • Python: interpretowany, obiektowy język programowania z semantyką dynamiczną. Jego wysokopoziomowe, wbudowane struktury danych w połączeniu z funkcją dynamicznego typowania i wiązania sprawiają, że język ten jest doskonałym wyborem do szybkiego tworzenia aplikacji, a także doskonale sprawdza się jako język skryptowy lub „klejący”, który łączy ze sobą istniejące komponenty. Języka Python i analizy EDA można używać jednocześnie, aby identyfikować brakujące wartości w zestawie danych, co jest istotne w celu obsługi brakujących wartości w uczeniu maszynowym.
  • R: język programowania oraz bezpłatne środowisko oprogramowania typu Open Source, służy do przetwarzania statystycznego oraz tworzenia grafik; jest obsługiwany przez R Foundation for Statistical Computing. Język R jest powszechnie używany przez statystyków zajmujących się analityką danych do obserwacji statystycznych oraz analizy danych.

Szczegółowe informacje na temat różnic między tymi dwoma językami zostały przedstawione w części „Python i R: jaka jest różnica?

IBM i eksploracyjna analiza danych

Proces eksploracji IBM oferuje wiele wizualnych i liczbowych narzędzi do podsumowywania danych: zarówno wszystkich elementów zbiorczo, jak i osobnych grup elementów. Zmienna zależna musi mieć postać zmiennej ilościowej, natomiast zmienne grupujące mogą mieć charakter porządkowy lub nominalny.

Z pomocą procesu eksploracji IBM można:

  • monitorować dane
  • identyfikować wartości odstające
  • sprawdzać założenia
  • określać różnice między grupami elementów

Dowiedz się więcej na temat procesu eksploracji IBM tutaj. Aby zdobyć więcej informacji o eksploracyjnej analizie danych, należy uzyskać identyfikator IBMid i założyć konto IBM Cloud