Keşifsel Veri Analizi

menu icon

Keşifsel Veri Analizi

Veri kümelerini analiz etmek ve özetlemek için kullanılan bir yöntem olan keşifsel veri analizi hakkında bilmeniz gereken her şeyi öğrenin.

Keşifsel veri analizi nedir?

Keşifsel veri analizi (EDA), veri bilimcileri tarafından veri kümelerini analiz edip araştırmak ve genellikle veri görselleştirme yöntemlerini kullanarak bu kümelerin ana özelliklerini özetlemek için kullanılır. İhtiyaç duyduğunuz yanıtları almak için veri kaynaklarını en iyi nasıl işleyeceğinizi belirleyerek, veri bilimcilerin kalıpları keşfetmelerini, anomalileri fark etmelerini, bir hipotezi test etmelerini ya da varsayımları kontrol etmelerini kolaylaştırır.

Keşifsel veri analizi, öncelikle verilerin resmi modelleme veya hipotez testi görevinin ötesinde neleri ortaya çıkarabileceğini görmek için kullanılır ve bir veri kümesi değişkenleri ve aralarındaki ilişkilere ilişkin daha iyi bir anlayış sağlar. Ayrıca, veri analizi için düşündüğünüz istatistiksel tekniklerin uygun olup olmadığını belirlemeye de yardımcı olabilir. 1970'lerde Amerikalı matematikçi John Tukey tarafından geliştirilen keşifsel veri analizi teknikleri, günümüzde veri keşfi sürecinde yaygın olarak kullanılan bir yöntem olmaya devam etmektedir.

Veri biliminde keşifsel veri analizi neden önemlidir?

Keşifsel veri analizinin temel amacı, herhangi bir varsayımda bulunmadan önce verilerebakmanıza yardımcı olmaktır.Veriler içindeki kalıpları daha iyi anlamanın ya da olağandışı olayları saptamanın yanı sıra, değişkenler arasında ilginç ilişkileri de bulmanıza yardımcı olur.

Veri bilimciler, ürettikleri sonuçların geçerli ve istenen iş sonuçları ve hedefleri için geçerli ve uygun olmasını sağlamak için keşifsel analizi kullanabilirler. Keşifsel veri analizi, aynı zamanda doğru soruları sorduklarını doğrulayarak paydaşlara da yardımcı olur. Keşifsel veri analizi; standart sapmalar, kategorik değişkenler ve güven aralıklarıyla ilgili soruların yanıtlanmasına yardımcı olabilir. Keşifsel analizin tamamlanması ve öngörülerin belirlenmesinden sonra, özellikleri makine öğrenmesi dahil olmak üzere daha karmaşık veri analizi ya da modelleme için kullanılabilir.

Keşifsel veri analizi araçları

Keşifsel veri analizi araçları ile gerçekleştirebileceğiniz belirli istatistiksel işlevler ve teknikler şunlardır:

  • Birçok değişken içeren yüksek boyutlu verilerin grafik görüntülerinin oluşturulmasına yardımcı olan kümeleme ve boyut azaltma teknikleri.
  • Özet istatistikleriyle birlikte, işlenmemiş veri kümesindeki her alan için tek değişkenli görselleştirme.
  • Veri kümesindeki her bir değişken arasındaki ilişkiyi ve baktığınız hedef değişkeni değerlendirmenize olanak sağlayan çift değişkenli görselleştirmeler ve özet istatistikleri.
  • Verilerdeki farklı alanlar arasındaki etkileşimleri eşlemek ve anlamak için çok değişkenli görselleştirmeler.
  • K-means Clustering, veri noktalarının her grubun ağırlık merkezine olan mesafelerine göre K gruplarına (küme sayısı) atandığı, gözetimsiz öğrenme dahilinde bir kümeleme yöntemidir. Belirli bir ağırlık merkezine en yakın veri noktaları aynı kategori altında kümelenir. K-means Clustering, pazar segmentasyonu, örüntü tanıma ve görüntü sıkıştırmada yaygın olarak kullanılır.
  • Doğrusal regresyon gibi tahmine dayalı modeller, sonuçları tahmin etmek için istatistikleri ve verileri kullanır.

Keşifsel veri analizi tipleri

Dört tip keşifsel veri analizi vardır:

  • Tek değişkenli grafik olmayan. Bu en basit veri analizi biçimidir ve analiz edilen veriler yalnızca bir değişkenden oluşur. Tek bir değişken olduğundan, sebeplerle ya da ilişkilerle ilgilenmez. Tek değişkenli analizinin temel amacı, verileri tanımlamak ve içinde var olan kalıpları bulmaktır.
  • Çift değişkenli, grafik. Grafik olmayan yöntemler verilere dair tam bir resim sağlamaz. Bu nedenle, grafik yöntemler gereklidir. Yaygın çift değişkenli grafik türleri şunlardır:
    • Tüm veri değerlerini ve dağılımın şeklini gösteren kök ve yaprak grafikleri.
    • Her bir çubukta bir değer aralığı için sıklık (sayı) ya da orantının (sayı/toplam sayısı) temsil edildiği bir çubuk çizimi olan histogramlar.
    • Minimum, ilk çeyrek, medyan, üçüncü çeyrek ve maksimum değerlerinin beş rakamlı özetini grafiksel olarak gösteren kutu grafikleri.
  • Çok değişkenli grafik olmayan: Çok değişkenli veriler birden çok değişkene göre ortaya çıkar. Çok değişkenli grafik olmayan keşifsel veri analizi teknikleri, genellikle çapraz tablolama veya istatistik yoluyla verilerin iki veya daha fazla değişkeni arasındaki ilişkiyi gösterir.
  • Çok değişkenli grafik: Çok değişkenli veriler, iki ya da daha fazla veri kümesi arasındaki ilişkileri görüntülemek için grafikleri kullanır. En çok kullanılan grafik, her bir grubun bir düzeyini temsil eden ve diğer değişkenin düzeylerini temsil eden bir grup içindeki her bir çubukla gruplanmış bir çubuk çizimi ya da çubuk grafiğidir.

Çok değişkenli grafiklerin diğer genel tipleri şunlardır:

  • Bir değişkenin başka bir değişkenden ne kadar etkilendiğini göstermek için yatay ve dikey eksendeki veri noktalarını çizmek için kullanılan serpme çizim.
  • Etkenler ve bir yanıt arasındaki ilişkilerin grafiksel bir temsili olan çok değişkenli grafik.
  • Zaman içinde çizilen verilerin oluşturduğu çizgi grafiği olan koşum grafiği.
  • İki boyutlu bir çizimde birden çok daireyi (kabarcıklar) görüntüleyen bir veri görselleştirmesi olan kabarcık grafiği.
  • Değerlerin renklerle gösterildiği, verilerin grafiksel olarak gösterimi olan ısı haritası.

Keşifsel Veri Analizi Araçları

Keşifsel veri analizini oluşturmak için kullanılan en yaygın veri bilimi araçlarından bazıları şunlardır:

  • Python: Dinamik anlambilimi ile yorumlanan, nesneye dayalı programlama dilidir. Dinamik yazma ve dinamik bağlamayla birleşen üst düzey, yerleşik veri yapıları, hızlı uygulama geliştirme için bu dili oldukça cazip hale getirmenin yanı sıra, var olan bileşenleri birbirine bağlamak için bir komut dosyası veya yapıştırıcı dil olarak da kullanıma hazır hale getirir. Python ve keşifsel veri analizi, bir veri kümesinde eksik değerleri belirlemek için birlikte kullanılabilir; bu da makine öğrenmesi için eksik değerlerin nasıl işleneceğine karar verebileceğinizden önemlidir.
  • R: R Foundation for Statistical Computing tarafından desteklenen istatistiksel bilgi işlem ve grafiklere yönelik açık kaynak kodlu bir programlama dili ve ücretsiz yazılım ortamıdır. R dili, istatistiksel gözlemler ve veri analizi geliştirmede veri bilimindeki istatistikçiler arasında yaygın olarak kullanılmaktadır.

Bu yaklaşımlar arasındaki farkları derinlemesine incelemek için, "Python vs. R: What's the Difference?" başlıklı yazıya göz atın.

IBM ve keşifsel veri analizi

IBM'in Explore yordamı, tüm durumlar için ya da vaka grupları için ayrı olarak, verilerin çeşitli görsel ve sayısal özetlerini sağlar. Bağımlı değişken bir ölçek değişkeni olmalıdır, ancak gruplama değişkenleri sıralı ya da nominal olabilir.

IBM'in Explore yordamını kullanarak:

  • Verileri eleyebilirsiniz
  • Aykırı değerleri tespit edebilirsiniz
  • Varsayımları denetleyebilirsiniz
  • Vaka grupları arasındaki farklılıkları karakterize edebilirsiniz

IBM'in Explore yordamıyla ilgili daha fazla bilgiyi buradan edinebilirsiniz. Keşifsel Veri Analizi hakkında daha fazla bilgi için, IBMid için kaydolun ve IBM Cloud hesabınızı oluşturun.