Eksik veri değerleri
Veri madencilikinin veri hazırlama aşaması sırasında, genellikle verilerdeki eksik değerlerin değiştirilmesini istersiniz.
Eksik değerler , veri kümesindeki, bilinmeyen, toplanmayan ya da yanlış girilen değerlerdir. Genellikle, bu tür değerler kendi alanları için geçerli değildir. Örneğin, Sex alanının M ve Fdeğerlerini içermesi gerekir. Alandaki Y ya da Z değerlerini keşfedebilirseniz, bu değerlerin geçerli olmadığını ve bu nedenle boşluk olarak yorumlanabileceğini güvenli şekilde kabul edebilirsiniz. Benzer şekilde, Age alanı için negatif bir değer anlamsızdır ve boş olarak da yorumlanmalıdır. Sık sık, açıkça yanlış değerler girilir ya da yanıtsız olarak belirtmek için bir anket sırasında alanlar boş bırakılır. Zaman zaman, bu boşlukları daha yakından incelemek isteyebilirsiniz; örneğin, birinin yaşını vermeyi reddetmek gibi, yanıt vermemek, belirli bir sonucu tahmin etmek için bir faktör.
Bazı modelleme teknikleri, eksik verileri diğerlerinden daha iyi işlemektedir. Örneğin, C5.0 düğümü ve Apriori düğümü , bir Tip düğümündebelirtik olarak "eksik" olarak bildirilen değerlerle iyi bir şekilde başa çıkabilir. Diğer modelleme teknikleri, eksik değerlerle başa çıkma ve daha uzun eğitim süreleri ile başa çıkma konusunda sorun yaşamakta ve daha az doğru modellere yol göstermektedir.
- Boş ya da sistem eksik değerleri. Bunlar, veritabanında ya da kaynak dosyada boş bırakılan ve İçe Aktar ya da Tip düğümünde özellikle "eksik" olarak tanımlanmamış dizgi olmayan değerler. Sistem eksik değerleri
$null$olarak görüntülenir. Boş dizgillerin boş değer olarak kabul edilmediğini, ancak bazı veritabanları tarafından boş değer olarak değerlendirilebileceklerini göz önünde bulundurun. - Boş dizgiler ve beyaz alan. Boş dizgi değerleri ve beyaz alan (görünür karakter içermeyen dizeler) boş değerlerin ayrı olarak ele alınır. Boş dizgiler, çoğu amaç için beyaz alana eşdeğer bir şekilde işlenir. Örneğin, bir İçe Aktarma ya da Tip düğümünde beyaz alanı boşluk olarak ele almak için bu seçeneği belirlerseniz, bu ayar boş dizgiler için de geçerlidir.
- Boş ya da kullanıcı tanımlı eksik değerler. Bunlar, bir İçe Aktarma düğümünde ya da Tip düğümünde eksik olarak tanımlanan
unknown,99ya da–1gibi değerlerdir. İsteğe bağlı olarak, boş değerleri ve beyaz alanı boşluk olarak değerlendirmeyi seçebilir ve bu, özel muamele için işaretlenir ve çoğu hesaplamaların dışında bırakılabilir. For example, you can use the@BLANKfunction to treat these values, along with other types of missing values, as blanks.
Karma verilerde okuma. Sayısal depolamaya sahip alanlarda (tamsayı, gerçek, saat, zaman damgası veya tarih) okuduğunuzda, sayısal olmayan herhangi bir değer null ya da system missingolarak ayarlanir. Bunun nedeni, bazı uygulamaların tersine, bir alanda karışık depolama tiplerinin yapılmasına izin vermesidir. Bunu önlemek için, İçe Aktarma düğümünde ya da dış uygulamadaki depolama tipini gerektiği şekilde değiştirerek, verileri dizgiler olarak karışık olarak içeren alanlarda okumanız gerekir.
Reading empty strings from Oracle. When reading from or writing to an Oracle database, be aware that, unlike and unlike most other databases, Oracle treats and stores empty string values as equivalent to null values. Başka bir deyişle, bir Oracle veritabanından alınan aynı veri, bir dosyadan ya da başka bir veritabanından ayıklanandan farklı bir şekilde hareket edebilir ve veriler farklı sonuçlar döndürebilir.