Gürültü giderici oto-kodlayıcı kullanarak eksik değerlerin tamamlanması
Yükleniyor...
Dosyalar
Tarih
2020
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Selçuk Üniversitesi, Fen Bilimleri Enstitüsü
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Eksik değerlerin varlığı, veri analizinde yaygın bir sorundur. Veri kaybı, eksiksiz veri gerektiren aşağı akış analizini engelleyebilmektedir. Bu eksiklik, ya verilere eksik durumları silen ya da sonradan işleme için veri atanan tamamlanmış verileri oluşturan aşağı akış veri ürünlerinin performansında bir düşüşe neden olmaktadır. Bu nedenle, verileri tam olarak kullanmak ve doğru kullanmak için kaybolan verilerin uygun şekilde işlenmesi zorunludur. Modern veri atama teknikleri genellikle iyi performanslar sağlar, ancak özellikle büyük veri kümeleri için hesaplama açısından pahalıdır. Bu çalışmada, Gürültü Giderici Oto- Kodlayıcı (GGOK) kullanarak eksik verileri atama amacıyla bir derin öğrenme çerçevesi araştırılmaktadır. Ardından, on veri setinde önerilen GGOK performansı karşılaştırılmaktadır, örn. Breast Cancer Wisconsin Diagnostic (BCWD), Discrim, Fisher İris, Reaction, Stockreturns, Titanic, Human Activity Definition using smartphones1, İonosphere, Automobile ve Ovarian Cancers (OVCA) eksik veri oranında % 5,% 15,% 20 ve % 25 ile, dört geleneksel yönteminin yanı sıra altı modern makine öğrenme yöntemiyle, örneğin Destek Vektör Makinesi, Güçlü regresyon, Ridge regresyonu, K-En Yakın Komşu, Yapay Sinir Ağı ve Olasılıksal Sinir Ağıdır. Önerilen GGOK veri atama, göreceli doğruluk açısından diğer yöntemlere kıyasla çok daha iyi sonuçlar göstermektedir.
The presence of missing values is a common problem in data analysis. Data loss can hinder downstream analysis that requires complete data. This missingness results in data, a decrease in the performance of downstream data products that either delete incomplete cases or create imputed completed data for post-processing. It is therefore imperative that the lost data be treated appropriately in order to fully utilize and use the data properly. Modern imputation techniques usually achieve good performances, but are computationally expensive especially for large datasets. In this work, we investigate a deep learning framework for the purpose of imputation missing data by using Denoising AutoEncoder (DAE). Then, we compare the proposed DAE performance on ten datasets e.g., Breast Cancer Wisconsin Diagnostic (BCWD), Discrim, Fisher İris, Reaction, Stockreturns, Titanic, Human activity recognition using smartphones1, İonosphere, Automobile and Ovarian Cancers (OVCA) with data missingness at a rate 5%, 15%, 20% and 25%, by using four traditional methods as well as to six modern machine learning methods used in the literature, e.g., support vector machine, robust regression, ridge regression, k-nearest neighbor, artifitial neural network and probabilistic neural network. The proposed DAE based imputation shows much better results compared than other methods in terms of relative accuracy.
The presence of missing values is a common problem in data analysis. Data loss can hinder downstream analysis that requires complete data. This missingness results in data, a decrease in the performance of downstream data products that either delete incomplete cases or create imputed completed data for post-processing. It is therefore imperative that the lost data be treated appropriately in order to fully utilize and use the data properly. Modern imputation techniques usually achieve good performances, but are computationally expensive especially for large datasets. In this work, we investigate a deep learning framework for the purpose of imputation missing data by using Denoising AutoEncoder (DAE). Then, we compare the proposed DAE performance on ten datasets e.g., Breast Cancer Wisconsin Diagnostic (BCWD), Discrim, Fisher İris, Reaction, Stockreturns, Titanic, Human activity recognition using smartphones1, İonosphere, Automobile and Ovarian Cancers (OVCA) with data missingness at a rate 5%, 15%, 20% and 25%, by using four traditional methods as well as to six modern machine learning methods used in the literature, e.g., support vector machine, robust regression, ridge regression, k-nearest neighbor, artifitial neural network and probabilistic neural network. The proposed DAE based imputation shows much better results compared than other methods in terms of relative accuracy.
Açıklama
Anahtar Kelimeler
Eksik Veri, Veri Atama, Derin Öğrenme, Gürültü Giderici Oto-Kodlayıcı, Sınıflandırma, Missing Values, Imputation, Deep Learning, Denoising Autoencoder, Classification
Kaynak
WoS Q Değeri
Scopus Q Değeri
Cilt
Sayı
Künye
Asghar, M. H. (2020). Gürültü giderici oto-kodlayıcı kullanarak eksik değerlerin tamamlanması. (Yüksek Lisans Tezi). Selçuk Üniversitesi, Fen Bilimleri Enstitüsü, Konya