Sınıflandırma problemlerinde veri dengeleme ve özellik seçiminin makine öğrenmesi algoritmalarının performansına etkisinin çok kriterli karar verme ile değerlendirilmesi

dc.authorid0000-0003-0068-3211
dc.contributor.advisorYapıcı Pehlivan, Nimet
dc.contributor.authorAkarçay Pervin, Özlem
dc.date.accessioned2025-05-30T10:32:31Z
dc.date.available2025-05-30T10:32:31Z
dc.date.issued2025
dc.departmentEnstitüler, Fen Bilimleri Enstitüsü, İstatistik Ana Bilim Dalı
dc.description.abstractMakine öğrenmesi uygulamalarında, veri kümelerinin dengesiz olma durumu sıklıkla karşılaşılan önemli bir sorundur. Dengesiz veri kümelerinde, sınıflandırma algoritmalarının çoğunluk sınıfına daha fazla ağırlık vererek, azınlık sınıfının doğru şekilde tahmin edilmesini zorlaştırdığı ve bu durumun makine öğrenmesi algoritmalarının performansını olumsuz yönde etkilediği bilinmektedir. Bu amaçla, yeniden örnekleme teknikleri gibi çeşitli yöntemler geliştirilmiş ve veri kümelerinin dengeli hale getirilmesi sağlanmıştır. Veri kümelerinde çok sayıda değişkenin yer alması makine öğrenmesi algoritmalarının performansını etkileyen bir başka sorundur. Özellik seçimi yöntemleriyle, ilgisiz ya da gereksiz değişkenlerin veri kümesinden çıkartılması makine öğrenmesi algoritmalarının performansları üzerinde kritik rol oynamaktadır. Bu tez çalışmasında, birçok çalışmada ele alınan farklı dengesizlik oranlarına sahip Cleveland Kalp Hastalığı (CHD), Pima Hintli Diyabet (PID) ve Kırmızı Şarap Kalitesi (RWQ) veri kümeleri kullanılmıştır. Dengesiz veri kümeleri üzerinde yeniden örnekleme yöntemleri (SMOTE, SMOTE-ENN) ve gömülü özellik seçim yöntemleri (LASSO, Elastik Net), sarmalayıcı özellik seçimi yöntemleri (PSO, ABC) uygulanarak ve uygulanmadan makine öğrenimi algoritmalarından elde edilen performanslar metrikleri değerlendirilmiştir. Ele alınan veri kümeleri için, Çok Kriterli Karar Verme yöntemlerinden Entropi ve CRITIC ile performans metriklerine ilişkin ağırlıklar hesaplanmış ve TOPSIS,WASPAS, MABAC yöntemleri ile bu algoritmaların sıralamaları oluşturulmuştur. Elde edilen sıralamalar sonucunda nihai sıralama yapabilmek amacıyla, Borda Sayım yöntemi kullanılarak en iyi makine öğrenmesi / bütünleşik makine öğrenmesi algoritmaları belirlenmiştir. Sonuçlar, veri dengeleme ve özellik seçiminin ele alınan makine öğrenmesi algoritmalarının (KNN, SVM, DT, RF, XGB, LR, ADB, NB) sınıflandırma performansını artırmada etkili olduğunu göstermiştir. Özellikle, SMOTE ile veri dengelemenin ve bunun yanı sıra gömülü ve sarmalayıcı yöntemlerle yapılan özellik seçiminin performanslar üzerinde etkisinin olduğu gösterilmiştir. SMOTE ve SMOTE-ENN yöntemleri ile dengelenmiş verilerde RF ve XGB algoritmaları en iyi sonuçları vermiştir. CHD veri kümesinde SMOTE uygulanmış RF algoritması; PID veri kümesinde SMOTE uygulanmış ABC özellik seçimine dayalı XGB algoritması ve RWQ veri kümesinde SMOTE uygulanmış ABC özellik seçimine dayalı RF algoritması ele alınan bütünleşik makine öğrenmesi algoritmaları arasında öne çıkmıştır.
dc.description.abstractIn machine learning applications, imbalanced datasets are a frequently encountered problem. It is known that in imbalanced datasets, classification algorithms give more weight to the majority class, making it difficult to correctly predict the minority class, and this negatively affects the performance of machine learning algorithms. For this aim, various methods such as resampling techniques have been developed and the datasets have been balanced. The presence of a large number of variables in datasets is another problem that affects the performance of machine learning algorithms. Removing irrelevant or redundant variables from the dataset with feature selection methods plays a critical role in the performance of machine learning algorithms. In this thesis, Cleveland Heart Disease (CHD), Pima Indian Diabetes (PID), and Red Wine Quality (RWQ) datasets with different imbalance ratios, addressed in many studies, were used. Performance metrics obtained from machine learning algorithms with/without applying resampling methods (SMOTE, SMOTE-ENN), embedded (LASSO, Elastic Net) and wrapper (PSO, ABC) feature selection methods on imbalanced datasets have been evaluated. For considered datasets, weights regarding performance metrics were calculated by Entropy and CRITIC and rankings of these algorithms were created by TOPSIS, WASPAS, MABAC methods, which are Multi Criteria Decision Making methods. As a result of the rankings, in order to make a final ranking, the best machine learning/integrated machine learning algorithms were determined by using Borda Count method. The results showed that data balancing and feature selection are effective in improving the classification performance of the considered machine learning algorithms (KNN, SVM, DT, RF, XGB, LR, ADB, NB). In particular, it has been shown that data balancing with SMOTE and feature selection based on embedded and wrapper methods have an effect on the performances. RF and XGB algorithms gave the best results on balanced data with SMOTE and SMOTE-ENN methods. RF algorithm with SMOTE applied on CHD dataset; XGB algorithm based on ABC feature selection with SMOTE applied on PID dataset and RF algorithm based on ABC feature selection with SMOTE applied on RWQ dataset stood out among the integrated machine learning algorithms considered.
dc.identifier.citationAkarçay Pervin, Ö. (2025). Sınıflandırma problemlerinde veri dengeleme ve özellik seçiminin makine öğrenmesi algoritmalarının performansına etkisinin çok kriterli karar verme ile değerlendirilmesi. (Doktora Tezi). Selçuk Üniversitesi, Fen Bilimleri Enstitüsü, Konya
dc.identifier.urihttps://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=P3dtmmHrq-mzEcmCLi1Cqb0-b2EmgSKsw9VIPs-eUB6I6xAvEziyVFK-sABqC3gO
dc.identifier.urihttps://hdl.handle.net/20.500.12395/55258
dc.identifier.yoktezid924231
dc.institutionauthorAkarçay Pervin, Özlem
dc.institutionauthorid0000-0003-0068-3211
dc.language.isotr
dc.publisherSelçuk Üniversitesi, Fen Bilimleri Enstitüsü
dc.relation.publicationcategoryTez
dc.rightsinfo:eu-repo/semantics/openAccess
dc.subjectÇok Kriterli Karar Verme
dc.subjectDengesiz Veri
dc.subjectMakine Öğrenmesi
dc.subjectÖzellik Seçimi
dc.subjectSınıflandırma
dc.subjectMulti-Criteria Decision Making
dc.subjectImbalanced Data
dc.subjectMachine Learning
dc.subjectFeature Selection
dc.subjectClassification
dc.titleSınıflandırma problemlerinde veri dengeleme ve özellik seçiminin makine öğrenmesi algoritmalarının performansına etkisinin çok kriterli karar verme ile değerlendirilmesi
dc.title.alternativeEvaluation of the effect of data balancing and feature selection on the performance of machine learning algorithms in classification problems with multi-criteria decision making
dc.typeDoctoral Thesis

Dosyalar

Orijinal paket
Listeleniyor 1 - 1 / 1
Yükleniyor...
Küçük Resim
İsim:
924231.pdf
Boyut:
6.93 MB
Biçim:
Adobe Portable Document Format
Lisans paketi
Listeleniyor 1 - 1 / 1
Küçük Resim Yok
İsim:
license.txt
Boyut:
1.17 KB
Biçim:
Item-specific license agreed upon to submission
Açıklama: