Sınıflandırma problemlerinde veri dengeleme ve özellik seçiminin makine öğrenmesi algoritmalarının performansına etkisinin çok kriterli karar verme ile değerlendirilmesi
dc.authorid | 0000-0003-0068-3211 | |
dc.contributor.advisor | Yapıcı Pehlivan, Nimet | |
dc.contributor.author | Akarçay Pervin, Özlem | |
dc.date.accessioned | 2025-05-30T10:32:31Z | |
dc.date.available | 2025-05-30T10:32:31Z | |
dc.date.issued | 2025 | |
dc.department | Enstitüler, Fen Bilimleri Enstitüsü, İstatistik Ana Bilim Dalı | |
dc.description.abstract | Makine öğrenmesi uygulamalarında, veri kümelerinin dengesiz olma durumu sıklıkla karşılaşılan önemli bir sorundur. Dengesiz veri kümelerinde, sınıflandırma algoritmalarının çoğunluk sınıfına daha fazla ağırlık vererek, azınlık sınıfının doğru şekilde tahmin edilmesini zorlaştırdığı ve bu durumun makine öğrenmesi algoritmalarının performansını olumsuz yönde etkilediği bilinmektedir. Bu amaçla, yeniden örnekleme teknikleri gibi çeşitli yöntemler geliştirilmiş ve veri kümelerinin dengeli hale getirilmesi sağlanmıştır. Veri kümelerinde çok sayıda değişkenin yer alması makine öğrenmesi algoritmalarının performansını etkileyen bir başka sorundur. Özellik seçimi yöntemleriyle, ilgisiz ya da gereksiz değişkenlerin veri kümesinden çıkartılması makine öğrenmesi algoritmalarının performansları üzerinde kritik rol oynamaktadır. Bu tez çalışmasında, birçok çalışmada ele alınan farklı dengesizlik oranlarına sahip Cleveland Kalp Hastalığı (CHD), Pima Hintli Diyabet (PID) ve Kırmızı Şarap Kalitesi (RWQ) veri kümeleri kullanılmıştır. Dengesiz veri kümeleri üzerinde yeniden örnekleme yöntemleri (SMOTE, SMOTE-ENN) ve gömülü özellik seçim yöntemleri (LASSO, Elastik Net), sarmalayıcı özellik seçimi yöntemleri (PSO, ABC) uygulanarak ve uygulanmadan makine öğrenimi algoritmalarından elde edilen performanslar metrikleri değerlendirilmiştir. Ele alınan veri kümeleri için, Çok Kriterli Karar Verme yöntemlerinden Entropi ve CRITIC ile performans metriklerine ilişkin ağırlıklar hesaplanmış ve TOPSIS,WASPAS, MABAC yöntemleri ile bu algoritmaların sıralamaları oluşturulmuştur. Elde edilen sıralamalar sonucunda nihai sıralama yapabilmek amacıyla, Borda Sayım yöntemi kullanılarak en iyi makine öğrenmesi / bütünleşik makine öğrenmesi algoritmaları belirlenmiştir. Sonuçlar, veri dengeleme ve özellik seçiminin ele alınan makine öğrenmesi algoritmalarının (KNN, SVM, DT, RF, XGB, LR, ADB, NB) sınıflandırma performansını artırmada etkili olduğunu göstermiştir. Özellikle, SMOTE ile veri dengelemenin ve bunun yanı sıra gömülü ve sarmalayıcı yöntemlerle yapılan özellik seçiminin performanslar üzerinde etkisinin olduğu gösterilmiştir. SMOTE ve SMOTE-ENN yöntemleri ile dengelenmiş verilerde RF ve XGB algoritmaları en iyi sonuçları vermiştir. CHD veri kümesinde SMOTE uygulanmış RF algoritması; PID veri kümesinde SMOTE uygulanmış ABC özellik seçimine dayalı XGB algoritması ve RWQ veri kümesinde SMOTE uygulanmış ABC özellik seçimine dayalı RF algoritması ele alınan bütünleşik makine öğrenmesi algoritmaları arasında öne çıkmıştır. | |
dc.description.abstract | In machine learning applications, imbalanced datasets are a frequently encountered problem. It is known that in imbalanced datasets, classification algorithms give more weight to the majority class, making it difficult to correctly predict the minority class, and this negatively affects the performance of machine learning algorithms. For this aim, various methods such as resampling techniques have been developed and the datasets have been balanced. The presence of a large number of variables in datasets is another problem that affects the performance of machine learning algorithms. Removing irrelevant or redundant variables from the dataset with feature selection methods plays a critical role in the performance of machine learning algorithms. In this thesis, Cleveland Heart Disease (CHD), Pima Indian Diabetes (PID), and Red Wine Quality (RWQ) datasets with different imbalance ratios, addressed in many studies, were used. Performance metrics obtained from machine learning algorithms with/without applying resampling methods (SMOTE, SMOTE-ENN), embedded (LASSO, Elastic Net) and wrapper (PSO, ABC) feature selection methods on imbalanced datasets have been evaluated. For considered datasets, weights regarding performance metrics were calculated by Entropy and CRITIC and rankings of these algorithms were created by TOPSIS, WASPAS, MABAC methods, which are Multi Criteria Decision Making methods. As a result of the rankings, in order to make a final ranking, the best machine learning/integrated machine learning algorithms were determined by using Borda Count method. The results showed that data balancing and feature selection are effective in improving the classification performance of the considered machine learning algorithms (KNN, SVM, DT, RF, XGB, LR, ADB, NB). In particular, it has been shown that data balancing with SMOTE and feature selection based on embedded and wrapper methods have an effect on the performances. RF and XGB algorithms gave the best results on balanced data with SMOTE and SMOTE-ENN methods. RF algorithm with SMOTE applied on CHD dataset; XGB algorithm based on ABC feature selection with SMOTE applied on PID dataset and RF algorithm based on ABC feature selection with SMOTE applied on RWQ dataset stood out among the integrated machine learning algorithms considered. | |
dc.identifier.citation | Akarçay Pervin, Ö. (2025). Sınıflandırma problemlerinde veri dengeleme ve özellik seçiminin makine öğrenmesi algoritmalarının performansına etkisinin çok kriterli karar verme ile değerlendirilmesi. (Doktora Tezi). Selçuk Üniversitesi, Fen Bilimleri Enstitüsü, Konya | |
dc.identifier.uri | https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=P3dtmmHrq-mzEcmCLi1Cqb0-b2EmgSKsw9VIPs-eUB6I6xAvEziyVFK-sABqC3gO | |
dc.identifier.uri | https://hdl.handle.net/20.500.12395/55258 | |
dc.identifier.yoktezid | 924231 | |
dc.institutionauthor | Akarçay Pervin, Özlem | |
dc.institutionauthorid | 0000-0003-0068-3211 | |
dc.language.iso | tr | |
dc.publisher | Selçuk Üniversitesi, Fen Bilimleri Enstitüsü | |
dc.relation.publicationcategory | Tez | |
dc.rights | info:eu-repo/semantics/openAccess | |
dc.subject | Çok Kriterli Karar Verme | |
dc.subject | Dengesiz Veri | |
dc.subject | Makine Öğrenmesi | |
dc.subject | Özellik Seçimi | |
dc.subject | Sınıflandırma | |
dc.subject | Multi-Criteria Decision Making | |
dc.subject | Imbalanced Data | |
dc.subject | Machine Learning | |
dc.subject | Feature Selection | |
dc.subject | Classification | |
dc.title | Sınıflandırma problemlerinde veri dengeleme ve özellik seçiminin makine öğrenmesi algoritmalarının performansına etkisinin çok kriterli karar verme ile değerlendirilmesi | |
dc.title.alternative | Evaluation of the effect of data balancing and feature selection on the performance of machine learning algorithms in classification problems with multi-criteria decision making | |
dc.type | Doctoral Thesis |