Dengesiz veri setlerinde sınıflandırma performansını etkileyen yaklaşımların incelenmesi
Yükleniyor...
Dosyalar
Tarih
2024
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Selçuk Üniversitesi, Sağlık Bilimleri Enstitüsü
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Dengesiz veriler, bir veya daha fazla sınıfın diğerlerinden çok daha fazla veya daha az temsil edilmesi durumunda ortaya çıkar. Sınıflandırma problemlerinde sınıf dağılımları birbirine yakın olmadığında model azınlık sınıfının tahmininde başarısız sonuçlar verebilmektedir. Örneklem artırma, azaltma ve hibrit yaklaşımlar gibi dengesiz veri probleminin çözümüne yönelik geliştirilmiş yaklaşımlar, makine öğrenmesinin kullanıldığı sınıflandırma problemlerinde algoritmaların performanslarını artırmaktadır. Bu çalışmada farklı dengesizlik oranlarına ve öznitelik sayısına sahip veriler kullanılarak veri dengeleme yaklaşımlarının sınıflandırma problemlerinde kullanılan makine öğrenmesi algoritmalarının performanslarına etkisi karşılaştırılmıştır. Sonuçlar, dengeleme yöntemlerinin sınıflandırma performansını büyük ölçüde etkilediğini göstermekte olup her veri seti ve algoritma kombinasyonu için en uygun dengeleme yönteminin değiştiğini ortaya koymaktadır. Bu nedenle, problem için en uygun dengeleme yönteminin seçilmesinde farklı yaklaşımların denenmesi ve birden fazla performans metriğinin birlikte değerlendirilmesi gerektiği sonucuna varılmıştır. Bu çalışma sağlık, finans, güvenlik gibi alanlarda dengesiz veri problemi ile karşılaşıldığında daha güvenilir ve genelleştirilebilir sonuçlar elde edebilmek için dengeleme yöntemlerinin kullanılabileceğini ve kritik konularda önemli katkılar sağlayabileceği öngörmektedir. Ayrıca kullanılan farklı makine öğrenmesi yöntemlerinde farklı dengeleme yaklaşımları ön plana çıkmış olup kullanılan algoritmaya göre seçilecek olan yaklaşımı belirlemede çalışmanın literatüre katkı sağlayabileceği öngörülmektedir.
Imbalanced data occurs when one or more classes are represented much more or less than others. In classification problems, when class distributions are not close to each other, the model may give unsuccessful results in predicting the minority class. Improved approaches to solving the imbalanced data problem, such as oversampling, undersampling, and hybrid approaches, increase the performance of algorithms in classification problems in machine learning. In this study, the effects of data balancing approaches on the performance of machine learning algorithms used in classification problems were compared by using data with different imbalance rates and numbers of features. The results show that balancing methods greatly affect classification performance, revealing that the optimal balancing method varies for each dataset and algorithm combination. Therefore, it was concluded that different approaches should be tried and multiple performance metrics should be evaluated together in choosing the most appropriate balancing method for the problem. This study suggests that balancing methods can be used to obtain more reliable and generalizable results when faced with imbalanced data problems in areas such as health, finance, and security, and can make significant contributions to critical issues. In addition, different balancing approaches have come to the forefront in different machine learning methods used, and it is envisaged that the study can contribute to the literature in determining the approach to be chosen according to the algorithm used.
Imbalanced data occurs when one or more classes are represented much more or less than others. In classification problems, when class distributions are not close to each other, the model may give unsuccessful results in predicting the minority class. Improved approaches to solving the imbalanced data problem, such as oversampling, undersampling, and hybrid approaches, increase the performance of algorithms in classification problems in machine learning. In this study, the effects of data balancing approaches on the performance of machine learning algorithms used in classification problems were compared by using data with different imbalance rates and numbers of features. The results show that balancing methods greatly affect classification performance, revealing that the optimal balancing method varies for each dataset and algorithm combination. Therefore, it was concluded that different approaches should be tried and multiple performance metrics should be evaluated together in choosing the most appropriate balancing method for the problem. This study suggests that balancing methods can be used to obtain more reliable and generalizable results when faced with imbalanced data problems in areas such as health, finance, and security, and can make significant contributions to critical issues. In addition, different balancing approaches have come to the forefront in different machine learning methods used, and it is envisaged that the study can contribute to the literature in determining the approach to be chosen according to the algorithm used.
Açıklama
Anahtar Kelimeler
Dengesiz Veri, Veri Dengeleme Yöntemleri, Makine Öğrenmesi, Sınıflandırma Algoritmaları, Performans Metrikleri, Imbalanced Data, Data Balancing Techniques, Machine Learning, Classification Algorithms, Performance Metrics
Kaynak
WoS Q Değeri
Scopus Q Değeri
Cilt
Sayı
Künye
Demirsöz, S. (2024). Dengesiz veri setlerinde sınıflandırma performansını etkileyen yaklaşımların incelenmesi. (Yüksek Lisans Tezi). Selçuk Üniversitesi, Sağlık Bilimleri Enstitüsü, Konya.