Dengesiz veri setlerinde sınıflandırma performansını etkileyen yaklaşımların incelenmesi

Yükleniyor...
Küçük Resim

Tarih

2024

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Selçuk Üniversitesi, Sağlık Bilimleri Enstitüsü

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Dengesiz veriler, bir veya daha fazla sınıfın diğerlerinden çok daha fazla veya daha az temsil edilmesi durumunda ortaya çıkar. Sınıflandırma problemlerinde sınıf dağılımları birbirine yakın olmadığında model azınlık sınıfının tahmininde başarısız sonuçlar verebilmektedir. Örneklem artırma, azaltma ve hibrit yaklaşımlar gibi dengesiz veri probleminin çözümüne yönelik geliştirilmiş yaklaşımlar, makine öğrenmesinin kullanıldığı sınıflandırma problemlerinde algoritmaların performanslarını artırmaktadır. Bu çalışmada farklı dengesizlik oranlarına ve öznitelik sayısına sahip veriler kullanılarak veri dengeleme yaklaşımlarının sınıflandırma problemlerinde kullanılan makine öğrenmesi algoritmalarının performanslarına etkisi karşılaştırılmıştır. Sonuçlar, dengeleme yöntemlerinin sınıflandırma performansını büyük ölçüde etkilediğini göstermekte olup her veri seti ve algoritma kombinasyonu için en uygun dengeleme yönteminin değiştiğini ortaya koymaktadır. Bu nedenle, problem için en uygun dengeleme yönteminin seçilmesinde farklı yaklaşımların denenmesi ve birden fazla performans metriğinin birlikte değerlendirilmesi gerektiği sonucuna varılmıştır. Bu çalışma sağlık, finans, güvenlik gibi alanlarda dengesiz veri problemi ile karşılaşıldığında daha güvenilir ve genelleştirilebilir sonuçlar elde edebilmek için dengeleme yöntemlerinin kullanılabileceğini ve kritik konularda önemli katkılar sağlayabileceği öngörmektedir. Ayrıca kullanılan farklı makine öğrenmesi yöntemlerinde farklı dengeleme yaklaşımları ön plana çıkmış olup kullanılan algoritmaya göre seçilecek olan yaklaşımı belirlemede çalışmanın literatüre katkı sağlayabileceği öngörülmektedir.
Imbalanced data occurs when one or more classes are represented much more or less than others. In classification problems, when class distributions are not close to each other, the model may give unsuccessful results in predicting the minority class. Improved approaches to solving the imbalanced data problem, such as oversampling, undersampling, and hybrid approaches, increase the performance of algorithms in classification problems in machine learning. In this study, the effects of data balancing approaches on the performance of machine learning algorithms used in classification problems were compared by using data with different imbalance rates and numbers of features. The results show that balancing methods greatly affect classification performance, revealing that the optimal balancing method varies for each dataset and algorithm combination. Therefore, it was concluded that different approaches should be tried and multiple performance metrics should be evaluated together in choosing the most appropriate balancing method for the problem. This study suggests that balancing methods can be used to obtain more reliable and generalizable results when faced with imbalanced data problems in areas such as health, finance, and security, and can make significant contributions to critical issues. In addition, different balancing approaches have come to the forefront in different machine learning methods used, and it is envisaged that the study can contribute to the literature in determining the approach to be chosen according to the algorithm used.

Açıklama

Anahtar Kelimeler

Dengesiz Veri, Veri Dengeleme Yöntemleri, Makine Öğrenmesi, Sınıflandırma Algoritmaları, Performans Metrikleri, Imbalanced Data, Data Balancing Techniques, Machine Learning, Classification Algorithms, Performance Metrics

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye

Demirsöz, S. (2024). Dengesiz veri setlerinde sınıflandırma performansını etkileyen yaklaşımların incelenmesi. (Yüksek Lisans Tezi). Selçuk Üniversitesi, Sağlık Bilimleri Enstitüsü, Konya.