Sınıflandırma problemlerinde meta-sezgisel optimizasyon yöntemlerinin özellik seçimi ve ayrıklaştırma amacıyla kullanımı

dc.contributor.advisorBabaoğlu, İsmail
dc.contributor.authorKoç, İsmail
dc.date.accessioned2017-01-09T11:37:45Z
dc.date.available2017-01-09T11:37:45Z
dc.date.issued2016-01-07
dc.departmentEnstitüler, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Ana Bilim Dalıen_US
dc.description.abstractSınıf etiketleri yardımıyla belli bir veri kümesi üzerinden oluşturulan modeller kullanılarak yeni örneklerin hangi sınıfa ait olacağının tahmin edilmesi genel olarak sınıflandırma problemi olarak adlandırılmaktadır. Birçok alanda karşılaşılan bu problemlerin çözümü için farklı disiplinlerde yeni yöntemler üzerine çalışmalar yapılmaktadır. Dolayısıyla her geçen gün yeni yaklaşımlar sunulmakta ve çözüm yöntemleri geliştirilmektedir. Bununla birlikte sınıflandırma başarısının artırılması amacıyla da literatürde farklı teknikler yer almaktadır. Bu tezde veri madenciliğinde kullanılan ve önemli yöntemlerden biri olan özellik seçimi kullanılmıştır. Alt küme seçimi olarak bilinen özellik seçimi makine öğrenmesinde yaygın olarak kullanılan bir yöntemdir. Bu yöntem, veriyi işleme ve analiz etmek için yönetilebilir boyuttaki veriyi azaltan teknikleri ve araçları tanımlayan bir terimdir. Özellik seçimi işleminde, veri kümesinden elde edilen özellik alt kümesi öğrenme algoritması uygulaması için seçilir. En iyi alt küme, çözüm uzayı için en yüksek doğruluk oranına sahip olan en küçük boyutlu veri kümesinden oluşur. Veri kümesindeki geriye kalan önemsiz nitelikler ise yok sayılır. Bu işlem, önemli bir veri ön işleme aşamasıdır. Problemlerde karşılaşılan veriler sürekli veya kesikli (ayrık) veri şeklinde olabilmektedir. Özellikle tahmin modelleri oluşturma çalışmalarında kesikli veri tercih edilmektedir. Bu tercihin sebebi ise ayrık verilerin bilgi düzeyli gösterilebilir olması, bazı işlemler sonrası sadeleştirilmiş olması, anlaşılır ve açıklanabilir olmasıdır. Sürekli verinin kesikli veriye dönüştürülmesi işlemleri genel olarak "veri ayrıklaştırma" olarak tanımlanmaktadır. Ayrıklaştırmanın başarısı hangi algoritmanın kullanıldığına, verinin dağılımına ve sonuç çıkarma modeli gibi parametrelere bağlıdır. Bu tezde optimizasyon algoritmalarının özellik seçimi ve ayrıklaştırma amacıyla kullanılması araştırılmıştır. Dört farklı global erişilebilir veri kümesi üzerinde özellik seçimi, eşit genişlik ve eşit frekansa göre ayrıklaştırma amacıyla Yapay Arı Kolonisi, Guguk Kuşu, Yarasa ve Yerçekimsel Arama algoritmaları kullanılmış olup analiz sonuçları karşılaştırmalı olarak sunulmuştur. Süre analizleri, özellik seçimi sonrası elde edilen özellikler ve ayrıklaştırma sonrası belirlenen ayrıklaştırma sınırlarına ait analizler ise tez kapsamı dışında tutulmuştur. Özellik seçimi işlemlerinde optimizasyon algoritmalarının ikili versiyonu kullanılmış olup ayrıklaştırma işlemlerinde ise algoritmaların sürekli versiyonları kullanılmıştır.en_US
dc.description.abstractPrediction of the samples classes using models which are formed through a given data set means of the class labels is generally named as classification problem. In order to solve these kinds of problems encountered in several areas, many researches on novel methods are studied in different disciplines. Therefore, novel approaches have been presented, and solution methods have been developed day by day. Besides, there are different techniques which are used for increasing the classification accuracy in literature. In the thesis, feature selection which is one of the important techniques used in data mining has been utilized. Feature selection known as subset selection is a method which is commonly used in machine learning. This method is a term which defines resources and techniques of decreasing data with manageable dimension for operation and analysis of data. The subset of the features which are obtained from the dataset is selected for the application of the learning algorithm in the feature selection process. The best subset consists of data set with the least dimensions that has the maximum accuracy. The remaining redundant attributes are disregarded. This process is one of the important data preprocessing stages. The data encountered in problems can be in discrete or continuous data form. The discrete data is preferred in the studies in forming prediction models, especially. The reason of this preference can be said that discrete values can be shown as information level, they are summarized in the end of some processes and they are understandable and explicable. The processes transforming continuous data into discrete data are generally described as data discretization. Discretization is a data preprocessing approach used frequently in methods of data mining and machine learning. The success of discretization process is related to the parameters such as the result attainment model, data distribution and which algorithm is utilized. In the thesis, the usage of optimization algorithms in the purpose of feature selection and discretization has been studied. Artificial Bee Colony, Bat, Gravitational Search and Cuckoo Search Algorithms have been used with the intention of feature selection, equal width discretization, equal frequency discretization using four different global available data set and their analysis results have been presented comparatively. However, time analysis and the analysis of both the features obtained by feature selection process and the boundaries obtained by the discretization process are excluded from this thesis. While the binary versions of these algorithms have been used in the processes of feature selection, the continuous versions of them have been utilized in the discretization processes.en_US
dc.identifier.citationKoç, İ. (2016). Sınıflandırma problemlerinde meta-sezgisel optimizasyon yöntemlerinin özellik seçimi ve ayrıklaştırma amacıyla kullanımı. Selçuk Üniversitesi, Yayımlanmış yüksek lisans tezi, Konya.en_US
dc.identifier.urihttps://hdl.handle.net/20.500.12395/3780
dc.language.isotren_US
dc.publisherSelçuk Üniversitesi Fen Bilimleri Enstitüsüen_US
dc.relation.publicationcategoryTezen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.selcuk20240510_oaigen_US
dc.subjectYerçekimi arama algoritmasıen_US
dc.subjectAyrıklaştırmaen_US
dc.subjectDestek vektör makinalarıen_US
dc.subjectEşit genişliken_US
dc.subjectEşit frekansen_US
dc.subjectGuguk kuşu arama algoritmasıen_US
dc.subjectİkili optimizasyon algoritmalarıen_US
dc.subjectOptimizasyon algoritmalarıen_US
dc.subjectÖzellik seçimien_US
dc.subjectYapay arı kolonisi algoritmasıen_US
dc.subjectSupport vector machinesen_US
dc.subjectArtificial bee colony algorithmen_US
dc.subjectBat algorithmen_US
dc.subjectBinary optimization algorithmsen_US
dc.subjectCuckoo search algorithmen_US
dc.subjectDiscretizationen_US
dc.subjectEqual frequencyen_US
dc.subjectEqual widthen_US
dc.subjectOptimization algorithmsen_US
dc.subjectGravitational search algorithmen_US
dc.subjectFeature selectionen_US
dc.titleSınıflandırma problemlerinde meta-sezgisel optimizasyon yöntemlerinin özellik seçimi ve ayrıklaştırma amacıyla kullanımıen_US
dc.title.alternativeUtilization of metaheuristic optimization methods for feature selection and discretization on classification problemsen_US
dc.typeMaster Thesisen_US

Dosyalar

Orijinal paket
Listeleniyor 1 - 1 / 1
Yükleniyor...
Küçük Resim
İsim:
418882_removed.pdf
Boyut:
6.66 MB
Biçim:
Adobe Portable Document Format
Açıklama:
İsmail Koç
Lisans paketi
Listeleniyor 1 - 1 / 1
Küçük Resim Yok
İsim:
license.txt
Boyut:
1.51 KB
Biçim:
Item-specific license agreed upon to submission
Açıklama: