Sınıflandırma problemlerinde meta-sezgisel optimizasyon yöntemlerinin özellik seçimi ve ayrıklaştırma amacıyla kullanımı

Koç, İsmail

Sınıflandırma problemlerinde meta-sezgisel optimizasyon yöntemlerinin özellik seçimi ve ayrıklaştırma amacıyla kullanımı

dc.contributor.advisor	Babaoğlu, İsmail
dc.contributor.author	Koç, İsmail
dc.date.accessioned	2017-01-09T11:37:45Z
dc.date.available	2017-01-09T11:37:45Z
dc.date.issued	2016-01-07
dc.department	Enstitüler, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Ana Bilim Dalı	en_US
dc.description.abstract	Sınıf etiketleri yardımıyla belli bir veri kümesi üzerinden oluşturulan modeller kullanılarak yeni örneklerin hangi sınıfa ait olacağının tahmin edilmesi genel olarak sınıflandırma problemi olarak adlandırılmaktadır. Birçok alanda karşılaşılan bu problemlerin çözümü için farklı disiplinlerde yeni yöntemler üzerine çalışmalar yapılmaktadır. Dolayısıyla her geçen gün yeni yaklaşımlar sunulmakta ve çözüm yöntemleri geliştirilmektedir. Bununla birlikte sınıflandırma başarısının artırılması amacıyla da literatürde farklı teknikler yer almaktadır. Bu tezde veri madenciliğinde kullanılan ve önemli yöntemlerden biri olan özellik seçimi kullanılmıştır. Alt küme seçimi olarak bilinen özellik seçimi makine öğrenmesinde yaygın olarak kullanılan bir yöntemdir. Bu yöntem, veriyi işleme ve analiz etmek için yönetilebilir boyuttaki veriyi azaltan teknikleri ve araçları tanımlayan bir terimdir. Özellik seçimi işleminde, veri kümesinden elde edilen özellik alt kümesi öğrenme algoritması uygulaması için seçilir. En iyi alt küme, çözüm uzayı için en yüksek doğruluk oranına sahip olan en küçük boyutlu veri kümesinden oluşur. Veri kümesindeki geriye kalan önemsiz nitelikler ise yok sayılır. Bu işlem, önemli bir veri ön işleme aşamasıdır. Problemlerde karşılaşılan veriler sürekli veya kesikli (ayrık) veri şeklinde olabilmektedir. Özellikle tahmin modelleri oluşturma çalışmalarında kesikli veri tercih edilmektedir. Bu tercihin sebebi ise ayrık verilerin bilgi düzeyli gösterilebilir olması, bazı işlemler sonrası sadeleştirilmiş olması, anlaşılır ve açıklanabilir olmasıdır. Sürekli verinin kesikli veriye dönüştürülmesi işlemleri genel olarak "veri ayrıklaştırma" olarak tanımlanmaktadır. Ayrıklaştırmanın başarısı hangi algoritmanın kullanıldığına, verinin dağılımına ve sonuç çıkarma modeli gibi parametrelere bağlıdır. Bu tezde optimizasyon algoritmalarının özellik seçimi ve ayrıklaştırma amacıyla kullanılması araştırılmıştır. Dört farklı global erişilebilir veri kümesi üzerinde özellik seçimi, eşit genişlik ve eşit frekansa göre ayrıklaştırma amacıyla Yapay Arı Kolonisi, Guguk Kuşu, Yarasa ve Yerçekimsel Arama algoritmaları kullanılmış olup analiz sonuçları karşılaştırmalı olarak sunulmuştur. Süre analizleri, özellik seçimi sonrası elde edilen özellikler ve ayrıklaştırma sonrası belirlenen ayrıklaştırma sınırlarına ait analizler ise tez kapsamı dışında tutulmuştur. Özellik seçimi işlemlerinde optimizasyon algoritmalarının ikili versiyonu kullanılmış olup ayrıklaştırma işlemlerinde ise algoritmaların sürekli versiyonları kullanılmıştır.	en_US
dc.description.abstract	Prediction of the samples classes using models which are formed through a given data set means of the class labels is generally named as classification problem. In order to solve these kinds of problems encountered in several areas, many researches on novel methods are studied in different disciplines. Therefore, novel approaches have been presented, and solution methods have been developed day by day. Besides, there are different techniques which are used for increasing the classification accuracy in literature. In the thesis, feature selection which is one of the important techniques used in data mining has been utilized. Feature selection known as subset selection is a method which is commonly used in machine learning. This method is a term which defines resources and techniques of decreasing data with manageable dimension for operation and analysis of data. The subset of the features which are obtained from the dataset is selected for the application of the learning algorithm in the feature selection process. The best subset consists of data set with the least dimensions that has the maximum accuracy. The remaining redundant attributes are disregarded. This process is one of the important data preprocessing stages. The data encountered in problems can be in discrete or continuous data form. The discrete data is preferred in the studies in forming prediction models, especially. The reason of this preference can be said that discrete values can be shown as information level, they are summarized in the end of some processes and they are understandable and explicable. The processes transforming continuous data into discrete data are generally described as data discretization. Discretization is a data preprocessing approach used frequently in methods of data mining and machine learning. The success of discretization process is related to the parameters such as the result attainment model, data distribution and which algorithm is utilized. In the thesis, the usage of optimization algorithms in the purpose of feature selection and discretization has been studied. Artificial Bee Colony, Bat, Gravitational Search and Cuckoo Search Algorithms have been used with the intention of feature selection, equal width discretization, equal frequency discretization using four different global available data set and their analysis results have been presented comparatively. However, time analysis and the analysis of both the features obtained by feature selection process and the boundaries obtained by the discretization process are excluded from this thesis. While the binary versions of these algorithms have been used in the processes of feature selection, the continuous versions of them have been utilized in the discretization processes.	en_US
dc.identifier.citation	Koç, İ. (2016). Sınıflandırma problemlerinde meta-sezgisel optimizasyon yöntemlerinin özellik seçimi ve ayrıklaştırma amacıyla kullanımı. Selçuk Üniversitesi, Yayımlanmış yüksek lisans tezi, Konya.	en_US
dc.identifier.uri	https://hdl.handle.net/20.500.12395/3780
dc.language.iso	tr	en_US
dc.publisher	Selçuk Üniversitesi Fen Bilimleri Enstitüsü	en_US
dc.relation.publicationcategory	Tez	en_US
dc.rights	info:eu-repo/semantics/openAccess	en_US
dc.selcuk	20240510_oaig	en_US
dc.subject	Yerçekimi arama algoritması	en_US
dc.subject	Ayrıklaştırma	en_US
dc.subject	Destek vektör makinaları	en_US
dc.subject	Eşit genişlik	en_US
dc.subject	Eşit frekans	en_US
dc.subject	Guguk kuşu arama algoritması	en_US
dc.subject	İkili optimizasyon algoritmaları	en_US
dc.subject	Optimizasyon algoritmaları	en_US
dc.subject	Özellik seçimi	en_US
dc.subject	Yapay arı kolonisi algoritması	en_US
dc.subject	Support vector machines	en_US
dc.subject	Artificial bee colony algorithm	en_US
dc.subject	Bat algorithm	en_US
dc.subject	Binary optimization algorithms	en_US
dc.subject	Cuckoo search algorithm	en_US
dc.subject	Discretization	en_US
dc.subject	Equal frequency	en_US
dc.subject	Equal width	en_US
dc.subject	Optimization algorithms	en_US
dc.subject	Gravitational search algorithm	en_US
dc.subject	Feature selection	en_US
dc.title	Sınıflandırma problemlerinde meta-sezgisel optimizasyon yöntemlerinin özellik seçimi ve ayrıklaştırma amacıyla kullanımı	en_US
dc.title.alternative	Utilization of metaheuristic optimization methods for feature selection and discretization on classification problems	en_US
dc.type	Master Thesis	en_US

Dosyalar

Orijinal paket

Listeleniyor 1 - 1 / 1

İsim:: 418882_removed.pdf
Boyut:: 6.66 MB
Biçim:: Adobe Portable Document Format
Açıklama:: İsmail Koç

İndir

Lisans paketi

Listeleniyor 1 - 1 / 1

İsim:: license.txt
Boyut:: 1.51 KB
Biçim:: Item-specific license agreed upon to submission
Açıklama:

İndir

Koleksiyon

Fen Bilimleri Enstitüsü Tez Koleksiyonu