Biyomedikal sinyallerde veri ön-işleme tekniklerinin medikal teşhiste sınıflama doğruluğuna etkisinin incelenmesi
Yükleniyor...
Dosyalar
Tarih
2008
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Selçuk Üniversitesi Fen Bilimleri Enstitüsü
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Bu tez çalışmasında, biyomedikal veri kümelerinin sınıflandırılmasında sınıflama performansını arttırmak için veri ağırlıklandırma ve özellik seçme yöntemleri önerilmiş ve kullanılmıştır. Biyomedikal veri kümelerini sınıflamada sınıflama performansını azaltan bazı etmenler vardır. Bu etmenler gürültü, aykırı değer, lineer olmayan bir veri dağılımına sahip olma gibi durumlardır. Yukarıdaki etmenlere sahip olan veri kümelerinin sınıflama performanslarını arttırmak için çeşitli veri ön-işleme teknikleri kullanılır. Biyomedikal veri kümelerinde, özellik çıkarımından sonra oluşturulan veri setinin boyutu fazla olabilir veya veri setinde ilgisiz/fazla özellikler olabilir. Bu özelliklerin dezavantajları; sınıflama performansını azaltır ve sınıflandırıcının hesaplama maliyetini arttırır. Yapılan çalışmalarda, özellik seçme algoritmaları ile daha yüksek genelleştirme yeteneği ve daha az işlem karışıklığı elde edilmiştir. Bu tez çalışmasında, boyut azaltımı ve özellik seçme algoritması olarak, temel bileşen analizi, bilgi kazancına dayanan özellik seçme algoritması ve Kernel F-skor özellik seçme yöntemleri özelik seçme algoritmaları olarak kullanılmıştır. Bu yöntemler arasında, özellik seçme olarak, bilgi kazancına dayanan özellik seçme algoritması ile Kernel F-skor özellik seçme yöntemi ön plana çıkmaktadır. Boyut azaltımı olarak da temel bileşen analizine ağırlık verilmiştir. Veri ağırlıklandırma yöntemleri olarak, bulanık ağırlıklandırma ön-işleme, k-NN (k-en yakın komşu) tabanlı veri ağırlıklandırma ön-işleme, genelleştirilmiş ayrışım analizi ve benzerlik tabanlı veri ağırlıklandırma ön-işleme yöntemleri medikal veri kümelerini sınıflamada sınıflama performansını iyileştirmek için kullanılmış ve önerilmiştir. Bu tez çalışmasında kullanılan biyomedikal veri kümeleri; kalp hastalığı, SPECT (Single Photon Emission Computed Tomography) görüntüleri ile kalp hastalığı, E.coli Promoter gen dizileri, Doppler sinyali ile damar sertliği (Atherosclerosis) hastalığı, VEP (Görsel Uyarılmış Potansiyel) sinyali ile optik sinir hastalığı ve PERG (Örüntü Retinografisi) sinyali ile Macular hastalığı veri kümeleridir. Bu veri kümeleri içinden, kalp hastalığı, SPECT (Single Photon Emission Computed Tomography) görüntüleri ile kalp hastalığı, E.coli Promoter gen dizileri veri kümeleri, UCI (University of California, Irvine) makine öğrenmesi veritabanından alınmıştır. Doppler sinyali ile damar sertliği hastalığı, VEP sinyali ile optik sinir hastalığı ve PERG sinyali ile Macular hastalığı veri kümeleri ise Fatih Üniversitesi Öğretim Üyesi Prof. Dr. Sadık Kara ve Erciyes Üniversitesi Biyomedikal Mühendisliği ekibi tarafından alınan verilerdir. Veri ön-işleme ve özellik seçme yöntemlerinin performanslarını değerlendirmek için bu yöntemler sınıflama algoritmaları ile hibrid olarak kullanılmışlardır. Kullanılan sınıflama algoritmaları, ANFIS (Adaptif Ağ Tabanlı Bulanık Çıkarım Sistemi), C4.5 karar ağacı, YBTS (Yapay Bağışıklık Tanıma Sistemi), bulanık kaynak dağılım mekanizmalı YBTS ve yapay sinir ağlarıdır. Biyomedikal veri kümelerinin sınıflandırılması sonucunda, veri ağırlıklandırma yöntemleri arasında en iyi sonuçları veren yöntem, k-NN (k- en yakın komşu) tabanlı veri ağırlıklandırma yöntemi olmuştur. Özellik seçme yöntemleri arasında ise temel bileşen analizi diğer özellik seçme yöntemlere göre üstün sonuçlar elde etmiştir. Özellik seçme yöntemleri, veri ağırlıklandırma yöntemleri ile sınıflama algoritmaları birleştirilerek 12 yeni hibrid sistem oluşturulmuş ve bu yeni hibrid sistemler tezde kullanılan 6 medikal veri kümesine uygulanmıştır. Hesaplama maliyeti ve sınıflama performansı açısından her bir medikal veri kümesi için en iyi hibrid model seçilmiştir.
In this PhD. thesis, data weighting and feature selection methods are proposed and used for increasing the performance of classification of biomedical datasets. There are some factors that decrease the classification performance on classification of biomedical datasets. These factors are noise, invalid data, non-linearly separable data distribution etc. Various data pre-processing methods are used to increase the classification performance of medical datasets afflicted above factors. In the biomedical datasets, after feature extraction, the dimension of produced dataset can be huge or biomedical datasets may contain the irrelevant or redundant features. The disadvantages of these features are as follows: they decrease the classification performance and increase the computation cost of classifier. In the conducted studies, higher generalization ability and lesser operational complexity are achieved with feature selection and dimensionality reduction algorithms. In this thesis, principal component analysis, feature selection algorithm based on information gain, and kernel f-score feature selection methods are proposed and used as feature selection and dimensionality reduction algorithms. Among these methods, feature selection algorithm based on information gain and kernel f-score feature selection methods are emphasized. As for the dimensionality reduction process, more weight is given to principal component analysis. As data weighting methods, fuzzy weighted pre-processing, k-NN based weighted pre-processing, generalized discriminant analysis, similarity based weighted pre-processing methods are proposed and used to improve the performance of classifier in classification of biomedical datasets. Among above methods, the proposed data weighted methods are fuzzy weighted pre-processing, k-NN based weighted pre-processing, and similarity based weighted pre-processing methods. In this PhD. thesis, the used biomedical datasets are heart disease, heart disease with SPECT (Single Photon Emission Computed Tomography) images, E.coli Promoter gene sequences, Atherosclerosis disease with Doppler signals, optic nerve disease with VEP (Visual Evoked Potentials) signals, and macular disease with PERG (Pattern Electroretinography) datasets. Among datasets, heart disease, heart disease with SPECT (Single Photon Emission Computed Tomography) images, E.coli Promoter gene sequences datasets are taken from UCI (University of California, Irvine) machine learning database. The other datasets including Atherosclerosis disease with Doppler signals, optic nerve disease with VEP signals, and macular disease with PERG datasets are taken from Prof. Dr. Sadık Kara in Fatih University and biomedical engineering team in Erciyes University. In order to evaluate the performances of data weighting and feature selection methods, these methods are used as hybrid with classifier algorithms. Used classification algorithms are ANFIS (Adaptive Network Based Fuzzy Inference System), C4.5 decision tree classifier algorithm, AIRS (Artificial Immune Recognition Immune System), Fuzzy-AIRS (Artificial Immune Recognition Immune System with Fuzzy Resource Allocation Mechanism) and Artificial neural network. As a result of classifying the biomedical datasets, k-NN based weighted method was the best data weighting method among others. Among feature selection methods, the principal component analysis was superior to other methods. The twelve new hybrid systems was created combining feature selection methods, data weighting methods and classifier algorithms. These novel hybrid systems were applied to six medical datasets used in this thesis. The best hybrid system in terms of computation time and classification performance was chosen for each medical dataset.
In this PhD. thesis, data weighting and feature selection methods are proposed and used for increasing the performance of classification of biomedical datasets. There are some factors that decrease the classification performance on classification of biomedical datasets. These factors are noise, invalid data, non-linearly separable data distribution etc. Various data pre-processing methods are used to increase the classification performance of medical datasets afflicted above factors. In the biomedical datasets, after feature extraction, the dimension of produced dataset can be huge or biomedical datasets may contain the irrelevant or redundant features. The disadvantages of these features are as follows: they decrease the classification performance and increase the computation cost of classifier. In the conducted studies, higher generalization ability and lesser operational complexity are achieved with feature selection and dimensionality reduction algorithms. In this thesis, principal component analysis, feature selection algorithm based on information gain, and kernel f-score feature selection methods are proposed and used as feature selection and dimensionality reduction algorithms. Among these methods, feature selection algorithm based on information gain and kernel f-score feature selection methods are emphasized. As for the dimensionality reduction process, more weight is given to principal component analysis. As data weighting methods, fuzzy weighted pre-processing, k-NN based weighted pre-processing, generalized discriminant analysis, similarity based weighted pre-processing methods are proposed and used to improve the performance of classifier in classification of biomedical datasets. Among above methods, the proposed data weighted methods are fuzzy weighted pre-processing, k-NN based weighted pre-processing, and similarity based weighted pre-processing methods. In this PhD. thesis, the used biomedical datasets are heart disease, heart disease with SPECT (Single Photon Emission Computed Tomography) images, E.coli Promoter gene sequences, Atherosclerosis disease with Doppler signals, optic nerve disease with VEP (Visual Evoked Potentials) signals, and macular disease with PERG (Pattern Electroretinography) datasets. Among datasets, heart disease, heart disease with SPECT (Single Photon Emission Computed Tomography) images, E.coli Promoter gene sequences datasets are taken from UCI (University of California, Irvine) machine learning database. The other datasets including Atherosclerosis disease with Doppler signals, optic nerve disease with VEP signals, and macular disease with PERG datasets are taken from Prof. Dr. Sadık Kara in Fatih University and biomedical engineering team in Erciyes University. In order to evaluate the performances of data weighting and feature selection methods, these methods are used as hybrid with classifier algorithms. Used classification algorithms are ANFIS (Adaptive Network Based Fuzzy Inference System), C4.5 decision tree classifier algorithm, AIRS (Artificial Immune Recognition Immune System), Fuzzy-AIRS (Artificial Immune Recognition Immune System with Fuzzy Resource Allocation Mechanism) and Artificial neural network. As a result of classifying the biomedical datasets, k-NN based weighted method was the best data weighting method among others. Among feature selection methods, the principal component analysis was superior to other methods. The twelve new hybrid systems was created combining feature selection methods, data weighting methods and classifier algorithms. These novel hybrid systems were applied to six medical datasets used in this thesis. The best hybrid system in terms of computation time and classification performance was chosen for each medical dataset.
Açıklama
Anahtar Kelimeler
Sınıflandırma, Özellik seçme, Veri ağırlıklandırma, Medikal veri kümeleri, Hibrid sistemler, Classification, Feature selection, Data weighting, Medical datasets, Hybrid systems
Kaynak
WoS Q Değeri
Scopus Q Değeri
Cilt
Sayı
Künye
Polat, K. (2008). Biyomedikal sinyallerde veri ön-işleme tekniklerinin medikal teşhiste sınıflama doğruluğuna etkisinin incelenmesi. Selçuk Üniversitesi, Yayımlanmış doktora tezi, Konya.