Olasılıksal Sınıflandırıcılar ile Doğum Öncesinde Trizomi 21

Transkript

Olasılıksal Sınıflandırıcılar ile Doğum Öncesinde Trizomi 21
Olasılıksal Sınıflandırıcılar ile Doğum Öncesinde
Trizomi 21 Risk Hesaplaması
Prenatal Risk Assessment of Trisomy 21 by
Probabilistic Classifiers
Ömer Uzun, Heysem Kaya, Fikret Gürgen
Bilgisayar Mühendisliği Bölümü
Boğaziçi Üniversitesi
İstanbul, Türkiye
{omer.uzun, heysem, gurgen}@boun.edu.tr
Özetçe—Bu çalışma doğum öncesi Down sendromu risk
hesaplaması için makine öğrenimi algoritmalarını kullanarak
olasılıksal bir yöntem sunmaktadır. Girişimsel (invaziv) testleri
azaltmak amacıyla, Down sendromu yüksek riskli sınıfını
belirleme problemi yapay öğrenme bakış açısı ile ele alınmıştır.
Olasılıksal sınıflandırıcı olarak Yalın Bayes ve Bayesçi Ağlar
algoritmaları kullanılmıştır. Çalışmamız, tıbbi alandaki mevcut
yöntemleri göz önüne aldığımızda, makine öğrenimi bakış açısıyla
olasılıksal sınıflandırıcıları kullanması yönüyle bu alandaki ilk
çalışmalardandır. Down sendromu verisi olarak George
Washington Üniversitesi’nden alınan veri kümesi kullanılmıştır.
Ayrıca olasılıksal sınıflandırıcıların performansı makine öğrenimi
alanında
en
yaygın
kullanılan
sınıflandırıcılar
ile
karşılaştırılmıştır.
Gerçekleştirilen
deneylerde
olasılıksal
sınıflandırıcıların Trizomi 21 tahmininde kabul edilebilir başarı
oranı sunduğu ve bu çalışmada önerilen teknikler kullanılarak
tahmin performansının arttırılabileceği görülmüştür.
Anahtar Kelimeler — makine öğrenimi; Down sendromu;
olasılıksal sınıflandırıcı; Yalın Bayes; Bayesçi Ağlar; Trizomi 21
Abstract—This study proposes a probabilistic approach to
evaluate prenatal risk of Down syndrome. In this study, we
address the decision-making problem in diagnosing Down
syndrome from the machine learning perspective aiming to
decrease invasive tests. We employ Naive Bayes and Bayesian
Networks classification algorithms as probabilistic methods. This
probabilistic classification approach is one of the leading work in
medical domain. We use George Washington University dataset
in our study. We also benchmark our probabilistic classifiers with
widely used non-probabilistic classifiers in machine learning
literature. Finally the results of the experiments show that
probabilistic classifiers enable acceptable prediction of Trisomy
21 case and the classification performance can be improved by
using the proposed techniques in this study.
Keywords — machine learning; probabilisitc classifiers; Naive
Bayes; Bayesian Networks; Down syndrome; Trizomi21;
classification
978-1-4673-5563-6/13/$31.00 ©2013 IEEE
Füsun G. Varol
Kadın Hastalıkları ve Doğum A.B.D.
Trakya Üniversitesi
Edirne, Türkiye
[email protected]
I.
GİRİŞ
Down sendromu (DS), diğer adıyla Trizomi 21 insanın 21.
kromozom çiftinde fazladan bir kromozom bulunması sonucu
ortaya çıkan genetik farklılıktır. DS ilk olarak gebelik sırasında
tanımlanabilmektedir [1]. Doğum öncesi DS tanısı tıbbi alanda
önemli bir araştırma konusudur. DS teşhisi için bebek doku
örneklerini kullanarak kesin tanı koyan yöntemler vardır, fakat
her gebede bu girişimsel yöntemleri kullanmak uygun değildir.
Bu yöntemler büyük ölçüde tıbbi bakım maliyetlerini artırmanın yanısıra, bebek için risk teşkil etmektedir. Bu sebeple
öznitelik ve görüntüleme analizleri gibi girişimsel olmayan
yöntemler ile bu gebeler “yüksek risk“ grubunda sınıflandırılabilmektedir. Bu gebeler daha fazla tanısal test ile değerlendirilmektedir. Bu çalışmada, girişimsel testleri azaltmak amacıyla
DS yüksek riskli sınıfını oluşturmak için karar verme
problemleri makine öğrenimi bakış açısı ile ele alınmıştır.
Çalışma kapsamında veri madenciliği alanında en yaygın
kullanılan algoritmalardan Karar Ağacı (Decision Tree), Destek
Vektör Makinesi (Support Vector Machines), Çok Katmanlı
Algılamaç (Multi Layer Perceptron), k Enyakın Komşu (k
Nearest Neighbor) ve özellikle olasılıksal algoritmalar olarak
tanımlayabileceğimiz Yalın Bayes (Naive Bayes) ve Bayesçi
Ağlar (Bayesian Networks) sınıflandırıcıları kullanılmıştır [2].
DS risk hesaplaması için olasılıksal sınıflandırıcılar ile diğer
sınıflandırıcıların performansı duyarlılık, özgüllük, doğruluk ve
ROC değerleri esas alınarak karşılaştırılmıştır.
Medikal alanda yapılan mevcut çalışmalar daha çok basit
istatistik hesaplamaları ile sonuç üretmektedir [3,4]. Bu
çalışmanın ana motivasyonlarından biri makine öğrenimi
algoritmaları ile mevcut yöntemlerden daha yüksek performans
sunacak bir model oluşturmaktır. Çalışma kapsamında daha çok
olasılıksal sınıflandırıcılara yoğunlaşılmıştır. Çalışmanın
devamında, yöntemsel iyileştirmeler ve kullanılan veri kümesi
anlamlı bilgi içeriğinin genişletilmesi ile tahmin performansının
artırılması üzerinde çalışılmıştır.
Makalenin ikinci bölümünde problemin tanımı ve araştırma
soruları, üçüncü ve dördüncü bölümde tasarlanan model ve
modelin adımları anlatılmıştır. Beşinci ve altıncı bölümde ise,
sırasıyla deney sonuçları ve sonuçların yorumları verilmiştir.
II.
PROBLEM TANIM
MI
A. Down sendromu veri kümesi özellikleri
Veri kümesi üzerinde ilk olarak Trizomii 21 tanısı için bizi
sonuca götürecek özel özniteliklerin analiz edilmesi
gerekmektedir. Doğum öncesi tarama veerisi birçok farklı
değişkeni içermektedir. Veri kümesinin bilgi içeriği ve tahmin
faktörlerinin belirlenmesi gerekmektedir.
Makine öğrenimi alanındaki her standart uygulama için veri
kümesinin uygun ön işleme tabi tuttulması, öğrenme
algoritmalarının gereken durumlarda değiştirilmesi ve
sonuçların son işlemle optimize edilmesi gereekmektedir.
adaylarından yazılı izin alınnmış ve tüm süreç kurumsal
inceleme kurulunca onaylanm
mıştır. Bu veri kümesi bu
çalışmada kullanılmak üzere özel
ö
izinle alınmıştır. Medikal
alanda halka açık şekilde bennzer öznitelikleri içeren Down
sendromu veri kümesi yoktur.
B. Kullanılan yöntem
İzlediğimiz yöntem Şekil 1 ile genel olarak gösterilmiştir.
Deney ve sonuçlara yoğunlaşm
mak amacıyla makine öğrenimi
alanında kullandığımız yöntem
mlerin teknik detayı için referans
vererek, burada sadece kullanılm
ma amaçlarını belirteceğiz.
Her medikal veri kümesi gibi kullandığım
mız veri kümesi de
%1 den düşük
pozitiflik ile dengesiz sınıf dağılımı
göstermektedir.
B. Araştırma soruları
Down sendromu verisi özelliklerinnden kaynaklanan
problemleri göz önüne alarak, çalışmaya esass teşkil edecek dört
araştırma sorusu aşağıdaki gibidir:
i. Yeterli bir DS tanı yöntemini nasıl oluuşturabiliriz?
ii. Modelin başarım oranını nasıl arttırabiiliriz?
iii. Olasılıksal bir sınıflandırıcı ile DS tanısı başarılı bir
şekilde yapılabilir mi?
iv. Olasılıksal sınıflandırıcılar mevcut yööntemlerin başarım
oranının üzerine çıkabilir mi?
III.
M
ÖNERİLEN ÇÖZÜM
Çözüm yöntemimizi her bir araaştırma sorusunu
cevaplayarak tasarlayacağız. Ayrıca bu önerilen sistem
doğrultusunda materyal ve yöntemlerimizzi geliştiriyor ve
deneylerimizi gerçekleştiriyor olacağız.
i. İlk sorumuzu makine öğrenimi alanınnda denetimli ikili
sınıflandırma problemi olarak analiz edeceğiiz.
ii. İkinci sorumuzu cevaplandırmak için temel olarak veri
kümemizin anlamlı bilgi içeriğini zenginleşttirip, sonuca etkisi
olmayan öznitelikleri sileceğiz. Ayrıca denggesiz sınıf dağılımı
sorununu bu aşamada çözmeye çalışacağız.
iii. Üçüncü sorumuzun çözümünde Yalınn Bayes ve Bayesçi
Ağlar olasılıksal sınıflandırıcılarından faydallanacağız.
iv. Son sorumuza vereceğimiz yanıtta ise yaygın olarak
kullanılan sınıflandırıcılar ile olasılıksal sınıflandırıcılarımızı
karşılaştıracağız.
IV.
MATERYALLER VE YÖNTEM
A. Kullanılan veri kümesi
Önerdiğimiz yöntemin başarım oranını ölçmek
ö
için George
Washington Üniversitesi’nden aldığımız Doown sendromu veri
kümesi kullanılmıştır [3]. 8216 gebe üzeerinde yapılan bu
çalışmada, her bir örnek 31 özniteliğe sahipptir. Bu öznitelikler
genel olarak anne yaşından, doğum öncesi birinci ve ikinci
trimester dönemlerde anne adayındann alınmış farklı
biyokimyasal serum değerlerinden, anne kaarnındaki bebekten
alınmış ultrasonografik tarama ölçümlerinnden oluşmaktadır.
Ayrıca bütün veri kümesi içerisinde sadecce 61 adet pozitif
örnek bulunmaktadır. Çalışma kapsam
mında tüm anne
Şekil 1. Çalışmada izlennen yöntemin genel akışı
İlk olarak sınıflandırıcı algoritmalarının hesaplama
karmaşıklığını azaltıp, çalışmaa zamanını azaltmak ve verimi
arttırmak adına boyut azaltma ön işlemleri yapılmıştır. Boyut
azaltma tekniği olarak özelliik seçimi ve özellik çıkarımı
yöntemleri kullanılmıştır. Özelllik seçimi yöntemlerinden Karar
Ağacı, Ardışık İleri Yönde Seçiim (Forward Feature Selection),
ve Destek Vektör Makinesi ilee Yinelemeli Öznitelik Elemesi
(Recursive Feature Eliminationn with Support Vector Machine);
özellik çıkarımı algoritmalarınddan ise Temel Bileşenler Analizi
(PCA) kullanılmıştır [5].
Boyut azaltma ön işlemleriine ek olarak literatürdeki diğer
ön işleme yöntemleri uygulannmıştır. Dengesiz sınıf dağılımı
sorununu çözmek amacıyla yeeniden örnekleme (resampling)
teknikleri kullanılmıştır [6,7]. Literatürdeki
L
her iki yöntem de
uygulanmıştır. Fazla örneklemee (oversampling) azınlık sınıfındaki örnekleri çoğaltır ve alt örnekleme (undersampling) ise
çoğunluk sınıfındaki örneklerdeen bazılarını çıkarır.
Örnekleme yöntemleri ile dengesiz
d
dağılımdaki veri kümesinin yapay bir şekilde yenidden dengelenmesi amaçlanmaktadır. Bu sayede veri kümesi içerisinde sınıflandırıcılar için her
iki sınıftan da yeterli örnek bullunmuş olacak ve daha iyi eğitilen sınıflandırıcı algoritması dahha iyi başarım oranı sunacaktır.
Sınıflandırma amacıyla Bayes
B
kuramınını uygulayan
olasılıksal sınıflandırıcılardan ve diğer sık kullanılan yapay
öğrenme algoritmalarından fayydalanılmıştır. Olasılıksal sınıflandırıcılar olarak Yalın Bayess (YB) ve Bayesçi Ağlar (BA)
kullanılmıştır. Diğer grupta isse Karar Ağacı (KA), Destek
Vektör Makinesi (DVM), Çok Katmanlı Algılamaç (ÇKA) ve
k Enyakın Komşu (k-EK) algoritmaları kullanılmıştır. Bu
şekilde literatürdeki farklı algoritmaların en popüler temsilcileri
seçilmiş olmaktadır [2].
Deneyler hem veri kümesi bölme (splitting) hem de çapraz
geçerleme (cross validation) eğitim ve test stratejileri ile
gerçekleştirilmiştir. Basit doğrulama olarak sayabileceğimiz
bölme tekniğinde en yaygın kullanım olan tüm verinin 2/3 ü
eğitim kümesi ve geri kalan 1/3 lük bölümü de test kümesi
olarak kullanılmıştır. İkinci doğrulama yönteminde ise 10 kere
çapraz geçerleme tercih edilmiştir.
Kullanılan yöntemlerin başarımını ölçmek için doğruluk,
duyarlılık ve yanlış pozitiflik oranı (YPO) ölçütleri
kullanılmıştır. Veri kümesinin dengesiz sınıf dağılımı gösterdiği
durumlarda farklı algoritmaların doğru şekilde kıyaslanabilmesi
için sade sayısal değerlerin kullanılması doğru sonuç
vermeyecektir. Bu sebeple ayrıca ROC analizlerinden büyük
oranda yararlanılmıştır [6].
Örnekleme tekniklerine ek olarak son işlem (postprocessing) yöntemlerinin de dengesiz sınıf dağılımı problemi
üzerindeki etkisi incelenmiştir. Bu amaçla eşik değeri
optimizasyonu (threshold optimization) yöntemi uygulanmıştır
[6]. Veri kümesi dengesiz sınıf dağılımı gösterdiğinden,
sınıflandırıcı başarımını farklı eşik ile ölçmek gerekmektedir.
İdeal eşik değeri bulunurken hem duyarlılık hem de yanlış
alarm oranı göz önüne alınmıştır. Denetimli ikili sınıflandırma
durumunda varsayılan eşik değeri 0.5 tir. Varsayılan eşik değeri
değiştirilerek belirli bir düzeyde hata payı artsa da başarım
oranı arttırılmaya çalışılmaktadır.
Çalışma kapsamındaki deneyler Weka [8] kullanılarak
gerçekleştirilmiştir. Deneyler adımında kullanılan alt
parametreler ve algoritmalar belirtilmiştir.
V.
DENEYLER VE SONUÇLAR
Çalışmamızı genel olarak dört soru üzerinde kurgulamıştık,
tutarlı bir çalışma için deneylerimizi de dört ana grupta,
araştırma sorularımızı cevaplayacak şekilde gerçekleştirdik.
A. Deney I: Olasılıksal olmayan sınıflandırıcıları kıyaslama
Olasılıksal olmayan, veri madenciliği alanında en yaygın
kullanılan sınıflandırıcıları karşılaştırarak ilk sorumuza cevap
arayacağız. İlk olarak boyut azaltma deneylerini gerçekleştirdik. Tablo 1 indirgenmiş veri kümelerinin isimlerini ve yeni
öznitelik sayılarını göstermektedir. Örneğin 31 öznitelik
bulunduran asıl veri kümemize KA özellik seçimi yöntemini
uyguladığımızda 7 öznitelikten oluşan “Veri Kümesi 2” isimli
yeni bir veri kümesi elde ediyoruz. Sonraki deneylerde bu
aşamada oluşturduğumuz beş farklı veri kümesini de
kullanacağız. Bu şekilde boyut indirgeme yöntemlerinin
sınıflandırma üzerindeki etkisini ölçeceğiz.
Tablo 1. Boyut indirgeme deney sonuçları
Özellik Seçimi / Özellik Çıkarımı
Boyut İndirgeme
Veri Kümesi 1(asıl)
Veri Kümesi 2
Veri Kümesi 3
Veri Kümesi 4
Veri Kümesi 5
Algoritma
Öznitelik Say.
Yöntem
KA
DVM-YÖE
AİYS
TBA
31
7
9
4
15
Ön işleme yok
Özellik Seçimi
Özellik Seçimi
Özellik Seçimi
Özellik Çıkarımı
İlk grup deney sonucundaki amacımız belirttiğimiz dört
sınıflandırıcıyı kıyaslayarak en yüksek başarımlı algoritmayı
seçmektir. Ardından sonraki deneylerde bu sınıflandırıcıyı
olasılıksal sınıflandırıcılarla kıyaslayacağız. Herbir sınıflandırıcıyı hem veri kümesi bölme hem de 10 kere çapraz geçerleme
stratejileriyle eğitip test ettiğimizde elimizde her sınıflandırıcı
için 10 satır performans kaydı oluşmaktadır. Tablo 2 özet
olarak Tablo 1’de belirtilen beş farklı veri kümesi üzerindeki
en iyi başarım kayıtlarını göstermektedir.
Tablo 2. Olasılıksal olmayan sınıflandırıcıların başarım oranları
Başarım Ölçütleri
Sınıflan
dırıcı
Doğ.
Duy.
YPO
Eğitim&Test
Veri Kümesi
(%)
(%)
(%)
Kıyaslama
k-EK
Bölme
Veri K. 4
99.46
62.50
0.43
k-EK
Çapraz Doğ.
Veri K. 4
99.40
68.75
0.48
DVM
Bölme
Veri K. 2
99.53
75.00
0.39
DVM
Çapraz Doğ.
Veri K. 1
99.44
77.78
0.49
KA
Bölme
Veri K. 4
99.50
66.67
0.40
KA
Çapraz Doğ.
Veri K. 4
99.49
75.68
0.40
ÇKA
Bölme
Veri K. 1
99.57
72.73
0.32
ÇKA
Çapraz Doğ.
Veri K. 2
99.46
75.76
0.44
KA algoritması için Weka J48 algoritması kullanılmıştır.
k-EK sınıflandırıcısı için 3 değeri öklid uzaklığı ile
kullanılmıştır. ÇKA algoritmasındaki alt parametrelerimiz, 1
saklı katman, 10 saklı öğe, 20 devir, 0.3 öğrenme hızı ve
moment 0.2 dir. DVM algoritmasının eğitiminde polinom
çekirdek algoritmasından faydalandık, ceza katsayısı olarak 1
ve tolerans parametresi olarak 0.001 kullandık.
Çalışmamızın asıl amacı gereksiz girişimsel operasyonları
en aza indirmekti, bu sebeple en iyi sınıflandırıcıyı seçerken
temel kriterlerimizi YPO ve Doğruluk olarak belirliyoruz.
Sonuçlara göre algoritmalardan hiç birisi tüm veri setlerinde en
iyi başarımı sağlayamıyor. Fakat ÇKA ve DVM diğer iki
yönteme göre biraz daha öne çıkmaktadır. Herbir veri kümesi
bazında 10 kere çapraz geçerleme sonuçlarından bu iki
algoritmanın ROC eğrisi altında kalan alanları göz önüne
aldığımızda çok az bir farkla daha üstün olduklarını buluyoruz.
Sonuç olarak ÇKA ve DVM yi en iyi başarımlı olasılıksal
olmayan yöntemler olarak seçiyoruz.
B. Deney II: Başarım oranını iyileştirme
İkinci aşamada sınıflandırma başarımını arttırmak için ek
ön işlem ve son işlem teknikleri uygulanmıştır. İlk olarak
yeniden örnekleme ön işlem deneyleri gerçekleştirilmiştir.
Tablo 3 asıl veri kümesi üzerinde fazla örnekleme ve alt
örnekleme tekniklerinin başarım oranlarını göstermektedir.
Sonuçlara göre her iki yöntem için de 3. örneklemeyi ideal
olarak seçiyoruz. Özetle yeniden örnekleme yöntemleriyle
başarım oranlarının anlamlı bir şekilde arttığını görebiliyoruz.
Son işlem deneylerimizde ise farklı eşik değerleri seçerek
sınıflandırıcıların başarım oranlarına olan etkisini inceledik.
Tablo 4 farklı eşit değerlerine karşılık gelen başarım oranlarını
göstermektedir. Sonuçlara göre bizim verimiz için eşik değeri
optimizasyon yöntemi beklendiği gibi bir başarım artışı
sağlamamıştır. Deney II adımındaki tüm deneylerimizi ilk
adım sonunda en başarılı sınıflandırıcı olarak seçtiğimiz DVM
ve 10 kere çapraz geçerleme stratejisi ile gerçekleştirdik.
Tablo 3. Örnekleme yönteminin başarım
m oranları
me
Alt Örneklem
Başarım Or.
# Poz. Örnek
# Neg. Örnek
DPO(%)
YPO(%)
#Poz/#Neg(%)
Başarım Or.
# Poz. Örnek
# Neg. Örnek
DPO(%)
YPO(%)
#Poz/#Neg(%)
1
2
61
8155
69.2
0.53
0.75
61
1000
86.05
2.36
6.10
3
4
61
61
250
500
87.233
88.89
7.588
4.07
24.400
12.20
me
Fazla Örneklem
5
6
61
110
87.04
11.97
55.45
61
70
86.21
15.07
87.14
1
2
3
4
5
6
61
8155
69.2
0.53
0.75
500
8155
87.83
2.45
6.13
1000
8155
88.98
3.84
12.26
20000
81555
89.388
6.100
24.522
4500
8155
89.07
9.83
55.18
7000
8155
89.78
11.36
85.84
Tablo 4. Eşik değeri optimizasyonu deneyy sonuçları
Başarım
Or.
DPO(%)
PO(%)
Eşik Değeri
0.1
0.2
0.3
0.4
0.5
0.6
56.36
0.37
67.50
0.42
69.70
0.46
75.00
0.49
77.78
0.49
77.27
0.54
C. Deney III:Olasılıksal sınıflandırıcılar
Bu kısımdaki deneylerimizde DS veriisi üzerinde Yalın
Bayes ve Bayesçi Ağlar sınıflandırıcılarıını çalıştırdık. İlk
deney grubundaki gibi Tablo 5 olasılıksal sıınıflandırıcılar için
en iyi başarım oranlarını göstermektedir. BA
B algoritmasının
koşullu olasılık tablosunu oluşturmak için
i
Weka BMA
algoritması kullanılmıştır.
Tablo 5. Olasılıksal sınıflandırıcıların başarrım oranları
Sınıflan
Başarım Ölçütleri
dırıcı
Duy.
Doğğ.
Eğitim&Test
Veri Kümesi
(%))
(%)
Kıyası
YB
Bölme
Veri K. 5
99.446
66.67
YB
Çapraz D.
Veri K. 5
99.225
47.62
BA
Bölme
Veri K. 2
99.550
71.43
BA
Çapraz D.
Veri K. 2
99.39
73.91
YPO
(%)
0.47
0.62
0.43
0.54
Sonuçlara göre olasılıksal sınıflanrıcılar DS tanısı için kad
algoritmalara
bul edilebilir başarım oranları sunmakta ve diğer
kıyasla YB çok kısa sürede sonuca varmaktaadır.
D. Deney VI:Olasılıksal ile diğer sınıflandırrıcıların kıyası
Son gruptaki deneylerle olasılıksal sınıflaandırıcılar ile diğer
sınıflandırıcıların karşılaştırılmıştır. Tablo 2 ve Tablo 5 e göre
her sınıflandırıcı farklı ön işlem tekniklerinnde en iyi başarımı
gösteriyor ve sonuçlar birbirine çok yakındır. Karşılaştırmaya
örnek teşkil etmesi için burada Veri Kümesii 5 kullanılarak bir
kıyaslama paylaşılmıştır. Şekil 3 sınıflanddırıcıların başarım
ölçütlerini ve ROC analizini yansıtmaktadır.
ROC analizine göre olasılıksal sınıflanddırıcılarımız benzer
başarım oranı gösteriyorlar ve ROC eğrisi altında
a
kalan alanı
(AUC) baz aldığımızda az bir farkla diğer sınıflandırıcılardan
s
daha başarılıdırlar. Başarım oranları çok yakkın olduğu için bu
aşamada 10 defa 10 kere çapraz geçerleme yaparak
y
sonuçların
istatistiki anlamda farklı olup olmadıklarınnı eşleştirilmiş iki
grup t testi ile incelediğimizde 10 döngünün sadece 3 tanesinde
ÇKA ve sadece 1 tanesinde DVM sınıflanndırıcılarının YPO
ölçütü cinsinden anlamlı farka sahip olduğuunu gördük. Diğer
ölçütler, Doğruluk, AUC ve Duyarlılık içinn ise anlamlı fark
olmadığını gördük.
Şekil 3. Olasılıksal ile diğer sınıflanndırıcıların ROC analizi – Veri K. 5
VI.
DEĞERLENDİRME
Gerçekleştirdiğimiz tüm deeneyler göz önüne alındığında
olasılıksal sınıflandırıcılar ile Down sendromu tanısı kabul
edilebilir başarım oranları ilee yapılabilmektedir. Olasılıksal
sınıflandırıcılar en az diğer veri madenciliği algoritmaları
kadar başarım oranı göstermişttir. Hatta ROC analizlerine göre
AUC ölçütü cinsinden az bir farkla daha başarılıdır.
Çalışmamızı veri kümesini alddığımız çalışmayla kıyaslayacak
olursak, BA ın sonuçları %99..39 Doğ., %73.91 Duy., %0.54
YPO ile bu çalışmadan (%65 Duy.,
D
%5 YPO) daha iyi sonuçlar
üretmiştir [3]. Ayrıca kullandığğımız makine öğrenimi ek teknikleri ile boyut azaltma ve yeeniden örnekleme yöntemlerinin
başarım oranını arttırdığı gösterilmiştir. Özetle bu çalışmada
D
sendromu risk hesaplamaolasılıksal sınıflandırıcılar ile Down
sında Duyarlılık oranını artırıp YPO
Y
oranını düşürerek gereksiz
girişimsel operasyonları en aza indirgemiş oluyoruz.
NAKÇA
KAYN
[1] Khalil, A., Pandya, P., “Screenning for Down syndrome”, J Obstet
Gynaecol India, Vol. 56, No. 3, pp. 205-211, 2006
[2] Wu, X.,Kumar, V.,Quinlan, R.J.,"Top 10 algorithms in data
mining", Springer, Knowl Inff Syst (2008), 14:1-37
[3] Wapner, R., Thom, E., Sim
mpson, J.L., Zachary, J., “FirstTrimester Screening for Trisoomies 21 and 18”, N Engl J Med,
2003;349:1405-13
[4] Varol, F., Özer, Ö., “The asseessment of nuchal translucency and
serum markers for Down syndrome screening with ductus
venosus Doppler measuremennts in the first trimester”, J TurkishGerman Gynecol Assoc 2010;11:194-8
m
learning, MIT Press, 2004
[5] Alpaydin, E., Introduction to machine
[6] Maloof, A. M., “Learning When
W
Data Sets are Imbalanced and
When Costs are Unequal and Unknown", Workshop on Learning
from Imbalanced Data Sets, 2003.
[7] Lessmann, S., B. Baesenns, C. Mues, and S. Pietsch,
“Benchmarking Classificatioon Models for Software Defect
Prediction: A Proposed Fram
mework and Novel Findings", IEEE
Transactions on Software Enngineering, Vol. 34, pp. 485-496,
2008.
D
Software in Java,
[8] WEKA, WEKA 3.7: Datamining
http://www.cs.waikato.ac.nz/m
ml/weka, 2012.

Benzer belgeler

TÜRKİYE ROBOTBİLİM KONFERANSI - (ToRK)

TÜRKİYE ROBOTBİLİM KONFERANSI - (ToRK) Algılanması ve Mesafe Tespiti”, Fatih Gökçe, Göktürk Üçoluk, Erol Şahin ve Sinan Kalkan Bildiri 34 - “Masaüstü Yapı İnşası için Dünya Modeli Oluşturulması”, Arda İnceoğlu, Melodi Deniz Öztürk, Must...

Detaylı