Tıklayınız - Türk İstatistik Derneği

Transkript

Tıklayınız - Türk İstatistik Derneği
Ç NDEK LER
ÖNSÖZ .....................................................................................................................
1
• ktisatta matematik, istatistik ve ekonometri: Tarihsel bir bak
Ercan Uygur ..........................................................................................................
2
• Parametrik ve parametrik olmayan testler üzerine bir çal ma
P nar Esen, Cihan Aksop .....................................................................................
3
• Ard arda örnekleme yönteminde yeni bir tahmin edici
Esra Sat c , Cem Kad lar ......................................................................................
11
• Pearson korelasyon katsay s n n tahmin edicilerinin kar la t r lmas
Hakan Sava% Sazak, Ahmet Can Diker ...............................................................
18
• Güneydo'u Anadolu Bölgesi’ne yap lan kamu yat r mlar n istatistiksel
de'erlendirmesi
Bahar Burtan Do(an, Murat P çak ......................................................................
30
• Parametrik olmayan panel veri modelleri ile uluslararas göçün makro
ekonomik belirleyicileri
Selahattin Güri%, Elif Öztürk ................................................................................
46
• Hisse senedi piyasas çalkant lar için erken uyar sistemi: Türkiye örne'i
Oya Can Mutan, Ayhan Topcu ............................................................................
57
• stanbul ve Erzurum illeri için ya' serileri ile s cakl k serilerinin
modellenmesi ve kestirimin kar la t r lmas
Di(dem Balyam ....................................................................................................
67
• MKB verilerinin bulan k zaman serisi yakla m ile çözümlenmesi
F. Emrah nceo(lu, Erol E(rio(lu, Ufuk Yolcu, Ça(da% Hakan Alada( ...........
78
• FGM kapulalar n konveks kombinasyonlar ve yerel ba' ml l k fonksiyonu
Olcay Bozkurt, smihan Bayramo(lu ..................................................................
89
• Üç de'i kenli Bernoulli da' l m ile türetilen üç de'i kenli geometrik
da' l m
Özge Elmasta% Gültekin, smihan Bayramo(lu .................................................
101
• Basit rasgele örnekleme yönteminde medyan tahmin edicileri
Sibel Al, Hülya Ç ng ............................................................................................
109
• Stokastik oynakl k modellerinde Bayesci çözümleme
Derya Ersel, Yasemin Kayhan At lgan, Süleyman Günay ................................
118
X Kontrol kartlar için Bayesci kontrol s n rlar
Haydar Demirhan, Canan Hamurkâro(lu ...........................................................
127
• Türkiye’deki bo anma nedenleri profilinin veri madencili'i
yöntemlerinden karar a'açlar ile olu turulmas
Mehmet Uysal, Volkan Kat ..................................................................................
136
• Geli tirilmi anahtarlamal bulan k regresyon modelinin alt kümelerin
farkl regresyon modellerine sahip oldu'u durumda bir uygulamas
Duygu çen, Süleyman Günay .............................................................................
142
• Bir ayarlama yöntemi olarak k smi en küçük kareler regresyonu
Esra Polat, Süleyman Günay ...............................................................................
153
•
• Bootstrap yönteminin regresyon analizinde kullan m ve di'er
yöntemlerle kar la t r lmas
Hakan Sava% Sazak, Duygu Okutan ...................................................................
169
• Parametrik lojistik regresyon modelinin yar parametrik alternatifine
kar geçerlilik testi
Özge Akku%, Hüseyin Tatl dil ..............................................................................
180
• Bulan k Risk S n fland rma
Ay%en Apayd n, Furkan Ba%er, Nuray Güneri Tosuno(lu ................................
190
• Aral k uzunlu'unun optimizasyonuna dayal yüksek dereceli bulan k
zaman serisi yakla m
Erol E(rio(lu, Ça(da% Hakan Alada(, Ufuk Yolcu, M. Alper Ba%aran
V. Rezzan Uslu ......................................................................................................
205
• Sa'dan sansürlemenin sa'kal m analizindeki etkisi
Çi(dem Topçu, Fahrettin Aslan ..........................................................................
214
• Random forest ve destek vektör makinas yöntemleri ile gen seçimi ve
s n flama
Erdal Co%gun , Erdem Karabulut, Ergun Karaa(ao(lu .....................................
222
• Voleybol maç sonuçlar n n modellenmesi: Kesikli seçim modelleri ile bir
uygulama
Erkan I% kl , Mehtap Hisarc kl lar ........................................................................
235
• Teknolojik geli me sürecine paralel uygulamal istatistik e'itimi ve
ya ad klar m
F. Zehra Muluk, Emrah Oral .................................................................................
243
• Hazard oran n n testi için uyarlamal düzenler
Yaprak Parlak Demirhan, Sevil Bacanl ..............................................................
254
• Maksimum entropi ilkesi ve Türkiye nüfus veri kümesine uygulamas
rem De(irmenci, Süleyman Günay ....................................................................
260
• Kalite kontrol grafiklerine bulan k yakla m
Ay%en Apayd n, Nilüfer Pekin Alakoç .................................................................
269
• Hayat sigortas irketleri için güvenilir ölüm verileri elde etmeye yönelik
alternatif bir uygulama
Erdem K rkbe%o(lu, Serpil Cula ..........................................................................
278
• Karma emeklilik planlar nda stokastik modelleme ve Türkiye uygulamas
Yasemin 9entürk, Funda Karaman, Ba%ak Bulut, Sema Tüzel ........................
285
• Çoklu azalan ya am tablosu ve emeklilik sistemine bir uygulama
Hatice Tuzgöl, Ömer Esensoy .............................................................................
305
• ki de'i kenli ba' ml birle ik Poisson sürecinin olas l k fonksiyonu
Gamze Özel, Ceyhan nal .....................................................................................
315
• Gamma müdahaleli ödüllü yenileme sürecinin ergodik da' l m n n zay f
yak nsakl '
Rovshan Aliyev, Tahir Khanniyev, Nurgül Okur Bekar .....................................
324
• statistiksel basit do'um sürecine teorik bir yakla m
Seçil Yalaz, Ahmet Kaya, Rojan Arcak ...............................................................
331
• Üçgensel müdahaleli rastgele yürüyü sürecinin momentleri üzerine
Rovshan Aliyev, Zafer Küçük, Tahir Khaniyev ..................................................
337
• Tabakal rastgele örneklemede üstel tahmin ediciler
Nursel Koyuncu, Cem Kad lar .............................................................................
346
• Nadaraya-Watson çekirdek kestiricilerinin yar parametrik model
tahmindeki performans üzerine bir benzetim çal mas
Özge Akku%, Serdar Demir, Hüseyin Tatl dil ......................................................
356
• A' rl kl bilgi kriteri ile Türkiye toplam elektrik tüketiminin öngörüsü
Ça(da% Hakan Alada(, Erol E(rio(lu, Süleyman Günay ..................................
365
• Yapay sinir a'lar ile öngörü kombinasyonu
Erol E(rio(lu, Ça(da% Hakan Alada(, Cem Kad lar, Ufuk Yolcu .....................
374
• Rize Üniversitesi F nd kl Meslek Yüksekokulu ö'rencilerinin sigara içme
al kanl klar
Zeynep Kazanc , Bengü Kabata% ........................................................................
383
• IMDb verilerinin analizi ve karma model tabanl kümeleme uygulamas
Bahar Erar, Gülay Ba%ar r K ro(lu, Ayd n Erar ..................................................
393
• Faktör korelasyonlar n n Cronbach Alpha üzerine etkisi
Fatma Noyan, Gülhayat Gölba% 9im%ek ............................................................
407
• Ba' ml de'i kende ayk r de'er olmas durumunda ANFIS ile parametre
tahmini
Türkan Erbay Dalk l ç, Kamile 9anl Kula, Ay%en Apayd n ...............................
422
• Üstel binom da' l m
Co%kun Ku% ..........................................................................................................
432
• Çok Boyutlu Do'rusal Regresyon Modeli çin LMS Algoritmas ve Uygulamalar
Yasemin Kayhan At lgan, Derya Ersel, Süleyman Günay ................................
445
• Türkiye’de i sizlik oranlar n n temel bile enli regresyon analizi ile
belirlenmesi
Öznur %çi, Atilla Gökta%, Niyazi Çankaya ..........................................................
452
• Ya am çözümlemesinde zay fl k modeli
Nihal Ata, Durdu Karasoy, M.Tekin Sözer ..........................................................
458
• Veri madencili'inde yap sal olmayan verinin analizi:
Metin ve Web madencili'i
M. Özgür Dolgun, Tülin Güzel Özdemir, Doruk O(uz .......................................
467
• Matematikte ba ar üzerine ö'rencilerin kendileriyle ilgili görü leri
brahim Demir, Serpil K l ç ...................................................................................
476
• 2006 y l Türkiye’de ortaö'retim performans n n de'erlendirilmesi
brahim Demir, Özer Depren ...............................................................................
485
• Türk istatistik sisteminin bugünkü durumu
Turhan Mente%, Co%kun Dolanbay .....................................................................
491
• Bir makine sanayinde tedarikçi seçimindeki belirsizli'in bulan k mant kla
modellenmesi
M. Bahar Ba%k r ....................................................................................................
• Bulan k Kümelerde en uygun küme say s n n yapay sinir a'lar ile
belirlenmesi ............................................................................................................
Necati Alp Erilli,Ufuk Yolcu,Erol E(rio(lu,Yüksel Öner, Ç.Hakan Alada(
493
498
• Sinyal seviye ölçümleri için kat ve bulan k kümeleme
Kamile 9anl Kula, Türkan Erbay Dalk l ç, Ay%en Apayd n ...............................
509
• Tabu arama algoritmas nda farkl hareket türlerinin birle tirilmesi
Ça(da% Hakan Alada(,Gülsüm Hocao(lu, Özgür Yeniay .................................
516
• Logaritmik do'rusal modellerde gizli düzey çözümlemesi
Derya Ersel, Yasemin Kayhan At lgan, Süleyman Günay ................................
523
• Tavlama benzetimi yöntemi ile çok yan tl problemlerin optimizasyonu
Ay%en Apayd n, Özlem Türk%en ..........................................................................
531
• Finans analizinde robust optimizasyonu üzerine bir çal ma
Ay%en Apayd n, Gültaç Ero(lu nan ...................................................................
536
POSTERLER
• Kumaraswamy da' l m ve beta da' l m aras ndaki ili ki
Serpil Akta% ...........................................................................................................
547
• Boxplot ve Cook Sapan De'er statistikleri
Seçil Yalaz, Ahmet Kaya ......................................................................................
554
ÖNSÖZ
Alt nc statistik Kongresi’nde sunulan bildirilerin tam metinleri bu kitapta toplanm t r.
Kongreye sunulmu bildirilerin önemli bir k sm n n istatistik problemlerinin çözümüne
yönelik olmas , ülkemizdeki ara t rmac lar n da istatistik bilminin geli mesine katk da
bulundu!unu göstermesi aç s ndan sevindirici olmu tur. Önceki kongrelerde oldu!u gibi bu
kongrede de bulan k mant k yakla m n n, istatistik kuram
ve uygulamalar n n
geli tirilmesinde yayg n olarak kullan ld ! gözlenmi tir. Kongrede dikkat çeken ikinci bir
konu da stokastik süreçler alan ndaki çal malara a! rl k verilmi olmas d r. Di!er bir
gözlemimiz ise, kuramsal çal malar n yan s ra, istatisti!in iktisat ve i letme alanlar ndaki
uygulamalar ile ilgili bildirilerin akademik ve çal ma hayat nda olanlar taraf ndan ilgi ile
izlenmi olmas d r. Bu ba!lamda Ercan Uygur taraf ndan sunulan davetli bildiri, istatisti!in
iktisat bilimi içerisindeki tarihsel maceras n ortaya koymas bak m ndan kongrenin ilgi
toplayan bildilerinin ba nda yer ald . Zehra Muluk’un üniversite y llar nda ara t rma ve
e!itimde kulland ! hesaplama teknolojilerini görsel bir sunumla gerçekle tirmesi,
kat l mc lar n an lar n canlad rmas bak m ndan ilginç ve ak lda kalan sunumlardan biri
oldu.
Bilindi!i gibi bildiri tam metinleri kongre ba lamadan önce yazarlardan istenmi ti. Ancak
bildiri tam metinlerinin kitap haline gelmesi çe itli nedenlerle yakla k yedi ay gibi uzun bir
zaman ald . Kimi bildiriler kongrede sunuldu!u halde tam metinler bize ula t r lmam t . Baz
bildiri metinleri ise bize iletilenler aras ndan ç kmad . Sunulmu bildirlerden bir kaç ise
hakemli dergilere yay mlanmak üzere editörlere gönderilmi olmas sebebiyle yazarlar n
iste!ine ba!l olarak bize gönderilmemi ti. Bu sorunlar n halledilmesi yaz malara ba!l
oldu!undan belli bir zaman ald . Buna ra!men yedi adet bildirinin tam metinleri tüm
hat rlatmalara kar n yazarlar taraf ndan bize gönderilmemi tir.
Bildiri tam metinleri belli bir yaz kal b na uygun olarak yaz lm olmalar na ra!men bir
ço!unda yeniden düzenleme yapmak zorunda kal nd . Ba l klar n ve paragraf biçimlerinin
ayn olmas sa!land . Do!al olarak, yaz lar n içeri!inden do!rudan yazarlar sorumlu olduklar
için yazarlardan herhangi bir düzelme iste!inde bulunulmam t r.
Alt nc Kongre bildirilerinin tam metinlerinin bas lm kopyalar , önceki kongrelerde oldu!u
gibi, istatistik bölümlerine iletilecek ve kongreyi düzenleyen derneklerin Web sitelerinde
bulundurulacakt r. Ara t rmac lar n yararlanmalar n dileriz.
Alt nc statistik Kongresi
Düzenleme Kurulu
1
ktisatta matematik, istatistik ve ekonometri :
Tarihsel bak !
Ercan Uygur
Ankara Üniversitesi
Siyasal Bilgiler Fakültesi
[email protected]
Üniversite düzeyinde iktisat, o zamanki ad yla “politik iktisat”, ilk kez ngiltere’de 1750’li y llarda felsefe,
hukuk, tarih gibi dersler içinde yer almaya ba lad . Avrupa’da ulus devletlerin kuruldu!u ve ayd nlanmac
dönemin ba lad ! bu y llarda politik iktisat ayr bir ders konusu olmad ! ndan, konunun önde
gelenlerinden A. Smith Glasgow Üniversitesine 1751’de önce Mant k sonra Ahlaki Felsefe Profesörü
olarak atanm t . Politik iktisat dersleri ilk olarak ngiltere’de Cambridge ve Oxfod üniversitelerinde
1810’lu y llarda ba lad . lk politik iktisat bölümü ise ABD’de Harvard Üniversitesinde 1871’de aç ld .
statistikteki geli meler de, iktisada benzer ekilde, ulus devletlerin olu umuna ko ut bir seyir izlemi tir. lk
“statistik” dersleri 1750’lerde G. A. Achenwall taraf ndan Almanya’da Göttingen Üniversitesi’nde
verilmi tir, fakat bu dersler bugünkü anlamda istatistik bilgisi de!il, devlet yönetimiyle ilgili bilgiler
içermi tir ve verenler politik iktisatç lard r. 1670’lerde ngiltere’de do!um ve ölüm istatistikleri ile u!ra an
J. Graunt ve W. Petty bugünkü anlamdaki istatisti!in öncüleridir, fakat yapt klar çal malar n o zamanki
ad “politik aritmetik”tir. Giderek olas l k hesaplar n da içeren bu çal malara 1798’de John Sinclair
“istatistik hesaplar” ad n vermi ve istatistik kavram bundan sonra yerle mi tir.
ktisatta matematik ve istatisti!in kullan lmas 1800’lerin ikinci yar s ndan itibaren ba lam t r. Burada
birinci etmen, giderek artan say da iktisatç n n, “iktisad n bir bilim dal haline gelmesi için, matematik ve
istatisti!i kullanabilmesi gerekir” görü üdür. Bu görü teki ilk iktisatç lar aras nda bir yanda W. S. Jevons,
L. Walras ve A. Marshall gibi neoklasik iktisatç lar, bir yanda da K. Marx vard r. Ayn dönemlerde ek
verilerin ve istatistiksel yöntemlerin kullan lmas na Alman Tarihsel ktisat Okulu da çok önem vermi tir.
kinci bir etmen, ayn dönemde istatistiksel yöntemlerin h zl bir geli im göstermesi, bunlar n birçok bilim
dal nda uygulanmas ve Biometrika gibi önemli dergilerin yay na ba lamas d r. En Küçük Kareler yöntemi
ile birlikte korelasyon katsay s 1880’ler sonundan itibaren biyoloji ve psikolojide s kça kullan lm t r.
Özellikle psikolojideki uygulamalar n iktisattaki istatistiksel çal malara örnek olu turdu!u anla l yor.
1800’lerin ikinci yar s ndan ba layarak, daha çok tar msal fiyat ve miktarlarda görülen ini -ç k lar
yan nda, makro-ekonomik dalgalanmalar da gözleniyordu. Do!al olarak iktisatç lar bu dalgalanmalar ve i
döngülerini aç klamaya giri tiler. C. Juglar 1862’de i döngülerini kredilerle aç klad , Jevons 1875’te
“güne lekeleri” adl kuram yla bu döngüleri iklim de!i melerine ba!lad .
döngülerini 1910’larda
ekonomik istatistiklerle aç klayan Mitchell, 1920’de ABD’de kurulan NBER’ n kurucular aras ndad r.
döngüleri konusunda yap lan çal malar, ekonometriye giden yolu dü ünce olarak açt lar, ancak 1929’da
ba layan büyük bunal m öngöremediler. Bu durumda zaman n iktisatç lar , istatistiksel çal malara temel
olu turacak dinamik makroekonomik modeller olu turmaya giri tiler. Bu çerçevede R. Frisch ve J.
Tinbergen’in 1930’larda yapt ! çal malar en önemli katk lard r. Ekonometrik modellerle dalgalanmalar
anlamak, öngörmek ve bunlara uygun politikalar geli tirmek bu dönemin önemli bir heyecan kayna! oldu.
Büyük bunal m, 1930’lar ba nda, Keynes’in de etkisiyle, hem Makroiktisad n, hem de Ekonometrinin
do!u unu haz rlad . Ekonometrinin do!umunda ve geli mesinde Cowles Komisyonlar n n ve Ekonometri
Derne!inin önemli rolü vard r.
1930’larda ve 1940’larda istatistik, ekonometri ve iktisat içinde da! l mlar yoluyla daha geni olarak yer
ald . Ekonometrik model de!i kenlerinin verilerinin bir olas l k da! l m ndan gelen örneklem de!erleri
oldu!u aç klamas , ilk kez T. Haavelmo’nun Econometrica’da 1944’te yay nlanan makalesinde yer ald .
Ayn dönemde, Frisch’in öncülü!ünde zaman serisi modellemesinde de geli meler vard r. Bugün
geldi!imiz noktada ise, dinamik ve olas l ksal optimizasyon yöntemleri ba ta olmak üzere, iktisatta yo!un
matematik, istatistik ve ekonometri kullan m n n iktisat içinden ele tiriler ald ! n da belirtmemiz gerekir.
2
Parametrik ve parametrik olmayan testler
üzerine bir çal !ma
P nar Esen
Cihan Aksop
Gazi Üniversitesi, statistik Bölümü
06100-Be#evler, Ankara, Türkiye
[email protected]
Gazi Üniversitesi, statistik Bölümü
06100-Be#evler, Ankara, Türkiye
[email protected]
Özet
Literatürde, varsay mlar n sa!lanmams durumunda parametre-d yöntemlerin kullan m sunulmu tur. Bu çal mada,
parametrik teste göre red edildi!i bilinen bir hipotezin parametrik testle de red edilmesi olas l ! incelenmi tir.
Anahtar sözcükler: t testi, Wilcoxon-Mann-Whitney testi, Welch testi, parametred
testler, simülasyon
Abstract
A Study on Parametric and Non-Parametric Tests
In the literatur, using nonparametric tests is presented as a crucial method when the assumptions of parametric test are not
hold. In this paper, we study the probability of rejecting (not rejecting) a test with a non-parametric test when the result of
parametric test was given.
Keywords: Nonparametric test, t test, Welch test, Wilcoxon-Mann-Whitney test, simulation
1. Giri!
ki y ! n n konum parametrelerinin kar la t r lmas nda t testi çok s k kullan lan parametrik
bir testtir. Fakat varsay mlardaki bozulmalara kar hassasl ! parametre d alternatifleri
kullanmaya zorlamaktad r. ki y ! n n konum parametresinin kar la t r lmas nda en s k
kullan lan iki parametre d test Welch[1] ve Wilcoxon-Mann-Whitney [2-3] testleridir.
Kar la t r lan iki y ! n n varyanslar n n e it olmamas ve normal da! l m varsay m ndan
sapmalara kar Zimmerman ve Williams [4], Gans [5], Murphy [6], Snedecor ve Cochran
[7]' n elde etikleri sonuçlar Perry [8] taraf ndan u ekilde özetlenmi lerdir:
1. t testi da! l mlar simetrik ve varyanslar e itken robusttur.
2. Welch testi da! l mlar simetrik ve varyanslar farkl iken robusttur.
3. Wilcoxon-Mann-Whitney testi da! l mlar asimetrik ve varyanslar e it iken robusttur.
Bu özelliklerine ra!men, özellikle hesaplama zorluklar nedeniyle uygulamada parametred
testlerden kaç n l r ve gerek limit durumundaki da! l m özellikleri ve gerekse baz
dönü ümler yard m yla t testine ili kin varsay mlar sa!lat lmaya çal larak, t testi kullan l r.
3
Bu çal mada varsay mlar n sa!lan p sa!lanmad ! na bak lmaks z n t testi ile iki y ! n n
konum parametresine ili kin yap lacak testlerde, çok uç de!erler ile (0 veya 1'e çok yak n p
de!erleri ile) hipotezin red edilmesi veya edilememesine ra!men yine de parametre d
testleri kullanmak gerekli midir, sorusu yan tlanmaya çal lacakt r.
2. Yöntem
X1, X2, …, Xn ve Y1, Y2, …, Ym s ras yla P1 ve P2 ortalamal Q12 ve Q22 varyansl iki rastgele
örnek olsunlar. Verilmi bir S anlaml l k de!erinde H0: P1 = P2 hipotezini H1: P1 U P2
hipotezine kar s namak istedi!imizi dü ünelim. Bu hipotez testi için kullan labilecek olan
test istatistikleri
1. t testi
2. Welch testi
3. Wilcoxon-Mann-Whitney testi
dir. Buna göre s ras yla t testi, Welch tesi ve Wilcoxon-Mann-Whitney testleri için | t | > t2/2,
n+m-2 , | tw | > tS/2, df
ve |z| > zS/2 kritik bölgeleri kullan l r. Bu kritik bölgeleri s ras yla C1, C2 ve C3 ile gösterirsek,
bu çal mada P{ t C1 | tw C2}, P{ t C1| z C3}, P{ tw C2| t C1}, P{ tw C2| z
C3},
4
P{ z C3| t C1} ve P{ z C3| tw C2} ko ullu olas l k de!erleri simülasyon çal malar yla
elde edilmi ve sonuçlar yorumlanm t r.
4. Sonuçlar
Simülasyaon çal mas için normal, ki-kare ve üstel da! l mlar ndan çe itli örnek hacimlerinde veri
üretilmi tir. Daha sonra üretilen veri yard m yla kullan lan test istatistiklerinin ko ullu olas l klar
hesaplanm t r. Her bir olas l k hesab için 2000’er örnek kullan lm ve bu amaçla bir OCTAVE
program haz rlanm t r.
Tablo de!erleri yorumunda d tablo kullan lan test istatistiklerini ve da! l mlar belirtmektedir. Buna
göre Çizelge 1’de t testi ko ulda kullan lm ve sat rlarda s ras yla normal, ki-kare ve üstel da! l mlar
kullan lm t r. ç tablolarda ise sat rlar ko ulda kullan lan anlaml l k düzeylerini, sat rlar ise ilgilenilen
test istatisti!ine göre kullan lan anlaml l k düzeylerini vermektedir. Buna göre Çizelge 1’den t testine
göre anlaml l k düzeyi 0.05 iken ortalamalar n e itli!ine ili kin hipotez, standart normal da! l ml
30’ar hacimli örnekler kullan lmas durumunda red edildi!i biliniyorsa, ayn durumda Welch
istatisti!i ile hipotezin red edilmesi olas l ! 0.45’dir.
Çizelge 1. t test istatisti!i verilmi ken di!er test istatistikleri ile ko ullu da! l m .
t testi P( . | t)
Welch
N1=N2=30
X~N(0,1)
Y~N(0,1)
0.05
0.025
0.01
0.05
0.74
0.92
0.97
1
0.025
0.42
0.72
0.93
0.41
1
0.01
0.18
0.45
0.67
0.05
0.025
0.01
0.05
0.25
0.01
0.05
1
1
1
0.05
0.72
0.90
0.98
0.025
0.58
1
1
0.025
0.46
0.71
0.85
0.01
0.19
0.47
1
0.01
0.17
0.42
0.70
0.05
0.025
0.01
0.05
0.025
0.01
0.05
1
1
1
0.05
0.68
0.82
0.87
0.025
0.48
1
1
0.025
0.41
0.67
0.89
0.01
0.20
0.37
1
0.01
0.19
0.26
0.48
0.05
0.025
0.01
0.05
1
1
1
0.025
0.45
1
0.01
0.18
N1=N2=30
X~Ki-kare
5
Y~Ki-kare 5
N1=N2=30
X~Üstel
Y~Üstel 5
5
Wilcoxon-Mann-Whitney
5
Çizelge 2. t istatistik de!eri verilmi ken di!er istatistiklerin ko ullu da! l mlar
T testi P( . | t)
Welch
N1=N2=30
X~N(0,1)
Y~N(1,1)
0.05
0.025
0.01
0.05
1
1
1
0.025
0.96
1
0.01
0.92
0.05
0.025
0.01
0.05
0.99
0.99
0.99
1
0.025
0.97
0.99
0.99
0.94
1
0.01
0.93
0.95
0.96
0.05
0.025
0.01
0.05
0.025
0.01
0.05
1
1
1
0.05
0.97
0.99
0.99
0.025
0.92
1
1
0.025
0.92
0.97
0.99
0.01
0.80
0.86
1
0.01
0.80
0.87
0.96
0.05
0.025
0.01
0.05
0.025
0.01
0.05
1
1
1
0.05
0.87
0.95
0.96
0.025
0.70
1
1
0.025
0.71
0.85
0.95
0.01
0.42
0.59
1
0.01
0.46
0.60
0.79
N1=N2=30
X~Ki-kare
5
Y~Ki-kare 8
N1=N2=30
X~Üstel
5
Y~Üstel 8
Wilcoxon-Mann-Whitney
Çizelge 3. Welch istatistik de!eri verilmi ken di!er istatistiklerin ko ullu
da! l mlar
Welch testi P( . | Welch)
t testi
N1=N2=30
X~N(0,1)
Y~N(0,1)
Wilcoxon-Mann-Whitney
0.05
0.025
0.01
0.05
0.025
0.01
0.05
0.99
1
1
0.05
0.73
0.92
0.97
0.025
0.44
1
1
0.025
0.42
0.72
0.93
0.01
0.17
0.41
1
0.01
0.18
0.45
0.67
6
N1=N2=30
X~Ki-kare 5
Y~Ki-kare 5
0.05
0.025
0.01
0.05
0.025
0.01
0.05
1
1
1
0.05
0.72
0.90
0.88
0.025
0.52
0.98
1
0.025
0.46
0.70
0.85
0.01
0.18
0.44
0.96
0.01
0.17
0.39
0.67
0.05
0.025
0.01
0.05
0.025
0.01
0.05
0.98
1
1
0.05
0.68
0.82
0.87
0.025
0.46
0.97
1
0.025
0.40
0.66
0.89
0.01
0.18
0.33
0.86
0.01
0.17
0.25
0.46
N1=N2=30
X~Üstel
5
Y~Üstel 5
Çizelge 4. Welch istatistik de!eri verilmi ken di!er istatistiklerin ko ullu
da! l mlar
Welch testi P( . | Welch)
t testi
N1=N2=30
X~N(0,1)
Y~N(1,1)
0.05
0.025
0.01
0.05
0.025
0.01
0.05
0.99
1
1
0.05
0.99
0.99
0.99
0.025
0.96
1
1
0.025
0.97
0.99
0.99
0.01
0.092
0.94
0.99
0.01
0.93
0.95
0.98
0.05
0.025
0.01
0.05
0.025
0.01
0.05
0.99
1
1
0.05
0.92
0.97
0.99
0.025
0.92
0.99
1
0.025
0.92
0.97
0.99
0.01
0.79
0.86
0.99
0.01
0.80
0.87
0.96
0.05
0.025
0.01
0.05
0.025
0.01
0.05
0.96
1
1
0.05
0.87
0.94
0.96
0.025
0.68
0.97
1
0.025
0.70
0.84
0.95
0.01
0.39
0.54
0.94
0.01
0.43
0.58
0.77
N1=N2=30
X~Ki-kare 5
Y~Ki-kare 8
N1=N2=30
X~Üstel
Y~Üstel 8
5
Wilcoxon-Mann-Whitney
7
Çizelge 5. Wilcoxon-Mann-Whitney
istatistiklerin ko ullu da! l mlar
istatistik
de!eri
verilmi ken
di!er
Wilcoxon-Mann-Whitney texti P( . | Wilcoxon-Mann-Whinet)
t testi
N1=N2=30
X~N(0,1)
Y~N(0,1)
0.05
0.025
0.01
0.05
0.025
0.01
0.05
0.73
0.91
1
0.05
0.73
0.91
1
0.025
0.40
0.69
0.93
0.025
0.40
0.69
0.93
0.01
0.15
0.38
0.53
0.01
0.15
0.38
0.53
0.05
0.025
0.01
0.05
0.025
0.01
0.05
0.69
0.95
1
0.05
0.69
0.95
1
0.025
0.45
0.62
0.90
0.025
0.45
0.62
0.92
0.01
0.14
0.40
0.56
0.01
0.14
0.41
0.56
0.05
0.025
0.01
0.05
0.025
0.01
0.05
0.70
0.85
1
0.05
0.71
0.88
1
0.025
0.38
0.62
0.92
0.025
0.38
0.63
0.97
0.01
0.19
0.29
0.48
0.01
0.20
0.31
0.54
N1=N2=30
X~Ki-kare 5
Y~Ki-kare 5
N1=N2=30
X~Üstel
Y~Üstel 5
5
Welch
8
Çizelge 6. Wilcoxon-Mann-Whitney istatistik de!eri verilmi ken di!er istatistiklerin
ko ullu da! l mlar
Wilcoxon-Mann-Whitney testi P( . | Wilcoxon-Mann-Whitney)
t testi
N1=N2=30
X~N(0,1)
Y~N(1,1)
0.05
0.025
0.01
0.05
0.98
0.99
1
0.025
0.93
0.96
0.01
0.86
0.05
0.025
0.01
0.05
0.98
0.99
1
0.99
0.025
0.93
0.96
0.99
0.88
0.93
0.01
0.86
0.88
0.93
0.05
0.025
0.01
0.05
0.025
0.01
0.05
0.96
0.99
0.99
0.05
0.96
0.99
0.99
0.025
0.89
0.94
0.99
0.025
0.89
0.94
0.99
0.01
0.75
0.81
0.90
0.01
0.75
0.81
0.90
0.05
0.025
0.01
0.05
0.025
0.01
0.05
0.79
0.92
0.99
0.05
0.80
0.93
0.99
0.025
0.58
0.76
0.93
0.025
0.58
0.77
0.94
0.01
0.36
0.49
0.73
0.01
0.37
0.50
0.75
N1=N2=30
X~Ki-kare 5
Y~Ki-kare 8
N1=N2=30
X~Üstel
Y~Üstel 8
5
Welch
Çizelgedeki de!erler incelendi!inde hemen görülmektedir ki ko ulda kullan lan kritik bölgeye
ili kin anlaml l k düzeyi, incelenilen istatisti!in kritik bölgesini olu turmada kullan lan
anlaml l k düzeyinden dü ük ise, bu olas l k de!erleri çok yüksek olmaktad r. Ayr ca bütün
tablolardan görülmektedir ki; t testi ve Welch testi kullan larak hesaplanan ko ullu olas l klar,
t testi ve Wilcoxon-Mann-Whitney testleri ile hesaplananlardan daha yüksektir. Welch testi ve
Wilcoxon-Mann-Whitney istatistikleri kullan larak elde edilen ko ullu olas l k de!erlerinin
çok küçük olmamas bir anlamda Welch testinin t testi ile wilcoxon-Mann-Whitney testleri
aras nda bir role sahip oldu!unu sezdirmektedir. Bu nedenle çal malarda Welch testi ile
hipotez testlerini gerçekle tirip, sonucun t testi ve Wilcoxon-Mann-Whitney testleri ile de
ayn olma olas l ! n n çok yüksek olaca! göz önünde tutularak, hipoteze ili kin yorumlar
yap labilir.
9
Kaynaklar
[1] B. L. Welch (1947), The generalization of “student's” problem when several different
population variances are involved, Biometrika, 34, 28-35.
[2] F. Wilcoxon (1945), Individual comparisons by ranking metjods, Biometrics Bulletin,
1, 80-83.
[3] H. B. Mann, D. R. Whitney (1947), On a test of whether one of two random variables
is stochastically larger than the other, Annals of Mathematical Statistics, 18, 50-60.
[4] D. W. Zimmerman, R. H. Williams (1989), Power comparisons of the student t-test
and two approximations when variances and sample sizes are unequal, Journal of
Indian Society Agricultural Statistics, 41 (2), 206-217.
[5] D. J. Gans (1981), Use of a preliminary test in comparing two sample means,
Communication in Statistics B, Simulation and Computation, 10 (2), 163-174.
[6] B. P. Murphy (1976), Comparison of some two sample means tests by simulation,
Communication in Statistics B, Simulation and Computation, 5(1), 23-32.
[7] G. W. Snedecor, W. G. Cochran (1967) Statistical methods, Ames, Iowa: The Iowa
State University Press.
[8] K. T. Perry (2003), A critical examination of the use of preliminary tests in twosample tests of location, Journal of Modern Applied Statistical Methods, 2 (2), 314328.
10
Ard arda örnekleme yönteminde yeni bir tahmin edici
Esra Sat c
Cem Kad lar
Hacettepe Üniversitesi
statistik Bölümü
[email protected]
Hacettepe Üniversitesi
statistik Bölümü
[email protected]
Özet
Ard arda örnekleme yöntemi, ortalama gibi kitle karakteristiklerinin daha etkin tahminlerini elde etmek için,
s kl kla kullan lan bir yöntemdir. Bu yöntemde, güncel ara t rma tahminlerinin elde edilmesinde daha önceki
ara t rma bilgileri birlikte kullan l r. Bu çal mada, iki a amal ard arda örnekleme yönteminde ikinci
ara t rma kitle ortalamas tahmini için yeni bir tahmin edici önerilmi tir. Önerilen tahmin edicinin hata
kareler ortalamas elde edilmi ve Singh (2005) tahmin edicisi ile teorik olarak kar la t r lm t r. Hangi
ko ul alt nda önerilen tahmin edicinin daha etkin oldu!u gözlenmi tir. Ayn zamanda optimum yenileme
ilkesi de incelenmi tir.
Anahtar sözcükler: Ard arda örnekleme yöntemi, oransal tahmin edici, hata kareler ortalamas:, optimum
yenileme ilkesi
Abstract
A new estimator in successive sampling
Successive sampling has been extensively used to provide more efficient estimates of population
charecteristics such as mean. In successive sampling, it is common practice to use the information collected
on a previous occasion to improve the precision of the estimates at current occasion. In this study, a new
estimator has been proposed for estimating the population mean at second (current) occasion in the two
occasion successive sampling. The mean square error expression for the proposed estimator has been
obtained and compared theoratically with estimator in Singh (2005). By this way, we show the efficient
condition for the proposed estimator. Optimum replacement policy is also discussed.
Keywords: Successive sampling, ratio estimator, mean square error, optimum replacement policy.
1. Giri!
Örnekleme yapman n amac inceleme konusu olan kitle hakk ndaki veriyi daha az zamanda ve daha az
maliyet ile elde etmektir. Örnekleme yöntemlerinin teori ve uygulamalar son y llarda büyük bir
geli me göstermi tir. Örneklemenin kullan m artt kça ortaya ç kan verileri analiz edip yorumlamak
için farkl yöntemlere ihtiyaç duyulmu tur. Örnekleme kuram nda iki süreçten bahsedilir. lk süreç,
seçim sürecidir. En temel örnekleme yöntemi, basit rasgele örnekleme (BRÖ) yöntemidir. kinci süreç
ise tahmin sürecidir. Seçim sürecinde kullan lan yönteme göre parametreler tahmin edilir.
Ara t rman n konusuna göre, daha az hata ile parametre tahmini yapabilmek için farkl örnekleme
planlar kullan lm t r. Bunlardan biride ard arda örnekleme yöntemidir. Ard arda örnekleme
yönteminde, kitle birimleri, takip eden ara t rmalarda de!i miyor ise, önceki ara t rma verileri son
ara t rma kitle parametre tahminleri için kullan lmaktad r. Bu durum, ara t rmac ya maliyet, zaman ve
emek tasarrufu sa!lamaktad r. Bu yöntemde önemli olan, daha önceki ara t rmadan ne kadarl k bir
örneklemin güncel ara t rmaya dahil edilece!i ve ayn zamanda son ara t rmada, dahil edilen
örneklemden ba ka ne kadarl k bir örneklemin yeniden incelenece!idir. Literatürde buna “optimum
yenileme ilkesi” (optimum replacement policy) denilmektedir.
11
Ard arda örneklem yöntemi, tar m ile ilgili bir ara t rmada, Jessen (1942)’in daha önce yap lm
ara t rma bilgilerini kullanmas yla gündeme gelmi tir. Daha sonra teorisi farkl ara t rmac lar
taraf ndan geli tirilmi tir. Bilindi!i gibi, örnekleme teorisinde yard mc de!i ken bilgisinden s kl kla
yararlan lmaktad r. lgilenilen de!i ken ve yard mc de!i kenin özelliklerine göre, oransal veya
regresyon tahminleri kullan larak, basit tahminden daha duyarl sonuçlar elde edilebilmektedir.
Dolay s yla, ard arda örnekleme yönteminde de yard mc de!i ken bilgisinden yararlan lan çal malar
mevcuttur. Singh ve Singh (2001) son ara t rmada da yard mc de!i ken bilgisini kullanarak ard arda
örnekleme yönteminde, ikinci ara t rma kitle ortalamas tahmini için yeni bir çal ma sunmu lard r.
Singh (2005) ard arda iki ara t rmada seçilen örneklemlerden, son ara t rman n kitle ortalamas n
tahmin edebilmek için her iki ara t rman n yard mc de!i ken bilgisinden yararlanarak, zincirlemeoransal tahmin edici sunmu tur. Buna benzer biçimde, Singh ve Priyanka (2008) son ara t rma kitle
ortalamas tahmini için zincirleme fark ve regresyon tipi tahmin edicileri sunmu lard r.
2. Literatürdeki tahmin ediciler
U=(U1, U2,…,UN) N elemanl sonlu kitleden, iki ara t rma için örneklem çekilmektedir. Birinci
ara t rmada ve ikinci ara t rmada çal lan de!i ken, s ras yla X ve Y’dir. Z, kitle ortalamas bilinen
yard mc de!i kendir. lk ara t rmada, yerine koymadan basit rasgele örnekleme ile n birimlik
örneklem çekilir. Buradan rasgele m=na kadar bir k s m ikinci ara t rmada kullan lmak üzere ayr l r
(match: e le tirilen k s m). kinci ara t rmada ise, kalan N-n birimden u=n-m=nµ birimlik yeni
örneklem yerine koymadan basit rasgele örnekleme ile çekilir. Sonuç olarak, ilk ara t rmada ayr lan
k s m da dahil edilince, ikinci ara t rmada örneklem büyüklü!ü n olur. Burada a, e le tirme oran
(fraction of matched) ve µ, ikinci ara t rmada yeni örneklem oran (fraction of fresh samples at the
second_current occasion) olarak adland r lmaktad r.
Singh (2005), ikinci ara t rma kitle ortalamas , Y , tahmini için, iki tane ba! ms z tahmin ediciye ba!l
yeni bir tahmin edici önermi tir. Bunlardan birincisi ikinci ara t rmada yeni çekilen u(=nµ)
örneklemini temel alan,
T1s =
yu
Z
zu
(1)
oransal tahmin edicisidir. kinci tahmin edici ise, iki ara t rman n ortak m(=na) birimlik örneklem
parças n esas alan a a! daki zincirleme oransal tahmin edicidir:
T2s =
ym x n
Z.
x m zn
(2)
Burada x n , z n , y m , x m , y u , z u ise, alt indislerde gösterilen örneklem büyüklüklerinde de!i kenlerin
örneklem ortalamalar d r.
Sonuç olarak bu iki tahmin edicinin do!rusal kombinasyonu ile ard arda örnekleme yönteminde Y
için a a! daki tahmin ediciye ula lm t r:
Ts = T1s + (1
)T2s .
(3)
Burada , T tahmin edicisinin hata kareler ortalamas n minimum yapan bilinmeyen bir sabittir.
Kitlenin yeterince büyük oldu!u (N e) varsay m alt nda, düzeltme terimi ihmal edilerek Ts tahmin
edicisinin yan ve hata kareler ortalamas (:HKO) a a! da verildi!i gibidir:
Yan (Ts ) = Yan (T1s ) + (1
(4)
)Yan (T2s )
12
ve
2
HKO(Ts ) =
HKO(T1s ) + (1
)2 HKO(T2s ) .
(5)
Burada,
Yan (T1s ) =
(
Y 2
Cz
u
),
(
1
m
Yan (T2s ) = Y
HKO(T1s ) =
yz C y C z
1
C 2x
n
(
Y2 2
C y + C 2z
u
(6)
yx C y C x
2
yz C y C z
)+ 1n (C
2
z
yz C y C z
),
(7)
)
(8)
ve
C 2y
HKO(T2s ) = Y 2
m
(
1
m
+
1
C 2x
n
2
yx C y C x
) + n1 (C
2
z
2
yz C y C z
)
(9)
göstermektedir.
’e göre minimum HKO e itli!ine, optimum
S ras yla
opt .
opt
=
de!erinin E .(5)’de yerine konulmas yla ula l r.
de!eri ve buna ba!l minimum HKO a a! da verildi!i gibidir:
HKO(T2s )
HKO(T1s ) + HKO(T2s )
(10)
ve
(A + C)
)
+ (A + C )(B C )µ
.
n[(A + C ) + (B C )µ 2 ]
HKO(Ts ) min . =
2
(
Burada A = Y 2 C 2y , B = Y 2 C 2x
2
yx C y C x
)
(
ve C = Y 2 C 2z
daha basit hale getirmek için, 1 = A + C ve
optimal de!eri a a! daki gibi elde edilmi tir:
µˆ =
1
m
2
1
+
1
2
(1
=
2
yz
(11)
2
yz C y C z
)
göstermektedir. Formülü
= B C gösterimleri kullan lm ve buradan µ ’nün
) m (1
(
yz
2
yz
yx
)
)(1
yx
)
= µ0
(12)
µ̂ , E .(11)’de yerine yaz ld ! nda
HKO(T) min . =
2
1
n
[
+
1
+
1
2µ 0
2
2µ0
(13)
]
e itli!i elde edilir.
13
3. Önerilen tahmin edici
Bu çal mada, ard arda örnekleme yönteminde, ikinci ara t rmada kitle ortalamas tahmini için,
Kad lar ve Ç ng (2004) çal mas nda BRÖ’de kitle ortalamas tahmini için önerilen tahmin edici ve
klasik zincirleme oransal tahmin edici esas al narak yeni bir tahmin edici önerilmi tir.
Buna göre ilk olarak u örneklemine dayal birinci tahmin edici olarak, Kad lar ve Ç ng (2004)
çal mas nda önerilen a a! daki tahmin edici al nm t r:
T1 =
y u + b yz ( Z z u )
zu
Z.
(14)
Burada y u , z u alt indislerde gösterilen örneklem büyüklüklerinde ilgili de!i kenlerin örneklem
s yz
ortalamalar n , b yz = 2 ; s 2z yard mc de!i kene ait örneklem varyans n ve s yz yard mc de!i ken ve
sz
ilgilenilen de!i ken aras ndaki örneklem kovaryans n göstermektedir. b yz = 0 oldu!unda, E .(14)’de
verilen tahmin edici, E . (1)’de verilen bilinen oransal tahmin ediciye e it olmaktad r.
lk ara t rmada ayr lan m birimlik örnekleme dayal ikinci tahmin edici ise, Singh (2005) tahmin
edicisinde de kullan lan E .(2) ile tan mlanan, T2s, klasik zincirleme oransal tahmin edicisidir.
T1 ve T2s tahmin edicilerinin do!rusal kombinasyonu ile, ard arda örnekleme yönteminde, ikinci
ara t rma kitle ortalamas , Y , tahminine ula l r,
Töneri = T1 + (1
)T2s .
(15)
Teorem 3.1. Töneri tahmin edicisinin HKO’ ,
HKO(Töneri ) =
2
) 2 HKO(T2s ) .
HKO(T1 ) + (1
(16)
Sy
Sx
S
, Cy =
, C z = z olmak üzere, sonsuz büyüklükte bir kitle ile çal ld !
X
Y
Z
varsay m alt nda (N e),
Burada, C x =
HKO(T1 ) =
[
Y2 2
C z + C 2y (1
u
2
yz )
]
(17)
ve HKO(T2s ) E . (9)’da verildi!i gibidir.
Tan:t: T1 ve T2 s tahmin edicileri ba! ms z örneklemlere dayanmaktad r, dolay s yla HKO(Töneri )
ifadesinde kovaryans terimi s f rd r. Buna göre,
HKO(Töneri ) =
2
HKO(T1 ) + (1
) 2 HKO(T2s )
olur. HKO(T1 ) ve HKO(T2s ) birinci dereceden Taylor yakla m kullan larak elde edilebilir. Buna
göre, HKO(T1 ) ’in elde edili i a a! da gösterilmi tir.
14
h (Y1 , Y2 ) = h ( y u , z u ) = T1
T1
=1
y u Y,Z
T1
zu
(T1
=
Y ,Z
b yz +
Y ) = (y u
Y
Z
Y)
b yz +
Y
(z u
Z
Z)
2
(T1 Y ) = (y u Y ) b yz + Y (z u Z)2
Z
(her iki taraf n beklenen de!erini al rsak)
2
E (T1
2
Y ) = HKO(T1 ) = V(y u )
2
B yz
Y
+
Z
2 b yz +
2
Y
(y u
Z
V(z u ) 2 B yz +
Y )(z u
Z)
Y
Cov(y u , z u )
Z
1 2
Sy
u
1
V( z u ) = S 2z
u
V( y u ) =
Cov( y u , z u ) =
olur. B yz =
S yz
S 2z
HKO(T1 ) =
1
S yz
u
ve
yz
=
[
S yz
S ySz
(
Y2 2
C z + C 2y 1
u
2
yz
oldu!unda göre,
)]
biçiminde elde edilir.
HKO(T2s ) ’in elde edili i için, Sat c ve Kad lar (2008) çal mas incelenebilir.
HKO(T1 ) ve HKO(T2S ) ifadeleri E . (16)’da yerine yaz ld ! nda HKO(Töneri ) e itli!ine ula l r.
HKO(Töneri ) ifadesinin
’e göre minimum de!eri için,
gerekmektedir. Buna göre,
HKO(Töneri )
opt .
=
opt .
de!erinin yerine yaz lmas
= 0 e itli!inden elde edilen,
HKO(T2s )
HKO(T1 ) + HKO(T2s )
(18)
ifadesi yerine yaz ld ! nda,
HKO(Töneri ) min . =
HKO(T1 )HKO(T2s )
HKO(T1 ) + HKO(T2s )
e itli!i elde edilir. Burada A1 = C 2x
2
yx C y C x
(19)
, A 2 = C 2z
k saltmalar kullan ld ! nda,
15
2
yz C y C z
(
, A 3 = C 2z + C 2y 1
2
yz
)
HKO(Töneri ) min .
(
)
(A1A 3 A 2 )µ + A 2 + C 2y A 3
Y2
=
n (A1 A 2 )µ 2 + C 2y + A 2 A 3 µ + A 3
(
)
(20)
elde edilir.
Teorem 3.2. Optimum yenileme ilkesi kapsam nda, µ opt . ( = µˆ ) de!eri ve
ve µ ’e göre min.
HKO(Töneri ) ifadesi a a! daki gibi elde edilmi tir.
µˆ =
K 2 ± K 22
4K 1 K 3
2K 1
HKO(Töneri ) min . =
Burada,
(
)(
= µ0 ,
(21)
(
)
(A1A 3 A 2 )µ 0 + A 2 + C 2y A 3
Y2
.
n (A A )µ 2 + C 2 + A A µ + A
1
2
0
y
2
3
0
3
(
K 1 = (A 1 A 3
K 3 = A 2 + C 2y A 3 C 2y + A 2
A3
)
A 2 )(A1
(A1A 3
)
A2 ) ,
A 2 )A 3 göstermektedir.
(22)
(
)
K 2 = A 2 + C 2y A 3 (A1
A2 ) ,
Tan:t : µ opt . (= µˆ ) de!erine, HKO(Töneri ) min . ifadesinin µ’e göre birinci dereceden türevi al n p s f ra
e itlenerek ula labilir. µˆ (= µ 0 ) de!eri, E .(20)’de verilen HKO(Töneri ) min . ifadesinde yerine
yaz larak, HKO(Töneri ) min .* E .(22)’de ki gibi elde edilir.
4. Etkinlik kar! la!t rmas
Önerilen tahmin edici, Singh (2005) tahmin edicisi ile teorik olarak kar la t r lm t r.
Teorem 4.1.: E .(15)’de önerilen tahmin edicinin a a! da verilen ko ulda, E .(3)’de verilen Singh
(2005) tahmin edicisinden daha etkin oldu!u görülmü tür,
2
Cz
<
Cy
yz
.
(23)
Tan:t: HKO(Töneri ) min . < HKO(T ) min . e itsizli!inde ifadeler yerine yaz ld ! nda,
HKO(T1 )HKO(T2s )
HKO(T1s )HKO(T2s )
,
<
HKO(T1 ) + HKO(T2s ) HKO(T1s ) + HKO(T2s )
[HKO(T1 )HKO(T2s )][HKO(T1s ) + HKO(T2s )] < [HKO(T1s )HKO(T2s )][HKO(T1 ) + HKO(T2s )]
HKO(T1 )HKO(T2s )HKO(T1s ) + HKO(T2s )HKO(T1 )HKO(T2s ) <
HKO(T1 )HKO(T2s )HKO(T1s ) + HKO(T2s )HKO(T2s )HKO(T1s )
HKO(T1 ) < HKO(T1s )
elde edilir. E .(17) ve E .(8) yerine yaz larak,
16
[
Y2 2
C z + C 2y (1
u
C 2y (1
2
2
yz )
yz C y C z
2
yz )
]< Yu (C
2
yz C y C z
< C 2y
< C 2y
2
Cz
<
Cy
+ C 2z
2
yz C y C z
)
2
yz
olur, buradan C y > 0 ve
2
2
y
yz
> 0 varsay m alt nda,
yz
ko ulu elde edilir.
4. Sonuç
Bu çal mada, ard arda örnekleme yönteminde, ikinci ara t rma kitle ortalamas tahmini için Singh
(2005) ve Kad lar ve Ç ng (2004) çal malar ndan faydalan larak yeni bir tahmin edici önerilmi tir.
Önerilen tahmin edici, ard arda örnekleme yönteminde oransal tahmin olan Singh (2005) tahmin
edicisi ile teorik olarak kar la t r lm t r. E .(23)’de verilen ko ul alt nda önerilen tahmin edicinin her
zaman daha etkin oldu!u görülmü tür. Bundan sonra çal ma daha fazla yard mc de!i ken bilgisi
eklenerek ve daha duyarl tahmin edicilerin dahil edilmesiyle geni letilebilir. Ayr ca burada incelenen
ard arda örnekleme plan basit rasgele örnekleme yöntemine dayanmaktad r. Farkl örnekleme
yöntemleri içinde ard arda örnekleme plan geli tirilebilir.
KAYNAKLAR
[1] Jessen, R.J., 1942, Statistical Investigation of a Sample Survey for Obtaining Farm Facts, Iowa
Agricultural Experiment Station Road Bulletin, No:304, Ames, USA,1-104.
[2] Kad lar, C.; Ç ng , H., 2004, Ratio Estimators in Simple Random Sampling, Applied Mathematics and
Computation, 151, 3, 893-902.
[3] Sat c , E., Kad lar, C., 2008, Kay p gözlem oldu!unda ard arda örnekleme yönteminde oransal tahmin
edici, VI. statistik Günleri Sempozyumu, Ondokuz May s Üniversitesi, Samsun, 27-30 A!ustos 2008.
[4] Singh, G.N., 2005, On the use of chain-type ratio estimator in successive sampling, Statistics in
Transition, 7(1), 21-26.
[5] Singh, G.N., Singh V.K., 2001, On the use of auxiliary information in successive sampling, Journal of
the Indian Society Agricultural Statistics, 54(1), 1-12.
[6] Singh, G.N., Priyanka, K., 2008, Search of good rotation patterns to improve the precision of estimates
at current occasion, Communications in Statistics: Theory and Methods, 37, 337-348.
17
Pearson korelasyon katsay s n n tahmin edicilerinin
kar la t r lmas
Hakan Sava Sazak
Ahmet Can Diker
Ege Üniversitesi
Ege Üniversitesi
Fen Fakültesi, statistik Bölümü
35100-Bornova, zmir, Türkiye
[email protected]
Fen Fakültesi, statistik Bölümü
35100-Bornova, zmir, Türkiye
[email protected]
Özet
Korelasyon katsay s n tahmin etmek için verinin genellikle iki de!i kenli normal da! l ma uydu!u
varsay l r; ancak bir çok gerçek ya am verileri uzun kuyruklu simetrik da! l m ile modellenebilir. Bu tür
da! l mlarda En Çok Olabilirlik (ML) denklemlerinin çözümü çok problemlidir. ML yönteminin yerine,
tahmin edicileri asimptotik olarak ML tahmin edicilerine e it olan Uyarlanm En Çok Olabilirlik
Metodu (MML) kullan l r. MML tahmin edicileri verilerin sapmalar na da dayan kl d r. Biz burada
özellikle Pearson korelasyon katsay s n (j) tahmin etme konusuyla ilgilenmekteyiz. Bu çal mada j’nun
MML tahmin edicisinin uzun kuyruklu da! l m alt nda yüksek etkinli!e sahip oldu!u Monte Carlo
Simülasyon yöntemi ile gösterilmi tir. Bunun yan nda MML tahmin edicisi, normal da! l m varsay m
geçerli oldu!unda da neredeyse, normal da! l mda en çok etkinli!e sahip olan En Küçük Kareler (LS)
tahmin edicisi kadar etkindir. Çal mada ayr ca de!i ik da! l m ve modeller alt nda MML tahmin
edicisinin etkinli!i ve buna dayal güç de!erleri hem LS tahmin edicisi ve test istatisti!i ile hem de
Kendall ve Spearman tahmin edicileri ve test istatistikleri ile kar la t r lm t r. Sonuçlar MML tahmin
edici ve test istatisti!inin üstünlü!ünü göstermektedir. MML tahmin edicisi ayr ca belli ölçülerde
sapmalara dayan kl d r.
Anahtar sözcükler: Pearson korelasyon katsay:s:; Uzun kuyruklu simetrik daG:l:m; En Çok Olabilirlik;
En Küçük Kareler; Uyarlanm:# En Çok Olabilirlik; dayan:kl:l:k
Abstract
Comparison of the Estimators of the Pearson Correlation Coefficient
It is generally assumed that the underlying bivariate distribution is normal for estimating correlation
coefficient but numerous real life data can be modelled by long-tailed symmetric distribution. Solving
maximum likelihood (ML) equations may be problematic for this type of distribution. Instead of ML
methodology, the Modified Maximum Likelihood (MML) method is used which produces estimators that
are asymptotically equivalent to ML estimators. MML estimators are also robust to data anomalies. Our
main concern is particularly estimating the Pearson correlation coefficient (L). It is shown through Monte
Carlo simulation that MML estimator of L is highly efficient for an underlying long-tailed symmetric
distribution. Moreover, even for an underlying bivariate normal distribution, it is almost as efficient as LS
estimator of L which is the most efficient estimator under bivariate normality. In this study, we also
compared the efficiency and power of the MML estimator and test statistic based on its estimator,
respectively, with both LS, Kendall and Spearman estimators and test statistics. Results show the
superiority of MML estimator and the test statistic. Besides, MML estimator is robust to plausible
deviations from the assumed model.
Keywords: Pearson correlation coefficient; Long-tailed symmetric distribution; Maximum Likelihood;
Least Squares; Modified Maximum Likelihood, robustness.
18
1. Giri!
ki de!i kenli verilerin analizinde genellikle iki de!i kenli normal da! l m varsay m kullan lmaktad r.
Oysa birçok uygulamada veri setleri iki de!i kenli simetrik normal olmayan da! l mlarla
modellenebilir (Tiku ve di!erleri [4]). En Çok Olabilirlik (ML) yöntemi asimptotik olarak tam
etkinli!e sahiptir fakat normal olmayan birçok da! l mda ML yöntemini uygulamak çok problemlidir
(Sazak ve di!erleri [1]). En Küçük Kareler (LS) yöntemi ise sadece normal da! l m varsay m alt nda
tam etkinli!e sahiptir. ML yönteminde zorluklar n ya and ! durumlarda ML yöntemine asimptotik
olarak e it olan Uyarlanm En Çok Olabilirlik (MML) yöntemi kullan labilir (Vaughan ve Tiku [5]).
MML yöntemi kullan larak bulunan tahmin ediciler de asimptotik olarak tam etkinli!e sahiptir fakat
bunun yan nda simülasyon sonuçlar na göre küçük örneklem hacimleri için de yüksek etkinli!e
sahiptirler (Vaughan ve Tiku [5]). Bu çal mada, uygulamalarda s kl kla kar la lan uzun kuyruklu
simetrik da! l m (LTS) varsay m kullan lm ve sonuçlar bu da! l ma göre bulunmu tur. MML
yöntemi ile elde edilen tahmin ediciler da! l mdan makul ölçüde meydana gelen sapmalara
dayan kl d rlar (Tiku ve di!erleri [4]). Bu çal mada özellikle Pearson korelasyon katsay s na yönelik
MML tahmin edicisi literatürde buna kar l k gelen mevcut tahmin edicilerle kar la t r lm t r. Ayr ca
literatürdeki test istatistikleri güç de!erleri aç s ndan kar la t r lm ve sonuçlar verilmi tir.
2. Metodoloji
E!er verinin geldi!i iki de!i kenli da! l m f ( x, y ) ise bu da! l m her zaman g (x) marjinal da! l m
( )
( )
ve h y x ko ullu da! l m n n çarp m olarak f ( x, y ) = g ( x) h y x
bu iki de!i kenli da! l m n olabilirlik fonksiyonu L, L = L X LY
X
eklinde ifade edilebilir. O halde
eklinde yaz labilir. Bu çal mada
iki de!i kenli da! l m n normal da! l m yerine, uygulamalarda daha s kl kla kar la t ! m z LTS
marjinal ve ko ullu da! l mlardan olu tu!u varsay lm t r (Ayr nt lar için bak n z, Tiku ve di!erleri
[3]). Burada µ1 , µ 2 ; 12 , 22 ; s ras yla iki de!i kenli da! l m n konum, ölçek ve korelasyon katsay s
parametreleridir. Burada as l ilgilendi!imiz nokta Pearson korelasyon katsay s n n tahmin edilmesidir.
Marjinal ve ko ullu da! l m n LTS olmas durumunda iki de!i kenli da! l m n olabilirli!i daha önce
ifade etti!imiz ekilde a a! daki gibi yaz labilir ( p1 , k1 = 2 p1 3 ve p 2 , k 2 = 2 p 2 3 ekil
parametreleri ile):
L = L X LY X ,
(2.1)
LX =
(
n
1
k1
(1 2 , p1
1 2)
)
n
1
i =1
1 xi µ 1
1+
k1
1
(2.2)
19
2
p1
ve
LY
=
X
(k
n
1
(1 2 , p 2
2
1 2)
2
1
2
)
n
i =1
µ2
yi
1
1+
k2
2
2
2
(1
( x i µ1 )
1
2
2
p2
.
)
(2.3)
µ1 ) /
z i = ( x (i )
µ 2.1 = µ 2
1
a ( i ) = e( i )
ve
1
µ1 ve
2
2.1
=
2
2
(1
2
yerlerine konulur ve µ1 ,
yaz labilir:
ln L
µ1
=
2 p1 n
"
k1 1 i =1
1,
x[i ]
µ 2.1
2.1
yaz l r. Burada
) dir. (x[ ] , y[ ] ), e( ) ’ ye göre s ralanm
2.1 ,
2 p2
k2
1
1 + z (2i )
k1
1
i
i
1
=
1
n
+
1
a(i )
n
"
2.1 i =1
1
z (i )
2 p1 n
"
k1 1 i =1
1
1 + a(2i )
k2
=0,
2 p2
k2
1
1 + z (2i )
k1
1
n
" z( )
2.1 i =1
i
a (i )
1
1 + a (2i )
k2
(2.5)
ln L
µ 2.1
=
2 p2
k2
1
a (i )
n
"
2.1 i =1
1
1 + a (2i )
k2
= 0,
(2.6)
ln L
=
2.1
n
+
2.1
2 p2
k2
1
a (i )
n
"
2.1 i =1
1
1 + a (2i )
k2
=0
ve
(2.7)
ln L
1
=
2 p2
k2
1
n
" z( )
2.1 i =1
i
=
2
,
1
( e(i ) ’ ye e lik eden)
tahmin etmek için olabilirlik denklemleri a a! daki gibi
(2.4)
ln L
1
(2.3) olabilirlik denkleminde z (i ) ve a (i ) s ral istatistikleri
µ 2.1 ,
z (i )
= y [i ]
i
gözlemleridir (1 ! i ! n ) .
(xi , y i )
2.1
a (i )
1
1 + a (2i )
k2
= 0.
(2.8)
20
= 0,
(2.4-2.8)
olabilirlik
(
g 2 (a (i ) ) = a(i ) 1 + a(2i ) k 2
denklemlerinin
)
(
g1 ( z (i ) ) = z (i ) 1 + z (2i ) k1
içinde
)
ve
lineer olmayan fonksiyonlar, denklem sisteminin çözümünde sorun
olu turmas nedeniyle lineer olmayan bu fonksiyonlar lineerle tirilmi tir.
g 1 ( z (i ) ) ve g 2 (a (i ) ) fonksiyonlar n n lineerle tirilmesi için Taylor aç l m n n ilk iki terimi
kullan lm t r. Yakla k olarak E ( z (i ) ) = t1(i ) ve E ( a (i ) ) = t 2 (i ) olarak yaz labilir.
g1 (z i ) #
1i
1i
z (i ) ve g 2 (a (i ) ) #
2i
2i
a (i ) , 1 ! i ! n
(2.9)
Burada
2
= t13(i )
k1
1i
1+
t
2
2
1(i )
ve
k1
t12(i )
=1
1i
1+
k1
2
t12(i )
.
k1
(2.10)
(
2i
,
2i
yerine
) de benzer
1i
1i
ln L*
1
ekilde t1(i ) ve k1 yerine t 2 (i ) ve k 2 konularak bulunur. g 1 ( z (i ) ) ve g 2 (a (i ) )
z (i ) ve
2i
2i
ln L* µ 2.1 = 0 ,
= 0,
ln L* µ1 = 0 ,
a (i ) konularak elde edilen yeni MML denklemleri,
ln L*
2.1
= 0 ve
ln L*
1
= 0 olur. MML denklemleri
çözülerek a a! daki tahmin ediciler elde edilir:
B1 + B12 + 4nC1
µˆ 1 = K1 , ˆ 1 =
2 n(n 1)
,
(2.11)
ˆx ,
1 [.]
µˆ 2.1 = y[.]
B2 + B22 + 4nC 2
ˆ 2.1 =
2 n(n 2)
ve
(2.12)
ˆ =K
1
2
L ˆ 2.1 .
(2.13)
Burada,
n
m1 = "
i =1
K1 =
, m2 =
1i
1 n
"
m1 i =1
n
K2 = "
i =1
B2 =
2 p2
k2
2i
n
"
i =1
2i
1i x (i ) , B1 =
(x[ ]
i
" {y[ ]
i =1
2i
2 p1
k1
x[.] )y[i ]
n
i
1
m2
, x[.] =
y[.]
n
"
i =1
n
"
i =1
1i x (i ) , C1 =
" (x[ ]
n
i =1
2i
K 2 (x[i ]
2 i x[i ] , y [.] =
i
1
m2
2 p1
k1
x[.] ) , L = "
2
x[.] )}
21
"
2i
i =1
y [i ] , ve
n
"
i =1
n
i =1
n
2i
1i
( x (i )
(x[ ]
i
K1 ) 2
x[.] )
" (x [ ]
n
i =1
2i
i
x[.] )
2
2 p2
C2 =
k2
" {y[ ]
2i
i =1
y [.]
i
2
K 2 (x[i ]
n
x[.] )} .
(2.14)
ln L* µ 2 = 0 ,
ln L*
2
=0,
ˆ 1 konularak denklemler çözülürse µ 2 ,
µˆ 2 = µˆ 2.1 + ˆ1 µˆ 1 , ˆ 2 =
= 0 denklemlerinde; µ 1 yerine µ̂ 1 ve
ln L*
2
ve
1
yerine
parametrelerinin MML tahmin edicileri;
ˆ 22.1 + ˆ 2 ˆ 12 ve
(2.15)
ˆ
ˆ = ˆ1 1
ˆ2
(2.16)
olur.
Hesaplamalar:
wi ’ler wi = y i
MML tahmin edicileri iki iterasyon ile bulunur. lk iterasyonda
formülü kullan larak hesaplan r. Burada
~
1
n
= " (xi
i =1
x )( y i
" (x
i =1
i
x ) kullan l r. wi ’ ye göre s ralanm
~
kinci iterasyonda ise wi ’ler bulunurken
göre s ralanm
1
(x[ ] , y[ ] ) ikilileri kullan l r.
i
yerine, en küçük kareler tahmin edicisi olan
2
n
y)
1
(x[ ] , y[ ] ) ikilileri bulunur.
i
i
yerine MML yöntemiyle bulunan ˆ1 kullan larak wi ’ ye
i
n
n
En Küçük Kareler Tahmin Edicisi: En küçük kareler yöntemi
2
" (x i µ 1 )
and
i =1
etmeye dayan r.
n
n
" (x
µ~1 = x = (1 / n )" x i , ~1 = s x =
i =1
i =1
2.1
= s 2.1 ,
~
x)
i
i =1
= s xy s x2 ve ~ = s xy
(n 1) ,
2
n
n
µ~ 2 = (1 / n )" y i , ~ 2 = s y =
~
" ( y y ) (n 1) , µ~
(s s ) ,
2
i
i =1
x
2.1
=y
~
1
x,
y
(2.17)
burada s 2.1 =
x (1 ! i ! n )
1 i
" {y
n
i =1
i
y
~
( xi
}
x)
2
n
(n 2) ve s xy = " ( x i
i =1
(2.18)
22
x )y i
(n 1) .
"e
i =1
2
i
minimize
Literatürdeki Di<er Korelasyon Katsay s Tahmin Edicileri :
Spearman S ralama Korelasyon Katsay s ( xi , y i ) ikilerinin ranklar kullan larak elde edilen Spearman
(1904, [6]) taraf ndan bulunan Pearson korelasyon katsay s n n özel bir eklidir. d i , xi ve y i ’nin
ranklar n n fark olmak üzere Spearman’ n Rho katsay s a a! daki formül ile gösterilir:
n
rs = 1
6" d i2
(
i =1
2
nn
).
1
(2.19)
Çal mada kar la t r lan bir di!er tahmin edici Kendall (1938, [6]) taraf ndan önerilen Kendall
S ralama Korelasyon katsay s d r. ( xi , y i ) ve x j , y j ikililer olmak üzere; xi > y i iken y i > y j (ya
(
da xi < y i iken y i < y j )
)
uyumlu olan çiftler olarak tan mlan r. Kendall s ralama korelasyon
katsay s , uyumlu olan çiftlerin olas l ! ile uyumsuzluk olan çiftlerin olas l ! aras ndaki fark
bulunarak elde edilir. S, uyumlu çiftlerin say s ile uyumsuz olan çiftlerin say s aras ndaki fark
göstermek üzere formülü a a! daki gibidir:
&=
S
n(n 1) 2
.
(2.20)
De!eri ayn olan gözlemlerin bulunmas durumunda formül a a! daki ekilde yaz l r:
&=
S
1
n(n 1) Tx
2
1
n(n 1) T y
2
(2.21)
1
t1 (t1 1) , t1 , X de!i keni üzerinde de!eri ayn olan gözlemlerden olu an gruplar n
2
1
gözlem say s , T y = t 2 (t 2 1) , t 2 , Y de!i keni üzerinde de!eri ayn olan gözlemlerden olu an
2
Burada Tx =
gruplar n gözlem say s d r. ki de!i kenli normal da! l mlarda Kendall tau’nun yanl bir tahmin edici
oldu!u gösterilmi tir. Bu yanl l k durumunu ortadan kald rmak için Kendall (1975, [9]), Gideon ve
Hollister (1987, [10]) taraf ndan (2.22)’deki düzeltme önerilmi tir.
&
= sin
'
2
&
(2.22)
(2.22) de Kendall tau için yaz lan düzeltme formülü normal da! l mlar için kullan lmas na ra!men bu
çal mada normal olmayan uzun kuyruklu simetrik da! l m için de kullan lm t r.
23
LS, MML ve di!er yöntemler ile bulunan Pearson korelasyon katsay s tahmin edicilerinin etkinlikleri
de!i ik da! l m ve modeller alt nda Monte Carlo çal mas ile ara t r lm t r. Modeller a a! daki gibi
yaz labilir;
1. Model: ki de!i kenli normal da! l m BN( µ1 , µ 2 ;
2
1
,
2
2
; ),
(
X ~ LTS µ1 ,
2. Model: Uzun kuyruklu simetrik marjinal ve ko ullu da! l m
(
Y X ~ N µ 2.1 ,
2
2.1
2
1
)
, p1 ,
)
, p2 ,
3. Model: Dixon’ n uçde!er modeli;
Gözlemlerin %90’ X ~ N µ1 ,
(
2
1
) , %10’u X ~ N (µ ,4 ),
4. Model: Dixon’ n uçde!er modeli:
Gözlemlerin %90’ X ~ LTS µ1 ,
(
(
2
1
1
2
1
(
, p1 ) , Y X ~ N µ 2.1 ,
%10’u X ~ LTS µ1 ,4
2
1
)
(
2
2.1
, p1 , Y X ~ N µ 2.1 ,
, p2
2
2.1
)
)
, p2 .
Yukar daki modeller için Monte Carlo simulasyonu 10000 kere döndürülerek yap lm , µ1 ,
2
1
(
=
2
, µ2 ,
= 0.5 olarak al nm t r. ki de!i kenli normal da! l m için di!er
s ras yla 0, 1, 0, 1 ve
parametreler
1
1
) , µ 2.1 = µ 2
µ 1 ve
2.1
=
2
1
2
ili kileri kullan larak
bulunmu tur. LTS da! l m n n marjinal ve ko ullu ekil parametreleri p1 = 5 ve p 2 = 5 olarak
al nm t r. Tablo 1-4 de, simülasyon ortalamas , varyans ve hata kareler ortalamas (MSE) verilmi tir.
Korelasyon tahmin edicilerinin LS tahmin edicisine göre göreceli etkinli!i (RE) de tablolarda
verilmi tir. Örne!in MML korelasyon katsay s tahmin edicisinin ( ˆ ) göreceli etkinli!i
100 * MSE ( ~ ) MSE ( ˆ ) formülü ile bulunmu tur. Tablolarda MML tahmin edicisinin, uzun
kuyruklu simetrik da! l mda LS tahmin edicisi olan ~ ’ya ve di!er tahmin edicilere (Spearman rho ve
Kendall tau) göre yüksek bir etkinli!e sahip oldu!u, ayn zamanda normal da! l mda neredeyse LS
tahmin edicisine yak n bir etkinli!e sahip oldu!u görülmektedir. MML tahmin edicisinin Tablo 3-4’te
di!er sapan gözlemlerin bulundu!u modellerde LS den daha yüksek etkinli!e sahip oldu!u
görülebilir. Tablolardan, MML tahmin edicisinin yüksek etkinli!inin yan s ra dayan kl bir tahmin
edici oldu!u görülmektedir. MML tahmin edicisinden sonra normal olmayan da! l mda yüksek
etkinli!e sahip olan di!er bir tahmin ediciler Spearman’ n rho ve Kendall tau dur.
Tablo 1. 1.Model (normal) için Korelasyon Tahmin Edicilerinin Kar la t r lmas
n
30
60
90
Ortalama
n x Varyans
n x MSE
RE
Ortalama
n x Varyans
n x MSE
RE
Ortalama
n x Varyans
n x MSE
RE
LS
0.494
0.608
0.020
100.000
0.497
0.577
0.010
100.000
0.498
0.576
0.006
100.000
MML
0.488
0.616
0.021
98.233
0.494
0.593
0.010
97.034
0.496
0.596
0.007
96.497
24
Spearman
0.468
0.679
0.024
85.973
0.475
0.644
0.011
84.934
0.478
0.638
0.008
84.486
Kendall
0.493
0.722
0.024
84.252
0.497
0.666
0.011
86.606
0.498
0.653
0.007
88.159
Tablo 2. 2.Model (LTS) için Korelasyon Tahmin Edicilerinin Kar la t r lmas
n
30
60
90
Ortalama
n x Varyans
n x MSE
RE
Ortalama
n x Varyans
n x MSE
RE
Ortalama
n x Varyans
n x MSE
RE
LS
0.493
0.661
0.022
100.000
0.497
0.653
0.011
100.000
0.498
0.648
0.007
100.000
MML
0.487
0.625
0.021
105.268
0.494
0.604
0.010
107.861
0.497
0.599
0.007
107.925
Spearman
0.471
0.689
0.024
92.695
0.479
0.669
0.012
93.925
0.482
0.662
0.008
93.624
Kendall
0.497
0.735
0.025
90.108
0.502
0.692
0.012
94.332
0.504
0.680
0.008
95.088
Tablo 3. 3.Model (uçde!er-normal) için Korelasyon Tahmin Edicilerinin Kar la t r lmas
n
30
60
90
Ortalama
n x Varyans
n x MSE
RE
Ortalama
n x Varyans
n x MSE
RE
Ortalama
n x Varyans
n x MSE
RE
LS
0.540
0.552
0.020
100.000
0.545
0.545
0.011
100.000
0.546
0.536
0.008
100.000
MML
0.528
0.548
0.019
105.098
0.533
0.536
0.010
110.736
0.534
0.530
0.007
114.987
Spearman
0.502
0.617
0.021
97.150
0.509
0.604
0.010
109.094
0.512
0.597
0.007
119.710
Kendall
0.528
0.654
0.023
88.386
0.532
0.623
0.011
97.311
0.534
0.605
0.008
103.198
Tablo 4. 4.Model (uçde!er-LTS) için Korelasyon Tahmin Edicilerinin Kar la t r lmas
n
30
60
90
Ortalama
n x Varyans
n x MSE
RE
Ortalama
n x Varyans
n x MSE
RE
Ortalama
n x Varyans
n x MSE
RE
LS
0.541
0.626
0.023
100.000
0.546
0.632
0.013
100.000
0.546
0.622
0.009
100.000
MML
0.530
0.574
0.020
112.559
0.535
0.556
0.010
120.296
0.535
0.539
0.007
125.348
Spearman
0.504
0.636
0.021
106.247
0.512
0.631
0.011
118.284
0.514
0.618
0.007
128.091
Kendall
0.533
0.670
0.023
96.217
0.537
0.649
0.012
103.310
0.538
0.626
0.008
107.534
3. Hipotez Testi
H0 :
= 0 ve alternatif hipotezi H 1 :
> 0 oldu!unda test istatisti!i a a! daki gibi tan mlan r:
25
W=
ˆ
V ( ˆ H0 )
(3.1)
Burada MML için asimptotik varyans;
V ( ˆ H0 ) =
1 ( p 2 + 1)(2 p 2 3)
dir.
n p 2 (2 p 2 1)
(3.2)
nun iki de!i kenli normal da! l mda LS tahmin edicisi olan ~ için Fisher
Korelasyon katsay s
dönü ümü(3.3) kullan larak hipotez testi yap l r:
Z=
1
1+ ~
.
log
2
1 ~
(3.3)
Tablo 5-8’de çe itli test istatistiklerinin güçleri kar la t r lm t r. 1. Model’de LS’e dayanan test
istatisti!i di!erlerinden daha güçlüdür. 2. Model’de MML’e dayanan test istatisti!inin, di!er test
istatistiklerinden daha güçlü oldu!u görülmektedir. 3. Modelde LS, MML ve Spearman’a dayanan
test istatistiklerinin hemen hemen ayn güç de!erlerini verdikleri görülmektedir. 4. Modelde ise
MML’e dayanan test istatistiklerinin di!erlerinden daha güçlü oldu!unu söyleyebiliriz.
Tablo 5. Test statistiklerinin 1.Modele (normal) Dayal Güç Kar la t r lmas
n
30
60
90
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0
0.1
0.2
0.3
0.4
0.5
0
0.1
0.2
0.3
0.4
0.5
LS
0.049
0.132
0.280
0.495
0.732
0.899
0.978
0.998
0.049
0.192
0.455
0.765
0.944
0.994
0.051
0.239
0.597
0.893
0.990
1.000
MML
0.059
0.149
0.308
0.518
0.751
0.907
0.981
0.998
0.060
0.212
0.479
0.782
0.949
0.994
0.058
0.263
0.619
0.900
0.991
1.000
26
Spearman
0.051
0.125
0.260
0.451
0.678
0.858
0.962
0.995
0.052
0.181
0.424
0.725
0.921
0.988
0.049
0.228
0.559
0.861
0.983
0.999
Kendall
0.051
0.127
0.260
0.449
0.675
0.856
0.961
0.995
0.053
0.180
0.424
0.726
0.922
0.988
0.049
0.226
0.558
0.860
0.983
0.999
Tablo 6. Test statistiklerinin 2.Modele (LTS) Dayal Güç Kar la t r lmas ; p1 = 5.0 , p 2 = 5.0
n
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.0
0.1
0.2
0.3
0.4
0.5
0.0
0.1
0.2
0.3
0.4
0.5
30
60
90
LS
0.050
0.135
0.283
0.502
0.724
0.887
0.971
0.996
0.048
0.193
0.464
0.760
0.936
0.992
0.050
0.242
0.604
0.892
0.988
0.999
MML
0.053
0.144
0.300
0.528
0.749
0.905
0.979
0.997
0.049
0.205
0.486
0.783
0.951
0.995
0.051
0.253
0.631
0.911
0.992
1.000
Spearman
0.049
0.132
0.263
0.470
0.684
0.856
0.959
0.993
0.048
0.188
0.447
0.736
0.925
0.990
0.052
0.235
0.584
0.880
0.984
0.999
Kendall
0.049
0.133
0.267
0.471
0.686
0.858
0.960
0.993
0.048
0.190
0.449
0.737
0.927
0.990
0.051
0.236
0.585
0.879
0.984
0.999
Tablo 7. Test statistiklerinin 3.Modele (uçde!er-normal) Dayal Güç Kar la t r lmas
n
30
60
90
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.0
0.1
0.2
0.3
0.4
0.5
0.0
0.1
0.2
0.3
0.4
LS
0.051
0.146
0.333
0.580
0.809
0.945
0.989
0.999
0.052
0.214
0.544
0.839
0.978
0.999
0.051
0.286
0.704
0.949
0.996
MML
0.060
0.156
0.351
0.594
0.817
0.947
0.990
0.999
0.059
0.221
0.553
0.843
0.978
0.999
0.055
0.292
0.706
0.948
0.996
27
Spearman
0.051
0.147
0.333
0.580
0.810
0.945
0.989
0.999
0.053
0.214
0.544
0.839
0.978
0.999
0.051
0.287
0.704
0.949
0.996
Kendall
0.052
0.134
0.293
0.521
0.745
0.906
0.977
0.997
0.054
0.193
0.492
0.792
0.958
0.996
0.049
0.254
0.641
0.920
0.993
Tablo 8. Test statistiklerinin 4.Modele (uçde!er-LTS) Dayal Güç Kar la t r lmas ; p1 = 5.0 ,
p 2 = 5.0
n
30
60
90
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.0
0.1
0.2
0.3
0.4
0.5
0.0
0.1
0.2
0.3
0.4
LS
0.051
0.145
0.333
0.581
0.807
0.932
0.984
0.999
0.049
0.218
0.552
0.839
0.971
0.997
0.049
0.286
0.703
0.941
0.996
MML
0.052
0.149
0.344
0.602
0.821
0.942
0.990
0.999
0.047
0.217
0.562
0.852
0.979
0.999
0.047
0.289
0.714
0.953
0.997
Spearman
0.054
0.138
0.305
0.528
0.753
0.903
0.974
0.997
0.047
0.206
0.519
0.798
0.958
0.996
0.049
0.272
0.665
0.924
0.993
Kendall
0.054
0.134
0.309
0.531
0.755
0.905
0.975
0.998
0.048
0.206
0.521
0.802
0.958
0.996
0.049
0.272
0.665
0.925
0.993
4. Sonuç ve öneriler
Simülasyon sonuçlar zaten asimptotik olarak tam etkinli!e sahip olan MML tahmin edicilerinin küçük
örneklem hacimlerinde de yüksek bir etkinli!e sahip oldu!unu göstermektedir. Burada s kl kla
kar la lan LTS da! l m n n geçerli oldu!u varsay lm t r fakat gerçek da! l m n iki de!i kenli normal
da! l m olmas durumunda bile MML tahmin edicilerinin bu da! l m alt nda en iyi tahmin ediciler
olan LS tahmin edicileriyle neredeyse e it etkinli!e sahip oldu!u görülmü tür. Bunun yan nda MML
tahmin edicileri dayan kl l k özellikleri sebebiyle da! l mdan makul ölçüde sapmalar gerçekle ti!inde
de etkinliklerini korurlar. Bu çal mada özellikle Pearson korelasyon katsay s n n tahmin edicileri
k yaslanm ve MML tahmin edicisinin bir çok da! l m ve model için yüksek etkinli!e sahip oldu!u
görülmü tür. Ayr ca testlerin gücü de bu çal mada ara t r lm , MML korelasyon katsay s tahmin
edicisine dayanan test istatisti!inin incelenen da! l mlar alt nda güçlü oldu!u görülmü tür. Bu nedenle
özellikle uygulamalarda s kça kullan lan Pearson korelasyon katsay s n n yerine MML tahmin
edicisinin ve Pearson korelasyon katsay s na dayanan test istatisti!inin yerine MML tahmin edicisine
dayanan test istatisti!inin kullan lmas n n pek çok durum için uygun olaca! söylenebilir.
28
Kaynaklar
[1] Sazak, H. S., Tiku, M. L., Islam, M. Q., (2006), Regression Analysis with a Stochastic Design Variable,
International Statistical Review, 74, 1, 77-88.
[2] Tiku, M. L., (1987), A robust procedure for testing an assumed value of the population correlation
coefficient, Commun. Statist.-Simula., 16(4), 907-924.
[3] Tiku, M. L., Islam, M. Q., Sazak, H. S., (2008), Estimation in bivariate nonnormal distributions with
stochastic variance functions, Computational Statistics and Data Analysis, 52, pp.1728-1745.
[4]
Tiku, M. L., Tan, W. Y., Balakrishnan, N., (1986), Robust Inference, Marcel Dekker, New York.
[5] Vaughan, D. C., Tiku, M. L., (2000), Estimation and hypothesis testing for a nonnormal bivariate
distribution with applications, J. Mathematical and Computer Modelling 32, 53-67.
[6] Spearman, C., (1904), The proof and measurement of association between two things, Amer. J.
Pyschol., 15, 72-101.
[7] Kendall, M. G. (1938), A new measure of rank correlation, Biometrica, 30, 81-93.
[8] Evandt, O., Coleman, S., Ramalhoto, M. F., Lottum, C. V., A (2004), Little-known Robust Estimator of
the Correlation Coefficient and Its Use in a Robust Graphical Test for Bivariate Normality with
Applications in the Aluminium Industry, Qual. Reliab. Engng. Int., 20, 433-456.
[9] Kendall, M. G. (1974), Rank Correlation Methods, Fourth Edition, Second impression, London: Griffin.
[10] Gideon RA, Hollister RA. (1987), A rank correlation coefficient resistant to outliers. Journal of the
American Statistical Association; 82, 656–666.
29
Güneydo<u Anadolu Bölgesi’ne Yap lan Kamu
Yat r mlar n n statistiksel De<erlendirmesi
Bahar Burtan DOoAN
Murat PIÇAK
Dicle Üniversitesi, ktisadi ve dari Bilimler Fakültesi,
ktisat Bölümü, 21280, Diyarbak:r, Türkiye
Dicle Üniversitesi, ktisadi ve dari Bilimler Fakültesi,
ktisat Bölümü, 21280, Diyarbak:r, Türkiye
[email protected]
[email protected]
Özet
GüneydoGu Anadolu Bölgesi, 59.176 km²’lik yüzölçümüyle Türkiye toplam alan:n:n % 7,5’ini
kapsamaktad:r, ayr:ca 7.170.849 ki#ilik nüfusuyla Türkiye toplam nüfusunun % 10,2’sini
bar:nd:rmaktad:r. Bölge, Türkiye’deki bölgeleraras: ekonomik dengesizlik sorunundan olumsuz yönde
etkilenmektedir. Özel sektör yat:r:mlar:n:n genellikle geli#mi# bölgelerde yoGunla#mas:, ekonomik
e#itsizliGi giderek art:rmaktad:r. Ayr:ca, terör, Körfez Sava#: ve uzun y:llar boyunca devam eden Irak
Ambargosu gibi d:#sal faktörlere baGl: olumsuzluklar, bölgeye yönelik özel sektör yat:r:m kararlar:n:
olumsuz yönde etkilemektedir. Bölgeye yap:lan kamu yat:r:mlar: göstergeleri incelendiGinde de olumsuz
bir tabloyla kar#:la#:lmaktad:r. Bölgenin Türkiye’deki kamu yat:r:mlar:ndan ald:G: pay, kapsad:G: alan
veya bar:nd:rd:G: nüfus ile k:yasland:G:nda dü#ük kalmaktad:r. Bölgedeki ki#i ba#:na dü#en kamu
yat:r:mlar: Türkiye ortalamas:n:n gerisindedir. Bu yüzdendir ki; Türkiye’nin kamu yat:r:m stratejisinde,
GüneydoGu Anadolu Bölgesi’ne yönelik olarak pozitif ay:r:mc: bir politikan:n uygulanmas: yararl:
olacakt:r.
Anahtar Sözcükler: GüneydoGu Anadolu Bölgesi, Sektörler, Kamu Yat:r:mlar:, Ekonomik Kalk:nma.
Abstract
The Statistical Assessment of Public Investments in the Southeast Anatolia Region
With her 59.176 km² area, Southeastern Anatolia Region covers the 7.5 % of Turkey’s total land and
furthermore; with her 7.170.849 inhabitants, the region accommodates approximately the 10,2 % of
Turkey’s total population. The region is affected negatively from the problem of interregional economic
imbalances. The intensification of private sector investments generally in developed regions gradually
increases the economic inequalities. In addition, the negatorities originating from external factors such
as terror, Gulf War and the embargo on Iraq that lasted for long years influences the investment
decisions of the private sector to the region in negative direction. But when the indicators of the public
sector investments to the region is examined, a negative situation is also encountered. The share of the
region from the public investments is low when compared according to the covered area and inhabited
population. Moreover, the public investment per capita is behind the Turkey average. Therefore;
application of a positively distinctive investment policy to the South–East Anatolian Region in Turkey’s
public investment strategy will be beneficial.
Key Words Southeastern Anatolia Region, Sectors, Public Investments, Economic Development.
30
1. Giri!
Ülke co!rafyas nda dengeli bir geli me sa!lanmas hedefi, ülke ekonomisi için hedef al nan yüksek bir
kalk nma h z kadar önemlidir. Dengeli geli me amac do!rultusunda al nmas gereken tedbirlerin ve
uygulanacak politikalar n be eri ve fiziki kaynaklar n da! l m deseni ile tutarl olmas ve kamu
yat r mlar n n da! l m nda ekonomik co!rafyan n ve bölgesel geli menin dikkate al nmas , k sacas ;
mekân ile ili kinin sa!lanmas kaç n lmaz olmaktad r [1].
Türkiye’nin sahip oldu!u geni co!rafi alan ve genç kesimin a! rl kl oldu!u nüfus büyüklü!ü
itibar yla; e!itim ve sa!l k hizmetlerinin etkili bir ekilde sunulmas ve ya am kalitesinin
yükseltilmesi, rekabet gücünün art r lmas ve sürdürülebilir büyümenin sa!lanmas için gerekli sosyal
ve fiziki altyap n n geli tirilmesi, çevrenin korunmas , bölgeleraras geli mi lik farkl l klar n n
azalt lmas , üyelik sürecinde bulundu!u Avrupa Birli!i kriterlerine uyumun sa!lanmas ve geli mi
ülkelerle Türkiye aras ndaki geli mi lik farkl l klar n n azalt lmas bak m ndan kamu yat r mlar hayati
bir rol oynamaktad r [2].
Devletin iktisadi hayata müdahale edip etmeyece!i, müdahale edecekse bu müdahalenin ekli, nas l
yap laca! ve devletin hangi alanlarda müdahil olmas gerekti!i sorular iktisat literatürünün
ba lang c ndan itibaren önemini korumu tur. Bahsi geçen sorulara verilen yan tlar, iktisat tarihi
boyunca farkl iktisat okullar n n ortaya ç kmas na neden olmu tur [3].
Günümüzde ça!da devlet felsefelerini, birey–devlet ili kisindeki tutumlar itibariyle iki ana grupta
toplamak olana! vard r: Organik Devlet Anlay ve Mekanik Devlet Anlay .
Organik Devlet Anlay
Mekanik Devlet Anlay
Maksimum
Devlet
Müdahalesi
Minimum
Devlet
Müdahalesi
Seçmen
Marksizm Nasyonal Fundamentalizm
Sosyalizm
Egemenli!i
Sosyal Muhafazakarlar
Demokratlar
Liberaller
Bekil–1: Organik ve Mekanik Devlet Anlay lar
Ortaya konan bu siyasal tasnif, ... soldan sa!a bir yelpazeyi olu turmakla birlikte, maksimum devlet
müdahalesinden minimum devlet müdahalesine do!ru bir aç l m da temsil etmektedir [4]. Bir ba ka
deyi le; devletin ekonomik hayattaki yeri ve iktisadi ya ama müdahalesinin dozaj , iktisadî doktrinler
tarihinin ba l ca ilgi alan ve i tigal konular ndan birini te kil etmi tir.
ktisadi doktrinler tarihinde özel bir yeri olan ve konu ile ilgili analizlerde genellikle referans noktas
al nan klasik okulun önde gelen temsilcilerinden Adam SMITH, David RICARDO, Thomas Robert
MALTHUS, Jean Baptiste SAY ve John Stuart MILL’den itibaren farkl ekollere mensup çok say da
dü ünür, çal malar n n ba lang ç a amalar nda; insanl ! n üretken çal malar sonucu olu turulan
zenginli!in ve refah n meydana getirili süreçlerinin aç klanarak toplumlar n üretken kapasitelerinin
artt r lma yollar n n ortaya konmas dü üncesinden hareketle yola ç km lard r.
Söz konusu analizlerde; ekonomilerin tam rekabet ko ullar alt nda dengeye ve ekonomik istikrara
kavu turulmas ile ilgili konular üzerinde a! rl kl olarak duruldu!u söylenilebilecektir. Akademik ve
politik çevrelerde de bu anlay n egemen olmas na paralel olarak, XX. Yüzy l n ilk çeyre!ine kadar
31
iktisat politikalar da ayn anlay çerçevesinde ekillendirildi!i görülmektedir. Bu yüzy l n geneli için
“Kapitalizmin Ya ad ! En riddetli Bunal m” [5] olarak nitelendirilen 1929 Büyük Buhran (The
Great Depression) ise; ekonomilerin kendili!inden tam rekabet ko ullar alt nda dengeye geldi!ini
varsayan klasik liberal ö!retiyi taht ndan indirmi ve tam istihdamda dengenin istisnai bir durum
oldu!u, ekonomilerin genellikle eksik istihdamda dengeye geldi!ini savunan Keynesyen ekolün
iktidar ele geçirmesiyle sonuçlanm t r. Takip eden y llarda ise; konjonktürel dalgalanmalara paralel
olarak kriz–bunal m dönemlerinde Keynesyen, canlanma–doruk dönemlerinde de liberal ö!retinin
iktisat politikalar n ekillendirdi!i ve egemen ö!reti ba!lam nda iktidar n el de!i tirdi!i görülmü tür.
Konuya devletin iktisadi hayata müdahalesi aç s ndan bak ld ! nda ise; klasik okulun yan s ra 1938
y l nda Walter LIPMANN taraf ndan Paris’te düzenlenen büyük seminer akabinde iktisat literatürüne
“Neoliberalizm” terimi ile giren [6] ve müteakip dönemlerde farkl türevleri ortaya ç kan liberal
ekolün, kamu otoritesinin iktisadi hayata müdahale etmemesi ve piyasan n i leyi inin “Görünmez El
(Invisible Hand)” çözümlemesi dâhilinde gerçekle mesini savundu!u, Keynesyen ve post–Keynesyen
ekolün ise; devletin piyasalara aktif bir ekilde müdahale etmesinin, ekonomik hayat
yönlendirmesinin ve hatta bizatihi bir aktör olarak rol almas n n, iktisat politikalar n n omurgas n
te kil etmesi gerekti!ini öne sürdü!ü, söylenebilecektir.
Bu noktada gözden kaç r lmamas gereken husus ise; “Liberal anar istler” ya da “anarko–kapitalistler”
bir kenara b rak ld ! nda, liberal ve Keynesyen görü ler de dâhil olmak üzere iktisadî doktrinler tarihi
kapsam nda ele al nan tüm okullarca, düzeyleri farkl olsa da ekonomik hayatta devlete mutlak surette
rol biçilmesi, modern ekonomilerde ise devlete tahsis, istikrar ve yeniden bölü üm olmak üzere üç ayr
tür görev yüklenmesidir. Nitekim tarihsel süreç içerisinde devletin iktisadi hayata hiç müdahale
etmemesi gerekti!i görü ü yerini devletin ikinci en iyiyi sa!layacak ekilde s n rl bir müdahalede
bulunmas anlay na b rakm t r. Bu çerçevede devletin ekonomik ve toplumsal hayata müdahalesi
dönemler itibar yla gerek içerik, gerekse kullan lan araçlar bak m ndan farkl l k göstermi , son y llarda
devletin üretim ve ticari faaliyet gibi rollerinin giderek azalt lmas yönünde bir e!ilim ortaya ç km ,
devletin iktisadi hayata müdahalesi daha çok düzenleyici bir nitelik kazanm t r [7].
Ekonomik ya ant daki mevcudiyetinin ve bir tak m rolleri üstlenmesinin zaruri oldu!u tart lmaz bir
ekilde kabul gören devletin, bu i levlerini yerine getirirken istifade etti!i en temel vas talardan biri de
kamu harcamalar d r. Kamu harcamalar ; kamu makamlar n n toplumsal ihtiyaçlar kar lamak, sosyal
ve ekonomik hayata müdahalelerde bulunmak üzere belirli kurallara göre yapt klar harcamalard r [8].
Bu harcamalar, harcamay gerçekle tiren kuruma göre geni anlamda de!erlendirildi!inde; merkezi ve
yerel yönetimlerin, iktisadi devlet te ekküllerinin ve sosyal güvenlik kurulu lar n n gerçekle tirdi!i
harcamalar toplam ile toplum için faydal hizmet gören kurumlar n ödemelerini, vergi muafiyet ve
indirimlerini, özel ki ilerin yapt klar yard m ve ba! lar n toplam n içeren bir kavram ortaya
ç kmaktad r [9].
Genellikle cari harcamalar, yat r m harcamalar ve transfer harcamalar olmak üzere üç ana ba l k
alt nda incelenen kamu harcamalar n n, iktisadi yap üzerinde geni letici etki yapt ! görülmektedir.
Kamu harcamalar n n önemli alt dallar ndan biri olan ve en genel anlam yla, belli bir dönem içinde,
ekonomideki üretim araçlar mevcuduna yap lan eklemeler ve bu eklemeleri mümkün k lan harcamalar
[10] olarak tan mlanan yat r mlar n ise; ekonomilerde üretim kapasitesini artt rma ve ölçe!i büyütme,
verimlilik düzeyini yükseltme, ba ta emek olmak üzere üretim faktörlerinin ve altyap n n niteliklerini
geli tirme gibi etkileri oldu!u bilinmektedir.
Ülkemizdeki kamu yat r mlar n n seyir defterine bak ld ! nda ise; Osmanl mparatorlu!u’ndan a! r
bir ekonomik miras devralmas n n da etkisiyle, genç Türkiye Cumhuriyeti’nin 1929 Büyük
Buhran ’na, d kaynakl etkenlerin yan s ra kendisine münhas r birtak m olumsuz faktörlerin de
etkisiyle daha a! r ko ullarda yakaland ! görülmektedir. 1929 Büyük Buhran ’na ba!l olarak ortaya
ç kan derin krizden kurtulma aray lar n n ilk yans mas ; geli mi –azgeli mi ayr m gözetmeksizin
bütün ülkelerin, krizin iç pazarlardaki etkilerini asgariye indirgemek istemeleri nedeniyle
ekonomilerini bilinçli olarak d a kapatmalar d r [11]. Büyük Buhran n özellikle de geli mekte olan
ülkeler üzerindeki ikinci – ve belki de en önemli – yans mas ise; koruma duvarlar arkas nda, yayg n
32
(ve eskiden ithal edilen) s naî tüketim mallar ndan (üç beyazlar) ba layan ithal ikameci yat r mlar n,
XX. Yüzy l n ilk yar s nda Üçüncü Dünya ülkelerinin birço!unda ilk sanayile me hamlelerini
olu turmas d r [12].
Bir ülkenin sanayi sektörü aç s ndan mevcut durumunun, o ülkenin geli mi lik düzeyini ortaya koyan
temel göstergelerin ba nda gelmektedir. 20. yüzy l n son çeyre!inden bu yana dünyan n Gayrisafi
Yurtiçi Hâs las ’n n yakla k % 65’ini temsil eden, G–8 (Group of Eight) ülkelerinin geli mi lik
seviyelerinin temelinde, sanayi sektöründe kaydedilen ilerlemelerin bulundu!u; üzerinde uzla ma
sa!lanm bir tespittir. Bu noktadan hareketle; ülkelerin iktisadî büyümelerinin sanayi sektörlerinin
geli mesi sayesinde mümkün oldu!unu öngören geli mekte olan ülkeler de, kalk nma ve sosyal refah
seviyelerinin daha yükseklere ç kar lmas amac yla, sanayi sektörlerini büyütmek üzere kamu
kaynaklar n sanayi sektörü yat r mlar na tahsis etmi lerdir.
Kamu sektörü taraf ndan uygulanan yat r m stratejileri, iktisat politikalar n n liberal ya da Keynesyen
ekollerden hangisi çerçevesinde ekillendirildi!ine göre de!i kenlik göstermi tir. Bu ba!lamda
kamusal yat r mlar n, Keynesyen politikalar n revaçta oldu!u dönemlerde imalat sanayi ba ta olmak
üzere üretken sektörler üzerinde odakland ! , liberal politikalar n egemen oldu!u dönemlerde ise;
ekonomik ve sosyal altyap projelerine yönlendirildi!i görülmektedir.
II. Dünya Sava sonras nda dünya genelinde, kalk nmaya yönelik tüm çabalar n ifas , e güdümü,
uyumlula t r lmas , rasyonelle tirilmesi ve koordinasyonunun belirli bir plan dâhilinde yürütülmesinin
süreci h zland raca! görü ü egemen konuma yükselmi , ülkenin ekonomik–sosyal envanterini
ç karmak, kaynaklar etkin bir ekilde kullanmak ve belirlenen öncelikler çerçevesinde hangi
kaynaklar n, kim taraf ndan, ne zaman ve nas l kullan laca! n n ana hatlar yla ortaya konuldu!u yol
haritas niteli!indeki planlar haz rlanmaya ba lanm t r. Kalk nman n olmazsa olmaz unsurlar ndan
olan yat r mlar ve kamunun bu alanda üstlenece!i i levler, bu planlar n temel ö!eleri aras nda yer
alm t r.
Dünyada daha önceleri genellikle sanayile meye yönelik haz rland ! ve sanayi plan ad alt nda
uyguland ! görülen bu planlar, kinci Dünya Sava sonras nda iktisadi, sosyal ve kültürel alanlar da
kapsam na alarak geni letilmi ve kalk nma planlar na dönü türülmü tür. Ülkemizde bu alanda
ya anan geli meler de dünyadaki e!ilime paralel bir seyir izlemi tir. 1933–1937 dönemine yönelik
olarak haz rlanan Birinci be Y ll k Sanayi Plan ba ar ile icra edilmi , ancak müteakip dönem için
haz rlanan kinci Be Y ll k Sanayi Plan ise, kinci Dünya Sava nedeniyle uygulanamam t r.
Ekonomik, sosyal ve kültürel politikalar n ve hedeflerin tayininde ve ekonomik politikay ilgilendiren
faaliyetlerin koordinasyonunda Hükümete yard mc olmak ve dan manl k yapmak [13] ile
görevlendirilen Devlet Planlama Te kilat (DPT)’n n 1960 y l nda kurulmas ve iktisadi, sosyal ve
kültürel kalk nman n demokratik yollarla gerçekle tirilmesi için kalk nma planlar haz rlanmas n n
1961’den itibaren anayasal bir görev haline getirilmesi, planlama faaliyetlerinin kurumsalla mas n
beraberinde getirmi tir. 1963–1967 dönemini kapsayan Birinci Be Y ll k Kalk nma Plan ile ba layan
planlama süreci, takip eden y llarda be er y ll k dönemler için haz rlanan yedi ayr kalk nma plan ile
devam etmi tir. 2001–2005 dönemini kapsayan Sekizinci Be Y ll k Kalk nma Plan ’n n
tamamlanmas n n ard ndan da, AB mali takvimi dikkate al narak 2007–2013 y llar n kapsayacak
ekilde 7 y ll k olarak [14] belirlenen bir dönem için haz rlanarak “Dokuzuncu Kalk nma Plan ” ad
alt nda yürürlü!e konulmu tur.
Kamu kesimi için emredici, özel kesim için yol gösterici [15] nitelikte olan kalk nma planlar n n, özel
ve tarihsel nedenler bir kenara b rak ld ! nda, konumuz aç s ndan çizdi!i hayati önemi haiz vizyon ise;
sanayile me sürecinin ülke ölçe!inde de giderek artan i bölümü ve uzmanla may beraberinde
getirmesinin sonuçlar ndan biri olan bölgeler aras geli mi lik farklar n n ortadan kald r lmas için
bölgesel kalk nma projeleri uygulanmas n n te vikini öngörmesidir. Sanayile menin belli bölgelerde
toplanmas sonucu ortaya ç kan bu e itsizli!i ortadan kald rmak amac yla, geri kalm bölgelerin
sanayile tirilerek ülke içinde adil bir refah da! l m n n sa!lanmas [16] amac yla uygulanan bölgesel
kalk nma politikalar n n ülkemizdeki en ciddî yans mas ise; Güneydo!u Anadolu Projesi (GAP)’
olmu tur. Bu ba!lamda, yeni bir perspektifle özetlemek gerekirse; Sekizinci Be Y ll k Kalk nma
33
Plan ’nda üretimi, verimlili!i, ekonominin rekabet gücünü ve ihracat art r c , kamu aç klar n ve
enflasyon h z n azaltarak sürdürülebilir bir ekonomik ve sosyal kalk nmay sa!lay c kamu yat r m
politikalar n n uygulanmas ve kamu yat r mlar n n hedeflenen sektörel yap y gerçekle tirebilecek ve
kamunun temel fonksiyonlar n en etkin bir ekilde yerine getirmesini sa!layabilecek nitelikte
programlanmas gerekti!i belirtilmi tir. Ayr ca sosyal devlet ilkesi çerçevesinde; kamu yat r mlar nda
e!itim ve sa!l k sektörlerine, bölgesel geli mi lik farkl l klar n n giderilmesine ve geleneksel kamu
hizmetlerine a! rl k verilmesi, altyap n n ekonomik ve sosyal geli menin önünde darbo!az
olu turmamas için sulama, enerji, liman, havaalan yat r mlar ve bunlar n karayolu ve demiryolu ana
akslar yla bütünle mesini sa!layacak yollar ile içme suyu, kanalizasyon ve ar tma yat r mlar na
öncelik verilmesi öngörülmü tür [17].
2003 y l yat r m program nda ise;
Yat r m tahsislerinde Kalk nmada Öncelikli Yörelerin kalk nmas na h z kazand r c ekonomik ve
sosyal altyap yat r mlar ile istihdam a! rl kl projelere öncelik verilmesi, bu kapsamda özellikle
Güneydo!u Anadolu Projesi Ana Plan (GAP) kapsam nda öngörülen yat r mlara öncelik verilmesi,
Güneydo!u Anadolu Bölgesi’nin kalk nmas na yönelik olarak 2001/10 say l Ba bakanl k
Genelgesi gere!ince, DPT Müste arl ! ’n n koordinatörlü!ünde yürütülen çal malar neticesinde
ortaya ç kan proje listelerinde yer alan projelere tahsislerde öncelik verilmesi,
Güneydo!u Anadolu Bölgesi’nde belirli nüfus büyüklü!üne ula m , do!udan bat ya göçü
kendine yönlendirebilecek, çevre illeri sosyoekonomik yönden etkileme potansiyeline sahip
Gaziantep, ranl urfa, Diyarbak r, Ad yaman ve Mardin illerinin altyap yat r mlar na öncelik
verilmesi,
gerekti!i belirtilmi tir [18].
2. Güneydo<u Anadolu Bölgesi’nin Sosyoekonomik Yap s
Güneydo!u Anadolu Bölgesi, bölgelerimiz içinde 59.176 km²’lik yüzölçümüyle en küçü!üdür.
Türkiye yüzölçümüne oran % 7,5’tir. Bölge; Hatay ve Kahramanmara ’ n do!usu, Güneydo!u
Toroslar’ n güney etekleri ile güneyde Suriye, k smen de Irak s n rlar aras nda kalmaktad r [19].
Güneydo!u Anadolu Bölgesi Türkiye toplam nüfusunun % 10,2’sini bar nd rmaktad r [26].
Türkiye’de % 9,9 olan ortalama i sizlik oran , Güneydo!u Anadolu Bölgesi’nde % 14 düzeyindedir
[28]. Türkiye’de ki i ba na dü en gayri safi yurtiçi hâs la 2.146 $ seviyesinde iken, Güneydo!u
Anadolu Bölgesi’nde 1.186 $ düzeyinde kalm t r [29]. Bölge, Türkiye’deki bölgeleraras ekonomik
dengesizlik sorunundan olumsuz yönde etkilenmektedir. Özel sektör yat r mlar n n genellikle geli mi
bat bölgelerinde yo!unla mas [20], bölgenin geri kalm l ! n giderek art rmaktad r. Ayr ca, terör,
Körfez Sava ve (uzun y llar süren) Irak Ambargosu gibi d sal faktörlere ba!l olumsuzluklar;
bölgeye yönelik özel sektör yat r m kararlar n olumsuz yönde etkilemektedir.
Bölgenin belirgin demografik özelliklerini özetlersek:
Do!urganl k oran , buna ba!l olarak nüfus art h z ve göç oran yüksek düzeydedir.
Kentle me oran dü üktür.
E!itim düzeyi yetersizdir [19],
Bölgede ya ayan nüfusun 0–14ya grubundaki oran % 47’ye tekabül etmektedir.
Türkiye’de ortalama hane halk büyüklü!ü 4,5 iken; Güneydo!u Anadolu’da 6,5’tir [30].
3. Güneydo<u Anadolu Bölgesi kamu yat r mlar istatistikleri
3.1. Kamu yat:r:mlar: toplam:
34
Çizelge–1’de görülebilece!i üzere, 1999–2008 döneminde Türkiye’nin kamu yat r m harcamalar
toplam n n ortalama % 7,5’i, Güneydo!u Anadolu Bölgesi’nde gerçekle tirilmi tir.
Di!er taraftan, söz konusu dönem içerisinde Güneydo!u Anadolu Bölgesi’ne yap lan yat r mlar n nicel
aç dan y ll k bazda 148.797 bin YTL. ile 1999’da taban, 1.027.697 bin YTL. ile 2005’te tavan yapt ! ,
oransal aç dan asgari yüzdenin 4,7 ile 2001’de, azami yüzdenin de 9,4 ile 2005’te gerçekle ti!i,
görülmektedir.
Çizelge 1. Kamu Yat r m Harcamalar Toplam
Y llar
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
Güneydo!u Anadolu Bölgesi
(Bin YTL.)
148.797
291.960
181.616
440.080
605.651
544.412
1.027.697
871.186
882.900
976.825
Türkiye
(Bin YTL.)
2.264.968
3.278.232
3.901.433
7.261.676
7.261.973
7.146.423
10.940.470
11.540.196
12.607.506
13.687.532
Güneydo!u Anadolu Bölgesi/Türkiye
(%)
6,6
8,9
4,7
6,1
8,3
7,6
9,4
7,5
7,0
7,1
Kaynak: [21].
3.2. Tar:m sektörü kamu yat:r:mlar:
Çizelge–2’de belirtilen 1999–2008 dönemine ait verilere göre, Türkiye’de tar m sektörüne yönelik
kamu yat r m harcamalar toplam n n ortalama % 22,2’si Güneydo!u Anadolu Bölgesi’nde yap lm ,
bu yat r mlar nicel aç dan y ll k bazda 22.529 bin YTL. ile 1999’da minimum, 210.457 bin YTL. ile
2003’te maksimum düzeyde gerçekle tikten sonra genel hatlar itibar yla gerileme e!ilimine girmi tir.
Oransal aç dan ise asgari nispet % 10,2 ile 2007, azami nispet de % 42,1 ile 2003 y llar nda
görülmü tür.
Çizelge 2. Tar m sektörü kamu yat r m harcamalar
Y llar
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
Güneydo!u Anadolu Bölgesi
(Bin YTL.)
22.529
38.401
44.219
81.888
210.457
197.508
204.733
110.158
87.976
89.854
Türkiye
(Bin YTL.)
99.801
158.698
182.900
295.815
499.677
529.520
653.089
792.358
864.260
834.136
Güneydo!u Anadolu Bölgesi/Türkiye
(%)
22,6
24,2
24,2
27,7
42,1
37,3
31,3
13,9
10,2
10,8
Kaynak: [21].
3.3. Madencilik sektörü kamu yat:r:mlar:
Türkiye’de 1999–2008 y llar aras nda madencilik sektöründe gerçekle tirilen kamu yat r mlar ,
Çizelge–3’te gösterilmi tir.
Söz konusu çizelgede belirtilen verilerinin analizinden anla lmaktad r ki;
35
Toplam madencilik yat r mlar n n ortalama % 11,6’s Güneydo!u Anadolu Bölgesi’nde
yap lm t r.
Güneydo!u Anadolu Bölgesi 2001, 2002 ve 2003’te hiç yat r m al nmam , 2008’de ise 117.783
bin YTL. ile sektöre olan kamu yat r mlar maksimum seviyeye ç km t r.
Oransal olarak da en yüksek nispet olan % 16,5’e 2005 y l nda ula lm , 2004’ten itibaren de
sektöre yap lan yat r mlar genel anlamda artm t r.
Çizelge 3. Madencilik sektörü kamu yat r m harcamalar
Y llar
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
Güneydo!u Anadolu Bölgesi
(Bin YTL.)
435
100
0
0
0
755
64.017
62.519
74.605
117.783
Türkiye
(Bin YTL.)
19.582
24.337
30.195
47.026
57.177
153.470
388.765
586.241
726.747
717.009
Güneydo!u Anadolu Bölgesi/Türkiye
(%)
2,2
0,4
0
0
0
0,5
16,5
10,7
10,3
16,4
Kaynak: [21].
3.4. malat sanayi sektörü kamu yat:r:mlar:
Ekonomik kalk nman n lokomotifi olarak görülen imalat sanayi sektörüne Türkiye’de 1999–2008
döneminde yap lan kamu yat r mlar n gösteren Çizelge–4’ün analizi; imalat sanayine yönelik toplam
kamu yat r m harcamalar ndan Güneydo!u Anadolu Bölgesi’nin pay na dü en bölümün ortalamas n n
sadece % 0,8 oldu!unu, maksimum düzeye 10.965 bin YTL. ile 2003’te ula ld ! n , oransal aç dan
ise; 2000 y l nda % 2,7’lik bir yat r m pay na eri ildi!ini, 2005 y l ndan itibaren yat r mlar n miktar
aç s ndan geriledi!ini ve nihayet 2008 y l nda da s f rland ! n ortaya koymaktad r.
Çizelge 4. malat sanayi sektörü kamu yat r m harcamalar
Y llar
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
Güneydo!u Anadolu Bölgesi
(Bin YTL.)
1.208
6.352
1.329
5.051
10.965
415
1.250
874
60
0
Türkiye
(Bin YTL.)
125.528
236.329
317.126
458.975
455.010
276.701
585.458
345.896
282.017
269.860
Güneydo!u Anadolu Bölgesi/Türkiye
(%)
1,0
2,7
0,4
1,1
2,4
0,1
0,2
0,3
0
0
Kaynak: [21].
3.5. Enerji sektörü kamu yat:r:mlar:
Türkiye’de 1999–2008 y llar aras nda enerji sektörüne yap lan kamu yat r mlar n gösterir Çizelge–5
a a! dad r.
Bu çizelgedeki veriler;
36
Referans al nan dönemdeki toplam yat r mlar n ortalama % 9’unun Güneydo!u Anadolu
Bölgesi’nde gerçekle tirildi!ini,
Nicel aç dan 2001’de 18.600 bin YTL. ile taban, 2005’te ise 243.800 bin YTL. ile tavan
yap ld ! n , oransal olarak da asgari yüzde olan 2,2’nin 2002’de, azami yüzde olan 15,9’un da
2008’de gerçekle ti!ini, 2005’ten itibaren ise; dü ü ler ya anmas na ra!men, bölgeye yat r mlar n
geçmi e y llara k yasla istikrar n korudu!unu,
ortaya koymaktad r.
Çizelge 5. Enerji sektörü kamu yat r m harcamalar
Y llar
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
Güneydo!u Anadolu Bölgesi
(Bin YTL.)
19.531
42.043
18.600
23.651
54.115
69.848
243.800
189.000
188.140
186.998
Türkiye
(Bin YTL.)
370.967
529.347
812.363
1.082.953
1.678.600
1.254.307
1.736.541
1.455.669
1.435.566
1.178.197
Güneydo!u Anadolu Bölgesi/Türkiye
(%)
5,3
7,9
2,3
2,2
3,2
5,6
14,0
13,0
13,1
15,9
Kaynak: [21].
3.6. Ula#t:rma-haberle#me sektörü kamu yat:r:mlar:
Ula t rma–haberle me sektörleri aç s ndan kamu yat r mlar n gösteren Çizelge–6’daki verilere göre;
1999–2008 döneminde Güneydo!u Anadolu Bölgesi’ndeki kamu yat r mlar toplam n n, ortalamada
% 2 seviyesinde kald ! , minimum yat r m n mebla! n n 3.599 bin YTL. ile 1999’da ve oran n % 1,1
ile 2002’de, maksimum yat r m n ise; 79.803 bin YTL. ile 2008’de gerçekle ti!i, oransal aç dan da
2000’de % 4,6 ile azami seviyenin yakaland ! söylenilebilecektir.
Çizelge 6. Ula t rma-haberle me sektörü kamu yat r m harcamalar
Y llar
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
Güneydo!u Anadolu Bölgesi
(Bin YTL.)
3.599
17.933
9.762
22.685
34.792
34.261
41.079
79.599
49.439
79.803
Türkiye
(Bin YTL.)
266.982
385.704
422.015
2.133.957
1.308.951
1.292.751
2.165.511
3.015.662
3.732.955
4.048.631
Güneydo!u Anadolu Bölgesi/Türkiye
(%)
1,3
4,6
2,3
1,1
2,7
2,7
1,9
2,6
1,3
2,0
Kaynak: [21].
3.7. Turizm sektörü kamu yat:r:mlar:
Türkiye’de 1999–2008 y llar aras nda turizm sektörüne yap lan kamu yat r mlar n gösterir veriler
Çizelge–7’de gösterilmi tir.
Çizelge–7’deki verilere göre;
37
Turizm sektöründe Türkiye genelindeki kamu yat r mlar toplam n n ortalama % 0,2’si
Güneydo!u Anadolu Bölgesi’ne yap lm t r.
Maksimum yat r m mebla! 455 bin YTL. ile 2006’da, oransal olarak ise % 1,6 ile 2001’de
yakalanm t r.
2002–2005 dönemini kapsayan 4 y ll k süreçte ise, Güneydo!u Anadolu Bölgesi’nde turizm
alan nda hiç kamu yat r m yap lmam t r.
Çizelge 7. Turizm sektörü kamu yat r m harcamalar
Y llar
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
Güneydo!u Anadolu Bölgesi
(Bin YTL.)
26
200
300
0
0
0
0
455
10
100
Türkiye
(Bin YTL.)
7.933
19.335
19.131
114.851
63.411
44.518
42.243
61.551
27.550
48.202
Güneydo!u Anadolu Bölgesi/Türkiye
(%)
0,3
1,0
1,6
0
0
0
0
0,7
0
0,2
Kaynak: [21].
3.8. Konut sektörü kamu yat:r:mlar:
1999–2008 döneminde Türkiye’de konut sektörüne yap lan kamu yat r mlar n gösteren Çizelge–8
verileri göstermektedir ki, dönem içerisinde sektöre yap lan yat r mlar toplam n n ortalama % 12,4’ü
Güneydo!u Anadolu Bölgesi’ne yap lm , miktar olarak minimum de!er 402 bin YTL ile 1999’da,
oransal olarak da % 4,0 ile 2006’de, maksimum de!er ise 18.524 bin YTL. ve % 20,1 ile 2008’de
gerçekle mi tir.
Çizelge 8. Konut sektörü kamu yat r m harcamalar
Y llar
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
Güneydo!u Anadolu Bölgesi
(Bin YTL.)
402
1.197
1.408
2.000
2.390
13.315
8.712
3.385
12.577
18.524
Türkiye
(Bin YTL.)
5.840
9.832
9.330
13.931
23.825
95.044
86.771
84.023
93.858
92.015
Güneydo!u Anadolu Bölgesi/Türkiye
(%)
6,9
12,2
15,1
14,4
10,0
14,0
10,0
4,0
13,4
20,1
Kaynak: [21].
3.9. EGitim alan:nda yap:lan kamu yat:r:mlar:
1999–2008 döneminde Türkiye’de e!itim alan nda gerçekle tirilen kamu yat r m harcamalar n
gösteren Çizelge–9’un tetkikinden;
Bu alandaki toplam kamu yat r mlar n n ortalama % 8,2’sinin Güneydo!u Anadolu Bölgesi’nde
gerçekle tirildi!i,
Minimum mebla! n 9.528 bin YTL. ile 1999’da, oran n ise % 4,8 ile 2000’de görüldü!ü,
38
Maksimum mebla! n 163.090 bin YTL. ile 2008’de, oran n ise % 10,7 ile 2005 y l nda ba ar ld ! ,
2006 y l bir kenara b rak ld ! nda; mebla! aç s ndan e!itim alan nda Güneydo!u Anadolu
Bölgesi’ne yap lan kamu yat r mlar n n istikrarl bir ekilde yükseldi!i,
anla lmaktad r.
Çizelge 9. E!itim alan nda yap lan kamu yat r m harcamalar
Y llar
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
Güneydo!u Anadolu Bölgesi
(Bin YTL.)
9.528
15.715
22.162
39.986
42.366
46.446
129.850
128.699
161.718
163.090
Türkiye
(Bin YTL.)
188.832
324.106
407.550
771.662
829.531
882.957
1.213.740
1.297.614
1.568.099
1.797.245
Güneydo!u Anadolu Bölgesi/Türkiye
(%)
5,0
4,8
5,4
5,2
5,1
5,3
10,7
9,9
10,3
9,1
Kaynak: [21].
3.10. SaGl:k alan:nda yap:lan kamu yat:r:mlar:
Türkiye’de 1999–2008 döneminde sa!l k alan nda yap lan kamu yat r mlar n gösteren verileri havi
Çizelge–10’a göre; harcama toplam n n ortalama % 10,3’ü Güneydo!u Anadolu Bölgesi’nde
gerçekle tirilmi , asgari mebla! ile oran 7.638 bin YTL. ve % 6,7 ile 1999’da, maksimum mebla! ile
oran ise; 174.985 bin YTL. ve % 14,6 ile 2007’de hayata geçirilmi tir.
Çizelge 10. Sa!l k Alan nda yap lan kamu yat r m harcamalar
Y llar
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
Güneydo!u Anadolu Bölgesi
(Bin YTL.)
7.638
15.634
16.829
31.819
53.712
44.091
92.377
142.732
174.985
133.171
Türkiye
(Bin YTL.)
113.226
220.939
189.362
363.522
585.826
649.966
1.193.368
1.210.157
1.202.221
1.197.903
Güneydo!u Anadolu Bölgesi/Türkiye
(%)
6,7
7,1
8,9
8,8
9,2
6,8
7,7
11,8
14,6
11,1
Kaynak: [21].
3.11. DiGer kamu hizmetleri yat:r:mlar:
Türkiye genelindeki içme suyu, kanalizasyon, esnaf–zanaatkâr ve küçük sanayi sektörlerine yönelik
hizmetler, k rsal alan planlamas , belediyecilik, yerle me– ehirle me, çevre hizmetleri, teknolojik
ara t rma ile sosyal hizmet ve yard mlardan yat r m niteli!ini ta yan harcamalar n yer ald ! “Di!er
Kamu Hizmetleri Yat r mlar ” bölümü kapsam ndan, 1999–2008 döneminde Güneydo!u Anadolu
Bölgesi’nin ald ! pay ve oranlar gösterir veriler Çizelge–11’de sunulmu tur.
Bu kapsama dâhil olan verilere göre;
Toplam kamu yat r mlar n n ortalama % 7,4’ü Güneydo!u Anadolu Bölgesi’ne yap lm t r.
39
Minimum mebla! ile oran, 67.007 bin YTL. ve % 4,4 ile 2001’de görülmü tür.
Maksimum mebla! 241.879 bin YTL. ile 2005’te, maksimum oran ise % 11,8 seviyesinin
yakaland ! 2002 y l nda gerçekle mi tir.
Çizelge 11. Di!er kamu hizmetleri yat r m harcamalar
Y llar
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
Güneydo!u Anadolu Bölgesi
(Bin YTL.)
83.900
154.385
67.007
233.000
196.836
137.773
241.879
153.783
133.390
187.502
Türkiye
(Bin YTL.)
1.066.278
1.369.606
1.511.461
1.978.984
1.759.963
1.967.189
2.874.984
2.691.025
2.674.233
3.504.334
Güneydo!u Anadolu Bölgesi/Türkiye
(%)
7,9
11,3
4,4
11,8
11,2
7,0
8,4
5,7
5,0
5,4
Kaynak: [21].
4. Sonuç ve öneriler
Türkiye’de 1999–2008 y llar aras nda yap lan kamu yat r mlar na ait veriler irdelendi!inde; referans
al nan dönem içerisinde yap lan toplam kamu yat r m miktar n n 79.890.409 bin YTL.’s na ula t ! ve
bu yat r mlardan Güneydo!u Anadolu Bölgesi’nin pay na dü en miktar n ise 5.971.124 bin YTL.
oldu!u görülmektedir.
Söz konusu kamu yat r mlar n n toplam Güneydo!u Anadolu Bölgesi ile di!er co!rafi bölgelerimiz
aras nda da! t ld ! nda bölgenin pay % 7,5’lerde kalmakta olup, da! l m rekil–2’de gösterilmi tir:
40
7,5%
92,5%
GÜNEYDOIU ANADOLU BÖLGES
D IER BÖLGELER
Bekil–2: Güneydo!u Anadolu Bölgesi'nin 1999–2008 döneminde toplam kamu yat r mlar içerisindeki
pay
Bunun yan s ra; dönem içerisinde Güneydo!u Anadolu Bölgesi’nde yap lan toplam kamu
yat r mlar n n sektörler itibar yla tasnifi rekil–3’tedir:
18,2%
26,6%
0,5%
5,4%
17,3%
11,9%
12,7%
1,1%
TARIM
M ALAT
ULArTIRM A- HABERLErM E
KONUT
SAoLIK
0,1%
6,2%
M ADENC L K
ENERJ
TUR ZM
Eo T M
D oER KAM U H ZM ETLER
Bekil–3: Güneydo!u Anadolu Bölgesi'ne 1999–2008 döneminde yap lan toplam kamu yat r mlar n n
sektörel da! l m
reklin analizinden;
41
Dönem içerisinde Güneydo!u Anadolu Bölgesi’ne yap lan kamu yat r mlar nda ilk s rada % 26,6
ile sosyal hizmet ve yard mlardan yat r m niteli!ini ta yan harcamalar ba ta olmak üzere di!er
kamu hizmetlerinin yer ald ! ,
Bu kalemi s ras yla tar m, enerji, e!itim, sa!l k, ula t rma–muhabere, madencilik, konut, turizm ve
imalat sektörlerinin takip etti!i,
anla lmaktad r.
Birim alan ve ki i ba na dü en kamu yat r mlar ile ilgili veriler ise; Çizelge–12 ve Çizelge–13’te
gösterilmi tir:
Çizelge 12. Birim alana dü en kamu yat r m harcamalar
Y llar
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
Güneydo!u Anadolu Bölgesi
(YTL./Km²)
1.944,8
3.816,0
2.373,8
5.752,0
7.916,1
7.115,7
13.432,4
11.386,7
11.539,8
12.767,5
Türkiye
(YTL./Km²)
2.890,6
4.183,8
4.979,1
9.267,5
9.267,9
9.120,4
13.962,5
14.727,9
16.090,0
17.468,3
Güneydo!u Anadolu Bölgesi/Türkiye
(%)
67,3
91,2
47,7
62,1
85,4
78,0
96,2
77,3
71,7
73,1
Kaynak: [21, 24].
Bu çerçevede yap lan hesaplamalar göstermektedir ki, 1999–2008 döneminde, Güneydo!u Anadolu
Bölgesi’nde km²’ye dü en kamu yat r m harcamalar Türkiye ortalamas n n % 75’i düzeyindedir(.
Ayn dönemde, Güneydo!u Anadolu Bölgesi’nde ki i ba na dü en kamu yat r m harcamalar ise;
Türkiye ortalamas n n % 73’ü seviyesindedir((.
Çizelge 13. Ki i ba na dü en kamu yat r m harcamalar
Y llar
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
Güneydo!u Anadolu Bölgesi
(YTL./Ki i)
21,3
41,8
26,0
63,1
86,8
77,1
147,2
124,8
126,5
140,0
Türkiye
(YTL./Ki i)
32,5
47,1
56,0
104,2
104,2
102,6
157,1
165,7
181,0
196,5
Güneydo!u Anadolu Bölgesi/Türkiye
(%)
65,6
88,8
46,5
60,5
83,2
75,1
93,7
75,3
69,9
71,2
Kaynak: [21,25,26].
(
1999–2008 dönemi km²’ye dü en kamu yat r m harcamalar hesaplan rken, Türkiye ve Güneydo!u Anadolu
Bölgesi’nin göllerin dâhil oldu!u yüzölçümü verileri kullan lm t r.
((
1999–2008 dönemi ki i ba na dü en kamu yat r m harcamalar hesaplan rken, dönem içindeki her y la ait
nüfus say m verileri bulunmad ! ndan, 2000 y l Genel Nüfus Say m ve 2008 y l Adrese Dayal Nüfus Kay t
Sistemi sonuçlar n n aritmetik ortalamas baz al nm t r.
42
Sekizinci Be Y ll k Kalk nma Plan ’nda “Yat r mlarda, özellikle geri kalm bölgelerin geli mesini
h zland racak düzenlemelere gidilmesine ve uygulanan te vik tedbirlerinin yürütülmesine devam
edilmesi” hedefi konulmu tur [22]. GAP Bölgesel Kalk nma Program ’nda ise temel amaç olarak;
“Güneydo!u Anadolu Bölgesi’nde ya ayan insanlar n ekonomik ve sosyal ko ullar n n iyile tirilmesi,
istikrarl ekonomik büyümeye katk da bulunulmas yoluyla bölgenin üretkenli!inin ve istihdam
kapasitesinin art r lmas ve böylece bölgeleraras geli mi lik farkl l klar n n azalt lmas …”[23]
öngörülmü tür. Ancak; 1999–2008 dönemi kamu yat r m harcamalar verileri, Be y ll k kalk nma
planlar ve y ll k programlarda belirlenen stratejiler do!rultusunda, bölgeler aras kalk nm l k
farkl l klar n ortadan kald rmay sa!layacak bir yat r m hacminin Güneydo!u Anadolu Bölgesi’nde
beklenilen ölçülerde gerçekle medi!ini göstermektedir.
Belirlenen bu hedeflere ula lmas için, yat r m harcamalar n n art r lmas gerekmektedir. Ancak
Türkiye’de özel sektör yat r mlar genellikle geli mi bat bölgelerinde yo!unla m t r [20]. Bu
durumda, geri kalm bölgelerdeki özel sektör yat r mlar düzeyindeki yetersizlikler kamusal yat r mlar
ile ikame edilmelidir.
Özelle tirme sürecinin ya and ! günümüz piyasa ko ullar nda, devletin bir müte ebbis statüsünde
Güneydo!u Anadolu Bölgesi’nde kamu yat r m yapmas n beklememiz do!ru de!ildir. Ancak
bölgenin sosyo-ekonomik geri kalm l ! göz önünde bulundurularak, Güneydo!u Anadolu Bölgesi’ne
pozitif ayr mc bir yat r m politikas uygulanmas yararl olacakt r.
Güneydo!u Anadolu Bölgesi’ne yönelik kamu yat r m politikalar belirlenirken, a a! da belirtilen
hususlar n göz önünde bulundurulmas gerekmektedir:
Bölgedeki giri imlerin desteklenerek, istihdam imkânlar ve yeni i alanlar yaratacak altyap
yat r mlar na a! rl k verilmesi gerekmektedir. Özellikle bölgenin ekonomik yap s nda yüksek
potansiyele sahip petrol, antepf st ! , baklagiller, üzüm, pamuk, hayvanc l k vb. alanlar n
geli mesine yönelik kamusal yat r mlar n ve te viklerin art r lmas yararl olacakt r.
Bölgenin k rsal kesiminde destekleyici, gelir getirici faaliyetlerin geli tirilmesine yönelik
yat r mlara a! rl k verilmesi gerekmektedir. Çünkü bölgede yüksek düzeyde olan köyden kente
göçlerin azalt lmas , birçok sosyo-ekonomik sorunun do!mas na engel olacakt r [27].
Bölgede zengin kültürel ve tarihsel mirasa sahip alanlar yenileyip geli tirerek kültürel miras n
korunmas ve turizm potansiyelinin geli tirilmesine yönelik kamusal yat r mlar n ve te viklerin
art r lmas yararl olacakt r.
Bölgeye yönelik yat r mlar n mukayeseli üstünlükler aç s ndan öncelikli olunan sektörler üzerinde
yo!unla t r lmas halinde, uluslararas düzeydeki rekabet ortam na ayak uydurulmas aç s ndan
müspet sonuçlar elde edilecektir.
Yeniden in a a amas ndaki Irak ile mevcut co!rafi yak nl k avantajlar ile GAP Projesi’nin
tamamlanmas akabinde ortaya ç kacak geni d ticaret potansiyeli nedeniyle; ba ta ula m ve
haberle me olmak üzere bölgedeki altyap imkânlar n n kuvvetlendirilmesine yönelik yat r mlar n
artt r lmas hem bölge hem de ülke için fayda getirecektir.
Dünya genelinde g da ürünleri fiyatlar nda ya anan ve önümüzdeki dönemde de sürmesi beklenen
art lardan istifade edilmesi amac yla, görece avantajl konumdaki tar msal a! rl kl ekonomik
yap ile ba!lant l modern sanayilerin olu turulmas na yönelik yat r mlara a! rl k verilmelidir.
Bunun yan s ra; organik tar m için son derece elveri li bulunan volkanik karakterli arazinin slah ,
serac l k, damla sulama vb. modern üretimin te viki, en modern depolama, ambalajlama ve
pazarlama tekniklerinin hayata geçirilmesine yönelik kamu yat r mlar , k sa vadede dahi büyük
hâs la al nmas n mümkün k lacakt r.
Bölgede topyekûn bir sosyoekonomik kalk nma için ise; Kalk nma Bakanl ! kurulmal , sanayi
envanteri yap lmal ve bilgileri payla lmal , Kalk nma Ajanslar devreye al nmal , te vik
programlar uzun süreli olarak uygulanmal , üniversiteye giri ler yeniden düzenlenmeli, üniversite
bölümleri ihtiyaca göre aç lmal , sermayenin bölgede kalmas sa!lanmal , bölgede enerji cazibesi
olu turulmal , s n r ticareti geli tirilmeli, te vik ve destek sistemleri zenginle tirilmeli, il kalk nma
projeleri olu turulmal , organize sanayi bölgeleri güçlendirilmeli, vergi muafiyetleri getirilmeli,
serbest ticaret bölgeleri güçlendirilmeli, üreme konusunda halk bilinçlendirilmeli, göçü
43
durduracak çal malar h zland r lmal , ehircilik bilinci uyand r lmal , yat r m ortam na belirginlik
getirilmeli, kredi ve nakliye cazibesi sa!lanmal , GAP özel sektöre aç lmal , sulama rejimi
olu turulmal , GAP’a kültürel boyut kazand r lmal , navlun te vik kapsam na al nmal , arazi
imkânlar yeniden yap land r lmal , yan u!ra alanlar olu turulmal , may nl araziler tar ma
kazand r lmal , hayvanc l k desteklenmeli, bürokratik i lemler azalt lmal , madencilik yat r mlar
canland r lmal , Küçük hidroelektrik santralleri (HES) kurulmal , sanayiye do!algaz ula t r lmal ,
kaçak elektrik kullan m dü ürülmeli, in aat sektörüne özel önem verilmeli, S n r Ticareti
Merkezleri (STM) için vakit kaybedilmemeli, ula m imkânlar art r lmal , kom ularla ortak
fuarlar n say s art r lmal , yeni s n r kap lar aç lmal , bölgeye uçu lar art r lmal d r [30].
Kaynaklar
[1] B. Dinçer, M. Özaslan, E. Sat lm , (1996), llerin sosyo-ekonomik geli#mi#lik s:ralamas: ara#t:rmas:,
Ankara: DPT-Bölgesel Geli me ve Yap sal Uyum Genel Müdürlü!ü, s. 1,
[2] DPT, Kamu yat:r:mlar:, http://www.dpt.gov.tr/kamuyat/program.html (Eri im: Mart 2009),
[3] Y. Özdemir (2007), Türkiye’de yat r m harcamalar n n geli imi ve kamu yat r m politikalar , Ankara:
Bütçe Dünyas:, Cilt:3 Say : 27, s.1, http://www.debud.org/Html/dergi/27/yozdemir.pdf (Eri im: Mart
2009),
[4] G. Akal n, (1999), Liberalizm aç s ndan devletin ekonomideki rolü, Ankara: Yeni Türkiye, Say : 25, s.
343–344,
[5] G. Kazgan (1988), Ekonomide d:#a aç:k büyüme, stanbul: Alt n Kitaplar Yay nevi, kinci Bask , s. 35,
[6] Genel ekonomi ansiklopedisi (1988), stanbul: Milliyet Yay nlar , Birinci Bask , Cilt: II, s. 686.
[7] Y. Özdemir, s. 1,
[8] . Türk (1999), Kamu maliyesi, Ankara: Turhan Kitabevi, Üçüncü Bask , s. 27,
[9] r. Aksoy (1988), Kamu maliyesi, stanbul: Filiz Kitabevi, Üçüncü Bask , s. 91,
[10] Yat:r:m nedir, http://www.ekodialog.com/Konular/yatirim_fonksiyon.html, (Eri im: Mart 2009),
[11] B.B. Do!an (2000), Yirminci y:l:nda 24 Ocak 1980 kararlar:, DÜ–SBE, Yay nlanmam Yüksek Lisans
Tezi, s. 8,
[12] K. Boratav (1993), Türkiye iktisat tarihi 1908–1985, stanbul: Gerçek Yay nlar , Dördüncü Bask , s. 48–
49,
[13] 1960 sonras: dönemde planlama ve devlet planlama te#kilat:, http://www.dpt.gov.tr/PortalDesign/
PortalControls/WebContentGosterim.aspx?DokumanRef=359, (Eri im: Mart 2009),
[14], Dokuzuncu kalk nma plan (2007 – 2013) (2006), Resmi Gazete, Say : 26215, http://www.gep.gov.tr
/fileAdmin/Statistics/Others/DokuzuncuKalk%C4%B1nmaPlan%C4%B1.pdf, (Eri im: Mart 2009),
[15] Planlar:n niteliGi ve DPT te#kilat:, 1960 sonras: dönemde planlama ve Devlet Planlama Te#kilat:,
http://www.dpt.gov.tr/PortalDesign/PortalControls/WebContentGosterim.aspx?DokumanRef=359,
(Eri im: Mart 2009),
[16] Bölgesel kalk:nma nedir, bölgesel ekonomik kalk:nma plan:, http://www.bilgininadresi.net/Madde
/39843/B%C3%B6lgesel-Kalk%C4%B1nma-Nedir,-B%C3%B6lgesel-Ekonomik-Kalk%C4%B1nmaPlan%C4%B1, (Eri im: Mart 2009),
[17] DPT, (2000), Bölgesel geli#me Ö K raporu, Sekizinci be# y:ll:k kalk:nma plan:, Ankara, DPT: 2502Ö K: 523, s. 9–19,
[18] DPT, (2002), 2003 y:l: yat:r:m program: haz:rlama esaslar:, Ankara, s. 3,
[19] M. P çak, (2007), GüneydoGu Anadolu Bölgesi’nin ekonomik geli#iminde tar:ma dayal: sanayilerin
etkisi (1990–2000 dönemi), MÜ-SBE, Bas lmam Doktora Tezi, s. 9–60–17–12,
[20] L. Elvan, N. Sorguç, L. B. Kazanc k A. Öztürk, (2005), Bölgesel geli#me ve sektör-bölge y:G:nla#malar:,
DPT Yay nlar , Ankara, s. 40–45,
[21] DPT, Kamu yat:r:mlar:n:n illere göre sektörel daG:l:m:, http://www.dpt.gov.tr/kamuyat/ilozet.html
(Eri im: Mart 2009),
[22] DPT, (2004), Bölgesel geli#me hedef ve politikalar:, VIII. Be# Y:ll:k Kalk:nma Plan:–2005 Y:l:
Program:, s. 1,
[23] DPT, (2005), Türkiye-Avrupa BirliGi mali birliGi kapsam:ndaki i#birliGi bölgesel kalk:nma programlar:
DPT-Bölgesel Geli me ve Yap sal Uyum Genel Müdürlü!ü, Ankara, s. 62,
[24] TU K, Bölgesel istatistikler-bölgelerin alan:, http://tuikapp.tuik.gov.tr/Bolgesel/tabloOlustur.do
(Eri im: Mart 2009),
[25] TU K, Bölgesel istatistikler-genel nüfus say:mlar:, http://tuikapp.tuik.gov.tr/Bolgesel/tabloOlustur.do
(Eri im: Mart 2009),
44
[26]
[27]
[28]
[29]
[30]
TU K,
bölgesel
istatistikler,
adrese
dayal:
nüfus
kay:t
sistemi,
http://tuikapp.tuik.gov.tr/Bolgesel/tabloOlustur.do (Eri im: Mart 2009),
M. P çak, (2009), Micro-credit applications in the fight against poverty and improvement of income
distribution in Turkey, Eurasia Business and Economics Society, 2009, Conference Summary Book,
TU K, Bölgesel istatistikler-hanehalk: i#gücü anketine göre i#gücü durumu–2006,
http://tuikapp.tuik.gov.tr/Bolgesel/tabloOlustur.do (Eri im: Mart 2009),
TU K,
Bölgesel istatistikler-ki#i
ba#:na
dü#en
gayri
safi
yurtiçi
hâs:la–2001,
http://tuikapp.tuik.gov.tr/Bolgesel/tabloOlustur.do (Eri im: Mart 2009),
MÜS AD Ara t rma Raporlar : 53 [2008], DoGu ve GüneydoGu Anadolu bölgelerine yönelik
sosyoekonomik kalk:nma önerileri, stanbul: s. 12–13, 149–157.
45
Parametrik olmayan panel veri modelleri ile
uluslararas göçün makro ekonomik belirleyicileri
.Selahattin GÜR ^
Marmara Üniversitesi
ktisadi ve dari Bilimler Fakültesi
Ekonometri Ana Bilim Dal: Ekonometri Bölümü
Bahçelievler, stanbul, Türkiye
[email protected]
.Elif ÖZTÜRK
Y:ld:z Teknik Üniversitesi
Fen Edebiyat Fakültesi statistik Bölümü
Davutpa#a Kampüsü
34210-Esenler, stanbul, Türkiye
[email protected] [email protected]
Özet
Uluslar aras göç ya ad ! m z dünyan n yap s hakk nda bilgi veren anahtar kelimelerden birisidir;
sosyal, ekonomik ve politik de!i im süreçlerinde önemli bir rolü bulunmakta ve OECD üyesi ülkelerin
politikalar nda merkezi bir öncelik ta maktad r. Çal mam z n amac , temel makro ekonomik
de!i kenlerin uluslararas göç trendi üzerindeki etkisini belirlemektir. Her bir de!i ken göçü iki farkl
yolla etkilemektedir: göç eden insanlar ya ad klar yerden ayr lmaya iten etkiler , göç ettikleri
bölgelerde onlar gitmeye çeken etkiler. Bu amaçla parametrik olmayan panel veri modelleri yöntemleri
kullan lm t r.
Anahtar Sözcükler:Parametrik Olmayan Regresyon; Nadaraya Watson Kernel Tahmin; Parametrik Olmayan
Panel veri Analizi
Abstract
The Macroeconomic Determinants of International Migration by Using Nonparametric
Panel Data Models
International migration is one of the key factors that shape the world in which we live: it plays a central
role in global processes of social, economic and political change.International migration.International
migration has a key role in the globalization proccess and international politics as it has a central
importance of country’s policies The aim of this study is to focus on the role of the main economic
variables as the determinants of the international migration trend Each explanatory variable affects
migration in two different ways:by pushing people to the region where they are living,and by attracting (or
pulling) them from another region .For this purpose, nonparametric panel data models are used.
Keywords:Nonparametric Regression; Nadaraya Watson Kernel Estimation,;Nonparametric Panel Data
Models
1. Parametrik Olmayan Panel Veri Modelleri
Parametrik olmayan panel verilerin modellenmesinde parametrik olmayan regresyon yöntemlerinin
irdelenmesi gerekmektedir. Parametrik olmayan regresyon analizinde de parametrik regresyonda
oldu!u gibi, ba! ml ve ba! ms z de!i kenler vard r ve bunlar aras ndaki ili ki incelenmektedir.
Parametrik olmayan regresyon analizinin parametrik regresyon analizinden en büyük fark ili kinin
parametrik olmayan fonksiyonlar ile aç klanmas , bu nedenle tahminlerin de parametrik olmayan
yöntemlerle yap lmas d r. Parametrik olmayan regresyonda da! l mlarla ilgili varsay m
46
yap lmamaktad r. Burada önemli olan fonksiyonel ekildir ve da! l m n önemi yoktur. Bu regresyon
yöntemlerinde yo!unluk fonksiyonu tahmini kullan lmaktad r.1
Kernel yo!unluk fonksiyonu tahmini popüler bir parametrik olmayan tahmin yöntemidir. Kernel
tahmin y = m( x) + ) belirlemesidir. Burada m( x) , y de!i keninin herhangi bir parametrik kal ba
sahip olmayan ko ullu beklentisidir ve ) hatas n n da! l m tamamen belirlenmemi tir. yi ve xi ile
ilgili N tane gözlem y ve x için ortak yo!unluk fonksiyonunun tahmini için kullan l r. ( y0 , x0 ) gibi
bir noktadaki yo!unluk N tane gözlemin ne oranda ( y0 , x0 ) noktas na “yak n” oldu!unu belirleyerek
tahmin edilir. Bu yöntem yak n gözlemleri a! rl kland rma için kernel olarak adland r lan ve bu
parametrik olmayan sürecin neden kernel olarak adland r ld ! n aç klayan bir formülün kullan lmas n
içerir. Bu ortak da! l m n belirlenmesi ile birlikte x de!i keninin (bile ik yo!unlu!un y üzerinden
integrali al narak) marjinal da! l m ve daha sonra x verildi!inde y de!i keninin ko ullu da! l m ( bu
ortak ve marjinal da! l mlar n oran olarak) belirlenebilir. Ko ullu da! l m ilgilenilen birçok konu
hakk nda bilgi edinmemizi sa!layabilir. x verildi!inde y de!i keninin ko ullu olas l ! , yani m( x)
tahmin edilebilir ve “regresyon katsay s n n” e de!eri x de!i kenindeki birim de!i imin m( x)
üzerindeki etkisi tahmin edilerek belirlenebilir. Bununla birlikte y de!i keninin ko ullu varyans
tahmin edilebilir ve bu hata terimi varyans n n bir tahminini verecektir. Burada dikkat edilmesi
gereken önemli bir nokta bu da! l mlar n her zamanki parametrik yöntemlerle yap ld ! gibi bir formül
olarak “belirlenmedi!inin” anla lmas d r. Anlat lmak istenen örnek olarak verilen bir x de!eri için
ko ullu yo!unlu!un yüksekli!inin tahmin edilebilece!idir.2
Yo!unluk fonksiyonunun tahmini, düzgünle tirme parametresi h ’ n seçimi ile gerçekle tirilmektedir.
Düzgünle tirme parametresinin seçiminde önemli olan ne kadar düzgünle tirme yap lmas gerekti!ine
karar verilmesidir. Düzgünle tirme parametresinin seçimi sapma ve varyans ili kisini dengelemek
amac yla yap lmaktad r. “Çok küçük” seçilmesi durumunda çok az say da gözlem önemli düzeyde
a! rl !a sahip olacak ve elde edilen yo!unluk tahmini kaba (yeterince düzgün olmayan- h de!erinin
bazen düzgünle tirme parametresi olarak adland r lmas n n nedeni budur) bir görüntüye sahip
olacakt r. Buna kar l k “çok büyük” bir tan mlama kullan ld ! nda çok say da gözlem önemli düzeyde
a! rl !a sahip olur ve yo!unlu!u a r derecede düzle tirir. (Örne!in çift modlu bir yo!unlu!un tek
modlu tan mlanmas na neden olabilir.) Böyle bir durumda yo!unlu!u hesaplanan x de!erine çok
yak n olmayan gözlemler “ ait olmad klar ndan” tahmin sürecine ek bir sapman n kat lmas söz
konusu olur. Dolay s yla varyans ile sapma aras nda bir al veri söz konusudur- yüksek bir h de!eri
(daha fazla gözlem içermesi sonucu) yo!unluk tahmininin varyans n n azalmas na ancak daha fazla
sapmaya neden olmaktad r.3 h ’ n seçimiyle ilgili bahsedilen bu durum a a! daki ekilden de
görülebilir:
1
Ebru, ÇAoLAYAN, “Yar parametrik Regresyon Modelleri ile Ya am boyu Sürekli Gelir Hipotezinin Türkiye
Uygulamas ”, Dan man:Prof.Dr.Selahattin Güri , stanbul,2002
2
Peter Kenedy, “Ekonometri K lavuzu”,Gazi Kitapevi, 2006, s.
3
Adrian Pagan,Aman Ulah, “Nonparametric Econometrics”,Cambridge University Press, 1999,p.6
47
Bekil 1. düzgünle tirme parametresinin seçimi.
2. Nadaraya Watson Kernel Tahmini
Parametrik olmayan panel veri modelinin a a! daki gibi oldu!unu varsayal m,
yit = m( xit ) + uit ; i = 1,..., N t = 1,..., T
(1)
Burada m( xit ) = E ( yit / xit ), E (uit / xit ) = 0, var(uit / xit ) = u2 ( xit ) ve ( yit , xit ) birbirlerinden
ba! ms z ve e it da! l mlara sahip de!i kenler olmak üzere genel panel veri durumu olan N’in büyük
ve zaman boyutu T’nin küçük oldu!u panel veri oldu!u varsay lm t r. m( x) ’in parametrik olmayan
x = O(h) gibi küçük bir aral ktaki xit
de!erlerine kar l k gelen y de!erlerinin düzle tirilmi ortalamas d r, burada h , N * + iken s f ra
giden pencere geni li!i de denilen düzgünle tirme parametresidir. En küçük karelerde bu, x
etraf ndaki verilere bir sabitin eklenmesidir. Daha aç k olarak x etraf nda m( xit ) ’nin Taylor aç l m
kullan lmaktad r : m( xit ) = m( x) + O( xit x) . O( xit x) , kalan terimleri ifade etmektedir. N’in
tahmini, x noktas ndaki ko ullu ortalama, x 'in xit
büyük olmas halinde kombine edilmi hata teriminin beklenen de!erinin s f r oldu!u varsay ld ! ndan
kalan O (h) terimleri uit ’ye ilave edilebilir. Dolay s yla model a a! daki gibi ifade edilebilir:
yit = m( x) + uit
(2)
Veya daha kapal biçimde,
y = :NT m( x) + u
(3)
"" ( y
xit
x
= u ' K ( x)u ’nun m( x) ’e göre k smi türevi minimize
h
x x
edilir. K ( x) , kö egen elemanlar K it
= K (, it ) = K it olan, kö egen matristir. x ’e uzak olan
h
xit de!erlerine dü ük, x ’e yak n olan xit gözlemlerine büyük de!erler veren tart fonksiyonu ya da
Yaz labilir. Ve
it
i
m( x))2 K
t
48
kernel olarak adland r l r.4 Ba! ms z de!i ken say s n n birden çok olmas halinde çok de!i kenli
yo!unluk tahmininin yap lmas gerekir. Çok de!i kenli yo!unluk fonksiyonunun tahmini kernel
tahmincisinin düz bir ekilde genelle tirilmesidir. y ve x de!i kenlerinin f ( x, y ) eklindeki ortak
yo!unlu!unun tahmin edilmek istendi!ini varsayal m; bu durumda kernel tahmincisi sadece iki aç dan
de!i ecektir. lk olarak, K *( x, y ) eklindeki kernel’in çift de!i kenli bir yo!unluk fonksiyonu olarak
tan mlanmas gerekir ve ikinci olarak 1/ hN gösterimindeki h yerini h 2 ile de!i ecektir.
z = (Y , X 1 , X 2 ,..., X q ) = (Y , X ) , q + 1 boyutlu vektör, Y skaler ve X, 1× q boyutlu ba! ms z
de!i ken vektörüdür. Z yo!unlu!unun Kernel tahmincisi,
fˆ ( y, x) = fˆ ( z ) =
z z
1 n
K i
q +1 " 1
nh i =1
h
(3)
zi , i.inci örnek gözlemi olan ( yi , xi ) noktas n ifade etmektedir. z ise z = ( y, x) sabit belirlenen
noktad r. fˆ ( x) ’in marjinal Kernel tahmincisi;
1
fˆ1 ( x) = . fˆ ( x, y )dy =
=
1
nh q
n
yi y xi x
1 n
,
K
dy
q +1 " . 1
nh i =1
h
h
xi
"K
x
h
i =1
(4)
.
Burada K ( x) = K1 ( y, x) dy ve
. K ( x)dx = 1
ko ullar sa!lanmaktad r. De!i kenlerden birindeki
de!i im di!erlerinden daha fazlaysa z deki bütün de!i kenler için tek bir h düzgünle tirme
parametresinin kullan lmas uygun olmayabilir. Bu gibi durumlarda düzgünle tirme parametrelerine
ait bir vektör ya da matrisin kullan lmas daha uygundur. Bu düzgünle tirme matrisiyle fˆ1 ( x) ’in
marjinal Kernel tahmincisi;
fˆ1 ( x) = ( n det( H ) )
1
n
" K (H
i =1
1
( xi
x) )
(5)
Burada H tekil olmayan kö egen elemanlar h j ,j.inci de!i kene ait düzgünle tirme parametresi
de!erleri olan düzgünle tirme parametresi matrisi ve K (.) çok de!i kenli Kernel fonksiyonudur.
H = hI ,, ij = h j 1 ( xij
xj )
(6)
Böylece verili x’e kar l k y’nin ko ullu olas l k fonksiyonu;
4
Nilanjana Roy “Nonparametric and Semiparametric Analysis of Panel Data Models: An Application to CalorieIncome Relation for Rural South India”, University of California Riverside, June, 1997
49
f ( y / x) =
f ( x, y )
fˆ ( x)
(7)
1
eklinde tan mlanabilir.5 Kernel matrisi olu turulduktan sonra uygun Kernel fonksiyonunun
belirlenmesi gerekmektedir. ki boyut için en uygun Kernel’ler a a! daki gibidir:
/3' 1 (1 xT x) 2
K 2 ( x) = 0
10
/4' 1 (1 xT x)3
K3 ( x) = 0
10
x T x < 1 ise
diger durumlarda
x T x < 1 ise
diger durumlarda
(8)
Burada x birim kovaryans matrisine sahip olacak ekilde do!rusal dönü türülmü standartla t r lm
de!i ken matrisidir6. , ij de!erleri bulunduktan sonra bu de!erler uygun oldu!u belirlenen Kernel
ˆ ( x) tahmini elde edilir.
fonksiyonunda yerine konularak m
m( x) ’in E.K.K. çözümü,
mˆ ( x) = (: 'NT K ( x):NT ) 1 : 'NT K ( x) y
(9)
Bu tahminci Nadaraya (1964) ve Watson(1964) Kernel regresyon tahmincisidir. Bu tahminci ortalama
ya da düzgünle tirme sa!lar ve asl nda lokal sabit E.K.K tahmincisidir. Bu tahmini iki ba! ms z
de!i ken olmas halinde (x ve z) a a! daki ekilde de ifade edebiliriz;
N
mˆ ( x, z ) =
T
"" K
i =1 t =1
N T
hix
"" K
i =1 t =1
( xit
hix
xi ) K hiz ( zit
( xit
zi ) yit
xi ) K hiz ( zit
zi )
(10)
Burada hix ve hiz s ras yla x ve z ba! ms z de!i kenlerine ait i.inci birimlerin düzgünle tirme
parametresi de!erleridir. Normal Kernel’in tercih edilmesi halinde formül;
K hix ( xit
xi ) =
exp
( xit
xi ) 2 /(2hix 2 )
hix 2'
(11)
eklinde hesaplanmaktad r.7
5
6
Adrian Pagan,Aman Ullah,a.g.e. s.58
B.W.Silverman, “Density Estimation for Statistics and Data Analysis”,Chapman & Hall/CRC,1998 s. 76
50
3. Uyumsuzluk (Discrepancy) Ölçüleri
fˆ ’nin gerçek f yo!unluk fonksiyonuna yak nl ! n ölçmek için çe itli ölçüler geli tirilmi tir.
Yo!unluk fonksiyonu tahminleri büyük ölçüde düzgünle tirme parametresinin seçimine ba!l
oldu!undan Kernel fonksiyonlar için düzgünle tirme parametresinin seçimi teknikleri ortalama hata
kareye (MSE) dayanmaktad r.8 Ortalama hata kare varyans ile sapma karesinin toplam na e it
oldu!undan analizlerde kolayl k sa!lamaktad r.
{
}
MSE ( fˆ ) = E fˆ ( x)
f ( x)
2
(12)
Ortalama ve varyans terimleriyle;
{
MSE ( fˆ ) = Efˆ ( x)
}
2
f ( x) + var fˆ ( x)
(13)
Dolay s yla MSE x noktas ndaki sapma kareleri ve varyans n toplam na e ittir. Bu ölçü sapma ve
varyans aras nda bir de!i -toku u ifade etmektedir. Düzgünle tirme parametresinin de!eri
de!i tirilerek, varyansta bir miktar art pahas na sapma azalt labilir ya da tam tersi durum söz konusu
olabilir.
lk Rosenblatt(1956) taraf ndan kullan lan daha yayg n kullan m daha kolay bir ölçü olan ortalama
birle ik hata karesi ölçüsü a a! daki gibidir:
{
MISE ( fˆ ) = E . fˆ ( x)
}
2
f ( x) dx
(14)
4. Düzgünle!tirme Parametresi Seçicisi
Uygulamam zda kullan lan düzgünle tirme parametresi seçicisi Genelle tirilmi çapraz
geçerlilik seçicisidir. Bu yöntem en küçük kareler seçicisinden türetilmi tir. Bu de!er
ortalama hata kareyi minimum yapan düzgünle tirme parametresi de!erini bulur.
MSEGCV (h) =
1
n(1 df h / n)2
"(
n
i =1
yi
fˆh ( xi )
)
2
(15)
df h = iz ( H h ) tahminin serbestlik derecesini ifade etmektedir. H düzgünle tirme matrisinin
kö egen de!erlerinin toplam bize serbestlik derecesini verir. Bir tahmincinin serbestlik
derecesi ya da etkin parametre say s farkl düzgünle tiriciler aras nda kar la t rma yapmak
için kullan labilir ve bir düzgünle tiricinin esnekli!i hakk nda bilgi verir.
7
Ait-Sahalia,Y.,A.W.Lo.,1998, “Nonparametric Estimation of State Price Densities Implicit in Financial Asset
Prices”,Journal of Finance,53,499-547
8
Ebru Ça!layan, a.g.e.
51
5. Parametrik Olmayan Modellerin Testi
Parametrik regresyon modellerinde k tane parametre tahmin edilirken, parametrik olmayan regresyon
modellerinde çok say da parametre tahmin edilmektedir. Parametrik regresyon modellerinde tahmin
edilen parametre say s k, parametrik olmayan modellerde H matrisinin izdü ümüne e ittir.
Dolay s yla parametrik modellerde serbestlik derecesi ( n k ) iken parametrik olmayan modellerde
serbestlik derecesi tr ( I H ) ’a e ittir.
Parametrik olmayan regresyon modellerinde,parametrik regresyon modelinde oldu!u gibi belirli bir
da! l m varsay m olmad ! ndan katsay lar n anlaml l ! t testi ya da benzeri bir test ile incelenemez.
Ancak parametrik olmayan regresyon modelinin ba! ml de!i kendeki de!i meleri klasik regresyon
modelinden daha iyi aç klay p aç klamad ! test edilebilir. Burada temel hipotez klasik, alternatif
hipotez ise parametrik olmayan modelin ba! ml de!i kendeki de!i meleri daha iyi aç klad ! n , yani
do!ru oldu!unu ifade etmektedir.
6. Uygulama
Uygulamada
ele
al nan
OECD
ülkeleri:
uygulamam zda
kullan lan
veri
seti
www.oecd.org/els/migration/imo kayna! ndan International Migration Outlook 2007 yay n ndan elde
edilmi tir. Türkiye gibi baz OECD ülkelerinin göç verileri düzenlenmemi oldu!undan uygulamaya
bu ülkeler dahil edilmemi ve 25 OECD ülkesiyle 1995-2006 dönemleri için çal lm t r.
Çizelge 1. Uygulamaya Al nan OECD ülkeleri
Almanya
Avusturalya
Avusturya
Belçika
Kanada
Çek Cumhuriyeti
Danimarka
Finlandiya
Fransa
Yunanistan
Macaristan
rlanda
talya
Japonya
Lüksemburg sveç
Hollanda
sviçre
Norveç
Amerika
Polonya
Yeni Zellanda
Portekiz
Slovakya
spanya
5.1. Ele Al:nan DeGi#kenler
Göç ara t rmalar uluslar aras göç üzerinde etkisi bulunan bir çok de!i ken ortaya koymu lard r. Bu
de!i kenler göç alan ve göç veren ülkeler aras ndaki itici ve çekici faktörleri ortaya ç karan
de!i kenler olabilirler.
Haris ve Todaro (1970)’ya göre uluslar aras göçün en önemli belirleyicileri ki i ba na d en gelirdeki
farkl l klar, i verme oran , ticaret, ileti im kaynaklar , etnik ve politik sorunlar ve kültürel engeller ve
52
akrabal k ili kileridir.9 Veri yetersizli!inden dolay bahsedilen bu bütün de!i kenleri modelimize dahil
etmemiz mümkün de!ildir. Modelimize dahil etti!imiz de!i kenlerimiz a a! daki gibidir:
Netmig: Ülkelerin mevcut do!al nüfus art ndan, gerçek nüfus art n n ç kar lmas yla elde edilen
de!i ken. Dolay s yla bu de!erin pozitif veya negatif olmas bize sözkonusu ülkelerin göç
durumlar yla ilgili bilgi verebilece!i gibi model içerisinde kullan lmas n n anlaml sonuçlar getirmesi
beklenmektedir.
Uerate: Modelimizde ba! ms z de!i ken olarak dahil edilen bu de!i ken önemli bir makro ekonomik
gösterge olan i sizlik oran d r. Göçmen için çal ma arz ve talebi göç karar nda önemli faktörlerden
biridir. Borjas (1994)’a göre bir ülkedeki yüksek i sizlik oranlar o ülkeden göçe sebep olan
etkenlerden biridir.10
Gdprowth: Modelimizde bu k saltmayla yeralan ba! ms z de!i kenimiz ki i ba na dü en gayri safi
milli has ladaki büyüme oran n ifade etmektedir. Borjas (1994)’a göre yüksek büyüme oranlar d
göçü azaltmada önemli bir etkendir.11
5.2.Düzgünle#tirme Parametrelerinin Seçimi
Uygulamam zda SAS/INSIGHT program , MATHCAD program ve Microsoft Office Excel Program
kullan lm t r. Ülkelere ait düzgünle tirme parametreleri MSEGCV (h) genelle tirilmi çapraz
geçerlilik tahmincisine göre belirlenmi tir. Bu düzgünle tirme parametreleri a a! daki çizelgede
verildi!i gibidir:
Çizelge 2. Düzgünle tirme Parametreleri
OECD Ülkesi
Almanya
Avusturalya
Avusturya
Belçika
Kanada
Çek Cumhuriyeti
Danimarka
Finlandiya
Fransa
Yunanistan
Macaristan
rlanda
talya
h
0.4877
0.7973
0.4673
0.2392
0.4206
0.5343
0.5782
0.2637
0.2589
0.6019
0.1389
0.6622
0.5635
MSEGCV ( h) OECD Ülkesi
1.1031
0.7158
7.3646
0.4545
0.6990
1.4774
0.5965
0.0918
0.0326
0.5967
4.4012
10.6659
4.059
Japonya
Lüksemburg
Hollanda
Norveç
Polonya
Portekiz
Slovakya
spanya
sveç
sviçre
Amerika
Yeni Zellanda
h
0.2779
0.2633
0.3305
0.2337
0.1652
0.3972
0.0012
0.1214
0.3305
0.2779
0.2779
0.0198
MSEGCV (h)
0.5820
4.8784
3.2519
3.7827
0.3033
0.8051
0.0089
3.410
2.4665
18.8016
0.3685
23.7067
SAS/INSIGHT program nda ele al nan veri setine ili kin Kernel tahmini uygulan rken, düzgünle tirme
parametresinin de!eri manuel olarak de!i tirilebilmektedir. Tekil bir de!i kene ili kin uygun bant
geni li!i ya da düzgünle tirme parametresi :
9
Haris J.R.; Todaro M.P., “Migration, Unemployment and Development: a Two-sector Analysis”, American
Economic Review, 60 (1970): 126-142
10
Borjas G.J., “The Economics of Migration”, Journal of Economic Literature, 32(1994):1667-1717
11
Borjas,G.J. a.g.e.
53
Bekil 2.SAS program nda tekil bir de!i kenin düzgünle tirme parametresinin belirlenmesi
Burada c de!eri en üst ve en alt kartiller aras ndaki farkt r. h = n 1/ 5Qc olarak belirlenir. Birle tirilmi
hata karesi ölçütüne göre uygun düzgünle tirme parametresi de!eri seçilir.
Çok de!i kenli Kernel regresyon modeli tahmin edildi!inde uygun düzgünle tirme parametresi de!eri
MSEGCV ( h) kriterine göre belirlenir ve c de!erinin de!i tirilmesiyle bu parametre de!eri de de!i ir ve
görsel olarak da bu de!i imi öngörülen Kernel tahmin yüzeyinde görebiliriz. c de!erinin azalt lmas yla
kartiller aras aral k küçültülmü olacak ve böylece h de!eri küçülerek daha küçük aral ktaki
gözlemlerin daha çok tart almas na sebep olacakt r. Görsel olarak h de!eri küçüldükçe yo!unluk
tahmini ekildeki gibi daha düzgünle memi - kaba bir görünüm alacakt r:
Bekil 2.SAS program nda tekil bir birime ait Kernel Tahmin Yüzeyi
Bu kriterlere göre düzgünle tirme parametreleri elde edildikten sonra bu de!erler ile NT × NT
boyutlu (300 × 300) Kernel matrisi olu turulmu tur. Burada Excel program nda normal Kernel
54
fonksiyonu tan mlanarak Kernel tahmin de!erleri elde edilmi ard ndan bu tahmin de!erleriyle
NT × 1 boyutlu ba! ml de!i kene ait gözlem vektörü çarp larak ba! ml de!i kene ait tahmin
de!erleri elde edilmi tir. Elde edilen tahminlere ili kin serpilme diyagram a a! daki gibidir:
15
n
e
10
t
m
i
5
g
0
0
5
10
15
netmigtahmin
Modelin hata kareleri ortalamas :MSE: 131.4023’tür. tr ( I H ) =64,122 olarak hesaplanm t r. Bu
de!erler kullan larak alternatif modellerle öngördü!ümüz model kar la t r labilir.
7. Sonuç ve öneriler
Çal mam z n amac , temel makro ekonomik de!i kenlerin uluslararas göç trendi üzerindeki etkisini
belirlemekti. Bu amaçla göç alan ve göç veren ülkelere ait net göç oranlar , i sizlik oran , ki i ba na
gayri safi yurt içi has la (GDP)’daki art de!i kenleri kullan lm ; 1995-2006 periyodunda belirlenen
ülkelerde ele al narak söz konusu veri üzerinde parametrik olmayan Nadaraya Watson Kernel tahmini
uygulanm ve sonuçlar yorumlanm t r. Uygulama a amas nda sözkonusu yöntemle ilgili herhangi bir
program yaz l m bulunmad ! ndan teoriye uygun ekilde ço!u analiz Excel program nda manuel
olarak, formül tan mlayarak uygulanm t r. Parametrik olmayan yakla mlar ili kilerin fonksiyonel
ekillerinin belirlenmesinde kolayl k sa!lamalar n n yan nda, dü ünülemeyen fonksiyonel ekillerin
ortaya ç kar lmas nda da ara t rmac ya yard mc olmaktad r. Fonksiyonel ekil hakk ndaki bilgiye ya
iktisadi teoriler yard m yla ya da daha önceki tecrübelerden yararlan larak ula labilmektedir. Fakat
günümüz ko ullar nda iktisadi teori taraf ndan sa!lanan bilgiler çok aç klay c olamamakta ve yetersiz
kalabilmektedir. Dolay s yla parametrik olmayan yöntemler parametrik yöntemlere göre daha
avantajl d r. Önerimiz bu konuda yap lan çal malar n artt r lmas ve bir yaz l m program n n
olu turulmas d r.
Kaynaklar
55
[1] Adrian Pagan,Aman Ulah, “Nonparametric Econometrics”,Cambridge University Press, 1999
[2] Ait-Sahalia,Y.,A.W.Lo.,1998, “Nonparametric Estimation of State Price Densities Implicit in Financial
Asset Prices”,Journal of Finance,53,499-547
[3] Badi H.Baltagi “Econometric Analysis of Panel Data”,John Wiley & Sons, 1995
[4] B.W.Silverman, “Density Estimation for Statistics and Data Analysis”,Chapman & Hall/CRC,1998
[5] Borjas G.J., “The Economics of Migration”, Journal of Economic Literature, 32(1994):1667-1717
[6] Daniel J.Henderson, Raymond J.Carroll, Qi Li, “Nonparametric Estimation and Testing of Fixed
EffectsPanel Data Models”,Journal of Econometrics, 144, 2008
[7] Daniel J.Henderson, Aman Ulah, “A Nonparametric Random Effects Estimator”,Economics Letters 88,
2005
[8] Ebru, ÇAoLAYAN, “Yar parametrik Regresyon Modelleri ile Ya am boyu Sürekli Gelir Hipotezinin
Türkiye Uygulamas ”, Dan man:Prof.Dr.Selahattin Güri , stanbul,2002
[9] Haris J.R.; Todaro M.P., “Migration, Unemployment and Development: a Two-sector Analysis”,
American Economic Review, 60 (1970): 126-142
[10] Matyas, Laszlo and Sevestre, Patrick “The Econometrics of Panel Data, a Handbook of the Theory with
Applications”, 2.th edition, Kluwer Academic Publishers, 1996
[11] Nilanjana Roy “Nonparametric and Semiparametric Analysis of Panel Data Models: An Application to
Calorie- Income Relation for Rural South India”, University of California Riverside, June, 1997
[12] Peter Kenedy, “Ekonometri K lavuzu”,Gazi Kitapevi, 2006
[13] International Migration Institute - http://www.imi.ox.ac.uk/
[14] www.oecd.org/els/migration/imo
56
Hisse senedi piyasas çalkant lar için erken uyar
sistemi: Türkiye örne<i
Oya Can Mutan
Ayhan Topcu
Sermaye Piyasas: Kurulu
Eski#ehir Yolu 8. km. No: 156
06530 Ankara, Türkiye
[email protected]
Sermaye Piyasas: Kurulu
Eski#ehir Yolu 8. km. No: 156
06530 Ankara, Türkiye
[email protected]
Özet
Dünyada 19. yüzy:ldan bu yana etki alan: geni# ve maliyeti yüksek pek çok ekonomik kriz
meydana gelmi#, piyasalar: tehdit eden ve derinden etkileyen bu durum ara#t:rmac:lar:n
olduGu kadar piyasa aktörlerinin de ilgisini çekmi#tir. Yap:lan ara#t:rmalar ya#anan
krizlerin önceden tahmin edilip edilemeyeceGi sorusunu ak:llara getirmi#, erken uyar:
sistemleri (EWS- early warning system) geli#tirilmi#tir. Çal:#mada, bankac:l:k ve para
krizleri için pek çok örneGi bulunan erken uyar: sistemlerini Türk hisse senedi piyasas:
krizleri için geli#tirmek ve literatürde bu konuda mevcut olan bo#luGu kapatmak
amaçlanm:#, bu baGlamda KLR (1998), FR (1996) modelleri uygulanm:#t:r. Kriz
dönemlerini belirlemek için SMPI (stock market pressure index) endeksi olu#turulmu#,
veriler 1998:01–2008:10 dönemlerini kapsayacak #ekilde temin edilmi#tir
Anahtar sözcükler: hisse senedi piyasas: krizi, erken uyar: sistemi, SMPI
Abstract
Early warning system for the turmoil in stock markets: Turkish
evidence
Since 19th century so many financial crises that have widespread adverse effects have
arisen and the existence and contagion ways of these crises have affected not only the
researchers but also the policy makers, which brings into the question of whether an early
warning system (EWS) can be implemented. In the literature there exist so many empirical
studies on banking and currency crises. Since there are no EWS on stock market crises, in
this study, we want to make a contribution by investigating the turmoil in Turkish stock
markets. In order to correctly define the binary crisis variable, a “stock market pressure”
index (SMPI) is created. The monthly data covers the period 1998:01-2008:10. The
methods applied are KLR (1998), FR (1996).
Key words: stock market crisis; early warning system; SMPI
1. Giri!
Dünyada 19. yüzy ldan bu yana etki alan geni ve maliyeti yüksek pek çok ekonomik kriz meydana
gelmi , piyasalar tehdit eden ve derinden etkileyen bu durum ara t rmac lar n geçmi ten günümüze
oldukça ilgisini çekmi tir. Reel ve finansal sektördeki arz-talep çalkant lar , dünya piyasalar ndaki
h zl ekonomik entegrasyon gibi ekonomik geli melerin yan s ra siyasi istikrars zl k ya da do!al afet
gibi ekonomik olmayan geli melerin de krizlere neden oldu!u gözlenmi , krizlerin nedenleri ve
i leyi leri ara t r lm t r (Aktan ve ren, 2002).
57
Yap lan ara t rmalar ya anan krizlerin önceden tahmin edilip edilemeyece!i sorusunu ak llara
getirmi , ara t rmac lar kadar piyasa aktörlerinin de kulland ! erken uyar sistemleri (EWS- early
warning system) geli tirilmi tir. Bu sistemler ADB (Asian Development Bank), ASEAN (Association
of Southeast Asian Nations), BIS (Bank for International Settlements), ECB (European Central Bank),
Fed (Federal Reserve Board of Governors) ve IMF’nin (International Monetary Fund) de aralar nda
bulundu!u pek çok kurulu taraf ndan olas krizleri önceden tahmin etmekte kullan lmaktad r.
Literatürde bankac l k krizi, para krizi ve ikisinin birle imi olan ikiz (twin) kriz hakk nda pek çok
çal ma olmas na kar n, ampirik ara t rmalar n daha çok para krizi etraf nda yo!unla t !
görülmü tür. Bu durumun en önemli sebebi para krizlerinin bankac l k krizlerine göre daha s k
gerçekle mesi olurken bir di!er sebebi de kriz dönemlerinin belirlenmesinde kullan lan endeksleri
olu tururken ya anan sorunlard r. Yap lan çal malarda, para krizleri, döviz piyasas ndaki bask y
ölçmekte kullan lan, kurdaki ve rezervlerdeki de!i imi dikkate alan EMP (exchange market pressure)
endeksiyle tan mlanm , ancak bankac l k krizini do!ru tespit edecek tek bir endeks olu turman n güç
oldu!una de!inilmi tir (Murshid, 2001).
Bu çal ma ile para krizleri için pek çok örne!i bulunan erken uyar sistemlerini Türkiye hisse senedi
piyasas krizleri için geli tirmek ve literatürde bu konuda mevcut olan bo lu!u kapatmak amaçlanm ,
bu ba!lamda Kaminsky, Lizondo ve Rienhart (1998) - KLR, Frankel ve Rose (1996) - FR modelleri
uygulanm t r12. Kriz dönemlerinin belirlenmesinde MKB irketlerinin halka aç k bölümünün piyasa
de!eri ve MKB 100 endeksindeki ayl k de!i imlerin dikkate al nd ! bir endeks (SMPI - stock market
pressure index) olu turulmu tur. Veriler 1998:01–2008:10 dönemlerini kapsayacak ekilde temin
edilmi , böylece, çal maya A!ustos 2007’de Amerika’da subprime mortgage krizi olarak ba layarak
tüm dünyay etkisi alt na alan finansal türbulans da dahil edilmi tir. Kurulan ekonometrik modelin
olabildi!ince güvenilir olmas için 15’i a k n de!i ken kullan lm t r.
Çal man n geri kalan u ekilde düzenlenmi tir. Bölüm 2’de erken uyar sistemine ili kin yap lan
literatür taramas k saca sunulmu tur. Bölüm 3’te çal mada kullan lan veri ve ekonometrik model
hakk nda k sa bir bilgi verilmi ve ampirik sonuçlar sunulmu tur. Son olarak, Bölüm 4’te ise
çal man n sonuçlar na de!inilmi tir.
2. Literatür
Literatürde 1980’lerde Latin Amerika’da ya anan borç krizleri; 1992–1993 Avrupa döviz kuru
mekanizmas krizi; 1994 Meksika; 1997–1998 Güney Do!u Asya; 1998 Rusya, Brezilya ve 2001
Türkiye, Arjantin krizlerine yönelik pek çok çal ma yer alm , her bir çal ma farkl sonuçlar ön
plana ç karm t r (Kaya ve Y lmaz, 2006) .
1880–1997 y llar nda meydana gelen krizlerin maliyeti, neden olduklar olumsuz etkilerden ar nma
süresi ve say s Bordo ve Eichengreen (2002)’de yer alm (bak n z Çizelge 1, 2, 3), bu durum
güvenilir erken uyar sistemlerine olan ihtiyac gözler önüne sermi tir. Bu ba!lamda erken uyar
sistemleri geli tirilmi ve bu sistemler kurulurken Kaminsky, Lizondo ve Rienhart (1998), Sachs,
Tornell ve Velasco (1996), Frankel ve Rose (1996) taraf ndan geli tirilen üç temel yakla m
izlenmi tir.
12
Sachs, Tornell ve Velasco (1996) taraf ndan geli tirilen ve literatürde ülkeler aras nda kar la t rma yaparken
s kl kla kullan lan STV modeli gelecek çal malar n konusunu olu turmaktad r.
58
Çizelge 1. Küresel krizlerin GSY H’nin yüzdesi cinsinden maliyetleri
Tüm krizler
Tüm ülkeler
Geli mi ülkeler
Geli mekte olan ülkeler
18801914
9.76
1919-1939
1945-1971
1973-1997
13.42
5.24
8.29
7.68
12.29
2.39
6.25
10.37
16.46
8.60
9.21
Kaynak: Bordo ve Eichengreen (2002)
Çizelge 2. Küresel krizlerin neden olduklar olumsuz etkilerden ar nma süresi (y l)*
Tüm krizler
1880-
1919-1939
1945-1971
1973-1997
Tüm ülkeler
Geli mi ülkeler
2.35 (1.62)
2.71 (1.25)
2.35 (1.67)
2.26 (1.65)
1.78 (1.16)
1.60 (1.19)
2.64 (2.15)
2.84 (2.40)
Geli mekte olan ülkeler
2.25 (1.73)
2.62 (1.76)
2.00 (1.12)
2.09 (1.14)
Kaynak: Bordo ve Eichengreen (2002)* Hesaplamalar 21 ülke için yap,lm, t,r. Parentez içindeki
rakamlar standart sapma de/erleridir.
Çizelge 3. Kriz say s
Geli mi Ülkeler
Geli mekte Olan Ülkeler
Y%llar
Bankac%l%k
Krizi
Para Krizi
)kiz Kriz
1880-1913
1919-1939
4
11
2
13
1
12
1945-1971
0
21
0
1973-1997
9
29
6
1880-1913
11
6
8
1919-1939
7
3
3
1945-1971
0
16
1
1973-1997
17
57
21
Kaynak: Bordo ve Eichengreen (2002)
Krizlerin önceden tahmin edilebilirli!i üzerine analizler yap lm ; aralar nda d ticaret dengesi,
i sizlik oran , enflasyon, büyüme ve politik istikrars zl ! n da yer ald ! pek çok de!i ken
de!erlendirilerek krizleri aç klamada öncü gösterge aray na gidilmi tir. Bak n z Karaçor ve Alptekin
(2006), Kittelmann vd. (2006), Racaru vd. (2006), Kamin, Schindler ve Samuel (2001), Aziz,
Caramazza ve Salgado (2000), Bruggemann ve Linne (2000), Bussiere ve Mulder (1999), Kaminsky
vd. (1998). Çal malarda genelde hem geli mi hem de geli mekte olan ülkeler incelenirken Kamin,
Schindler ve Samuel (2001) ve Nag ve Mitra (1999)’n n yaln zca geli mekte olan ülkeler üzerinde
yo!unla t ! görülmü tür.
3. Analiz
3.1. Veriler
Türkiye hisse senedi piyasalar ndaki çalkant lar için erken uyar sistemi kurulurken bu piyasalar n
makroekonomik ve finansal de!i imlere kar çok hassas oldu!u göz önüne al nm , ekonominin
59
mümkün oldu!unca geni bir k sm çal maya dahil edilmek istenmi , bu ba!lamda öncü olabilece!i
dü ünülen de!i kenler 1998:01–2008:10 dönemlerini kapsayacak ekilde incelenmi tir.
Çal ma kapsam nda kullan lan de!i kenler ve sembolleri:
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
MKB ( stanbul Menkul K ymetler Borsas ) 100 endeksi (imkb100),
MKB irketlerinin halka aç k bölümünün piyasa de!eri (pd),
MKB irketlerinin halka aç k bölümünün piyasa de!erinde yabanc yat r mc lar n pay (yyo),
Yat r m fonlar n n ortalama vadesi (yfv),
Fiyat kazanç oran (fk),
EMBI (emerging markets bond index),
Brent petrolünün varil fiyat (bp),
Reel efektif döviz kuru (redk),
Sanayi üretim endeksi (san),
Cari i lemler dengesi (cid),
D ticaret dengesi (dtd),
1994 baz y ll TÜFE (tüketici fiyatlar endeksi) (enf),
Bankalar mevduat toplam (mev),
Brüt uluslararas rezervler (br)
Para arz M2’nin brüt uluslararas rezervlere oran (m2/br),
K sa vadeli d borçlar n brüt uluslararas rezervlere oran (db/br),
Kamu kesimi borçlanma gere!i (kkbg).
MKB, MKK (Merkezi Kay t Kurulu u), Reuters, SPK (Sermaye Piyasas Kurulu), TCMB (Türkiye
Cumhuriyet Merkez Bankas )’den temin edilen de!i kenlerin analizlerde ayl k yüzde de!i imleri
kullan lm t r.
3.2. Yöntem ve Ampirik Sonuçlar
Çal mada, hisse senedi piyasas krizi öngörüsünde KLR sinyal yakla m ve FR probit modeli esas
al nm , her iki yakla mda da kriz dönemlerini belirlemek için MKB irketlerinin halka aç k
bölümünün piyasa de!eri ve MKB 100 endeksindeki ayl k de!i imlerin dikkate al nd ! bir endeks
olu turulmu ve bu endekse hisse senedi piyasalar: bask: endeksi (SMPI) ad verilmi tir. Endeks, her
iki de!i kenin ayl k de!i imlerinin a! rl kl ortalamas al narak ve a! rl kland r lm de!i kenlerin
varyanslar e it olacak ekilde hesaplanm t r. Endeksin belirli bir e ik de!erini (ortalama–1.5*standart
sapma13; Kaya ve Y lmaz, 2006) a t ! dönemler hisse senedi piyasalar krizi olarak kabul edilmi tir.
Daha sonra, SMPI kullan larak ikili (binary) de!i ken olu turulmu , bu de!i ken bulundu!u dönemi
takip eden 12 ay içerisinde kriz varsa 1, yoksa 0 de!erini alm t r. Mevcut çal malar içerisinde ikili
de!i ken olu turulurken esas al nan periyodun 12 ila 24 ay aras nda de!i im gösterdi!i görülmü tür
(Kittelmann (2006), Komulainen ve Lukkarila (2003) ilgili periyodu 12 ay olarak alm t r).
rekil 1’de SMPI ve e ik de!eri sunulmu tur.
13
Literatürde e ik de!er olu turulurken farkl yakla mlar benimsenmi , ortalamadan 1.5–3.0 standart sapmal k
oynamalar dikkate al nm t r.
60
80
60
40
smpi
e"ik
20
0
Oca.08
Mar.07
May.06
Tem.05
Eyl.04
Kas.03
Oca.03
Mar.02
May.01
Tem.00
Eyl.99
Kas.98
Oca.98
-20
-40
Bekil 1: SMPI ve e ik de!eri
rekil 1’de görüldü!ü üzere hisse senedi piyasalar nda A!ustos-Eylül 1998, Kas m 2000, Eylül 2001,
Ekim 2008 dönemlerinde kriz ya anm t r.
A!ustos-Eylül 1998 döneminde görülen kriz 1997–1998 Güney Do!u Asya krizi ile
ili kilendirilmi tir. Do!u Asya ülkelerinde 1997 y l itibariyle ba layan mali ve ekonomik kriz, hemen
sonras nda Rusya’da ya anan kriz ile birlikte tüm dünyay etkisi alt na alm , bu etkiden daha çok
içerisinde Türkiye’nin de bulundu!u geli mekte olan ülkeler nasiplenmi , geli mekte olan piyasalara
yönelen d sermaye tercihini daha güvenli limanlara kayd rm t r.
Kas m 2000’de hisse senedi piyasalar nda ya anan krize bankac l k sektöründe ya anan çalkant lar
neden olmu tur. Bu dönemde bankac l k kesimine getirilen yeni düzenlemeler bankalar aç k
pozisyonlar n kapatmaya ve likiditelerini artt rmaya yöneltmi , bu durum da faizlerin yükselmesine
neden olmu tur. Artma e!ilimde olan faizleri bir tehdit olarak alg layan yabanc yat r mc lar ise
yat r mlar n Türkiye’den h zla ç karm , bunun sonucunda yerli bankalar daha fazla yük alt nda
kalm ve de faizler daha da t rmanm t r. Interbank piyasas ndaki gecelik faizler Kas m ay nda
ortalama % 72; Aral k ay nda ise ortalama % 224 dolaylar nda seyretmi , hem mali hem reel kesimi
etkileyen bu olumsuz geli meler hisse senedi piyasalar nda fazlas yla hissedilmi tir (E!ilmez, 2001).
Eylül 2001’de Türkiye hisse senedi piyasalar n n ya anan rubat 2001 mali krizinin de etkileri ile krize
girdi!i görülmü tür. Kamu, mali ve reel sektör üzerindeki derin olumsuz etkileri nedeniyle cumhuriyet
tarihinin en derin ekonomik krizi olarak adland r lan rubat 2001 krizinin etkilerinden kurtulmak
uluslararas piyasalara entegre olmay gerektirmi , bu ba!lamda yabanc do!rudan yat r mlar n
artt r lmas na yönelik olarak yeniden yap lanma ihtiyac ortaya ç km ; reel sektör firma bilançolar n
uluslararas muhasebe standartlar ile uyumlu hale getirmek ve gerekli vergi düzenlemelerini yapmak
için çal malara ba lanm t r (Erdönmez, 2003).
Ekim 2008’de ise A!ustos 2007’de Amerika’da subprime mortgage krizi olarak ba layan finansal
türbulans iyice yo!unla arak tüm dünyay etkilemi , bu durumdan Türkiye hisse senedi piyasalar da
nasibini alm t r.
KLR Sinyal Yakla#:m:
Kaminsky, Lizondo ve Reinhart (1998)’ n sinyal yakla m nda krizin öncü göstergesi olarak
dü ünülen de!i kenlerin her biri için belirli bir e ik de!er hesaplanmaktad r. De!i kenlerin e ik de!eri
61
geçmesi kriz sinyali olarak kabul edilmekte ve takip eden 12 ay içerisinde kriz ya anaca! na i aret
etmektedir.
De!i kenlerin performans a a! daki matrisle de!erlendirilmektedir. Matriste A ve D, de!i kenlerin
do!ru uyar verdi!i ay say lar n , B yanl sinyal verdi!i ay say s n (kriz yokken sinyal verilmesi), C
ise kriz dönemleri için sinyal verilmeyen ay say s n (kriz varken sinyal verilmemesi) göstermektedir.
S f r hipotezinin “takip eden 12 ay içerisinde kriz olmayacak” olmas durumunda B’deki gözlemler 1.
tip hatay , C’deki gözlemler de 2. tip hatay temsil etmektedir. De!i kenler için e ik de!eri
hesaplan rken B/A (noise-to-signal) oran n n minimize edilmesi esas al nmaktad r (Berg ve Pattillo,
1999).
Takip eden 12 ay içerisinde kriz Takip eden 12 ay içerisinde kriz
var14
yok
Sinyal var
A
B
Sinyal yok
C
D
KLR sinyal yakla m na göre çal mada kullan lan 15 de!i kenin performans Çizelge 4’te verilmi tir.
Çizelge 4. De!i kenlerin performans
P(sinyal|kriz)
A/(A+C)
P(sinyal|kriz
yok)
B/(B+D)
(1)
(2)
kötü sinyallerin
iyi sinyallere
oran
P(kriz|sinyal)
[B/(B+D)]/[A/(A
+C)]
(4)
A/(A+B)
(3)
bp
br
cid
db/br
dtd
embi
enf
fk
kkbg
m2/br
mev
redk
san
yfv
yyo
0.16
0.12
0.09
0.14
0.02
0.09
0.19
0.07
0.19
0.21
0.00
0.16
0.00
0.23
0.23
0.14
0.00
0.14
0.08
0.03
0.01
0.08
0.03
0.06
0.06
0.10
0.07
0.02
0.06
0.06
0.85
0.00
1.48
0.58
1.48
0.12
0.43
0.49
0.31
0.27
0.42
0.25
0.25
0.37
1.00
0.25
0.46
0.25
0.80
0.53
0.50
0.62
0.64
0.00
0.54
0.00
0.67
0.67
Çizelge 4’te 1. sütun kriz varken sinyal verilme olas l ! n göstermekte ve bu oran n yüksek olmas
istenmektedir. Buna göre performans en iyi olan göstergeler kamu kesimi borçlanma gere!i, m2’nin
brüt uluslararas rezervlere oran , yat r m fonlar n n ortalama vadesi ve yabanc yat r mc oran d r.
Sütun 2 ise kriz yokken sinyal verilme olas l ! olup, göstergelerde bu oran n dü ük ç kmas
beklenmektedir. Bu oran için en iyi performans gösteren de!i kenler uluslararas brüt rezervler, EMBI
ve sanayi üretim endeksidir. 3. sütun kötü sinyallerin iyi sinyallere oran olup bu oran n en dü ük
14
Literatürde de!i kenler için kriz öngörüsü 12 ila 24 ay aras nda de!i im göstermektedir. Kittelmann (2006),
Komulainen ve Lukkarila (2003) ise bu periyodu 12 ay olarak kabul etmi lerdir.
62
oldu!u de!i kenler uluslararas brüt rezervler, yat r m fonlar n n ortalama vadesi, EMBI ve yabanc
yat r mc oran d r. 4. sütunda ise göstergelerin krizi öngörme olas l ! verilmekte ve performans en iyi
olan göstergelerin kamu kesimi borçlanma gere!i, m2’nin brüt uluslararas rezervlere oran , yat r m
fonlar n n ortalama vadesi ve yabanc yat r mc oran oldu!u görülmektedir. Ancak, burada dikkat
edilmesi gereken nokta en iyi öncü göstergelere karar verirken tüm oranlar n n de!erlendirilmesi
gerekti!idir. Kriz öncesi ve kriz dönemlerinde, kamu kesimi borçlanma gere!inde önemli art lar
ya an rken yat r m fonlar n n ortalama vadesi ve yabanc yat r mc oranlar nda önemli dü ü ler
ya and ! yads namaz bir gerçektir. Bu durumda en ba ar l öncü göstergelerin kamu kesimi
borçlanma gere!i, m2’nin brüt uluslararas rezervlere oran , yat r m fonlar n n ortalama vadesi,
yabanc yat r mc oran oldu!u söylenebilir.
Çizelge 5. En ba ar l öncü göstergelerin ortalama öncü sinyal verme zaman (ay)
En ba!ar l öncü göstergeler
m2/br
yyo
yfv
kkbg
ortalama
8
6
4
2.4
Çizelge 5’te en ba ar l öncü göstergelerin ortalama öncü sinyal verme zaman verilmektedir. Buna
göre, yabanc yat r mc oran nda krizden ortalama 6 ay önce, yat r m fonlar n n ortalama vadesinde ise
krizden ortalama 4 ay önce dü ü ler ya and ! görülmektedir.
FR Probit Modeli
Erken uyar sistemi kurulurken s kl kla yararlan lan bir di!er model de Frankel ve Rose (1996)
taraf ndan geli tirilen FR probit modelidir. Bu yöntem ile probit regresyon tekni!i kullanarak ilgili
piyasan n takip eden 12 ay içerisinde krize maruz kalma olas l ! , ve bu olas l k için kaç r lan kriz ve
yanl alarm say s n minimize eden bir e ik de!eri hesaplanmaktad r.
Türkiye hisse senedi piyasalar ndaki çalkant lar için çal mada, probit regresyon tekni!i uygulan rken
KLR yönteminde de kullan lan 15 ba! ms z de!i ken incelenmi , ancak modele analiz edilmeye
uygun, çoklu ba!lant (multicollinearity) problemine yol açmayan ve istatistiksel olarak anlaml katk
sa!layan de!i kenler kat lm t r. Varsay mlar kontrol edilmi modelin sonuçlar Çizelge 6’da
verilmektedir.
Çizelge 6. FR probit modeli sonuçlar
Metod: En çok olabilirlik – kili Probit
Örneklem: 1998:01-2008:10
Gözlem say s : 130
De!i ken
Sabit
enf
yfv
yyo
kkbg
bp
Katsay
Std. Sapma
-1.260736
0.250586
-0.025166
-0.077490
0.050811
-0.032153
0.256701
0.074791
0.008966
0.030872
0.014167
0.015156
63
z-istatisti!i p-de!eri
-4.911301
3.350462
-2.806870
-2.510082
3.586524
-2.121509
0.0000
0.0008
0.0050
0.0121
0.0003
0.0339
LR istatisti!i
p-de!eri (LR)
McFadden R2
59.95294
1.24E-11
Ba! ml de!i ken =0
say s
87
0.363290
Ba! ml de!i ken=1
say s
43
Çizelge 6’ya göre kurulan modelde tüm katsay lar n istatistiksel olarak anlaml oldu!u görülmü ,
modelin aç klay c l ! McFadden R2’ye göre 0.36 oran nda15 gerçekle mi tir. Enflasyon, kamu kesimi
borçlanma gere!indeki art n ve yabanc yat r mc oran , yat r m fonlar n n ortalama vadesi, petrol
fiyatlar ndaki azal n da kriz olas l ! n artt r c yönde etki etti!i görülmü tür.
rekil 2’de probit modelinden elde olas l klar ve e ik de!eri sunulmaktad r.
1
0.9
0.8
0.7
0.6
kriz_oncesi
kriz olas-l-.e"ik de.er
0.5
0.4
0.3
0.2
0.1
0
Eyl.08
Oca.08
May.08
Eyl.07
Oca.07
May.07
Eyl.06
Oca.06
May.06
Eyl.05
Oca.05
May.05
Eyl.04
Oca.04
May.04
Eyl.03
Oca.03
May.03
Eyl.02
Oca.02
May.02
Eyl.01
Oca.01
May.01
Eyl.00
Oca.00
May.00
Eyl.99
Oca.99
May.99
Eyl.98
Oca.98
May.98
Bekil 2. FR probit modelinden elde edilen kriz olas l klar
rekil 2’de k rm z çizgi olas l klar için hesaplanan e ik de!erini, gri alanlar ise kriz ve öncesi 12 ayl k
dönemi göstermektedir. Buna göre modelden elde edilen olas l klar n gri dönemlerde zaman zaman
azalmakla birlikte genel olarak art içinde oldu!u görülmektedir. E i!i geçen olas l klar Mart 1999
d nda gri alanlarla e le mektedir.
15
Bu oran çok yüksek gibi görünmese de literatürde özellikle krize ili kin finansal modeller için yüksek kabul
edilmektedir.
64
4. Sonuç
Türkiye hisse senedi piyasalar ndaki çalkant lar için erken uyar sistemi kurmay amaçlayan bu
çal mada, para krizlerinin önceden tahmininde kullan lan KLR sinyal yakla m ve FR probit modeli
incelenmi tir. Kriz dönemlerinin belirlenmesinde MKB irketlerinin halka aç k bölümünün piyasa
de!eri ve MKB 100 endeksindeki ayl k de!i imlerin dikkate al nd ! bir endeks olu turulmu (SMPI),
daha sonra bu endeks ikili ba! ml de!i kenin olu turulmas nda kullan lm t r. Her iki yöntemde de
1998:01–2008:10 dönemi için ekonominin mümkün oldu!unca geni bir k sm n kapsayan
makroekonomik ve finansal 15 gösterge kullan lm t r.
De!i ken baz nda performanslar n incelendi!i KLR sinyal yakla m nda en ba ar l öncü göstergelerin
kamu kesimi borçlanma gere!i, m2’nin brüt uluslararas rezervlere oran , yat r m fonlar n n ortalama
vadesi, yabanc yat r mc oran oldu!u görülmü tür. Piyasan n takip eden 12 ay içerisinde krize maruz
kalma olas l ! n n hesapland ! FR probit regresyon modelinde ise enflasyon, kamu kesimi borçlanma
gere!i, yabanc yat r mc oran , yat r m fonlar n n ortalama vadesi ve petrol fiyatlar anlaml aç klay c
de!i kenler olarak tespit edilmi tir. Her iki yakla mda da kamu kesimi borçlanma gere!i, yat r m
fonlar n n ortalama vadesi ve yabanc yat r mc oran öne ç km t r.
FR modeline göre içinde bulundu!umuz dönem kriz dönemine i aret etmekte, piyasalarda ya anan
çalkant lar da bu sonucu do!rulamaktad r. Ancak, erken uyar sistemlerinin önemi kriz dönemlerinin
aksine piyasalar n n olumlu oldu!u dönemlerde artmaktad r. Kriz için Aktan ve ren (2002)’de “ani ve
beklenmedik bir anda ortaya ç kan olumsuz geli meler” tan m yap lmakla birlikte baz öncü
göstergelerin çalkant lardan daha önce sinyal verdi!i göz ard edilmemelidir. Nitekim FR modeline
göre Ekim-Kas m-Aral k 2007’de takip eden 12 ay içerisinde kriz olma olas l ! s ras yla 0.86; 0.99;
1.00 olarak hesaplanm t r. çinde bulundu!umuz kriz dönemi ve ya ananlar dikkate al nd ! nda,
erken uyar sistemlerinin önemi bir kez daha ortaya ç kmaktad r.
Kaynaklar
[1] Aktan, C. C., ren, H. (2002), Ekonomik Kriz: Nedenler ve Çözüm Önerileri, Yeni Türkiye Dergisi Kriz
Özel Say:s:, Cilt: II, Say : 42: 1225-1230.
[2] Aziz, J., Caramazza, F., Salgado, R. (2000), Currency Crises: In Search of Common Elements, IMF
Working Paper, 00/67.
[3] Berg, A., Pattillo, C. (1999), Are Currency Crisis Predictable? A Test, IMF Staff Papers, Vol 46, No.2
[4] Bordo, M.D., Eichengreen B. (2002), Crises Now and Then: What Lessons from the Last Era of
Financial Globalization?, National Bureau of Econom:c Research Working Paper 8716.
[5] Bruggemann, A., Linne, T. (2000), Are the Central and Eastern European Transition Countries Stil
Vulnerable to a Financial Crisis? Results From the Signal Approach, Bank of Finland Institute For
Economies in Transition Discussion Paper.
[6] Bussiere, M., Mulder, C. (1999), Political Instability and Economic Vulnerability, IMF Working Paper
99/46.
[7] E!ilmez, M. (2001), Kas m 2000 Krizi Üzerine. http://www.mahfiegilmez.nom.tr/kose_1.htm,
18.07.2007.
[8] Erdönmez, P. A. (2003), Türkiye’de 2001 Y l ndaki Mali Kriz Sonras nda Kurumsal Sektörde Yeniden
Yap land rma, Türkiye Bankalar BirliGi Bankac:lar Dergisi, Say 47.
[9] Frankel, J., Rose, A. (1996), Currency Crashes in Emerging Markets: An Emprical Treatment, Journal
of International Economies, Vol 41: 351-366.
[10] Kamin, S., Schindler, J., Samuel, S. (2001), The Contrubitions of Domestic and External Factors to
Emerging Market Devaluation Crises: An Early Warning System Approach, Board of Governers of The
Federal Reserve System, International Finance Discussion Paper, No:711.
[11] Kaminsky, G., Lizondo, S., Rienhart, C. M. (1998), Leading Indicators of Currency Crisis, IMF Staff
Papers, Vol 45, No. 1.
[12] Karaçor, Z., Alptekin, V. (2006), Finansal Krizlerin Önceden Tahmin Yoluyla De!erlendirilmesi:
Türkiye Örne!i, Yönetim ve Ekonomi, 13(2).
65
[13] Kaya, V., Y lmaz, Ö. (2006), Para Krizleri Öngörüsünde Sinyal Yakla m : Türkiye Örne!i, 1990-2002.
Ankara Üniversitesi SBF Dergisi, 61-2, 129-155.
[14] Kittelmann, K., Tirpak, M., Schweickert, R., Souza, L. V. (2006), From Transition Crises to
Macroeconomic Stability? Lessons from a Crises Early Warning System for Eastern European and CIS
Countries, The Kiel Institute for the World Economy Working Paper, No. 1269.
[15] Komulainen, T., Lukkarila, J. (2003), What Drives Financial Crises in Emerging Markets?, Bank of
Finland Transition Economies BOFIT Discussion Papers No. 5/2003.
[16] Murshid, A. P. (2001), Echoes From the Past: Are Global Financial Crises Reasserting Themselves?
North American Econometric Society Meetings Presentation, University of Maryland.
[17] Nag, A., Amit, M. (1999), Neural Networks and Eary Warning Indicators of Currency Crisis, Reserve
Bank of India Occasional Papers 20 (2).
[18] Racaru, I., Copaciu, M, Lapteacru I. (2006), Early Warning Systems on Currency Crises, National Bank
of Romania Occasional Papers No. 5.
[19] Sachs, J., Tornell, A., Velasco, A. (1996), Financial Crisis in Emerging Markets: The Lessons from
1995, NBER Working Paper, WP/5576.
66
stanbul ve Erzurum illeri için ya!
serileri ile s cakl k
serilerinin modellenmesi ve kestirimin kar la t r lmas
Di!dem BAYLAM
Gazi Üniversitesi
Fen-Edebiyat Fakültesi
statistik Bölümü
Ankara, Türkiye
Özet
stanbul ve Erzurum illeri için 1930-2006 y:llar: aras:nda ayl:k maksimum ve toplam yaG:# miktar:
serilerinin modellenmesi ve kestirimi yap:lm:#t:r. Modellenme ve kestirim, hem seriyi bir bütün olarak
hem de y:llar itibariyle ayn: aylara ili#kin serileri dikkate al:narak yap:lm:# ve elde edilen sonuçlara
göre hangi serinin daha iyi kestirim yapt:G:na bak:lm:#t:r. Daha önce yap:lan çal:#madaki ayl:k
minimum, maksimum ve ortalama s:cakl:k serileri ile birlikte sonuçlar kar#:la#t:r:lm:#t:r.
Anahtar Kelimeler: Zaman serileri, SARIMA modelleri, kestirim, ya%&' miktarlar& verileri.
Abstract
For stanbul and Erzurum counties reference of modelling and forecasting of rain series and temerature
series.
Monthly maximum and sum rainfall series between 1930-2006 years of Istanbul and Erzurum are modeled and
forecasted with using time domain methods. Modelling and forecasting, made both en bloc taking in series and
series about same months considering years considering and refered by having results which series making better
forecasting. In anterior study results collated with montly minimum, maximum and average temperature series.
Key words: Time series, SARIMA models, forecasting, rain datas.
1. Giri!
Küresel s nma canl lar taraf ndan atmosfere verilen gazlar n sera etkisi yaratmas sonucunda,
dünya atmosferi ve okyanuslar n n ortalama s cakl klar nda belirlenen art a verilen isimdir. Küresel
s nma ile ilgili farkl aç lardan al narak de!i ik çal malar yap lm t r. Bunlardan biri, Türke , Sümer
ve Çetiner’in “Küresel klim De!i ikli!i ve Olas Etkileri” makalesinde, sera gazlar ile ilgili bilgi
vererek iklime etkisinin ara t r lmas yap lm t r. Bunlar n sonucu olarak önümüzde y llarda hangi tür
tehlikelerle ba ba a kal naca! hakk nda bilgi vermi tir [6].
67
Kad o!lu, Öztürk, Erdun ve ren’in “On The Precipitation Climatology of Turkey by
Harmonic Analysis” makalesinde, temel harmonik analiz kullan larak s cakl k verileri iklimsel
modeller hakk nda bilgi verir [3].
Türke , Sümer, ve Çetiner, “Türkiye Ya! lar nda Israr ve Dönemsellik” makalesinde, küresel
s nman n etkisiyle Türkiye’deki ya! miktarlar na göre hem hangi dönemlerde ne kadar ya!d !
hakk nda bilgi verir hem de dönemlerini belirlemede yol gösterir [5].
Türke ’in “El Nino-Güneyli Sal n m ekstremleri ve Türkiye’deki Ya! Anomalileri le
li kileri” makalesinde, El Nino-Güneyli Sal n m’ n ya! miktarlar üzerindeki etkisi hakk nda bilgi
verir [4].
Türke , Sümer ve K l ç’ n “Türkiye Ya! lar nda Periyodiklik ve 500 hPa Jeopotansiyel
Yükseklik De!i imleri le Ba!lant s ” makalesinde, Türkiye’deki 91 istasyonun y ll k ve mevsimlik
normalle tirilmi ya! anomalisi dizilerindeki rasgele olmama bile enlerinden srar ve dönemsellik
incelenmi tir [7].
Bu çal mada amaç, Ocak 1930-Aral k 2006 y llar na ait ayl k maksimum ve toplam ya!
miktarlar verilerini ve y llar itibariyle ayn aylara ili kin serileri kullanarak her birine ait en iyi zaman
dizisi modellerini tahmin edip 2007 y l na ait verilerin en iyi kestirim de!erlerini bulmakt r.
2. Metedoloji
Burada ele al nan verilere Mevsimsel Otoregresif Tamamlanm Hareketli Ortalamalar
(SARIMA) modelleri ve kestirimi özetle verilecektir. Do!rusal zaman dizileri, dura!an ve dura!an
olmayan zaman dizileri olarak ele al n rlar. Dura!an modeller, Otoregresif [AR(p)] modeli, Hareketli
Ortalamalar [MA(q)] modeli ve Otoregresif-Hareketli Ortamalar [ARMA(p, q)] modeli olarak bilinir
[2].
Otoregresif (AR) modeli, bir zaman dizisi ve onun önceki dönemleri cinsinden ifade
edilmesiyle olu ur. AR modelinde kapsad ! dönem say s na göre derece al r. p. dereceden Otoregresif
AR(p) modeli teorik olarak
Z t = 1 Z t 1 + 2 Z t 2 + ... + p Z t p + At
(1)
eklinde gösterilir. AR modeli her zaman tersi al nabilirdir, fakat dura!anl k ko ulu
polinomunun
( B ) = (1
köklerinin
1
B ...
p
B
p
)
birim
çemberin
d nda
olmas yla
sa!lan r.
( B) = 0
Burada
eklindedir.
Hareketli Ortalamalar (MA) modeli, zaman dizisinin ayn dönemdeki hata terimi ve ondan
önceki hata terimleri cinsinden tan mlanan modeldir. MA modelinde kapsad ! geçmi dönem hata
terimi say s na göre derece al r. q. dereceden Hareketli Ortalamalar [MA(q)] modeli teorik olarak
Z t = At 1 At 1 ... q At q
(2)
eklinde gösterilir. MA modeli her zaman dura!and r, fakat tersinirlik ko ulu
köklerinin birim çemberin d nda olmas yla sa!lan r. Burada
( B) = 0
( B ) = (1
1
polinomunun
B ...
q
Bq )
eklindedir.
Otoregresif-Hareketli Ortamalar [ARMA(p, q)] modeli, veriye ait zaman ve hata dizilerinin
onlardan önceki belirli say da de!erler ile ifade edilir. Otoregresif-Hareketli Ortamalar [ARMA(p, q)]
modeli teorik olarak
Z t = 1 Z t 1 + 2 Z t 2 + ... + p Z t p + At 1 At 1 ... q At q
(3)
eklinde gösterilir. ARMA modeli için dura!anl k ve tersinirlik ko ulu
( B) = 0
ve
( B) = 0
polinomlar n n köklerinin birim çemberin d nda olmas yla sa!lan r.
Dura!an olmayan zaman dizilerinde dura!an d l k, ortalama üzerinde ve varyans veya
kovaryans üzerinde söz konusudur. Zaman dizisi ortalamada dura!an de!ilse, dizinin uygun derecede
farklar al narak dura!anl k sa!lanabilir. Varyansda dura!an olmayan bir zaman dizisi için varyans
düzgünle tirme dönü ümleri kullan l r. Varyans düzgünle tirme için güç fonksiyonu olarak ifade
edilen Box-Cox dönü ümü uygulan r. Otoregresif-Tamamlanm -Hareketli Ortalamalar
68
[ARIMA(p,d,q)] modeli, belirli dura!anl k dönü ümleri yap lan dizilere uygulanan AR ve MA
modellerinin bir karmas olan modelleridir.
Mevsimsel zaman dizileri,do!al ve sosyal nedenler sonucu ortaya ç kan ve belli zaman
aral klar nda düzenli olarak tekrar eden dalgalanmalar içeren dizilerdir. Mevsimsel otoregresif
tamamlanm hareketli ortalamalar [ SARIMA ( p, d , q ) × ( P, D, Q ) s ] modeli teorik olarak
3 ( Bs )
( B ) (1
B s ) (1 B ) Z t = 4 ( B s )
D
d
( B ) At
(4)
eklinde gösterilir. Burada s mevsimsel dalgalar n dalga uzunluklar d r [2.8].
Kestirim yöntemleri olarak en küçük ortalama kareler kestirimleri yöntemi kullan l r. Kestirim
ayr ca, dönem uzunlu!una göre en iyi modelin bulunmas nda da kullan lan bir araç olarak
dü ünülebilir. Zaman dizilerinde modelleme i leminden sonra veri için gelecekle ilgili de!erlerin
tahmin edilmesi önemli bir yer te kil eder.
3. Veri ve analizler
3.1. Veri
Bu bildiride Devlet Meteoroloji Müdürlü!ü’nden Ocak 1930-Aral k 2006 y llar na ait stanbul
ve Erzurum için ayl k maksimum ve toplam ya! miktarlar verileri ele al nd . Bu verilerin orijinal
grafikleri a a! dad r:
ISTANBUL MAKSIMUM YAGIÞ MIKTARI
100
80
60
40
20
0
04
20
N 00
J U 20 6
L 99
JU 1 2
G 9
AU 19 8
P 8
SE 19 4
CT 98
O V1 0
O 98
N 1 7
EC 7
D 19 3
N 7
JA 1 9 9
B 96
FE R 1 5
A 6
M 19 1
R 6
AP 19 7
AY 5
M 19 3
N 5
J U 19
L 949
JU 1 5
G 4
AU 19 1
P 4
SE T 19 7
C 93
O V1 3
O 3
N 19 0
C 3
DE 19
N
JA
Zaman
Bekil 1. stanbul ili için ayl k maksimum ya! miktarlar verileri orijinal grafi!i
ERZURUM MAKSIMUM YAGIS MIKTARI
70
60
50
40
30
20
10
0
JA D N O SE AU JU JU M AP M FE JA D N O SE AU JU JU
N EC OV CT P G L N AY R AR B N EC OV CT P G L N
19 1 1 1 19 1 19 1 9 1 1 1 1 9 19 1 1 1 19 1 20 2 0
30 9 3 93 9 4 45 94 53 57 96 96 96 73 77 9 8 98 9 8 92 99 00 04
6
0 4 8
1 5 9
9
3 7 1
Zaman
Bekil 2. Erzurum ili için ayl k maksimum ya! miktarlar verileri orijinal grafi!i
69
400
ISTANBUL TOPLAM YAGIS
300
200
100
0
04
20
N 00
JU 20 6
L 99
JU 1
G 92
AU 19 8
P 8
SE 19 4
T
C 98
O V1 0
O 98
N 1 7
EC 7
D 19 3
N 7
JA 1 9 9
B 96
FE R 1 5
A 6
M 19 1
R 6
AP 19 7
Y
A 5
M 19
N 53
JU 19 9
L 94
JU 1 5
G 4
AU 19 1
P 4
SE 19 7
T
C 93
O 1 3
V
O 3
N 19
0
EC 3
D 19
N
JA
Zaman
Bekil 3. stanbul ili için ayl k toplam ya! miktarlar verileri orijinal grafi!i
ERZURUM TOPLAM YAGIS
200
100
0
JA D N O SE AU JU J U M AP M F E JA D N O SE AU J U JU
N EC OV CT P G L N AY R AR B N EC OV CT P G L N
19 1 1 1 19 1 19 1 9 1 1 1 1 9 19 1 1 1 19 1 20 2 0
30 9 3 93 9 4 45 94 53 57 96 96 96 73 77 9 8 98 9 8 92 99 00 04
6
0 4 8
1 5 9
9
3 7 1
Zaman
Bekil 4. Erzurum ili için ayl k toplam ya! miktarlar verileri orijinal grafi!i
3.2. Analiz Sonuçlar:
3.2.1. Modeller
stanbul ve Erzurum illerine ili kin ayl k maksimum ya! miktarlar verilerini ele al nd ! nda
otokorelasyon ve k smi otokorelasyon grafikleri dikkate al narak gerekli dönü ümler yap lm ve
mevsimsel fark al narak AIC kriterine göre en iyi modeller bulunmu tur. Sonuçlar Tablo 1’de
verilmi tir.
Tablo 1. stanbul ve Erzurum illerine ili kin ayl k maksimum ya! miktarlar verilerine ait analiz
sonuçlar
Erzurum
stanbul
AR1
MA1
SMA1
SAR1
Tahmin -,88342324
,97941062
-,51456741
De!erleri
,90179461
Standart ,17109805 ,15836010 ,0187610
,02834251
Hata
t-Tablo
-5,163257 -5,694582 52,204613
-18,155323
De!erleri
p
,000000030 ,00000002 ,00000000
,00000000
De!erleri
Model
SARIMA ( 0, 0, 0 ) × (1,1, 0 )12
SARIMA (1, 0,1) × ( 0,1,1)
12
AIC
7381,4105
6678,3163
stanbul ve Erzurum illerine ili kin ayl k toplam ya! miktarlar verilerini ele al nd ! nda
otokorelasyon ve k smi otokorelasyon grafikleri dikkate al narak gerekli dönü ümler yap lm ve
70
mevsimsel fark al narak AIC kriterine göre en iyi modeller bulunmu tur. Sonuçlar Tablo 2’de
verilmi tir.
Tablo 2. stanbul ve Erzurum illerine ili kin ayl k toplam ya! miktarlar verilerine ait analiz
sonuçlar
Erzurum
stanbul
SAR1
SAR1
Tahmin
,46753067
-,51467115
De!erleri
Standart
,02928569
,02837752
Hata
t-Tablo
-15,964473
-18,136582
De!erleri
p
,00000000
,00000000
De!erleri
Model
SARIMA ( 0, 0, 0 ) × (1,1, 0 )12 SARIMA ( 0, 0, 0 ) × (1,1, 0 )12
AIC
9585,9152
8609,6273
stanbul iline ili kin y llar itibariyle ayl k maksimum ya! miktarlar verilerini ele al nd ! nda
otokorelasyon ve k smi otokorelasyon grafikleri dikkate al narak gerekli dönü ümler yap lm ve
mevsimsel olmayan fark al narak AIC kriterine göre en iyi modeller bulunmu tur. Sonuçlar Tablo
3’de verilmi tir.
Tablo 3. stanbul iline ili kin y llar itibariyle ayl k maksimum ya! miktarlar verilerine ait analiz
sonuçlar
Aylar
Ocak
rubat
Mart
Nisan
May s
Haziran
Temmuz
A!ustos
Eylül
Ekim
Kas m
Aral k
Tahmin
De!erleri
AR1 MA1
,66871
-,440
-,507
,91473
-,473
-,420
-,603
-,603
-,534
,4485
-,529
-,526
Standart Hata
AR1
MA1
,08861
,1031
,1006
t-Tablo De!erleri
AR1
MA1
7,5466
-4,2696
-5,0386
,05444
,1015
,1048
,0923
,0923
,9693
,1027
,0973
,0998
p De!erleri
AR1
,00005
,00000
16,802
-4,6581
-4,004
-6,5307
-6,5307
-5,5118
-4,3675
-5,4348
-5,2689
MA1
,00000
,00000
,00001
,00014
,00000
,00000
,00000
,00003
,00000
,00000
AIC
Model
588,44
620,23
608,60
502,78
594,91
596,70
668,16
668,16
679,72
683,27
672,99
629,70
SARIMA ( 0,1,1) × ( 0, 0, 0 )12
SARIMA(1,1, 0) × (0, 0, 0)12
SARIMA (1,1, 0 ) × ( 0, 0, 0 )12
SARIMA ( 0,1,1) × ( 0, 0, 0 )12
SARIMA(1,1, 0) × (0, 0, 0)12
SARIMA (1,1, 0 ) × ( 0, 0, 0 )12
SARIMA (1,1, 0 ) × ( 0, 0, 0 )12
SARIMA (1,1, 0 ) × ( 0, 0, 0 )12
SARIMA (1,1, 0 ) × ( 0, 0, 0 )12
SARIMA(1,1, 0) × (0, 0, 0)12
SARIMA (1,1, 0 ) × ( 0, 0, 0 )12
SARIMA(1,1, 0) × (0, 0, 0)12
stanbul iline ili kin y llar itibariyle ayl k toplam ya! miktarlar verilerini ele al nd ! nda
otokorelasyon ve k smi otokorelasyon grafikleri dikkate al narak gerekli dönü ümler yap lm ve
mevsimsel olmayan fark al narak AIC kriterine göre en iyi modeller bulunmu tur. Sonuçlar Tablo
4’de verilmi tir.
71
Tablo 4. stanbul iline ili kin y llar itibariyle ayl k toplam ya! miktarlar verilerine ait analiz
sonuçlar
Tahmin De!erleri
Aylar
Ocak
rubat
Mart
Nisan
May s
Haziran
Temmuz
A!ustos
Eylül
Ekim
Kas m
Aral k
AR1
MA1
,67181
-,49751
-,4712
-,39766
-,54125
-,4540
-,57717
-,46933
-,5322
-,39902
-,54700
-,54700
Standart Hata
AR1
MA1
,08827
,09982
,10207
,10556
,09649
,10270
,09437
,10147
,09705
,10580
,09661
,09661
t-Tablo De!erleri
AR1
MA1
7,6108
-4,9836
-4,6171
-3,7668
-5,6089
-4,420
-6,1155
-4,625
-5,4839
-3,771
-5,6617
-5,6617
p De!erleri
AR1
MA1
,00000
,00000
,00001
,00032
,00000
,00003
,00000
,00000
,00000
,00032
,00000
,00000
AIC
Model
798,57
790,23
795,70
759,91
739,97
716,61
743,07
772,45
825,89
824,91
837,60
837,60
SARIMA(0,1,1) × (0, 0, 0)12
SARIMA(1,1, 0) × (0, 0, 0)12
SARIMA(1,1, 0) × (0, 0, 0)12
SARIMA (1,1, 0 ) × ( 0, 0, 0 )12
SARIMA (1,1, 0 ) × ( 0, 0, 0 )12
SARIMA (1,1, 0 ) × ( 0, 0, 0 )12
SARIMA (1,1, 0 ) × ( 0, 0, 0 )12
SARIMA (1,1, 0 ) × ( 0, 0, 0 )12
SARIMA(1,1, 0) × (0, 0, 0)12
SARIMA (1,1, 0 ) × ( 0, 0, 0 )12
SARIMA (1,1, 0 ) × ( 0, 0, 0 )12
SARIMA(1,1, 0) × (0, 0, 0)12
Erzurum iline ili kin y llar itibariyle ayl k maksimum ya! miktarlar verilerini ele
al nd ! nda otokorelasyon ve k smi otokorelasyon grafikleri dikkate al narak gerekli dönü ümler
yap lm ve mevsimsel olmayan fark al narak AIC kriterine göre en iyi modeller bulunmu tur.
Sonuçlar Tablo 5’de verilmi tir.
Tablo 5. Erzurum iline ili kin y llar itibariyle ayl k maksimum ya! miktarlar verilerine ait analiz
sonuçlar
Aylar
Ocak
rubat
Mart
Nisan
May s
Haziran
Temmuz
A!ustos
Eylül
Ekim
Kas m
Aral k
Tahmin
De!erleri
AR1 MA1
,9382
-,495
,8740
-,493
-,521
-,473
-,547
-,617
-,536
-,498
-,396
-,704
Standart Hata
AR1
MA1
,05622
,09969
t-Tablo De!erleri
AR1
MA1
16,686
-4,9706
,06025
,09984
,09825
,10259
,09584
,09053
,09703
,09956
,10608
,08122
p De!erleri
AR1
,00000
14,505
-4,9450
-5,3070
-4,6191
-5,7151
-6,8211
-5,5269
-5,005
-3,7372
-8,6788
MA1
,00000
,00000
,00000
,00000
,00001
,00021
,00000
,00045
,00000
,00036
,00000
AIC
Model
509,48
556,48
502,86
548,66
531,92
555,47
605,27
555,21
569,12
607,28
535,47
495,25
SARIMA ( 0,1,1) × ( 0, 0, 0 )12
SARIMA (1,1, 0 ) × ( 0, 0, 0 )12
SARIMA ( 0,1,1) × ( 0, 0, 0 )12
SARIMA (1,1, 0 ) × ( 0, 0, 0 )12
SARIMA (1,1, 0 ) × ( 0, 0, 0 )12
SARIMA (1,1, 0 ) × ( 0, 0, 0 )12
SARIMA (1,1, 0 ) × ( 0, 0, 0 )12
SARIMA (1,1, 0 ) × ( 0, 0, 0 )12
SARIMA (1,1, 0 ) × ( 0, 0, 0 )12
SARIMA (1,1, 0 ) × ( 0, 0, 0 )12
SARIMA (1,1, 0 ) × ( 0, 0, 0 )12
SARIMA (1,1, 0 ) × ( 0, 0, 0 )12
Erzurum iline ili kin y llar itibariyle ayl k toplam ya! miktarlar verilerini ele al nd ! nda
otokorelasyon ve k smi otokorelasyon grafikleri dikkate al narak gerekli dönü ümler yap lm ve
mevsimsel olmayan fark al narak AIC kriterine göre en iyi modeller bulunmu tur. Sonuçlar Tablo
6’de verilmi tir.
72
Tablo 6. Erzurum iline ili kin y llar itibariyle ayl k toplam ya! miktarlar verilerine ait analiz
sonuçlar
Aylar
Ocak
rubat
Mart
Nisan
May s
Haziran
Temmuz
A!ustos
Eylül
Ekim
Kas m
Aral k
Tahmin
De!erleri
AR1
MA1
,65079
,90002
,83064
,79446
-,586
,93869
-,515
-,486
-,541
-,394
-,552
,92299
Standart Hata
AR1
MA1
,08873
,05560
,06660
,07328
,0936
t-Tablo De!erleri
AR1
MA1
7,3341
16,187
12,470
10,840
-6,2611
,05002
,0983
,1008
,0965
,1058
,0955
p De!erleri
AR1
,00000
18,764
-5,2392
-4,822
-5,6149
-3,724
-5,782
,05314
MA1
,00000
,00000
,00000
,00000
,00000
,00000
,00000
,00032
,00037
,00016
17,368
,00000
AIC
Model
637,12
652,13
422,88
709,32
782,52
706,99
717,69
686,42
700,66
780,52
708,60
628,66
SARIMA ( 0,1,1) × ( 0, 0, 0 )12
SARIMA ( 0,1,1) × ( 0, 0, 0 )12
SARIMA ( 0,1,1) × ( 0, 0, 0 )12
SARIMA ( 0,1,1) × ( 0, 0, 0 )12
SARIMA (1,1, 0 ) × ( 0, 0, 0 )12
SARIMA ( 0,1,1) × ( 0, 0, 0 )12
SARIMA (1,1, 0 ) × ( 0, 0, 0 )12
SARIMA (1,1, 0 ) × ( 0, 0, 0 )12
SARIMA (1,1, 0 ) × ( 0, 0, 0 )12
SARIMA (1,1, 0 ) × ( 0, 0, 0 )12
SARIMA (1,1, 0 ) × ( 0, 0, 0 )12
SARIMA ( 0,1,1) × ( 0, 0, 0 )12
3.2.2. Kestirimler
stanbul ve Erzurum illerine ili kin 2007 y l na ait ayl k maksimum kestirimleri, y llar itibariyle
ayl k kestirimleri ve 12. aya kadar elde bulunan veriler Tablo 7’de verilmi tir.
Tablo 7. stanbul ve Erzurum illerine ili kin ayl k maksimum kestirim de!erleri, y llar itibariyle
ayl k kestirimler ve 2007 y l na ait veriler
stanbul
Erzurum
Aylar
Gerçek
Kestirim
Kestirim
Gerçek
Kestirim
Kestirim
De!erler De!erleri1 De!erleri2 De!erler De!erleri1 De!erleri2
Ocak
8,2
120,41
28,32
4,9
22,33
6,33
rubat
3,6
119,43
30,96
3,5
9,87
3,30
Mart
15,4
70,52
20,15
7,7
30,44
12,10
Nisan
9,6
17,46
14,34
17,7
72,41
14,61
May s
8,8
9,28
5,10
10,3
67,59
15,39
Haziran
11,3
36,09
15,35
18,7
45,35
14,15
Temmuz
2,8
19,10
17,43
16,1
20,49
6,92
A!ustos
10,0
28,22
17,43
7,7
14,21
8,42
Eylül
9,3
61,94
16,55
0,1
22,09
12,10
Ekim
22,6
55,09
15,08
15,8
80,68
20,14
Kas m
21,2
111,29
23,63
16
20,10
10,72
Aral k
17,5
59,88
25,31
6
14,94
8,65
stanbul iline ili kin kestirimler ve eldeki verilere bak ld ! nda gerçek de!erlerin kestirim
de!erlerine çok yak n oldu!u ortaya ç kmaktad r. Ocak, rubat, Temmuz ve A!ustos aylar nda kestirim
de!eri ile gerçek de!eri aras nda büyük farkl l k görülmektedir.
73
140
120
100
80
60
40
GERCEK
20
KES1
0
KES2
1
2
3
4
5
6
7
8
9
10
11
12
Bekil 5. stanbul iline ili kin 2007 y l na ait ayl k maksimum gerçek, kestirim ve y llar
itibariyle kestirim de!erleri grafi!i
Erzurum iline ili kin kestirimler ve eldeki verilere bak ld ! nda gerçek de!erlerin kestirim
de!erlerine çok yak n oldu!u ortaya ç kmaktad r. Temmuz ve Eylül aylar nda kestirim de!eri ile
gerçek de!eri aras nda büyük farkl l k görülmektedir.
100
80
60
40
GERCEK
20
KES1
KES2
0
1
2
3
4
5
6
7
8
9
10
11
12
Bekil 6. Erzurum iline ili kin 2007 y l na ait ayl k maksimum gerçek, kestirim ve y llar
itibariyle kestirim de!erleri grafi!i
stanbul ve Erzurum illerine ili kin 2007 y l na ait ayl k toplam kestirimleri, y llar itibariyle ayl k
kestirimleri ve 12. aya kadar elde bulunan veriler Tablo 8’de verilmi tir.
Tablo 8. stanbul ve Erzurum illerine ili kin ayl k toplam kestirim de!erleri, y llar itibariyle ayl k
kestirimler ve 2007 y l na ait veriler
stanbul
Erzurum
Aylar
Gerçek
Kestirim
Kestirim
Gerçek
Kestirim
Kestirim
De!erler De!erleri1 De!erleri2 De!erler De!erleri1 De!erleri2
Ocak
36,8
120,5
105,6
13,5
22,3
18,3
rubat
10,6
119,5
120,3
8,4
9,9
23,9
Mart
47
70,4
70,2
20,4
30,4
36,2
Nisan
16,1
17,5
17,4
79,4
72,4
65,2
May s
28,5
9,3
10,4
61,2
67,6
71,2
Haziran
23,7
36,1
36,3
61,8
45,3
41,7
Temmuz
16
19,2
23,5
41,9
20,5
20,5
A!ustos
19,2
28,2
28,2
30,4
14,2
13,6
Eylül
15,8
61,9
62,4
0,1
22,1
21,7
Ekim
63,5
55,2
52,7
33,7
80,7
82,9
Kas m
88,8
111,4
116,4
68,1
20,1
19,7
Aral k
67,8
60,1
116,4
17,7
14,9
21,6
74
stanbul iline ili kin kestirimler ve eldeki verilere bak ld ! nda gerçek de!erlerin kestirim
de!erlerine çok yak n oldu!u ortaya ç kmaktad r. Ocak, rubat, Mart, May s, Haziran, Eylül, Kas m ve
Aral k aylar nda kestirim de!eri ile gerçek de!eri aras nda büyük farkl l k görülmektedir.
140
120
100
80
60
40
GERCEK
20
KES1
0
KES2
1
2
3
4
5
6
7
8
9
10
11
12
Bekil 7. stanbul iline ili kin 2007 y l na ait ayl k ortalama gerçek, kestirim ve y llar itibariyle
kestirim de!erleri grafi!i
Erzurum iline ili kin kestirimler ve eldeki verilere bak ld ! nda gerçek de!erlerin kestirim
de!erlerine çok yak n oldu!u ortaya ç kmaktad r. Ocak, rubat, Mart, May s, Haziran, Temmuz,
A!ustos, Eylül, Ekim ve Kas m aylar nda kestirim de!eri ile gerçek de!eri aras nda büyük farkl l k
görülmektedir.
100
80
60
40
GERCEK
20
KES1
KES2
0
1
2
3
4
5
6
7
8
9
10
11
12
Bekil 8. Erzurum iline ili kin 2007 y l na ait ayl k ortalama gerçek, kestirim ve y llar itibariyle
kestirim de!erleri grafi!i
2007 y l na ait gerçek ve kestirim de!erlerine ili kin MSE de!erlerini hesaplay p kar la t rma
yap l r. stanbul iline ili kin ayl k maksimum ya! miktarlar na ait MSE de!eri 3671,7375 ve y llar
itibariyle ayl k maksimum de!erlere ait MSE de!eri 139,5557 olarak bulunmu tur. stanbul iline
ili kin y llar itibariyle ayl k maksimum de!erlere ait MSE de!eri daha küçüktür.
Erzurum iline ili kin ayl k maksimum ya! miktarlar na ait MSE de!eri 1058,20003 ve y llar
itibariyle ayl k maksimum de!erlere ait MSE de!eri 30,0109 olarak bulunmu tur. Erzurum iline ili kin
y llar itibariyle ayl k maksimum de!erlere ait MSE de!eri daha küçüktür.
stanbul iline ili kin ayl k toplam ya! miktarlar na ait MSE de!eri 5368,0183 ve y llar
itibariyle ayl k toplam de!erlere ait MSE de!eri 1945,25 olarak bulunmu tur. stanbul iline ili kin
y llar itibariyle ayl k toplam de!erlere ait MSE de!eri daha küçüktür.
Erzurum iline ili kin ayl k toplam ya! miktarlar na ait MSE de!eri 726,4492 ve y llar
itibariyle ayl k toplam de!erlere ait MSE de!eri 600,3125 olarak bulunmu tur. Erzurum iline ili kin
y llar itibariyle ayl k toplam de!erlere ait MSE de!eri daha küçüktür.
2008, 2009 ve 2010 y llar na ili kin stanbul ve Erzurum illerine ait y llar itibariyle ayl k
maksimum ve toplam ya! miktarlar verileri için kestirim de!erleri Tablo 9 ve Tablo 10’da elde
edilmi tir. Bu de!erlere göre bulunan en iyi zaman dizisi modeli gelece!e ili kin bize ipuçlar verir.
75
Tablo 9. stanbul ve Erzurum illerine ili kin ayl k maksimum ya!
2008, 2009 ve 2010 y llar na göre kestirim de!erleri
stanbul
Erzurum
Aylar
2008 2009 2010 2008 2009
21,9
21,9
21,9
6,2
6,2
Ocak
15,3
10,2
12,4
3,6
3,6
Bubat
23,4
19,3
21,4
11,5
11,5
Mart
13,7
13,7
13,7
16,7
17,2
Nisan
4,9
6,8
5,9
11,2
10,7
May s
14,9
13,4
14,0
13,4
15,9
Haziran
1,7
2,3
1,9
10,6
13,6
Temmuz
4,6
7,8
5,9
4,2
6,4
A<ustos
11,5
10,3
10,9
8,6
3,9
Eylül
18,9
20,6
19,9
16,9
16,4
Ekim
20,7
20,9
20,8
14,9
15,4
Kas m
13,7
15,7
14,7
4,2
5,5
Aral k
miktarlar verilerine ait
2010
6,2
3,6
11,5
16,9
10,9
14,7
11,9
5,0
6,5
16,7
15,2
4,6
Tablo 10. stanbul ve Erzurum illerine ili kin ayl k toplam ya! miktarlar verilerine ait 2008,
2009 ve 2010 y llar na göre kestirim de!erleri
stanbul
Erzurum
Aylar
2008 2009 2010 2008 2009 2010
8,1
8,1
8,1
16,6
16,6
16,6
Ocak
7,2
8,9
8,0
22,4
22,4
22,4
Bubat
26,0
36,4
31,3
33,4
33,4
33,4
Mart
15,9
15,9
15,9
68,4
68,4
68,4
Nisan
19,7
24,4
21,9
49,8
56,4
52,5
May s
15,9
19,7
17,8
43,1
43,1
43,1
Haziran
10,6
13,5
11,9
30,9
36,6
33,7
Temmuz
8,3
15,2
10,9
17,1
23,7
20,4
A<ustos
15,8
15,8
15,8
16
7,3
12,1
Eylül
40,4
52,2
46,2
56,2
47,2
50,9
Ekim
65,6
72,7
70,5
44,8
57,5
50,5
Kas m
18,7
56,2
27,5
21,2
21,2
21,2
Aral k
4. SONUÇ
Bu bildiride Ocak 1930-Aral k 2006 dönemlerini kapsayan stanbul ve Erzurum illerine ili kin
ayl k maksimum ve toplam ya! miktarlar verileri ve her aya ili kin veriler kullan lm t r.
Ocak 1930-Aral k 2006 y llar aras ndaki stanbul ve Erzurum illerine ili kin ayl k maksimum
ve toplam ya! miktarlar verilerine ve y llar itibariyle ayl k verilere göre elde edilen sonuçlar Tablo
1, Tablo 2, Tablo 3, Tablo 4, Tablo 5 ve Tablo 6’da verilmi tir.
2007 y l na ili kin ayl k maksimum ve toplam ya! miktarlar ve y llar itibariyle ayl k
kestirim de!erleri Tablo 7 ve Tablo 8’de verilmi tir. stanbul ve Erzurum illerine göre ayr ayr MSE
de!erleri kar la t r ld . Bu kar la t rmalara göre y llar itibariyle ayl k kestirim yapmak daha
avantajl d r. Buna göre 2008, 2009 ve 2010 y llar na ili kin gerçe!e dayal kestirimler Tablo 9 ve
Tablo 10’da verilmi tir.
stanbul ve Erzurum illerine ili kin bir önceki çal mam zda ayl k s cakl k verilerinin en iyi
modelleri olarak ayl k veriler ve yapt ! m z çal mam zda ise ayl k ya! miktarlar verilerinin en iyi
modelleri olarak y llar itibariyle ayl k veriler bulunmu tur [1]. Bir önceki çal mam zla yapt ! m z
çal may kar la t rd ! m zda s cakl k verileri için ayl k veriler üzerinden, ya! miktarlar için y llar
itibariyle ayl k veriler üzerinden kestirimler bize daha iyi sonuçlar verir.
76
KAYNAKLAR:
1. Baylam, Di!dem ve Kasap, Re at, “ stanbul ve Erzurum lleri çin Ayl k Minimum,
Maksimum ve Ortalama S cakl k Serilerinin Modellenmesi ve Kestirimi”, VI. statistik
Günleri Sempozyumu 2008, Ondokuz May s Üniversitesi.
2. Box, G.E.P., and Jenkins, G.M., “Time Series Analysis: Forecasting and Control”, HoldenDay, San Francisco, 35-72 (1976).
3. Kad o!lu, M., Öztürk, N., Erdun, H. ve ren, Z., “On The Precipitation Climatology of Turkey
by Harmonic Analysis”, International Journal of Climatology, 19 : 1717-1728 (1998).
4. Türke , M., “El Nino-Güneyli Sal n m ekstremleri ve Türkiye’deki Ya! Anomalileri le
li kileri”, Çevre, Bilim ve Teknoloji, Teknik Dergi, Çevre Mühendisleri Odas Yay n , 1, 1-13
(2000).
5. Türke , M., Sümer, U.M. ve Çetiner, G., “Türkiye Ya! lar nda Israr ve Dönemsellik”,
statistik Ara t rma Sempozyumu 2000 Bildiriler Kitab , D E, Ankara, 112-129 (2001).
6. Türke , M., Sümer, U.M. ve Çetiner, G., “Küresel klim De!i ikli!i ve Olas Etkileri”, Çevre
Bakanl ! , Birle mi Milletler klim De!i ikli!i Çerçeve Sözle mesi Seminer Notlar (13
Nisan 2000, stanbul Sanayi Odas ), 7-24.
7. Türke , M., Sümer, U.M. ve K l ç, G., “Türkiye Ya! lar nda Periyodiklik ve 500 hPa
Jeopotansiyel Yükseklik De!i imleri le Ba!lant s ”, Prof. Dr. S rr Erinç An s na Klimatoloji
Çal tay 2002, Bildiriler Kitab , 119-135.
8. Wei, W.S., “Time Series Analysis Univariate and Multivariate Methods”, Addison-Wesley
Publishing Company, 32-287 (1990).
77
MKB verilerinin bulan k zaman serisi
yakla! mlar ile çözümlenmesi
F.Emrah nceo!lu
Erol E!rio!lu
Ufuk Yolcu
Ça!da Hakan Alada!
Ondokuz May:s Üni.
Fen-Edebiyat Fak.
statistik Bölümü
Ondokuz May:s Üni.
Fen-Edebiyat Fak.
statistik Bölümü
[email protected]
Ondokuz May s Üni.
Fen-Edebiyat Fak.
statistik Bölümü
[email protected]
Hacettepe Üni.
Fen Fak.
statistik Bölümü
[email protected]
Özet
MKB ulusal 100 endeksi zaman serisinin modellenmesi ve öngörülerinin elde edilmesi gelecek
planlamalar: ve ekonomi aç:s:ndan oldukça önemlidir. Klasik zaman serisi analizi yöntemleri ile MKB
ulusal 100 endeksinin kapan:#, aç:l:#, en dü#ük veya en yüksek deGerleri ayr: birer zaman serisi olarak
ele al:narak modellenebilmektedir. Oysa kapan:#, aç:l:#, en dü#ük veya en yüksek deGerli zaman
serilerinin tek ba#:na MKB ulusal 100 endeksini tam olarak temsil etmesi dü#ünülemez. Borsa gibi, gün
içinde sürekli deGi#en deGerlere sahip, zaman serilerinin gözlemlerinde belirsizlik olduGu aç:kt:r. Bu tür
zaman serilerinin gözlemleri reel say:lar yerine dilsel deGerler ile ifade edilebilir. Gözlemleri dilsel
deGerler olan zaman serileri, bulan:k zaman serileri olarak adland:r:l:r. Özellikle son birkaç y:l içinde
bulan:k zaman serileri çözümleme yöntemlerini geli#tiren birçok çal:#ma literatürde yer almaktad:r. Bu
çal:#mada çe#itli bulan:k zaman serileri çözümleme yöntemleri, MKB ulusal 100 endeksi zaman serisine
uygulanm:# ve elde edilen sonuçlar tart:#:lm:#t:r.
Anahtar Kelimeler: Bulan:k zaman serileri, öngörü, MKB Ulusal 100 endeksi.
Abstract
Forecasting IMKB time series by using fuzzy time series approach
Forecasting national IMKB 100 index time series is an important issue in order to make economical
plans about future. When the conventional time series methods are being used to forecast stock exchange
quotation, opening price, closing price, top price and bottom end price time series are analyzed
separately since stock-exchange value varies in same day. On the other hand, analyzing these time series
separately can lead to wrong results. It is clear that such time series, whose observations vary even in
same day, have uncertainty. It is possible to use linguistic variables for such time series instead of using
crisp values. The time series include linguistic values are called fuzzy time series. Recently, there have
been a lot of studies using fuzzy time series to forecasting in the literature. In this study, various fuzzy
time series approaches is applied to IMKB time series and obtained results are discussed.
Keywords:Fuzzy time series, Forecasting,National IMKB 100 index .
1.
Giri!
Gerçek hayat zaman serilerinin birço!unda gözlemlerde belirsizlik olmas mümkündür. Örne!in
günlük hava s cakl ! n dü ünürsek, gün içinde sürekli s cakl k de!i ti!inden her bir günü temsil eden
kesin bir hava s cakl ! yoktur. Bu nedenle günlük hava s cakl ! n bir bulan k küme ile temsil ederek
belirsizli!i modellemek mümkündür. Gözlemleri bu tür belirsizlikler içeren ve bulan k kümeler ile
temsil edilen zaman serilerinin öngörülmesi önemli bir problemdir. Zadeh taraf ndan önerilen bulan k
küme teorisi birçok yeni çal man n öncüsü olmu tur [5]. Song ve Chissom çal malar nda, bulan k
küme teorisinden yararlanarak bulan k zaman serisi tan m n yapm ve bulan k zaman serilerinin
öngörülmesi için yöntemler önermi tir [8,9]. Chen, Song ve Chissom’un önerdi!i yöntemi
78
basitle tirerek bulan k mant k grup ili ki tablolar n n kullan ld ! bir algoritma önermi tir [10]. Huarng
ise bulan kla t rma a amas nda aral k uzunlu!unun belirlenmesi için iki yöntem önermi tir [4]. Tüm
bu çal malar tek de!i kenli ve birinci dereceden öngörü modeline dayal çal malard r. Ancak gerçek
hayat zaman serilerinin birço!u karma k ili kiler içerdi!inden birinci dereceden modeller ile
çözümleme yapmak yeterli olmamaktad r. Chen ve Chung , Chen vd., Chen, Alada! vd. tek
de!i kenli yüksek dereceli bulan k zaman serisi yöntemleri önermi lerdir [12,15,11,1]. Bununla
birlikte, zaman serileri birçok faktörden etkilenebilmektedir. Bu nedenle çok de!i kenli bulan k zaman
serisi öngörü modeli ile daha do!ru sonuçlar elde edilebilir. Bu fikirden hareketle, Huarng, Lee vd.,
Wang ve Chen, Cheng vd., Yu ve Huarng çal malar nda iki de!i kenli bulan k zaman serisi öngörü
yöntemleri önermi lerdir [3,6,7,2,14]. Jilani ve Burney ise çal malar nda çok de!i kenli bulan k
zaman serilerinin çözümlenmesi için bir yöntem önermi tir [13].
Bu çal mada MKB ulusal 100 endeksi zaman serisi Chen [10], Huarng [4] ve Chen [11] yöntemleri
ile çözümlenerek öngörüleri elde edilmi ve en uygun bulan k zaman serisi öngörü modeli
belirlenmi tir. Çal man n ikinci bölümünde bulan k zaman serisi temel tan mlar , üçüncü bölümde
uygulamada kullan lan yöntemler tan t lm t r. Dördüncü bölümde MKB ulusal 100 endeksi zaman
serisine belirtilen bulan k zaman serisi yöntemleri uygulanarak sonuçlar ekil ve tablolar yard m yla
özetlenmi tir. Son bölümde ise elde edilen sonuçlar tart larak, öneriler verilmi tir.
2.
Bulan k zaman serileri tan mlar
Bulan k zaman serisi yakla m ilk olarak Song ve Chissom taraf ndan önerildi [8,9]. Yöntem Chen
taraf ndan basitle tirildi [10]. Chen çal mas nda, Song ve Chissom’un çal mas ndaki karma k matris
i lemleri yerine bulan k ili ki tablosundan yararlanma fikri ortaya att [10]. Bulan k zaman serisi
yakla mlar a a! daki temel tan mlara ba!l d r.
U = {u1 ,..., u b } evrensel küme olsun. U ’nun elemanlar aral klard r. Bu aral klar zaman serisinin tüm
de!erlerini kapsayan evrensel kümenin parçalanmas ile elde edilir. U ’nun elemanlar na ba!l olarak
Ai bulan k kümeleri a a! daki gibi tan mlanabilir.
Ai = f Ai (u1 ) / u1 + L + f Ai (u b ) / ub
(1)
Burada f Ai , Ai bulan k kümesinin üyelik fonksiyonudur ve f Ai : U * [0,1] olmaktad r. f Ai (u a ) ,
u a ’n n Ai ’ye ait olmas n n derecesidir.
Tan m 1. Y (t ) , t = ...,0,1,2,... reel de!erli zaman serisi olsun. Zaman serisine uygun evrensel küme
tan m ve parçalanmas yap ld ktan sonra Ai ’lerden olu an yeni zaman serisi F (t ) ’ye bulan k zaman
serisi ad verilir.
Tan m 2. Bulan k zaman serisinde ili ki için, F (t ) ’nin sadece F (t 1) ’den etkilendi!i dü ünülürse
bulan k zaman serisine birinci dereceden bulan k zaman serisi ad verilir. Birinci dereceden bulan k
zaman serisi için bulan k ili ki F (t ) = F (t 1) ( R (t , t 1) eklinde gösterilebilir. Bu ifadede (
herhangi bir operatörü göstermektedir. F (t 1) = Ai ve F (t ) = A j olsun. Bu durumda bulan k
mant k ili ki Ai * A j ile gösterilebilir. Burada Ai bulan k ili kinin sol yan ve A j bulan k ili kinin
sa! yan olarak isimlendirilir. Buna göre birinci dereceden bulan k zaman serisi öngörü modeli
a a! daki gibi yaz l r.
F (t 1) * F (t )
(2)
79
Tan m 3. F (t ) bulan k zaman serisi olsun. E!er F (t 1), F (t
oluyorsa bulan k mant k ili ki a a! daki gibidir.
F (t
n),..., F (t
2) ,…, ve F (t
n) , F (t ) ’ye neden
2), F (t 1) * F (t )
(3)
(3) de verilen ifadeye n. dereceden bulan k zaman serisi öngörü modeli ad verilir.
3.
Baz bulan k zaman serisi çözüm yöntemleri
Bu bölümde bulan k zaman serileri yakla mlar ndan literatürde s k kullan lan ve bu çal mada
uygulanacak Chen [10], Huarng [4] ve Chen [11] yöntemleri tan t lm t r.
3.1. Chen’in yöntemi
Song ve Chissom taraf ndan önerilen yöntemlerde bulan k ili ki belirleme i lemi karma k matris
operasyonlar na dayanmaktad r [8,9]. Chen’in çal mas nda, bulan k ili ki belirleme, bulan k mant k
grup ili ki tablolar na dayal olarak yap larak Song ve Chissom’un önerdi!i yöntemler
basitle tirilmi tir [10]. Chen’in çal mas nda önerilen yöntem birinci dereceden bulan k zaman serisi
öngörü modeline dayal d r [10]. Chen taraf ndan önerilen bu yöntem algoritma olarak ad mlar halinde
a a! da verilmi tir.
Ad m 1. Evrensel küme (U ) ve alt aral klar (u i , i = 1,2,..., b) tan mlan r.
Evrensel kümenin ba lang ç ve biti noktalar belirlenir. Bu noktalar zaman serisinin ald ! ve
alabilece!i mümkün de!erleri kapsayacak ekilde seçilir. Daha sonra uygun aral k uzunlu!una göre
evrensel küme alt aral klara parçalan r. Bu yöntemde aral k uzunlu!unun belirlenmesi ara t rmac ya
ba!l d r. Belirlenecek aral k uzunlu!unun alt aral k say s üzerinde etkili oldu!u unutulmamal d r.
U = [ Ba#., Biti# ]
(4)
Ad m 2. Evrensel küme ve parçalanmalara ba!l olarak bulan k kümeler tan mlan r.
Ai = f Ai (u1 ) / u1 + L + f Ai (ub ) / ub i = 1,2,..., b
(5)
Ad m 3. Gözlemler bulan kla t r l r.
Her bir gözlemin bulundu!u alt aral k belirlenir. Belirlenen alt aral ! n en yüksek üyelik de!erine
sahip oldu!u bulan k küme belirlenir. Gözlemin bulan k de!eri belirlenen bu bulan k kümedir.
Ad m 4. Bulan k mant k ili ki ve grup ili ki tablosu olu turulur.
Örne!in, bulan k mant k ili kiler A1 * A2 , A1 * A1 , A1 * A3 eklinde iken, bulan k mant k grup
ili ki A1 * A2 , A3 , A1 eklinde olmaktad r.
Ad m 5. Öngörüler elde edilir.
Öngörü elde etmede birkaç durum söz konusudur. F (t 1) = A j olsun.
80
Durum 1. Bulan k grup ili ki tablosundan sadece Ai * A j ili kisi var ise öngörü A j ’dir.
Durum 2. Bulan k grup ili ki tablosunda Ai * Ai , A j ,..., Ak ise öngörü Ai , A j ,..., Ak ’d r.
Durum 3. Bulan k grup ili ki tablosunda Ai * Bo# ise öngörü Ai ’dir.
Ad m 6. Durula t rma i lemi uygulan r.
Durula t rmada merkezile tirme yöntemi kullan l r. Ad m 5 de belirtilen durum 1 ve 3 için bulan k
öngörü A j oldu!unda durula t r lm öngörü, A j bulan k kümesinde en yüksek üyelik de!erine sahip
olan u j aral ! n n orta noktas olmaktad r. Durum 2 için ise bulan k öngörü Ai , A j ,..., Ak oldu!unda
durula t r lm öngörü, her bir Ai , A j ,..., Ak bulan k kümelerinin en yüksek üyelik de!erine sahip olan
u i , u j ,..., u k aral klar n n orta noktalar n n aritmetik ortalamas olarak elde edilir.
3.2. Huarng’:n yöntemleri
Aral k uzunlu!unun seçimi bulan k zaman serisi yakla m nda kritik bir karard r. Aral k uzunlu!unun
çok büyük seçimi zaman serisindeki dalgalanmay yok edecek, çok küçük seçimi ise klasik analizle
bulan k zaman serisi yakla m aras ndaki ay r m ortadan kald racakt r. Bu nedenle, aral ! n çok
küçük ve çok büyük olmayacak ekilde seçilmesi gerekir. Bunun için Huarng ortalamaya ve da! l ma
dayal iki yakla m önermi tir [4]. Bu yakla mlar a a! da örneklerle aç klanm t r.
Da! l ma dayal yakla mda, zaman serisinin ilk farklar n n da! l m na dayal olarak aral k uzunlu!u
belirlenmektedir. Bu yakla m daha iyi anlayabilmek için zaman serisinin de!erlerinin s ras yla 30,
50, 80,120, 100, 70 oldu!u varsay ls n. Bu yakla mda öncelikle ilk farklar n mutlak de!eri hesaplan r.
Örnek seri için bu de!erler 20, 30, 40, 20, 30 olarak bulunur. Daha sonra ilk farklar n mutlak de!erinin
ortalamas f = 28 olarak hesaplan r. lk farklar n ortalamas na göre a a! da verilen baz tablosundan
baz de!eri seçilir.
Tablo 1. Aral k uzunlu!u belirlemek için kullan lan baz tablosu
Aç kl k
0.1-1
1.1-10
11-100
101-1000
Baz
0.1
1
10
100
lk farklar n mutlak de!erlerinin ortalamas 28 oldu!undan ve bu de!er baz tablosunda 11-100
aral ! na denk geldi!inden, baz de!eri 10 olarak belirlenir. Bu durumda baz de!eri 10 oldu!undan,
aral k uzunlu!u 10,20,30,40,.. gibi de!erlerden ilk farklar n say s n n yar s n kapsayacak ekilde
seçilir. 5 tane ilk fark m z oldu!undan, seçti!imiz aral k uzunlu!undan büyük ilk farklar n say s 2,5
dan büyük olmal d r. Bu art sa!layan en küçük aral k uzunlu!u da! l ma göre yakla m n aral k
uzunlu!u olacakt r. Örne!imiz de 10 ‘dan büyük ilk farklar n say s 5, 20’den büyük ilk farklar n
say s 3, 30’dan büyük ilk farklar n say s 1 olmaktad r. Dolay s yla aral k uzunlu!u 20 olarak
belirlenir.
Ortalamaya dayal yakla mda ise baz ad mlar t pk da! l ma dayal yakla mdaki gibidir. Ortalamaya
göre yakla m için de bir önceki örnek kullan l rsa, da! l ma göre yakla mda oldu!u gibi ilk farklar n
mutlak de!erleri ve bunlar n ortalamas 28 olarak elde edilir. Daha sonra ortalaman n yar s 28/2=14
olarak hesaplan r. 14 de!eri baz tablosundan 11-100 aral ! na dü tü!ünden baz de!eri yine 10 olarak
al n r ve son olarak 14 de!eri 10 baz de!erine göre yuvarlan r. Yani bu yakla mda aral k uzunlu!u
81
14’e en yak n yuvarlanm de!er olan 10 olarak al n r. E!er ortalaman n yar s 37 olsayd , baz de!eri
10 olacak ve aral k uzunlu!u 40 olarak al nmal yd .
3.3.
Chen’nin yüksek dereceli bulan:k zaman serisi yöntemi
Chen, 2002 y l nda yapt ! çal mada öngörü elde etmede yüksek dereceli bulan k zaman serisi
yakla m n önermi tir. Chen taraf ndan verilen bu yöntemde yüksek dereceli modellerde tüm
gecikmeli bulan k de!i kenler bulunmaktad r. Yani 4. dereceden bir zaman serisinin
çözümlenmesinde, F(t) bulan k zaman serisi iken, F(t-1), F(t-2), F(t-3), F(t-4) bulan k gecikmeli
de!i kenleri modelde yer almaktad r. Birinci dereceden bulan k zaman serisi öngörü modellerine göre
daha iyi sonuçlar veren, Chen’in çal mas nda önerilen yüksek dereceli bulan k zaman serisi
yönteminin algoritmas a a! daki ad mlardan olu ur [11].
Ad m 1. Evrensel küme ve alt aral klar tan mlan r.
Veri setinin en küçük ve en büyük de!erleri s ras yla Dmin ve Dmax , ayr ca keyfi iki say D1 ve D2
olmak üzere evrensel küme,
U = [Dmin
D1 , Dmax + D2 ]
(6)
eklinde ve sabit aral k uzunlu!una sahip u i alt aral klar ,
U = {u1 , u 2 ,K , u b }
(7)
olacak ekilde tan mlan r.
Ad m 2. Evrensel küme ve belirlenen alt aral klara ba!l olarak A j bulan k kümeleri tan mlan r.
Üyelik dereceleri,
a jk
,k = j
/1
5
= 00.5 , k = j 1, j + 1
50 , d .d .
1
,
j = 1, 2,K, b
(8)
olmak üzere, bulan k kümeler a a! daki gibi tan mlan r.
A j = a j1 / u1 + a j 2 / u 2 + L + a jb / u b
,
j = 1, 2, K , b
(9)
Ad m 3. Gözlemler bulan kla t r l r.
Her bir veri bulundu!u aral ! n en büyük üyelik de!erine sahip oldu!u bulan k küme ile e le tirilerek
zaman serisi bulan kla t r l r.
Ad m 4. Bulan k mant k ili ki ve grup ili ki tablosu olu turulur.
Örne!in, birinci dereceden bulan k mant k ili kiler,
Ai * A j ,
Ai * Ai ,
Ai * Ak
(10)
82
eklinde verilmi ken, bulan k mant k grup ili kisi,
Ai * A j , Ai , Ak
(11)
olarak elde edilir. Benzer ekilde genel bir ifade ile n’nci dereceden bulan k mant k ili kiler,
Ain , Ai ( n 1) , K , Ai1 * A j1
Ain , Ai ( n 1) , K , Ai1 * A j 2
(12)
M
M
Ain , Ai ( n 1) , K , Ai1 * A jp
eklinde verilmi ken, bulan k mant k grup ili kisi,
Ain , Ai ( n 1) , K , Ai1 * A j1 , A j 2 , K , A jp
(13)
olarak elde edilir. Bulan k mant k ili ki ve grup ili ki tablolar , elde edilen bu bulan k mant k ili ki ve
grup ili kilerden olu ur.
Ad m 5. Bulan k öngörüler elde edilir.
n’nci dereceden bulan k zaman serisi öngörü modeli için bulan k öngörüler elde edilirken üç durum
söz konusudur.
Durum 1. n’nci dereceden bulan k mant k grup ili ki tablosunda,
Ain , Ai ( n 1) , K , Ai1 * A j
(14)
ili kisi mevcut ise bulan k öngörü, A j olacakt r.
Durum 2. n’nci dereceden bulan k mant k grup ili ki tablosunda,
Ain , Ai ( n 1) , K , Ai1 * A j1 , A j 2 , K , A jp
(15)
ili kisi mevcut ise bulan k öngörüde belirsizlik söz konusudur ve bulan k öngörünün elde edilebilmesi
için belirsizlik giderilene kadar incelenen derecenin bir üst derecesine bak larak m>n olmak üzere,
Aim , Ai ( m 1) , K , Ai1 * A j
(16)
ili kisini veren m aran r ve bu durumda bulan k öngörü, yine A j olacakt r.
Durum 3. n’nci dereceden bulan k mant k grup ili ki tablosunda,
Ain , Ai ( n 1) , K , Ai1 * Bo#
(17)
83
ili kisi mevcut ise reel öngörü, Ain , Ai ( n
aral klar n n orta noktalar , min , mi ( n
1 × min + 2 × mi ( n
1)
1)
1)
, K , Ai1 bulan k kümelerine ba!l olarak, u in , u i ( n 1) , K , u i1
, K , mi1 olmak üzere,
+ L + n × mi1
(18)
1+ 2 +L+ n
ifadesi ile elde edilir.
Ad m 6. Durula t rma i lemi uygulan r.
Durula t rmada merkezile tirme yöntemi kullan l r. Öngörülerin elde edilmesinde kar la lan Durum
1. ve Durum 2. için bulan k öngörü A j olarak elde edilmi ken, durula t r lm öngörü, A j bulan k
kümesinde en yüksek üyelik de!erine sahip olan u j aral ! n n orta noktas olacakt r. Durum 3. için ise
reel öngörünün, Ain , Ai ( n
1)
, K , Ai1 bulan k kümelerine ba!l olarak nas l elde edildi!i daha önce
belirtilmi ti.
4.
mkb 100 ulusal endeksi için uygulama
Bu çal mada, rekil 1’de verilen, 20.05.2008 ile 26.09.2008 tarihleri aras nda gerçekle en toplam 95
gözlemden olu an MKB ulusal 100 endeksi zaman serisi Chen, Huarng ve Chen yöntemleri ile
çözümlenerek öngörüleri elde edilmi ve en uygun bulan k zaman serisi öngörü modeli belirlenmi tir
[10,4,11]. 20.05.2008 ile 15.09.2008 zaman aral ! ndaki veriler (85 gözlem) e!itim kümesi,
16.09.2008 ile 26.09.2008 zaman aral ! ndaki veriler (10 gözlem) ise test kümesi olarak
kullan lm t r. Test verisi üzerinden tüm yöntemlerden elde edilen sonuçlar kar la t r lm t r.
Zaman serisine ilk olarak Chen taraf ndan 1996 y l nda önerilen yöntem uygulanm t r [10].
Uygulamada test kümesi için elde edilen hata kareler ortalamas karekök (HKOK) de!erleri Tablo
2’de verilmi tir. Yöntemin uygulanmas nda aral k uzunlu!u, veriye uygun olarak, 500 ile 1500
aras nda 100’er art rarak de!i tirilmi tir. Chen yönteminin uygulanmas nda test verisi için en iyi
sonuç, aral k uzunlu!unun 1300 oldu!u durumda elde edilmektedir. Bu durumda HKOK de!eri
1328,04 olarak elde edilmektedir. Chen yönteminden elde edilen en iyi durum için öngörüler Tablo
5’de ve bu öngörülerin gerçek de!erlerle birlikte grafi!i rekil 2’de verilmi tir.
Veriye ikinci olarak, Chen taraf ndan 2002 y l nda önerilen yöntem uygulanm t r [11]. Bu yöntemin
uygulanmas nda da aral k uzunlu!u veriye uygun olarak 500 ile 1500 aras nda 100’er art rarak
de!i tirilmi tir. Ayr ca model derecesi ise 2 ile 5 aras nda de!i tirilmi tir. Bu yönteme ait farkl
durumlar için elde edilen sonuçlar Tablo 3’de verilmi tir. Tablo 3’den, en iyi sonucun 2. dereceden
model ile ve 900 aral k uzunlu!unda bulundu!u görülmektedir. Bu durum için HKOK de!eri ise
1576,1 olmaktad r. Chen yönteminin [11] en iyi durumu için elde edilen öngörüler Tablo 5’de ve bu
öngörülerin gerçek de!erler ile birlikte grafi!i ise rekil 3’de verilmi tir.
Veriye üçüncü olarak Huarng taraf ndan önerilen da! l ma ve ortalamaya dayal yakla mlar
uygulanm t r [4]. Ortalamaya dayal yakla mdan aral k uzunlu!unun 300 oldu!u görülmekte ve bu
durumda elde edilen HKOK de!eri 1622.87 olmaktad r. Da! l ma dayal yakla ma göre ise aral k
uzunlu!unun 500 oldu!u ve buna kar l k HKOK de!erinin 1777.9846 oldu!u görülmektedir. Bu
sonuçlar Tablo 4’de verilmi tir. Öngörülerin gerçek de!erler ile birlikte grafi!i ise rekil 4 ve rekil
5’de verilmi tir.
84
Bekil 1. 20.05.2008 ile 26.09.2008 tarihleri aras nda gerçekle en MKB ulusal 100 endeksi zaman
serisi
Tablo 2. Chen taraf ndan 1996 y l nda önerilen yöntem ile test verisi için elde edilen sonuçlar
Aral k
Uzunlu<u
500
600
700
800
900
1000
Aral k
Uzunlu<u
1100
1200
1300
1400
1500
HKOK Test
1777,68
1506,25
1588,03
1598,79
1469,82
1468,29
HKOK Test
1469,62
1461,06
1328,04
1341,37
1508,12
Tablo 3. Chen taraf ndan 2002 y l nda önerilen yöntem ile test verisi için elde edilen sonuçlar
Aral k Uzunlu<u
2.derece
HKOK Test
500
600
700
800
900
1000
1100
1200
1300
1400
1500
1697,0611
1636,1397
1740,71
1870,75
1576,1
1826,89
1597,78
1652,11
1933,93
1772,81
1803,67
Model Derecesi
3. derece
4. derece
HKOK Test
HKOK Test
1775,05
1772,94
1841,46
1974,85
1730,22
1996,25
1737,21
1790,59
1984,43
1850,35
1760,1
85
1877,54
1834,11
1838,49
1834,77
1868,85
1889,39
1866,93
1908,3
1791,87
1876,7577
1966,5196
5. derece
HKOK Test
1991,37
1955,06
1962,86
1954,29
1963,78
2008,57
1923,05
1997,23
1922,28
1920,35
2064,09
Tablo 4. Huarng taraf ndan önerilen yöntem ile test verisi için elde edilen sonuçlar
Yakla! m
Ortalamaya dayal yakla m
Da! l ma dayal yakla m
Aral k Uzunlu<u
300
500
HKOK Test
1622.87
1777.68
Bekil 2. Chen taraf ndan 1996 y l nda önerilen yöntemde 1300 aral k uzunlu!u için test verisinin
öngörüleri
Bekil 3. Chen taraf ndan 2002 y l nda önerilen yöntemde 2. dereceden model ve 900 aral k uzunlu!u
için test verisinin öngörüleri
Bekil 4. Huarng taraf ndan önerilen, da! l ma dayal yakla m için test verisinin öngörüleri
86
Bekil 5. Huarng taraf ndan önerilen, ortalamaya dayal yakla m için test verisinin öngörüleri
Tablo 5. Tüm yöntemlerin en iyi durumlar için öngörü sonuçlar
Tarih
IMKB
16.09.2008
33736,35
17.09.2008
32727,57
18.09.2008
32216,43
19.09.2008
36370,16
20.09.2008
36183,62
22.09.2008
35454,17
23.09.2008
35177,11
24.09.2008
36361,84
25.09.2008
36556,61
26.09.2008
36051,3
HKOK
5.
Chen [10]
1300 Aral k
Uzunlu<u
Huarng [4]
Da< l ma
Dayal
Huarng [4]
Ortalamaya
Dayal
34816.6667
34600
33950
33950
36550
36550
34816.6667
34816.6667
36550
36550
1328.04
35075
33950
32750
32150
37550
36050
35150
35075
37550
35750
1777.68
35000
34000
32750
32250
37750
37750
35000
35000
37750
35750
1622.87
Chen [11]
2. Derece
900 Aral k
Uzunlu<u
35750
33350
32750
32450
34850
36050
35600
36050
35150
36650
1576.1
Sonuçlar ve tart !ma
Son y llarda gözlemleri belirsizlik içeren borsa, s cakl k gibi zaman serilerinin çözümlenmesinde
bulan k zaman serisi yöntemleri kullan lmaktad r. Bu tip veriler belirli bir birim zaman dilimi içinde
(örne!in bir gün içinde) birden fazla de!ere sahip olmaktad r. Bu nedenle bu zaman serilerinin
gözlemlerini tek bir reel say ile temsil etmek yerine bulan k küme ile temsil etmek daha do!ru
olacakt r. Ayr ca bulan k zaman serisi çözüm yöntemleri klasik analizlerdeki normal da! l m, en az 50
gözlem say s gibi varsay mlara da gerek duymamaktad r. Bu avantajlar nedeniyle bulan k zaman
serisi analizi yöntemlerinin uygulama alan her geçen gün artmaktad r.
Bu çal mada IMKB 100 ulusal endeksi zaman serisi, çe itli bulan k zaman serisi analiz yöntemleri ile
çözümlenmi tir. Çözümlemede literatürde s k kullan lan, Chen taraf ndan 1996 y l nda, Huarng
taraf ndan 2001 y l nda önerilen birinci dereceden yöntemler ve yine Chen taraf ndan 2002 y l nda
önerilen yüksek dereceli yöntem kullan lm t r [10,4,11]. Elde edilen sonuçlara göre IMKB 100 ulusal
endeksi zaman serisi için incelenen modeller aras nda birinci dereceden bir model olan Chen
yönteminin [10] kullan lmas uygun olmaktad r.
87
Kaynaklar
[1] Ç.H. Alada!, M.A. Ba aran, E. E!rio!lu, U. Yolcu, V.R. Uslu, (2009), Forecasting in high order fuzzy
time series by using neural networks to define fuzzy relations, Expert Systems with Applications, 36,
4228-4231.
[2] C.H. Cheng, G.W. Cheng, J.W. Wang, (2008), Multi-attribute fuzzy time series method based on fuzzy
clustering, Expert Systems with Applications, 34(2), 1235,1247.
[3] K. Huarng, (2001a), Heuristic models of fuzzy time series for forecasting, Fuzzy Sets and Systems, 123
(3), 369-386.
[4] K. Huarng, (2001b), Effective lengths of interval to improve forecasting in fuzzy time series, Fuzzy Sets
and Systems, 123, 387-394.
[5] L.A. Zadeh, (1965), Fuzzy Sets, Inform and Control, 8, 338-353.
[6] L.W. Lee, L.H. Wang, S.M. Chen, Y.H. Leu, (2006), Handling forecasting problems based on two
factors high order fuzzy time series. IEEE Transactions On Fuzzy Systems, 14, 468-477.
[7] N.Y. Wang, S.M. Chen, (2008), Temperature prediction and TAIFEX forecasting based on automatic
clustering techniques and tow-factors high order fuzzy time series, Expert Systems with Applications,
doi:10.1016/j.eswa.2007.12.013.
[8] Q. Song, B.S. Chissom, (1993a), Fuzzy time series and its models, Fuzzy Sets and Systems, 54, 269277.
[9] Q. Song, B.S. Chissom, (1993b), Forecasting enrollments with fuzzy time series- Part I, Fuzzy Sets and
Systems, 54, 1-10.
[10] S.M. Chen, (1996), Forecasting enrollments based on fuzzy time-series, Fuzzy Sets and Systems, 81,
311-319.
[11] S.M. Chen, (2002), Forecasting Enrollments based on high-order fuzzy time series, Cybernetics and
Systems An International Journal, 33. 1-16.
[12] S.M. Chen, N.Y. Chung, (2006), Forecasting Enrollments Using High-Order Fuzzy Time Series and
Genetic Algorithms, International Journal Of Intelligent Systems, 21, 485-501.
[13] T.A. Jilani, S.M.A. Burney, (2008), Multivariate stochastic fuzzy forecasting models, Expert Systems
with Applications, 35, 691-700.
[14] T.K. Yu, K. Huarng, (2008), A bivariate fuzzy time series model to forecast the TAIEX, Expert
Systems with Applications, 34(4). 2945-2952.
[15] T.L. Chen, C.H. Cheng, H.J. Teoh, (2008), High-order fuzzy time-series based on multi-period
adaptation model for forecasting stock markets, Physica A: Statistical Mechanics and its Applications,
387(4), 876-888.
88
FGM Kapulalar n Konveks Kombinasyonlar ve
Yerel Ba! ml l k Fonksiyonu
Olcay Bozkurt
smihan Bayramo!lu
Ege Üniversitesi,
Fen Fakültesi, statistik Bölümü,
35100, zmir, Türkiye
[email protected]
zmir Ekonomi Üniversitesi, Fen Edebiyat Fakültesi,
Matematik Bölümü,
35330, zmir, Türkiye
[email protected]
Özet
Rasgele deGi#kenlerin baG:ml: olmas: durumunda iki veya çok boyutlu daG:l:m ailelerini olu#turmada
kolayl:k saGlayan kapula fonksiyonu kullan:larak, Farlie-Gumbel-Morgenstern (FGM) daG:l:mlar
ailesinde konveks kombinasyonlar için ili#ki parametresine ait s:n:rlar elde edilmi# ve yerel baG:ml:l:k
fonksiyonlar: incelenmi#tir.
Anahtar sözcükler: Kapulalar; Konveks kombinasyonlar; Yerel baG:ml:l:k fonksiyonu.
Abstract
Convex combinations of FGM copulas and their local dependence functions
When the random variables are dependent, copulas make easy to construct the binary or multidimensional distribution
families. Take the advantage of copulas, it was obtained bounds of the association parameter for convex combinations of
copulas in the Farlie-Gumbel-Morgenstern (FGM) family and examined their local dependence functions.
Keywords: Copulas; Convex combinations; Local dependence function.
1. Giri!
statistikçiler uzun bir zaman periyodunda çok de!i kenli da! l mlar ve onlar n alt boyutlu marjinalleri
aras ndaki ili ki üzerinde durmu lard r. Genel anlamda kapula, rasgele de!i kenlerin ba! ml oldu!u
durumlarda marjinal da! l m fonksiyonlar yard m yla ortak da! l m fonksiyonunu I 2 ’de yeniden
tan mlamaya yarayan bir fonksiyondur.
statistikte incelenen rasgele de!i kenlerin ba! ms z olmalar durumunda bu de!i kenlere ili kin ortak
olas l k yo!unluk ve ortak da! l m fonksiyonlar n olu turmak oldukça kolayd r. Ayr ca bu
de!i kenlerin ba! ms z olmalar , ko ullu beklenen de!er gibi hesaplanmalar da oldukça
kolayla t rmaktad r.
De!i kenlerin ba! ml olmas durumunda ise durum biraz daha kar kt r. Bu a amada ise ba! ml
rasgele de!i kenlerin ortak da! l m fonksiyonundan elde edilen kapula fonksiyonu bu zorluklar
ortadan kald rmada etkilidir.
Kapulalar, marjinal da! l mlar verildi!inde ikili veya çoklu da! l m ailelerini olu turmada önemli bir
araç oldu!u için istatistikte teorik olarak oldukça önemli bir yere sahiptir (Durante et al., 2006).
Son y llarda kapulalar; istatistik, ekonomi, finans ve risk yönetiminde ba! ml l k ölçümü, modelleme
ve zaman serilerindeki serisel ba! ml l k gibi birçok çal mada yer alm t r (Peya et al.,2000).
89
2. Kapulalar
Tan&m: C (u , v ) , iki de!i kenli bir fonksiyon olarak I 2 = [0,1] × [0,1] ’ de tan mlans n. E!er bu
fonksiyon a a! daki özellikleri sa!l yor ise iki boyutlu bir kapula olarak adland r l r.
•
C (u , 0) = C (0, v ) = 0
(1)
•
C (u ,1) = u ve C (1, v ) = v , 6(u , v) 7 I
(2)
Tüm 0 ! u1 ! u2 ! 1 ve 0 ! v1 ! v2 ! 1 için
•
Vc ([u, v]) = C (u1 , v1 ) C (u1 , v2 ) C (u2 , v1 ) + C (u2 , v2 ) 8 0
(3)
Teorem 1: (Sklar Teoremi) X ve Y rasgele de!i ken, F ( x, y ) ortak da! l m fonksiyonu, F ( x) ve
F ( y ) marjinal da! l m fonksiyonlar olmak üzere öyle bir C kapulas vard r ki;
F ( x, y ) = C ( F ( x), F ( y ))
(4)
eklinde yaz labilir. E!er F ( x) ve F ( y ) mutlak sürekli ise C kapulas tektir (Nelsen, 1999).
2.1. Kadran BaG:ml:l:k
2000’li y llarda Lai & Xie FGM da! l m n n unfiorm gösterimini kullanarak ve 0-1 aras nda de!er
alan ili ki parametresinin pozitif kadran ba! ml l ! n kullanarak sürekli iki de!i kenli da! l mlar
üzerinde çal m lard r.
Tan&m: X ve Y rasgele de!i kenler olsun. E!er R2’ deki tüm ( x, y ) de!erleri için a a! daki durum söz
konusu ise;
P{ X ! x, Y ! y} 8 P{ X ! x}P{Y ! y}
veya
(5)
P{ X > x, Y > y} 8 P{ X > x}P{Y > y}
ise X ve Y pozitif kadran ba! ml d r.
E!er
P{ X ! x, Y ! y} < P{ X ! x}P{Y ! y}
veya
(6)
P{ X > x, Y > y} < P{ X > x}P{Y > y}
ise X ve Y negatif kadran ba! ml d r (Nelsen, 2005).
90
2.2. Kapulalarda BaG:ml:l:k Ölçüleri
Kendall - ve Spearman . ise kapula fonksiyonlar ndaki rasgele de!i kenler aras ndaki ili kiyi ölçen
parametrik olmayan ölçümlerdir.
Kendall V: ili ki ölçüsünün örneklem versiyonudur.
Teorem 2: X ve Y kapulas C olan sürekli rasgele de!i kenler olsun. O zaman X ve Y için Kendall z’
nun kitle versiyonu (7) ile verildi!i ekildedir
& = 4. . C (u, v)dC (u, v) 1
I2
(7)
Spearman W: Kendall z ‘ da oldu!u gibi ili ki ölçüsünün kitle versiyonu Spearman j’ dur.
Teorem 3: X ve Y kapulas C olan sürekli rasgele de!i kenler olsun. O zaman X ve Y için Spearman
j’ nun kitle versiyonu (8) ile verildi!i ekildedir
= 12 . . C (u, v)dudv 3
I2
(8)
(Nelsen, 1999).
2.3. Yerel BaG:ml:l:k Fonksiyonu (Local Dependence Function)
X ve Y rasgele de!i kenlerinin marjinal da! l m fonksiyonlar ve olas l k yo!unluk fonksiyonlar
s ras yla FX , f X ve FY , fY olsun. A a! daki fonksiyon Pearson korelasyon katsay s nda matematiksel
ve EY yerine ko ullu beklenen de!erlerin E ( X | Y = y ) ve
beklenen de!erler EX
E (Y | X = x ) yaz lmas ile elde edilmi tir (Bairamov, 2003).
E{( X
H ( x, y ) =
E{( X
E ( X | Y = y ))(Y
E (Y | X = x))}
E ( X | Y = y )) 2 } E{(Y
E (Y | X = x )) 2 }
(9)
H ( x, y ) fonksiyonu, ( x , y ) noktas nda X ve Y aras ndaki ba! ml l ! karakterize eden yerel ba! ml l k
fonksiyonu olarak adland r l r ve 9 X = EX E ( X | Y = y) , 9Y = EY E (Y | X = x) matematiksel
dönü ümlerden sonra (10) ile ifade edildi!i ekilde yaz labilir.
H ( x, y ) =
Cov ( X , Y ) + 9 X ( y )9 Y ( x )
Var ( X ) + 9 X2 ( y ) Var (Y ) + 9 Y2 ( x )
A a! daki dönü ümler uygulanacak olursa H(x,y) fonksiyonu a a! daki gibi yaz labilir.
=
Cov( X , Y )
X
H ( x, y ) =
3 X ( y) =
9 X ( y)
3 Y ( x) =
X
Y
9 Y ( x)
Y
+ 3 X ( y )3 Y ( x )
1 + 3 2X ( y ) 1 + 3 Y2 ( x )
(10)
91
(Bairamov, 2000).
Lemma: Yerel ba! ml l k fonksiyonu a a! daki özelliklere sahiptir.
1. E!er X ve Y ba! ms z ise H ( x, y ) = 0 tüm ( x, y ) 7 N X ,Y .
2.
H ( x, y ) ! 1 , tüm ( x, y ) 7 N X ,Y .
3. E!er H ( x, y ) = 1 ise baz ( x, y ) 7 N X ,Y o zaman
4. E!er
: 0.
= ±1 ise o zaman H ( x, y ) = ±1 .
H ( x, y ) = 0
E ( X ) = E ( X | Y = y)
tüm ( x, y ) 7 N X ,Y ise o zaman ya
E (Y ) = E (Y | X = x ) tüm ( x, y ) 7 N X ,Y ve = 0 .
5. E!er
6.
ya da
3 X ( y * ) = 3Y ( x * ) = 0 sa!layan ( x * , y * ) noktas H’ n eyer noktas d r (saddle point) ve
H ( x * , y * ) = olur (Bairamov, 2003).
3. Yeni FGM kapulalar n n modifikasyonlar
Teorem 4: C (u, v) = uv(1 + (1 u ) 2 (1 v)) + (1 )uv(1 + (1 u )(1 v)) , 0 ! ! 1 ili ki parametresi
S, (11) ko ulunu sa!layan fonksiyon, iki de!i kenli bir da! l m n konveks kombinasyonunun da! l m
fonksiyonudur.
max
3
2
+1
, 1 !
3
! min
+1
2
,1
(11)
1spat: C (u, v) = uv(1 + (1 u ) 2 (1 v)) + (1
(12)
)uv(1 + (1 u )(1 v)) , 0 !
!1
c(u , v) = 1 + (1 2u 2u + 3u 2 )(1 2v)
r (u ) = 1 2u 2u + 3u 2 ; u% =
5
<
5
r ( v ) = 1 2v
=
c(u,v), u~ =
+1
2
3
0,1
+1
+1
2
+1
3
1
v% =
2
1
ve v~ = noktalar nda 1 de!erini al r.
2
r(u)>0
r(v)<0
r(u)<0
r(v)<0
Q4
0,0
1,1
Q1
r(u)>0
r(v)>0
r(u)<0
r(v)>0
Q3
Q2
u%
92
v%
1,0
Q1 : u~ < u < 1 , v~ < v < 1
1
8
( 1 + 2u + 2u
3u
2
u* =
)(2v 1)
+1
3
ve
v*=1
noktalar nda
fonksiyon
ve
v*=0
noktalar nda
fonksiyon
minimuma ula r.
3
8
+1
2
Q2 : u~ < u < 1 , 0 < v < v~
!
1
( 1 + 2u + 2u
3u
2
u* =
)(1 2v)
+1
3
minimuma ula r.
3
!
2
+1
Q3 : 0 < u < u~ , 0 < v < v~
8
ula r.
(1 2u
1
2u + 3u 2 )(1 2v)
u*=0 ve v*=0
noktalar nda fonksiyon minimuma
8 1
Q4 : 0 < u < u~ , v~ < v < 1
!
(1 2u
!1
1
u*=0 ve v*=1 noktalar nda fonksiyon minimuma ula r.
2
2u + 3u )(2v 1)
3
max
+1
2
, 1 !
3
! min
2
3>
=
1 1
= 12 . . C (u , v )dudv
0 0
+1
,1
(
2)
6
Çizelge 1 (12) ile verilen kapula için korelasyon de!erleri
2
3 alt
3 üst
. alt
. üst
0,0
0,00
0,00
-0,000
0,000
0,1
-0,33
0,33
-0,104
0,104
0,2
-0,71
0,71
-0,214
0,214
0,3
-1,00
1,00
-0,283
0,283
0,4
-1,00
1,00
-0,267
0,267
0,5
-1,00
1,00
-0,250
0,250
0,6
-1,00
1,00
-0,233
0,233
0,7
-1,00
1,00
-0,217
0,217
0,8
-1,00
1,00
-0,200
0,200
0,9
-1,00
1,00
-0,183
0,183
1,0
-1,00
1,00
-0,167
0,167
93
Yerel ba! ml l k fonksiyonu:
H ( x, y ) =
[12 + (2
2 (2
{
) 1 + ( 2 y 1)(2 x 3 x 2 + 2
4 y+2
][
y ) 12 + (2
2
4
}
1)
4 x+6
x2 )2
]
A a! da S ve {’ n n çe itli de!erleri için yerel ba! ml l k fonksiyonunun grafikleri verilmi tir.
(a)
(b)
(c)
Bekil 1. Teorem 4’ deki konveks kapula kombinasyonunda 2 alt s n r ve (a) c=0.1, (b) c=0.5 ve (c)
c=1 de!erlerini ald ! durumda yerel ba! ml l k fonksiyonunun 3 boyutlu ve izdü ümü grafikleri
rekil 1(a)’ da uç noktalarda de!i kenler aras ndaki noktasal ba! ml l k en yüksek de!eri almaktayken,
(b)’ de de!i kenlerin ald ! de!erler aras ndaki fark artt kça noktasal ba! ml l ! n de!eri yükselmekte
ve son olarak (c)’ de ise (0,0) noktas nda fonksiyon maksimum de!erini almaktad r.
94
(a)
(b)
(c)
Bekil 2. Teorem 4’ deki konveks kapula kombinasyonunda 2 üst s n r ve (a) c=0.1, (b) c=0.5 ve (c)
c=1 de!erlerini ald ! durumda yerel ba! ml l k fonksiyonunun 3 boyutlu ve izdü ümü grafikleri
rekil 2 (a) ve (b)’ de (0,0) ve (1,1) noktalar nda de!i kenler aras ndaki noktasal ba! ml l k en yüksek
de!eri almakta, (c)’ de ise (0,1) noktas nda fonksiyon maksimum de!erini ula maktad r. De!i kenlerin
ald klar de!erler aras ndaki fark artt kça yerel ba! ml l k fonksiyonunun de!eri azalmaktad r.
Teorem 5: C (u, v) = uv(1 + (1 u 2 )(1 v)) + (1
)uv(1 + (1 u )(1 v)) , 0 ! ! 1 ili ki
parametresi 2, (13) ko ulunu sa!layan fonksiyon, iki de!i kenli bir da! l m n konveks
kombinasyonunun da! l m fonksiyonudur.
max
2
3
+
+1
,
1
!
+1
! min
2
3
+
(13)
95
+1
,
1
+1
1spat: C (u, v) = uv(1 + (1 u 2 )(1 v )) + (1
(14)
c(u, v) = 1 + (1 2u + 2u
r ( v ) = 1 2v
1+
c(u , v) , u~ =
2
+
3
0,1
1+
+1
2
+
+1
3
1
v% =
2
ve v~ =
1
noktalar nda 1 de!erini al r.
2
r(u)<0
r(v)<0
r(u)>0
r(v)<0
Q4
1,1
Q1
r(u)>0
r(v)>0
0,0
!1
3u 2 )(1 2v)
3u 2 ; u% =
5
<
5
=
r (u ) = 1 2u + 2u
)uv(1 + (1 u )(1 v)) , 0 !
r(u)<0
r(v)>0
Q3
Q2
v%
1,0
u%
Q1 : u~ < u < 1 , v~ < v < 1
8
1
u*=1 ve v*=1 noktalar nda fonksiyon minimuma
2
2u + 3u )(2v 1)
( 1 + 2u
ula r.
8
1
+1
Q2 : u~ < u < 1 , 0 < v < v~
!
( 1 + 2u
1
u*=1 ve v*=0 noktalar nda fonksiyon minimuma
2
2u + 3u )(1 2v)
ula r.
!
1
+1
Q3 : 0 < u < u~ , 0 < v < v~
8
1
(1 2u + 2u
3u
2
)(1 2v)
u* =
minimuma ula r.
8
2
3
+
+1
96
1
3
ve
v*=0
noktalar nda
fonksiyon
Q4 : 0 < u < u~ , v~ < v < 1
!
1
(1 2u + 2u
3u
2
u* =
)(2v 1)
1
3
ve v*=1 noktalar nda fonksiyon minimuma
ula r.
!
2
3
+
max
2
+1
3
+
+1
,
1
!
+1
! min
2
3
+
+1
,
1
+1
Teorem 5’ de verilen fonksiyonun 2 ve c parametreleri ile ald ! korelasyon katsay s n n de!erleri
Çizelge 2‘ de verilmi tir.
1 1
= 12 . . C (u , v) dudv 3 >
=
0 0
( + 2)
6
Çizelge 2 (14) ile verilen kapula için korelasyon de!erleri
2
3 alt
3 üst
. alt
. üst
0,0
0,00
0,00
0,000
0,000
0,1
-0,27
0,27
-0,095
0,095
0,2
-0,48
0,48
-0,177
0,177
0,3
-0,65
0,65
-0,248
0,248
0,4
-0,71
0,71
-0,286
0,286
0,5
-0,67
0,67
-0,278
0,278
0,6
-0,63
0,63
-0,271
0,271
0,7
-0,59
0,59
-0,265
0,265
0,8
-0,56
0,56
-0,259
0,259
0,9
-0,53
0,53
-0,254
0,254
1,0
-0,50
0,50
-0,250
0,250
Bu fonksiyona ait yerel ba! ml l k fonksiyonu ise;
H ( x, y) =
2 ( + 2) +
12 + (2 +
2
(1 2 y)[( + 2)(2 4x 6 x2 ) + 4 x(2
4 y 2
2
y)
12 + (2 + 4
x 4 x 6
)]
x2 )2
A a! da 2 ve c’ n n çe itli de!erleri için yerel ba! ml l k fonksiyonunun grafikleri verilmi tir.
97
(a)
(b)
(c)
Bekil 3. Teorem 5’ deki konveks kapula kombinasyonunda 2 alt s n r ve (a) c=0.4, (b) c=0.8 ve (c)
c=1 de!erlerini ald ! durumda yerel ba! ml l k fonksiyonunun 3 boyutlu ve izdü ümü grafikleri
rekil 3 (a), (b) ve (c)’ de (0,1) ve (1,0) noktalar nda de!i kenler aras ndaki noktasal ba! ml l k en
yüksek de!eri almakta, bu de!erler c’ n n de!eri 1’ e yakla t kça büyümektedir.
98
(a)
(b)
(c)
Bekil 4. Teorem 5’ deki konveks kapula kombinasyonunda 2 üst s n r ve (a) c=0.4, (b) c=0.8 ve (c)
c=1 de!erlerini ald ! durumda yerel ba! ml l k fonksiyonunun 3 boyutlu ve izdü ümü grafikleri
rekil 4’ teki her üç durum içinde (0,0) ve (1,1) noktalar nda de!i kenler aras ndaki noktasal
ba! ml l k en yüksek de!eri almakta, bu de!erler c’ n n de!eri 1’ e yakla t kça artmaktad r.
3.1. Konveks Kapulalar:n Kadran BaG:ml:l:klar:n:n ncelenmesi
Teorem 6: C 1 (u , v ) ve C 2 (u , v) kapulalar pozitif kadran ba! ml kapulalar olsun. O zaman bu
kapulalar n konveks kombinasyonlar da pozitif kadran ba! ml d r.
1spat: X , Y ~ U (0,1) ve bu rasgele de!i kenlerin kapulalar C 1 (u , v) , Z , W ~ U (0,1) ve kapulas
C 2 (u , v) olsun. E!er C 1 (u , v) ve C 2 (u , v) pozitif kadran ba! ml kapulalar ise;
99
C 1 (u , v) 8 uv ve C 2 (u , v) 8 uv olur.
Bu durumda bu kapulalar n konveks kombinasyonlar ;
C (u , v) = C 1 (u , v) + (1
)C 2 (u , v)
ile ifade edilecek olursa;
C (u, v) = C 1 (u , v) + (1
= uv + (1
= uv
)C 2 (u, v)
)uv
oldu!undan kapulalar n konveks kombinasyonlar da pozitif kadran ba! ml d r.
4. Sonuç ve öneriler
Sonuç olarak, FGM da! l mlar ailesinden kapulalar n modifikasyonlar ve konveks kombinasyonlar
kullan larak yeni kapulalar olu turulup ve bu kapulalara ait ili ki parametrelerinin s n rlar elde
edilmi tir. Ayr ca bu kapulalar n yerel ba! ml l k fonksiyonlar elde edilerek farkl de!erler almalar
ko ulu alt nda de!i imleri incelenmi tir. Bununla birlikte, olu turulan konveks kapula
kombinasyonlar nda kadran ba! ml l k yap s incelenerek pozitif kadran ba! ml l k yap s na sahip
olduklar belirlenmi tir.
Kaynaklar
[1] Bairamov, I., Kotz, S., (2000), On Local Dependence Function for Multivariate Distributions, New
Trends in Prob. and Stat., Vol 5 pp. 27–44
[2] Bairamov, I., Kotz, S., and Kozubowski, T.J., (2003), A New Measure of Linear Local Dependence,
Statistics, Vol. 37(3), pp. 243-258.
[3] Nelsen, R.B., (1999), An Introduction to Copulas, Springer, New York.
[4] Nelsen, R.B., (2005), An Introduction to Copulas, Springer, 2nd, New York.
[5] Durante, F., Molina, J.J.Q., Sempi, C., (2006), A Generalization of the Archimedean Class of Bivariate
Copulas, AISM DOI 10.1007/s10463-006-0061-9.
[6] Peya, V.H., Ibragimov, R., Sharakhmetov, S., (2006), Characterizations of Joint Distributions, Copulas,
Information, Dependence and Decoupling, With Applications to Time Series, IMS Lecture Notes-Monograph
Series, 2nd Lehmann Symposium-Optimality, Vol 49, 183-209.
100
Üç de!i kenli Bernoulli da! l m ile türetilen üç
de!i kenli geometrik da! l m
Özge ELMASTAr GÜLTEK N
smihan BAYRAMOoLU
Ege Üniversitesi
Fen Fakültesi, statistik Bölümü
35100, Bornova, zmir, Türkiye
[email protected]
zmir Ekonomi Üniversitesi
Fen Edebiyat Fakültesi, Matematik Bölümü
35330, Balçova, zmir, Türkiye
[email protected]
Özet
Bu çal:#mada, üç deGi#kenli Bernoulli daG:l:m:na baGl: olarak türetilen üç deGi#kenli geometrik
daG:l:m ve bu daG:l:ma ili#kin ortak olas:l:k fonksiyonu, ortak daG:l:m fonksiyonu, ortak ya#am
fonksiyonu, marjinal olas:l:k fonksiyonlar: ve marjinal ya#am fonksiyonlar: incelenmi#tir. Ayn:
zamanda, daG:l:m:n geçmi#i unutma özelliGi de elde edilmi#tir.
Anahtar sözcükler: ki ve üç deGi#kenli Bernoulli daG:l:m:, iki ve üç deGi#kenli geometrik daG:l:m.
Abstract
Trivariate Geometric Distribution Generated by Trivariate Bernoulli Distribution
In this study it is shown that trivariate geometric distribution is generated by trivariate Bernoulli
distribution. The joint probability function, joint distribution function, joint survival function, marjinal pmfs
and marjinal survival functions of this distribution are derived. Also, lack of memory property of the
distribution is obtained.
Keywords: Bivariate and trivariate Bernoulli distribution, bivariate and trivariate geometric distribution.
1. Giri!
Bu çal mada, iki ve üç de!i kenli Bernoulli da! l mlar na ba!l olarak türetilen iki ve üç de!i kenli
geometrik da! l m ve bu da! l mlara ili kin ortak olas l k fonksiyonlar , da! l m fonksiyonlar , ya am
fonksiyonlar , marjinal olas l k fonksiyonlar , marjinal ya am fonksiyonlar ve geçmi i unutma özelli!i
incelenmi tir.
Literatürde iki de!i kenli geometrik da! l ma ili kin çok say da çal malar yap lm t r. Daha çok
ya am analizlerinde, sepet(urn) modellerinde, vb. birçok alanda uygulamas bulunan iki de!i kenli
geometrik da! l m, Marshall ve Olkin (1985), Azlarov ve Volodin (1982), Nair ve Nair (1988), Sun ve
Basu (1995), Dhar ve Balaji (2006), Roy (1993) ve Nadarajah (2008) gibi birçok yazar taraf ndan
incelenmi tir.
2. ki de<i!kenli geometrik da< l m
ki de!i kenli geometrik da! l m farkl yollarla elde edilebilir. Marshall ve Olkin, iki de!i kenli
Bernoulli rasgele de!i kenlerine dayanan bir yap ortaya koymu tur. Bernoulli marjinallerine sahip bir
(U,V) vektörünü göz önüne alal m. Bu vektör sadece 4 mümkün de!eri al r. (1,1),(1,0),(0,1) ve (0,0)
ve bunlara ili kin olas l klar da s ras yla p11 , p10 , p 01 , p 00 'd r.
101
Birbirinden ba! ms z ve ayn
da! l ma sahip iki de!i kenli Bernoulli rasgele vektör dizisi
(U 1 , V1 ), (U 2 ,V2 ),..., (U n , Vn ),... için; X, U 1 ,U 2 ,..., U n ,... dizisindeki ilk ba ar dan (1) önceki
ba ar s zl klar n (0) say s n ; Y de V1 , V2 ,..., Vn ,... dizisindeki ilk ba ar dan (1) önceki ba ar s zl klar n
(0) say s n göstersin. X ve Y'nin her biri bir geometrik da! l ma sahiptir ve genel olarak ba! ms z
olmayacaklard r. Ortak iki de!i kenli da! l mlar ,
l
/ p 00
p10 p +k 0 l 1 p +1 , l < k
5 l
P( X = l , Y = k ) = 0 p 00
p11 ,
l=k
5 p k p pl k 1 p , l > k
1+
1 00 01 0+
ve ya am fonksiyonu da u ekildedir:
l
/ p 00
p +k 0 l , l < k
5 l
F (l , k ) = P( X 8 l , Y 8 k ) = 0 p 00
,
l=k
5 pk pl k , l > k
1 00 0+
3. Üç de<i!kenli geometrik da< l m
Bernoulli marjinallerine sahip bir (U,V,Z) vektörünü göz önüne alal m. Bu vektör 8 mümkün de!eri
al r. (1,1,1),(1,1,0),(1,0,1),(1,0,0),(0,1,1),(0,1,0),(0,0,1) ve (0,0,0) ve bunlara ili kin olas l klar da
s ras yla p111 , p110 , p101 , p100 , p 011 , p 010 , p 001 ve p 000 'd r.
Tek de!i kenli marjinal olas l klar
P(U = 1 ) = p1+ + = p100 + p101 + p110 + p111
P(U = 0 ) = p 0+ + = p 000 + p 001 + p 010 + p 011
P(V = 1 ) = p +1+ = p 010 + p 011 + p110 + p111
P(V = 0 ) = p + 0 + = p 000 + p 001 + p100 + p101
P(Z = 1 ) = p + +1 = p 001 + p 011 + p101 + p111
P(Z = 0 ) = p + +0 = p 000 + p 010 + p100 + p110
ve iki de!i kenli marjinal olas l klar da
P(U = 0, V = 0 ) = p 000 + p 001 = p 00+
P(U = 0, V = 1 ) = p 010 + p 011 = p 01+
P(U = 1, V = 0 ) = p100 + p101 = p10+
P(U = 1, V = 1 ) = p110 + p111 = p11+
P(V = 0, Z = 0 ) = p 000 + p100 = p +00
P(V = 0, Z = 1 ) = p 001 + p101 = p +01
102
P(V = 1, Z = 0 ) = p010 + p110 = p +10
P(V = 1, Z = 1 ) = p 011 + p111 = p +11
P(U = 0, Z = 0 ) = p000 + p010 = p0+0
P(U = 0,Z = 1 ) = p001 + p 011 = p0+1
P(U = 1, Z = 0 ) = p100 + p110 = p1+0
P(U = 1, Z = 1 ) = p101 + p111 = p1+1
olmaktad r.
Birbirinden ba! ms z ve ayn
da! l ma sahip üç de!i kenli Bernoulli rasgele vektör dizisi
(U 1 , V1 , Z 1 ), (U 2 ,V2 , Z 2 ),..., (U n ,Vn , Z n ),... için; X, U 1 , U 2 ,..., U n ,... dizisindeki ilk ba ar dan (1)
önceki ba ar s zl klar n (0) say s n ; Y de V1 , V2 ,..., Vn ,... dizisindeki ilk ba ar dan (1) önceki
ba ar s zl klar n (0) say s n ; Z de Z 1 , Z 2 ,..., Z n ,... dizisindeki ilk ba ar dan (1) önceki
ba ar s zl klar n (0) say s n göstersin. X, Y ve Z'nin her biri bir geometrik da! l ma sahiptir ve genel
olarak ba! ms z olmayacaklard r.
Ortak üç de!i kenli da! l m P ( X = l , Y = k , Z = t ) , l, k ve t’nin durumlar na göre öyle gösterilir:
l < k < t,
l < k = t,
l < t < k,
l > k = t,
k < t < l,
k < l = t,
k < l < t,
k > l = t,
t < l < k,
t < k = l,
t < k < l,
t > k = l,
l =k =t
Örne!in; l < k < t için P ( X = l , Y = k , Z = t ) olas l ! hesaplan rken a a! daki gibi bir yap üzerinde
dü ünülebilir:
U
0
.
.
.
0
1
1 veya 0
.
.
.
.
.
.
.
.
.
.
.
V
0
.
.
.
0
0
0
.
.
.
0
1
1 veya 0
.
.
.
.
.
Z
0
.
.
.
0
0
0
.
.
.
0
0
0
.
.
.
0
1
;
5
5
< l kez
5
5=
* 1 kez
;
5
55
<
5
5
5=
k- l -1 kez
* 1 kez
;
5
55 t-k-1 kez
<
5
5
5=
* 1 kez
103
Her
birbirinden
ba! ms z
oldu!undan
olas l klar
çarp ld ! nda
p p100 p
p+10 p
p+ +1 elde edilir. Di!erleri de ayn ekilde yap ld ! nda ortak da! l m
a a! daki gibi elde edilmi olacakt r.
l
000
k l 1
+ 00
deneme
t k 1
+ +0
l
/ p000
p100 p +k 00l 1 p +10 p +t +k0 1 p + +1 ,
5 l
t l 1
k t 1
5 p000 p100 p +00 p + 01 p + 0+ p +1+ ,
k
5 p000
p 010 p0t +k0 1 p0+1 p 0l +t+ 1 p1+ + ,
5 k
l k 1
t l 1
5 p000 p 010 p0+0 p1+ 0 p + +0 p + +1 ,
5 pt p pl t 1 p pk l 1 p ,
001 00 +
10 + + 0 +
+1+
5 000
t
k t 1
l k 1
p
p
p
p
p
p
5 000 001 00+ 01+ 0+ + 1+ + ,
5 l
P( X = l , Y = k , Z = t ) = 0 p000
p100 p +k 00l 1 p +11 ,
5 pk p pl k 1 p ,
5 000 011 0+ + 1+ +
k
5 p000
p 010 p0l +k0 1 p1+1 ,
5 l
k l 1
5 p000 p101 p + 0+ p +1+ ,
t
l t 1
5 p000
p 001 p 00
+ p11+ ,
5 l
t l 1
5 p000 p110 p + +0 p + +1 ,
5 pl p ,
1 000 111
l <k <t
l <t <k
k <t <l
k <l <t
t <l <k
t <k <l
l <k =t
l >k =t
k <l =t
k >l =t
t <k =l
t >k =l
l =k =t
Ayr ca buna ili kin ortak ya am fonksiyonu da;
l
/ p000
p +k 00l p +t +k0 ,
5 l t l k t
5 p000 p + 00 p +0+ ,
k
5 p000
p0t +k0 p0l +t+ ,
5 k l k t l
5 p000 p0+0 p + +0 ,
5 pt pl t pk l ,
00 + + 0 +
5 000
t
k t l k
5 p000 p00+ p0+ + ,
5 l k l
F (l , k , t ) = P( X 8 l , Y 8 k , Z 8 t ) = 0 p000
p + 00 ,
5 pk pl k ,
5 000 0+ +
k
5 p000
p0l +k0 ,
5 l k l
5 p000 p + 0+ ,
t
l t
5 p000
p00
+,
5 l t l
5 p000 p + +0 ,
5 pl ,
1 000
gibi olacakt r.
104
l <k <t
l <t <k
k <t <l
k <l <t
t <l <k
t <k <l
l <k =t
l >k =t
k <l =t
k >l =t
t <k =l
t >k =l
l =k =t
(1)
X, Y ve Z’nin tek de!i kenli marjinal olas l k fonksiyonlar ve marjinal ya am fonksiyonlar ;
p(X = l) = p1+ + p 0l + + ,
p(Y = k) = p +1+ p +k 0+ ,
p(Z = t) = p + +1 p +t +0
ve
FX (l) = P(X 8 l) = p 0l + +
FY (k) = P(Y 8 k) = p +k 0+
FZ (t) = P(Z 8 t) = p
t
+ +0
ve ayr ca iki de!i kenli marjinal olas l k fonksiyonlar ve marjinal ya am fonksiyonlar da u
ekildedir:
l
k l 1
/ p 00
+ p10 + p + 0 + p +1+ , l < k
5 l
P(X = l, Y = k) = 0 p 00
l=k
+ p11+ ,
5 pk p pl k 1 p , l > k
1 00+ 01+ 0+ + 1+ +
/ p 0l + 0 p1+0 p +t +l0 1 p + +1 , l < t
5
P(X = l, Z = t) = 0 p 0l + 0 p1+1 ,
l =t
5 pt p pl t 1 p , l > t
1 0+ 0 0+1 0+ + 1+ +
/ p +k 00 p +10 p +t +k0 1 p + +1 , k < t
5
P(Y = k, Z = t) = 0 p +k 00 p +11 ,
k =t
5 pt p pk t 1 p , k > t
1 +00 +01 + 0+ +1+
ve
l
k l
/ p 00
+ p + 0+ , l < k
5 l
FX , Y (l , k ) = P(X 8 l, Y 8 k) = 0 p 00
l=k
+,
5 pk pl k , l > k
1 00+ 0+ +
/ p 0l + 0 p +t +l0 , l < t
5
FX , Z (l , t ) = P(X 8 l, Z 8 t) = 0 p 0l + 0 ,
l =t
5 pt pl t , l > t
1 0+ 0 0+ +
/ p +k 00 p +t +k0 , k < t
5
FY , Z (k , t ) = P(Y 8 k, Z 8 t) = 0 p +k 00 ,
k =t
5 pt pk t , k > t
1 +00 +0+
(3)
105
(2)
l 8 0, k 8 0, t 8 0 için.
(1), (2) ve (3)’ü kullanarak ortak da! l m fonksiyonu öyle yaz labilir:
F(x, y, z) = P(X ! x, Y ! y, Z ! z)
= 1 P(X > x) P(Y > y) P(Z > z) + P(X > x, Y > y) + P(X > x, Z > z) + P(Y > y, Z > z)
- P(X > x, Y > y, Z > z)
= 1 P( X 8 [x ] + 1) P(Y 8 [ y ] + 1) P( Z 8 [z ] + 1) + P( X 8 [x ] + 1, Y 8 [ y ] + 1) +
+ P( X 8 [x ] + 1, Z 8 [z ] + 1) + P(Y 8 [ y ] + 1, Z 8 [z ] + 1) P( X 8 [x ] + 1, Y 8 [ y ] + 1, Z 8 [z ] + 1)
= 1 FX ([x ] + 1) FY ([ y ] + 1) FZ ([z ] + 1) + FX , Y ([x ] + 1, [ y ] + 1) + FX , Z ([x ] + 1, [z ] + 1) +
+ FY , Z ([ y ] + 1, [z ] + 1) FX , Y , Z ([x ] + 1, [ y ] + 1, [z ] + 1)
Örne!in, x < y < z için gösterildi!inde;
[x] +1 [y]-[x]
[x] +1 [y]-[x] [z]-[y]
F ( x, y, z ) = 1 -p 0[x]+ ++1 - p +[y]0++1 - p +[z]+0+1 + p 00
+ p 0[x]+ 0+1 p +[z]-[x]
+ p +[y]00+1 p +[z]-[y]
p + +0
+ p +0+
+0
+0 - p 000 p + 00
eklinde olacakt r.
Burada [x], [y] ve [z], s ras yla, x, y ve z’den daha büyük olmayan en büyük tamsay y göstermektedir.
3.1. Çok deGi#kenli durum
Da! l m çok de!i kenli duruma uyarland ! nda; l1 < l 2 < l 3 < ... < l n için olas l k fonksiyonu
a a! daki formülle elde edilebilir:
l1
l2 l1 1
l3 l2 1
ln ln 1 1
p0{
p +{
...0 p10{
...0 p + 0{
...0 p +10{
...0 p + + 0{
...0 ..... p +
...+ 0
...+1
{
n
n 1
n 1
n 2
n 2
n 1
n 1
3.2. Geçmi#i unutma özelliGi (Lack of memory property)
a) P(X > k1 + l, Y > k 2 + l, Z > k 3 + l X > l, Y > l, Z > l) = P(X > k1 , Y > k 2 , Z > k 3 )
b) P(X > k1 + l1 , Y > k 2 + l 2 , Z > k 3 + l 3 X > k1 , Y > k 2 , Z > k 3 ) = P(X > l1 , Y > l 2 , Z > l 3 ),
{ k1 ! k 2 ! k 3 , l1 ! l 2 ! l3 } ? { k1 8 k 2 8 k 3 , l1 8 l 2 8 l3 } kümesindeki tüm k1 , k 2 , k 3 , l1 , l 2 ve l3
tamsay lar için geçerlidir.
106
3.3. Örnek uygulama
A, B ve C ile adland r lan 3 tane sepetin oldu!u bir oyunu dü ünelim. Bu sepetlerin içinde 3 farkl
renkte top bulunsun. Bunlar k rm z , siyah ve beyaz olsun. Oyunun ba nda, her sepette x tane siyah, y
tane k rm z ve z tane beyaz top bulunsun. Oyunda 3 oyuncu olsun. Oyuncular ayn anda kendi
sepetlerinden bir top çekerler ve ilk beyaz topu çeken oyunu kazan r. lk beyaz topu çekmek bu
oyunun ba ar s olarak tan mlan r.
Birbirinden ba! ms z ve ayn
da! l ma sahip üç de!i kenli Bernoulli rasgele vektör dizisi
(U 1 , V1 , Z 1 ), (U 2 ,V2 , Z 2 ),..., (U n ,Vn , Z n ),... için; X, Y ve Z, s ras yla, U 1 ,U 2 ,..., U n ,... ,
V1 ,V2 ,...,Vn ,... ve Z 1 , Z 2 ,..., Z n ,... dizilerindeki ilk beyaz top çekilinceye kadar çekilen k rm z ve
siyah toplar n say s n göstersin.
P{U=K veya S, V=K veya S, Z=K veya S} = p000
P{U=K veya S, V=K veya S, Z=B} = p001
P{U=K veya S, V=B, Z=K veya S} = p010
P{U=K veya S, V=B, Z=B} = p011
P{U=B, V=K veya S, Z=K veya S} = p100
P{U=B, V=K veya S, Z=B} = p101
P{U=B, V=B, Z=K veya S} = p110
P{U=B, V=B, Z=B} = p111
Bu oyunda P ( X = l , Y = k , Z = t ) olas l ! , birinci, ikinci ve üçüncü oyuncular n ilk beyaz topu
s ras yla, (l+1)., (k+1). ve (t+1). çekili te bulma olas l ! d r.
Örne!in; birinci oyuncunun oyunu kazanma olas l ! a a! daki üç olas l ! n toplam na e it olacakt r.
P{Birinci oyuncunun kazanmas } = P{X = l , Y = k , Z = t , l < k < t} + P{X = l , Y = k , Z = t , l < t < k} +
+ P{X = l , Y = k , Z = t , l < k = t}
4. Sonuç
Bu çal mada, üç de!i kenli Bernoulli da! l m na ba!l olarak türetilen üç de!i kenli geometrik
da! l m ve bu da! l ma ili kin ortak olas l k fonksiyonu, ortak da! l m fonksiyonu, ortak ya am
fonksiyonu, marjinal olas l k fonksiyonlar , marjinal ya am fonksiyonlar ve geçmi i unutma özelli!i
incelenmi tir. Ayr ca üç de!i kenli geometrik da! l m n bir örnek uygulamas verilmi tir.
Kaynaklar
[1] Azlarov, T.A., Volodin, N.A. On the discrete analog of Marshall-Olkin's distribution. In: Stability
problems for Stochastic Models, Moscow, 1982. Lecture Notes in Mathematics, Vol.982, pp.17-23.
Spinger, Berlin, 1983.
[2] Dhar, S.K. and Balaji, S. (2006). On the characterization of a bivariate geometric distribution.
Communications in Statistics-Theory and Methods, 35, 759-765.
[3] Marshall, A.W. , Olkin, I. (1985) A family of bivariate distributions generated by the Bernoulli
107
distribution. J. Am. Stat. Assoc. 80, 332-338.
[4] Nadarajah, S. (2008) Marshall and Olkin's distributions. Acta. Appl. Math. 103, 87-100.
[5] Nair, K.R.M. and Nair, N.U. (1988) On characterizing the bivariate exponential and geometric
distributions. Ann. Inst. Statist. Math. Vol.40, No.2, 267-271.
[6] Roy, D. (1993) Reliability measures in the discrete bivariate set-up and related characterization results
for a bivariate geometric distribution, J. Multivariate Anal., 46, 362-373.
[7] Sun, K. and Basu, A.P. (1995) A characterization of a bivariate geometric distribution.
Statistic&Probability Letters, Vol.23, pp.307-311.
Basit rasgele örnekleme yönteminde medyan tahmin
edicileri
Sibel AL
Hülya ÇINGI
Hacettepe Üniversitesi statistik Bölümü, Beytepe,
Hacettepe Üniversitesi statistik Bölümü, Beytepe,
108
06532, Ankara, Türkiye
06532, Ankara, Türkiye
[email protected].
[email protected]
Özet
Gelir, gider, üretim gibi de!i kenlerin yer ald ! çal malarda de!i kenler oldukça çarp k da! ld ! ndan
medyan de!eri ortalamaya göre daha çok tercih edilen bir konum ölçüsü olmu tur. Litaratürde, basit
rasgele örnekleme yöntemi kullan larak medyan tahmin edicilerine ili kin çe itli çal malar yer
almaktad r (Gross (1980), Kuk ve Mak (1989) Singh ve ark. (2003), Singh (2003)). Bu çal mada bu
tahmin edicilere ili kin yan ve hata kareler ortalama de!erleri elde edilmi ve bu tahmin edicilerin
etkinlikleri klasik, oransal medyan tahmin edici gibi tahmin edicilerle teorik olarak kar la t r lm t r.
Son olarak hata kareler ortalama de!erleri verilen say sal örnekler ile kar la t r lm t r.
Anahtar sözcükler: Basit Rasgele Örnekleme, Medyan Tahmin Edicisi, Yard:mc: DeGi#ken, Hata
Kareler Ortalamas: (HKO), Etkinlik.
Abstract
Median Estimators in Simple Random Sampling
In survey sampling, when variables have a highly skewed distribution, such as income, expenditure,
production are studied, median is often regarded as a more appropriate measure of location than mean.
In literature, there have been several researches on median estimation in simple random sampling (Gross
(1980), Kuk and Mak (1989) Singh et al. (2003), Singh (2003)). We obtain bias and mean square error
equations of these estimators and theoretically compare their performance with several existing
estimators such as sample median, ratio median estimator. In addition, mean square errors compared
with given numerical examples.
Keywords: Simple Random Sampling, Median Estimator, Auxiliary Variable, Mean Square Error (MSE),
Efficiency.
1. Giri!
Ara t rma sonuçlar n n güvenilir olmas için verilerin elde edildi!i kayna! n özelli!i çok önemlidir. En
do!ru sonuç aranan bilginin elde edilece!i kayna! n tümünden elde edilen sonuçtur. Ancak
çal malarda, ara t rma konusu ve kitlenin büyüklü!ü nedeniyle tüm birimlerin incelemeye al nmas
zaman, para ve insan gücü bak m ndan zorluk yaratabilir. Bu durumda kitleye örneklemenin
uygulanmas zorunludur. Örnekleme kuram nda, kitleden kitlenin yap s na en uygun örnekleme
yöntemiyle örneklem seçilir ve örneklemden kitlenin özellikleri tahmin edilir.
Literatürde kitle ortalamas , toplam ve varyanslar n n tahmini için çe itli örnekleme yöntemlerinde
kullan lan tahmin edicilere oldukça s k rastlanmaktad r. Bilindi!i üzere, verilerin da! l m simetrik
olmay p oldukça çarp k da! ld ! nda medyan de!erinin ortalama de!erinden daha uygun bir konum
ölçüsü oldu!u kabul edilmektedir. Gelir, gider gibi de!i kenlerin yer ald ! örnekleme çal malar nda,
de!i kenler oldukça çarp k da! ld ! için medyan tahmin edicileri ortalama tahmin edicilerine göre
daha çok kullan lmaktad rlar.
Bu çal mada amaç basit rasgele örnekleme yönteminde kullan lan basit, oransal, çarp msal, regresyon
gibi çe itli medyan tahmin edicilerini tan tmak, bu tahmin edicilerin yan ve hata kareler ortalamalar n
elde etmek ve tahmin edicileri birbirleri ile kar la t rmakt r. Ayr ca say sal örnekler ile tahmin
edicilerin etkinlikleri, hata kareler ortalamalar bak m ndan incelenmi tir.
2. Basit rasgele örnekleme yönteminde çe!itli medyan tahmin edicileri
109
Medyan, bir örneklem ya da olas l k da! l m içindeki yüksek de!erde olan veri say lar n n yar s n
dü ük de!erde olan veri de!erlerini kapsayan yar s ndan ay ran bir say olarak tan mlan r ve bir
merkezsel konum ölçüsü olarak kullan l r. Medyan de!erinin bulunmas için öncelikle verilerin
küçükten büyü!e do!ru s ralanmas gerekir. Medyan tahmini s ral istatistiklere dayand ! için
ortalama tahminine göre daha karma kt r. M Y ile gösterilen kitle medyan , kitleyi iki e it parçaya
ay rmaktad r. M̂ Y örneklem medyan n ifade etmektedir. n örneklem büyüklü!ünün, tek veya çift
olmas durumuna göre örneklem medyan hesaplanmaktad r. Örneklem büyüklü!ü n = 2m + 1
oldu!unda örneklem medyan M̂ Y , (m + 1). s ral istatisti!e kar l k gelecektir. Örneklem büyüklü!ü
n = 2m oldu!unda ise, örneklem medyan M̂ Y , (m). ve (m + 1). s ral istatistiklerin ortalamas na
kar l k gelecektir.
2.1. Klasik medyan tahmin edicisi
Örnekleme çal malar nda ilk olarak Gross (1980), kitle medyan n n tahminini M̂ Y olarak tan mlam
ve tahmin edicinin asimptotik varyans n elde etmi tir. y ’nin birikimli da! l m fonksiyonu FY ,
olas l k yo!unluk fonksiyonu ise f Y ile gösterilsin. Taylor serisi aç l m ndan yararlanarak e itlik (1)
yaz labilir.
FY (M̂ Y ) = FY [M Y + (M̂ Y
M Y )]
= FY (M Y ) + f Y (M Y )(M̂ Y
Burada (M̂ Y
M̂ Y
M Y ) + o p (n
1/ 2
)
(1)
M Y ) ifadesi yaln z b rak l rsa,
M Y = {f Y (M Y )} 1 [FY (M̂ Y ) FY (M Y )] + o p (n
1/ 2
)
( 2)
e itli!i elde edilir. F̂Y , FY ’nin tahmini olmak üzere,
FY (M̂ Y ) FY ( M Y ) = F̂Y (M̂ Y ) F̂Y (M Y ) + o p (n
1/ 2
)
(3)
biçiminde yaz labilir. F̂Y (M̂ Y ) = 0,5 ve F̂Y (M Y ) = p Y olmak üzere, (2) numaral e itlikte (3) numaral
e itlik yerine konulursa,
M̂ Y
M Y = {f Y (M Y )} 1 [F̂Y (M̂ Y ) F̂Y (M Y )] + o p (n
= {f Y (M Y )} [0,5 p y ] + o p (n
1
1/ 2
1/ 2
)
)
( 4)
e itli!i elde edilmektedir. P = Q = 1 / 2 ve V(p Y ) = (1 f )n 1 PQ olmak üzere (4) numaral e itlikte
E (M̂ Y
M Y ) 2 i lemi yap l rsa örneklem medyan n n asimptotik varyans ,
V(M̂ Y ) = {f Y (M Y )} 2 V(p Y )
= (1 f )(4n ) 1{f Y (M Y )} 2
(5)
olarak elde edilir.
2.2. Oransal medyan tahmin edici
110
Kuk ve Mak, (1989) yard mc de!i ken bilgisini kullanarak, M Y kitle medyan n n tahmini için basit
oransal tahmin ediciyi,
M̂ YO =
M̂ Y
M̂ X
MX
(6)
biçiminde tan mlam lard r. lgilenilen de!i ken ve yard mc de!i kene ili kin elimizde X ve Y
de!erleri olsun. Medyan tahminleri aras ndaki kovaryans hesaplamak için Kuk ve Mak (1989) Pij
oranlar na ili kin iki yönlü s n flama tablosundan yararlanm lard r. ki yönlü s n flama göz önüne
al n rsa P11 , X ! M X ve Y ! M Y olan birimlerin oran n vermektedir. Benzer durumlar Tablo 1’de
gösterilmi tir.
Tablo 1. X ve Y de!erlerine ili kin iki yönlü s n flama sonuçlar
Y ! MY
Y > MY
Toplam
X ! MX
P11
P21
P.1
X > MX
P12
P22
P.2
Toplam
P1.
P2 .
1
M̂ X ile M̂ Y aras ndaki kovaryans e itli!i, e itlik 4’ten yararlanarak, e itlik 7’de görüldü!ü biçimde
elde edilmektedir.
Cov(M̂ X , M̂ Y ) = Cov [M̂ X
[
M X , M̂ Y
MY ]
= Cov {f X (M X )} (0,5 p X ) , {f Y (M Y )} 1 (0,5 p y )
1
]
= {f X ( M X )f Y (M Y )} Cov (p X , p Y )
1
= {f X ( M X )f Y (M Y )} 1 [E (p X p Y ) E (p X )E( p Y )]
= (1 f )(n ) 1 {f X (M X )f Y (M Y )} 1 [P11
XY
0,25]
(7)
= 4P11 1 ile ifade edilirse M̂ X ile M̂ Y aras ndaki kovaryans e itli!i,
Cov(M̂ X , M̂ Y ) = (1 f )(4n ) 1 {f X (M X )f Y (M Y )}
1
XY
(8)
eklinde elde edilir. M̂ YO tahmin edicisinin yan ve hata kareler ortalamalar n bulmak için fark
yönteminden yararlan l r. Tan mlanan de!i kenler ve bu de!i kenlerin beklenen de!erleri, karelerinin
beklenen de!erleri ve kovaryans terimi a a! daki ekilde elde edilir.
e0 =
M Y M̂ Y
MY
M̂ Y = M Y (1 + e 0 )
(9)
e1 =
M X M̂ X
MX
M̂ X = M X (1 + e1 )
E ( e 0 ) = E (e 1 ) = 0
(10)
111
(5) numaral e itlikten yararlanarak E (e i2 ) terimleri elde edilebilir.
E (e 02 ) = (1 f )(4n ) 1 {M Y f Y ( M Y )}
2
E (e ) = (1 f )(4n ) {M X f X (M X )}
2
(11)
2
1
1
(7) numaral e itlikten yararlanarak kovaryans terimi (12) numaral e itlikte görüldü!ü biçiminde elde
edilmektedir.
E (e 0 e 1 ) = (1 f )(4n ) 1 {M X M Y f Y (M Y )f X (M X )}
1
(12)
XY
(6) numaral e itlikte, (9) numaral e itlikte tan mlanan dönü ümler yap ld ! nda tahmin edici,
M̂ YO = M Y (1 + e 0 ) (1 + e1 )
1
(13)
biçiminde elde edilir. Burada (1 + e1 ) 1 ifadesi (1 e1 + e12 e13 + e14 ...) biçiminde binom serisi
aç l m ndan yaz l p, çarp m i lemi yap ld ! nda ve ikinci dereceden sonraki e’li terimler ihmal
edildi!inde tahmin edici (14) numaral e itlikte görüldü!ü biçimde elde edilmektedir.
M̂ YO # M Y (1 + e 0
e1
e 0 e 1 + e12 )
(14)
Tahmin edicinin yan (15) numaral e itlikte (10), (11) ve (12) numaral e itlikler yerine konulursa
e itlik (16)’da görüldü!ü biçimde elde edilir.
E (M̂ YO
M Y ) # M Y E (e 0
Yan (M̂ YO ) #
e1
e 0 e 1 +e12 )
/
M Y (1 f )
1
2 0
4n{M X f X (M X )} 1
XY
(15)
M X f X (M X ) ;
<
M Y f Y (M Y ) =
(16)
(14) numaral e itlikten yararlanarak E (M̂ YO M Y ) 2 i lemi yap l p, ikinci dereceden sonraki e’li
terimler ihmal edilirse tahmin ediciye ili kin hata kareler ortalamas e itlik (18)’de görüldü!ü biçimde
elde edilir.
E (M̂ YO
M Y ) 2 # M 2Y E (e 02 + e12
HKO(M̂ YO ) #
2e 0 e 1 )
(17)
M Y f Y (M Y )
1 f
1+
2
4n{f Y ( M Y )}
M X f X (M X )
2
/
01 2
1
XY
M X f X (M X ) ;
<
M Y f Y (M Y ) =
(18)
2.3. Çarp:msal medyan tahmin edici
Singh (2003) çarp msal medyan tahmin edicisini,
M̂ YÇ =
M̂ Y M̂ X
MX
(19)
112
biçiminde tan mlam t r. (9) numaral e itlikteki dönü ümler yerine konulursa tahmin edici (20)
numaral e itlikte görüldü!ü biçimde elde edilir.
M̂ YÇ = M Y (1 + e 0 )(1 + e1 )
= M Y (1 + e 0 + e1 + e 0 e1 )
( 20)
Çarp msal tahmin edicinin yan (22) numaral e itlikteki gibi elde edilmektedir.
E (M̂ YÇ M Y ) = M Y E (e 0 + e 1 + e 0 e 1 )
Yan (M̂ YÇ ) =
1 f
{M X f X (M X )f Y ( M Y )} 1
4n
(21)
( 22)
XY
(21) numaral e itlikte (M̂ YÇ M Y ) 2 ifadesinin beklenen de!eri al nd ! nda ve ikinci dereceden
sonraki e’li terimler ihmal edildi!inde tahmin edicinin hata kareler ortalamas e itlik (24)’teki gibi elde
edilir.
HKO (M̂ YÇ ) # M 2Y E (e 02 + e 12 + 2e 0 e1 )
( 23)
M Y f Y (M Y )
1 f
1+
HKO(M̂ YÇ ) #
2
4n{f Y ( M Y )}
M X f X (M X )
2
/
01 + 2
1
XY
M X f X (M X ) ;
<
M Y f Y (M Y ) =
( 24)
2.4. Regresyon medyan tahmin edici
Singh (2003) regresyon medyan tahmin edicisini,
M̂ YR = M̂ Y + b(M X
M̂ X )
( 25)
olarak tan mlam t r. Tahmin edici (9) numaral e itlikte tan mlanan e’li terimler cinsinden,
M̂ YR = M Y (1 + e 0 ) + b(M X
M X (1 + e1 ))
( 26)
biçiminde yaz labilir. b sabit oldu!unda yans z medyan regresyon tahmin edicisinin varyans (28)
numaral e itlikte görüldü!ü gibi elde edilir.
E (M̂ YR
M Y ) = M Y E(e 0 ) bM X E (e1 )
V (M̂ YR ) =
1 f
[{f Y (M Y )}
4n
2
+ b 2 {f X (M X )}
( 27)
2
2b{f X (M X )f Y (M Y )}
1
XY
]
( 28)
Regresyon medyan tahmin edicisine ili kin minimum varyans elde etmek amac yla (28) numaral
e itlikte verilen varyans n b’ye göre türevi al n r ve s f ra e itlenirse optimal b de!eri elde edilir.
V (M̂ YR )
= 2b{f X (M x )}
b
=0
2
2{f X (M X )f Y (M Y )}
1
XY
( 29)
113
b=
f X (M X )
f Y (M Y )
(30)
XY
E itlik (28)’de, e itlik (30)’da elde edilen optimal b de!eri yerine konulursa regresyon medyan tahmin
edicinin minimum varyans e itlik (31)’de görüldü!ü ekilde elde edilir.
VMin (M̂ YR ) =
1 f
(1
4n{f Y (M Y )}2
2
XY
)
(31)
2.4. Çe#itli oransal ve çarp:msal medyan tahmin edicileri
Singh (2003) oransal ve çarp msal medyan tahmin edicilerini geli tirerek yeni tahmin ediciler
önermi tir. Önerilen tahmin ediciler Tablo 2’de görülen 1 ve 2 numaral tahmin edicilerdir. Bu tahmin
edicilere ili kin minimum yan ve minimum hata kareler ortalamalar Tablo 2’de görülmektedir.
Minimum yan ve minimum hata kareler ortalamas n elde etmek için HKO’da türev al n p s f ra
M f (M )
M Xf X (M X )
e itlenerek optimal = X X X XY ve optimal =
XY biçiminde elde edilmi tir.
M Y f Y (M y )
M Yf Y (M y )
Singh ve arkada lar (2003) yard mc de!i kene ili kin sabit bir de!erin bilindi!ini varsayarak
(örne!in yard mc de!i kene ili kin tepe de!eri, da! l m geni li!i gibi) yeni iki tahmin edici
önermi lerdir. Önerilen bu tahmin ediciler Tablo 2’de verilen 3 ve 4 numaral tahmin edicilerdir.
Tahmin edicilere ili kin yan ve hata kareler ortalamalar tabloda verilmektedir. Tabloda görülen ve
MX
MX
@ de!erleri =
ve @ =
olarak tan mlanm t r.
A + MX
A MX
Tablo 2: Çe itli oransal ve çarp msal medyan tahmin edicileri
No
1
2
3
4
Tahmin Edici
HKO
M̂ X
M̂ X
MX
(1 f ) XY
M Y f Y (M Y )
8nM Y {f Y (M Y )}2 M X f X (M X )
MX
M̂ S1 = M̂ Y
Yan
(1 f ) XY
M Y f Y (M Y )
8nM Y {f Y ( M Y )}2 M X f X (M X )
M̂ S2 = M̂ Y
M̂SSP1 = M̂ Y
M̂ SSP 2 = M̂ Y
M̂ X + A
XY
[
1 f
1
4n{f Y (M Y )}2
XY
(1 f )
XY
4 n M X f X ( M X )f Y ( M Y )
A M̂ X
A MX
MX + A
1 f
[1
4n{f Y (M Y )}2
(1 f )M Y @
@
4n{M X f X (M X )}2
XY
1 f
1+
4n{f Y (M Y )}2
M X f X (M X )
M Y f Y (M Y )
2
XY
2
XY
]
]
M Y f Y (M Y )
M X f X (M X )
1 f
M Y f Y (M Y )
1+ @
M X f X (M X )
4n{f Y (M Y )}2
2
/
0
1
2
2
/
0@ 2
1
XY
XY
M X f X (M X ) ;
<
M Y f Y (M Y ) =
M X f X (M X ) ;
<
M Y f Y (M Y ) =
3. Tahmin edicilerin kar! la!t r lmas
Kuk ve Mak (1989), oransal medyan tahmin edicinin belirli bir ko ul alt nda klasik medyan tahmin
edicisinden daha etkin oldu!unu göstermi lerdir. (5) ve (18) numaral e itliklerden yararlanarak,
HKO(M̂ YO ) < V( M̂ Y )
e itsizli!i yaz l r. Buradan,
2
MY
MY
{f X (M X )} 2 < 2
{f X (M X )f Y (M Y )} 1
MX
MX
XY
114
,
XY
>
M Y f Y (M Y )
2M X f X (M X )
(31)
bulunur. (31) numaral e itsizli!in sa!lanmas durumunda oransal medyan tahmin edici klasik medyan
tahmin edicisinden daha etkindir.
(5) ve (24) numaral e itliklerden yararlanarak, çarp msal medyan tahmin edici ile klasik medyan
tahmin edicisi kar la t r ld ! nda (32) numaral e itsizli!in sa!lanmas durumunda çarp msal medyan
tahmin edicinin klasik medyan tahmin edicisinden daha etkin oldu!u görülmektedir.
HKO(M̂ YÇ ) < V (M̂ Y )
XY
<
M Y f Y (M Y )
2M X f X (M X )
(32)
Regresyon medyan tahmin edicinin klasik medyan tahmin edicisinden her zaman daha etkin oldu!u
(33) numaral e itsizlikte görülmektedir.
VMin (M̂ YR ) < V (M̂ Y )
(1 f )(4n ) 1{f Y (M Y )} 2 (1
2
XY
2
XY
) < (1 f )(4n ) 1{f Y ( M Y )} 2
>0
(33)
Çe itli medyan tahmin edicilerine ili kin kar la t rmalar Tablo 3’te özetlenmi tir.
Tablo 3: Çe itli medyan tahmin edicilerinin kar la t r lmas
Kar! la!t rma
Ko!ul
HKO Min (M̂ S1 ) < HKO (M̂ YO )
M Y f Y (M Y )
M X f X (M X )
HKO Min (M̂ S2 ) < HKO (M̂ YÇ )
(
)
( )
>0,
Daima
>0,
Daima
2
XY
M Y f Y (M Y )
2M X f X (M X )
>0
ise
XY
>
<0
ise
XY
<
>1
ise
XY
>
(1 + ) M Y f Y (M Y )
2M X f X (M X )
<1
ise
XY
<
(1 + ) M Y f Y (M Y )
2M X f X (M X )
Kar! la!t rma
HKO (M̂ SSP 2 ) < HKO M̂ Y
XY
M Y f Y (M Y )
+
M X f X (M X )
HKO (M̂ SSP1 ) < HKO (M̂ Y )
HKO (M̂ SSP1 ) < HKO M̂ YO
2
M Y f Y (M Y )
2M X f X (M X )
Ko!ul
@>0
115
ise
XY
@ M Y f Y (M Y )
>
2M X f X (M X )
(
HKO (M̂ SSP 2 ) < HKO M̂ YO
)
@<0
ise
XY
<
@ M Y f Y (M Y )
2M X f X (M X )
@ >1
ise
XY
>
(1 + @) M Y f Y (M Y )
2M X f X (M X )
@ <1
ise
XY
<
(1 + @) M Y f Y (M Y )
2M X f X (M X )
4. Uygulama
Bu çal mada üç farkl kitle kullan larak tahmin edicilere ili kin yan ve hata kareler ortalama de!erleri
hesaplanm t r. Tahmin edicilerin etkinlikleri e itlik (34) ile elde edilmi tir.
Etkinlik =
V (M̂ Y )
HKO(M̂ j )
× 100
( j = oransal, çarpimsal, regresyon, SSP1, SSP 2, S1, S2)
(34)
Veri Kümesi 1: X: Kozalakl a!açlar n gö!üs uzunlu!unun yar çap (cm); Y: Kozalakl a!açlar n boy
uzunlu!u (fit) (Kaynak: Chen ve di!erleri, 2004)
Veri Kümesi 2: X: 1994 y l nda Atlantik ve Gulf sahillerinde bal kç lar taraf ndan avlanan bal k
say s ; Y: 1995 y l nda Atlantik ve Gulf sahillerinde bal kç lar taraf ndan avlanan bal k say s
(Kaynak: Sarjinder, 2003)
Veri Kümesi 3: X: Türkiye’de orta geli mi lik seviyesindeki illere ili kin ilkö!retimde okuyan toplam
ö!renci say s ; Y: Türkiye’de orta geli mi lik seviyesindeki illere ili kin ilkö!retimdeki toplam
ö!retmen say s (Kaynak: TÜB TAK SOBAG, 106K077,2007 )
Tablo 4: Veri istatistikleri
Veri Kümesi 1 Veri Kümesi 2 Veri Kümesi 3
396
69
340
65
24
150
14,6
2138
3513
N
n
MX
MY
f X (M X )
30
0,021940
2068
0,000132
178
0,00008341
f Y (M Y )
P11
0,011784
0,46
0,000133
0,49
0,00018019
0,48
0,84
73,6
0,96
37975
0,92
171278
XY
RX
Tablo 5: Tahmin Edicilerin Etkinlikleri
Tahmin Edici
Veri Kümesi 1
HKO
Etkinlik
Veri Kümesi 2
HKO
Etkinlik
116
Veri Kümesi 3
HKO
Etkinlik
klasik (M̂ Y )
oransal (M̂ YO )
23,15123
100,00
384051,00
100,00 28687,070
100,00
8,42478
274,80
30191,32
1272,06 23253,180
123,37
24,56 1467469,00
26,17 34808,350
82,41
çarp msal (M̂ YÇ )
94,27428
regresyon (M̂ YR )
6,81572
339,67
30109,60
SSP1 (M̂SSP1 )
14,25590
162,40
SSP2 (M̂SSP 2 )
16,81843
S1 (M̂S1 )
S2 ( M̂S2 )
1275,51
4406,334
651,04
342476,00
112,14 28566,240
100,42
137,65
346784,20
110,75 28571,090
100,41
6,81572
339,67
30109,60
1275,51
4406,334
651,04
6,81572
339,67
30109,60
1275,51
4406,334
651,04
Üç kitle de incelendi!inde en etkin tahmin edicilerin regresyon (M̂ YR ) , M̂ S1 ve M̂ S 2 tahmin edicileri
oldu!u görülmektedir. Yard mc de!i ken ile ilgilenilen de!i ken aras ndaki korelasyon yüksek
oldu!undan oransal tahmin edicilerin kullan lmas daha uygundur. Uygulama sonuçlar nda çarp msal
medyan tahmin edicinin (M̂ YÇ ) , en dü ük etkinli!e sahip olmas bu durumun bir sonucudur. Verilen
üç farkl kitlede de oransal medyan tahmin edici (M̂ YO ) , M̂ SSP1 ve M̂ SSP 2 tahmin edicileri ile
kar la t r ld ! nda ko ullar sa!lanmad ! için daha etkin bulunmu tur. Sonuç olarak verilen bu
örnekler için bak ld ! nda regresyon (M̂ YR ) ve Singh 1 (M̂S1 ) medyan tahmin edicilerinin en etkin
tahmin ediciler oldu!u söylenebilir.
Kaynaklar
[1]
Chen, Z., Bai, Z,. Sinha, B.K. (2004). Ranked Set Sampling Theory and Applications, Springer-Verlag,
New York.
[2]
Gross T. S., (1980), Median Estimation in Sample Surveys. Proc. Surv. Res. Meth. Sect. Amer. Statist.
Ass.,181-184.
[3]
Ç ng H., Kad lar C., Koçberber G., (2007), Türkiye Genelinde lk ve Orta Ö!retim Olanaklar n n
ncelenmesi ve Belirlenen Aksakl klara Çözüm Önerilerinin Getirilmesi, TÜB TAK, SOBAG,
106K077.
[4]
Kuk, A.Y.C., Mak, T.K., (1989), Median Estimation in the Presence of Auxiliary Information. J. R.
Statist. Soc. B. 51, 261-269.
[5]
Singh, S., (2003), Advanced Sampling Theory with Applications: How Michael ‘selected’ Amy,
Kluwer Academic Publishers, London.
[6]
Singh, H. P., Singh, S., Puertas, S., (2003), Ratio Type Estimators for the Median of Finite Populations.
Allgemenius Statistisches Archiv, 87, 369-38.
117
Olas l ksal oynakl k modellerinin Bayesci çözümlemesi ve
bir uygulama
Derya Ersel
Yasemin Kayhan At lgan
Süleyman Günay
Hacettepe Üniversitesi
Fen Fak. statistik Böl.
06800 Beytepe Ankara,
Türkiye
[email protected]
Hacettepe Üniversitesi
Fen Fak. statistik Böl.
06800 Beytepe Ankara,
Türkiye
[email protected]
Hacettepe Üniversitesi
Fen Fak. statistik Böl.
06800 Beytepe Ankara,
Türkiye
[email protected]
Özet
Zaman Serileri, finansal varl:klar:n çözümlemesinde s:kça kullan:lan istatistiksel yöntemlerden biridir. Özellikle, son y:llarda
zaman serisi modellerine zaman içerisinde deGi#en varyans faktörünün de eklenmesi ile olu#turulan modeller üzerinde çe#itli
çal:#malar yürütülmektedir. Bu alanda en çok bilinen ve kullan:lan modeller varyans:n deterministik bir fonksiyon olarak
tan:mland:G: ‘Otoregresif Ko#ullu DeGi#en Varyans / Autoregressive Conditionally Heteroscedastic / ARCH’ ve
‘Genelle#tirilmi# Otoregresif Ko#ullu DeGi#en Varyans / Generalized Autoregressive Conditionally Heteroscedastic /
GARCH’ modelleridir. ARCH ve GARCH modellerine seçenek olarak geli#tirilen ‘Olas:l:ksal Oynakl:k / Stochastik Volatility
/ SV’ modelinde ise varyans, olas:l:ksal bir fonksiyon olarak tan:mlan:r. Finansal zaman serilerinde SV modelleri, ARCH
modellerine göre daha esnektir. Ancak, SV modeline ili#kin olabilirlik fonksiyonu karma#:k bir yap:ya sahip olduGundan
parametre tahminlerinin klasik yöntemlerle elde edilmesi zordur. Bu modelin Bayesci çözümlemesinde ‘Markov Zinciri
Monte Carlo / Markov Chain Monte Carlo / MCMC’ tekniklerinin kullan:lmas: ile bu sorun ortadan kald:r:lm:#t:r. Bu
teknikler sayesinde Bayesci tahminler kolayca hesaplanabilmektedir. Bu çal:#mada, SV modellerinin Bayesci çözümlemesi
üzerinde durulacak ve Ocak 1999 / Nisan2009 aylar: aras:ndaki Euro/TL döviz kuru serisi üzerinde yöntemin bir uygulamas:
sunulacakt:r.
Anahtar sözcükler: Stokastik volatilite; MCMC yöntemler; Gibbs örnekleme algoritmas;, Bayesci çözümleme.
Abstract
Bayesian Analysis of Stochastic Volatility Models and An Application
Time series are frequently used to analyze financial assets. Recently, several studies have been carried out especially on the
models which are constituted by inserting the changing variance factor in time to the time series model. Well-known models
of this area are called ARCH and GARCH models. In these models, variance is defined as a deterministic function. An
alternative to ARCH/GARCH is SV model. Contrary to ARCH/GARCH, in SV model variance is determined as a stochastic
function. The SV model provides more flexible modelling of financial time series than ARCH/GARCH models. Since the
structure of the likelihood function of SV model is very complicated, it is very hard to estimate the model parameters via the
classical approaches. By using Bayesian analysis of SV model and MCMC techniques this problem is solved. In this study,
Bayesian analysis of stochastic volatility models will be explained and application of this analysis to the financial time series
data, Jan 1999/Apr 2009 monthly Euro/TL exchange rates, will be exhibited.
Keywords: Stochastic volatility; MCMC methods; Gibbs sampling; Bayesian analysis.
1. Giri!
Oynakl k (volatility), belirli bir zaman dilimi içerisinde özellikle sermaye, döviz ve tahvil
piyasalar ndaki fiyatlar n hareketlili!inin bir ölçüsü olarak tan mlanabilir. Finans çal malar nda
oynakl k, genellikle finansal varl k getirilerinin standart sapmas veya varyans olarak tan mlanmakta
ve finansal varl klar n toplam riskini ifade etmekte kullan lmaktad r. K sa bir zaman dilimi içerisinde
fiyatlardaki h zl art ve azal lar yüksek oynakl k, de!i imi az olan fiyatlar ise dü ük oynakl k
olu turur. Finansal piyasalardaki hareketlerin yönü ve büyüklü!ü konusunda yap lan çal malar, bu
hareketleri modellemek için birçok tekni!in geli tirilmesini de beraberinde getirmi tir.
Oynakl k modelleri genel olarak deterministik ve olas l ksal olmak üzere iki ana s n fta incelenebilir.
Bu modellerde yer alan ko ullu varyans terimi, deterministik modellerde önceki gözlemlerin
118
deterministik bir fonksiyonu olarak tan mlan rken, olas l ksal oynakl k modellerinde olas l ksal bir
fonksiyon olarak tan mlanmaktad r.
Deterministik modeller içerisinde en çok bilinen ve birçok ara t rmac taraf ndan kullan lan model
1982 y l nda Engle taraf ndan geli tirilen ARCH modelidir. ARCH süreci ile zamana göre de!i im
gösteren ko ullu varyans modellenir. Modelde t zaman ndaki ko ullu varyans t-1 zaman na kadar olan
gözlemlerin de!erlerine ba!l d r. ARCH modelleri, do!rusal ve do!rusal olmayan bölüm olarak
ba l ca iki bölümde ele al nmaktad r. Do!rusal bölüm, ba! ml de!i kenin zaman içindeki de!i imini
gösteren ko ullu ortalama denklemidir. Do!rusal olmayan bölüm ise, ba! ml de!i ken olan ko ullu
varyans ile hata teriminin gecikmeli de!erlerinin ili kisini gösteren ko ullu varyans denklemidir. Daha
sonra bu model Bollerslev taraf ndan genelle tirilerek GARCH modeli elde edilmi tir.
Hem ARCH hemde GARCH modellerinde t-1 an ndaki oynakl k, bilinen bir de!er olarak kabul edilir.
Bununla birlikte, bu de!er gözlemlenemeyen bir de!i ken olarak da dü ünülebilir. Bu durumda
sürecin varyans n olas l ksal kabul ederek oynakl ! n logaritmas n do!rusal olas l ksal bir süreç
olarak tan mlayan SV modeli geli tirilmi tir. ARCH ve GARCH modellerinden farkl olarak SV
modelinin ko ullu varyans denkleminde bir raslant de!i keni yer almaktad r. Bu terim ile modelin
varyans zamana göre olas l ksal de!i im gösteren bir de!i ken olarak tan mlan r. Deterministik ve
olas l ksal modeller aras ndaki temel farkl l k oynakl ! n gözlemlenebilir bir de!i ken olarak kabul
edilip edilmemesidir.
SV modellerinde biri gözlenen, di!eri gizli oynakl k olmak üzere iki tip gürültü süreci tan ml d r. Bu
nedenle SV modelleri ARCH modellerine göre finansal zaman serilerinde daha esnek modeller
olu turmaktad r. Ölçüm ve örnekleme hatalar gözlem hatalar n olu tururken, oynakl k dinamiklerinin
de!i kenli!i de süreç hatalar n olu turmaktad r.
SV modellerine ili kin olabilirlik fonksiyonunun karma k yap s nedeniyle bu modellerde klasik
parametre tahminlerine ula mak zordur. Son zamanlarda yap lan çal malarda SV modelleri için
kullan lan ba l ca tahmin yöntemleri, genelle tirilmi momentler yöntemi (Malino ve Turnbull, 1990),
quasi-en çok olabilirlik tahmini (Harvey, Ruiz ve Shephard, 1994) ve benzetim tabanl genelle tirilmi
momentler yöntemi (Duffie ve Singleton, 1993) olarak s ralanabilir. Bu klasik yöntemlere ek olarak
Bayesci tahmin yöntemleri de geli tirilmi tir. Çok boyutlu durumda sonsal da! l mlar elde etmek için
kullan lan integral i lemlerinin karma kl ! nedeniyle SV modellerinin Bayesci çözümlemesini
yapmak kolay de!ildir. Sonsal hesaplamalardaki bu problem ise Markov Zinciri Monte Carlo
(MCMC) tekniklerinin geli tirilmesi ile ortadan kald r lm t r. Andersan, Chung ve Sorensan 1999
y l nda yapt klar çal mada MCMC yöntemleri ile SV modellerine ili kin yap lan ç karsamalar n daha
etkin oldu!unu göstermi lerdir.
Bu çal mada Bayesci çözümleme WinBUGS program yard m yla yap lm t r. WinBUGS’da
herhangi bir önsel yo!unluk fonksiyonu ya da olabilirlik fonksiyonunun aç k gösterimine gerek
olmad ! için, SV modellerinin bu program yard m yla çözümlenmesi daha kolayd r. Program n en
belirgin üstünlü!ü modeldeki her türlü de!i ikli!in kolay bir biçimde gerçekle tirilebilmesidir.
Program n eksik kalan taraf ise yak nsamalar n yava gerçekle mesidir. Yak nsamadaki yava l k ise
Gibbs örnekleme algoritmas n n yap s ndan kaynaklanmaktad r. SV modelinin Bayesci
çözümlemesinde kullan lan MCMC algoritmalar nda ard arda gelen durumlar aras nda yüksek ili kiler
oldu!undan yak nsama yava gerçekle ir. WinBUGS program nda, modelin grafiksel gösteriminden
yararlan larak parametrelerin tam ko ullu da! l mlar elde edilebilir. Bu program, her bir tam ko ullu
da! l ma ili kin en iyi örnekleme yöntemini seçen bir sistem içermektedir.
Bu çal mada amaç, SV modellerinin Bayesci çözümlemesi üzerinde durmak ve finansal zaman
serileri üzerinde yöntemin bir uygulamas n sunmakt r. Yöntemin uygulamas WinBUGS program
kullan larak yap lm t r.
119
2. Olas l ksal Oynakl k Modelinin Bayesci Çözümlemesi
SV modelinde parametre tahminlerinin elde edilmesinde kullan lan genel Bayesci yakla m, Meyer ve
Yu (2000) taraf ndan ele al nm t r. Bu çal mada, SV modelinin döviz kuru serileri üzerindeki
uygulamas sunulmu tur. Bu modelde xt, döviz kuru serisini, yt ise günlük ortalama kar serisini
göstermektedir. Buna göre, yt serisi a a! daki dönü üm ile tan mlanabilir.
y t = log x t
log x t
1 n
" (log x t
n i=1
1
log x t 1 ), t = 1,..., n
(1)
Bu verinin analizinde kullan lan SV modeli, bilinmeyen durumlar verildi!inde gözlemlerin ko ullu
da! l m n belirler. t ile gösterilen gizli oynakl k terimi, bilinmeyen durumlar ifade eder ve model
a a! daki gibi tan mlan r:
P(y t /
t ) = exp
1
2
t
i.i.d
ut
t = 1,..., n
u t ~ N(0,1),
(2)
Bilinmeyen durumlar n zamana göre bir Markov geçisi gösterdi!i kabul edilirse a a! daki e itlik
yaz labilir:
P(
t
/
Burada
t 1
, µ, , & 2 ) = µ + (
t 1
i.i.d
µ) + A t ,
At ~ N(0, &2 ),
~ N(µ, &2 ) olarak tan mlanmaktad r.
0
t
t = 1,..., n
, t’inci gündeki oynakl k miktar n , ,
ise verilerin karesinin logaritmas ndaki mevcut otokorelasyonu ölçer. Böylece
de!i mezli!i; sabit ölçek katsay s
(3)
1< <1
, oynakl ktaki
= exp ( µ 2 ) , en s k görülen oynakl ! (model oynakl ! ) ve & ,
log-oynakl k’lar n de!i imini göstermektedir.
Bayesci çözümleme yapabilmek için bilinmeyenlerin bile ik önsel da! l mlar ile gözlemlerin
olabilirlik fonksiyonuna ihtiyaç vard r. Burada µ, , &2 parametreler, 0 , 1 ,..., n gözlemlenemeyen
de!i kenler ve y1, y 2 ,..., y n de gözlemler olarak gösterilir. SV modelinde Bayesci ç karsamalar
bilinmeyenler olarak tan mlanan µ, , &2 ,
, 1 ,..., n ’in sonsal da! l mlar na dayanmaktad r. Raslant
’n n olas l k yo!unluk fonksiyonu P( ) ile gösterilirse, bile ik önsel da! l m a a! daki gibi
0
vektörü
ifade edilebilir:
P(µ, , &2 ,
0 ,...,
2
n ) = P(µ, , & )P(
2
0 / µ, & )
n
P(
t =1
t
/
t 1
, µ, , &2 )
(4)
Burada µ, , &2 parametrelerinin önsel olarak ba! ms z oldu!u kabul edilmektedir. µ için bilgi içeren
=2
*
Olabilirlik fonksiyonu P(y1 ,..., y n / µ, , &2 ,
a a! daki gibi ifade edilebilir:
0
1 olarak al nm ve * için
20 ve
1.5
parametreleri ile bir Beta önsel da! l m tan mlanm t r. &2 için önsel da! l m IG(2.5, 0.025) olan
e lenik ters Gamma olarak al nm t r. P( t / t 1 , µ, , &2 ) da! l m ise E t.(3)’te tan mland ! gibidir.
N(0,10) önsel da! l m kullan lm t r.
,...,
120
n
)
ko ullu ba! ms zl k varsay m
alt nda
P(y1 ,..., y n / µ, , &2 ,
0 ,...,
n) =
n
t =1
P(y t /
t
)
(5)
Önsel da! l m ve olabilirlik fonksiyonu yard m yla bile ik sonsal da! l m a a! daki gibi elde edilebilir:
P(µ, , &2 ,
0 ,...,
n
/ y1 ,..., y n ) B P(µ)p( )P(&2 )P(
2
0 / µ, & )
n
P(
t
/
t 1
, µ, , &2 ) ×
t =1
(6)
n
t =1
P(y t /
t
)
3. Olas l ksal Oynakl k Modelinin Bayesci Çözümlemesinde DAG Gösterimi ve WinBUGS
Kullan m
Bir modelin ‘yönlendirilmi düz grafik / directed acyclic graph / DAG’ ile gösterimi, temel model
yap s n n incelenmesinde kullan ld ! gibi ayn zamanda modelin WinBUGS’da olu turulmas nda da
kullan l r. DAG’da herhangi bir t zaman için tüm bilinmeyenler ve gözlemler, dü!üm ad verilen
elipslerle gösterilir. Ko ullu ba! ms zl k varsay mlar n göstermek için dü!ümler aras nda kapal oklar
kullan l r. Aç k oklar ise di!er dü!ümlerin mant ksal fonksiyonlar olan deterministik dü!ümlere
gider.
Bekil 1. SV modelinin DAG ile gösterimi.
Bir DAG’da tüm oklar yönlendirilmi tir ve ko ullu ba! ms zl k varsay m ndan dolay hiçbir geri
dönü yoktur. V, grafikteki tüm dü!ümlerin bir kümesi olmak üzere A ( A7 V ) ile belirtilen bir
dü!ümden önce gelen dü!ümler “ebeveynler”, sonra gelen dü!ümler ise “çocuklar” olarak adland r l r.
Kapal oklar, ebeveyn dü!ümler bilindi!inde her bir dü!ümün, kendinden sonra gelenler d nda di!er
dü!ümlerden ba! ms z oldu!unu gösterir.
Böylece, çok de!i kenli olas l k da! l m , tüm dü!ümlerin ko ullu olas l k da! l m fonksiyonlar n n
çarp lmas yla a a! daki gibi elde edilebilir.
P (V) =
C7V
P {A parents ( A )}
(7)
Yukar da verilen E t.(7), E t.(6)’n n sa! taraf n n, DAG gösterimi ile ifadesidir.
121
DAG’da tüm dü!ümlerin olu turdu!u küme V olmak üzere, V0 bilinen dü!ümlerin alt kümesini, Vu
ise bilinmeyen dü!ümlerin alt kümesini göstersin. Bu durumda, E t.(6) ile gösterilen çok de!i kenli
sonsal da! l m P(Vu/V0) biçiminde ifade edilebilir. Bir MCMC yöntemi olan Gibbs örnekleme
algoritmas ile P(Vu/V0) sonsal da! l m ndan bir örneklem olu turmak için, tam ko ullu da! l mlardan
iteratif olarak örnekler çekilir. P A V A , A7 Vu biçimindeki tam ko ullu da! l mlar, E t.(7) ile
(
)
verilen çok de!i kenli sonsal da! l mdaki A ’ye ba!l terimlerin çekilmesiyle kolayca elde edilir.
P ( A V A ) P {A parents ( A )}
A7parents( w )
P {w parents ( w )}
(8)
Herhangi bir dü!üm ( A ) için tam ko ullu da! l m, yaln zca bu dü!ümün ebeveynlerine, çocuklar na
ve ikincil ebeveynlerine ba!l d r.
WinBUGS, tüm bilinmeyen dü!ümlerin tam ko ullu da! l mlar n olu turmak için modelin
gösterimini DAG ile gerçekle tirir ve tam ko ullu da! l mlardan örneklem çekmek için güvenilir
örnekleme yöntemleri kullan r. lk olarak tam ko ullu da! l mlar analitik olarak bilinen bir da! l ma
dönü türülerek e lenik da! l mlar olu turulmaya çal l r. Bilinen e lenik bir yap elde edilemez ise
yo!unluk fonksiyonunun log-konkav bir yap ya dönü türülüp dönü türülemedi!i kontrol edilir. Logkonkav bir yap elde edilir ise ‘uyarlamal red / adaptive rejection / AR’ örneklemesi kullan l r.
Yo!unluk fonksiyonu log-konkav de!ilse WinBUGS, örneklem çekmek için bir Metropolis-Hastings
(MH) ad m kullan r.
4. MCMC Yöntemlerinde Yak nsaman n Belirlenmesi
MCMC yöntemlerinde incelenmesi gereken önemli bir nokta, çekilen örneklemlerin sonsal da! l ma
yak nsay p yak nsamad ! n n belirlenmesidir. Kuramsal olarak n * + oldu!unda yak nsaman n
gerçekle ece!i söylenir, ancak uygulamada yak nsaman n gerçekle ece!i iterasyon say s n n
belirlenmesi gerekir. Yak nsama gerçekle tikten sonra, ilgilenilen parametrelerin sonsal
da! l mlar ndan yakla k örneklemler üretmek için iterasyonlara devam edilir. Yak nsama h z , ko ullu
da! l mlar n karma kl ! na ba!l d r. Yak nsama belirlenmesinde kullan lan bir çok yöntem vard r.
Zincir otokorelasyonlar n n incelenmesi bu yöntemlerden biridir. Otokorelasyon katsay lar , her bir
parametre zinciri için ili ki miktar n n belirlenmesinde kullan l r. Yak nsama problemi bulunmayan
zincirler için otokorelasyon katsay lar n n küçük olmas beklenir.
Yak nsaman n belirlenmesinde kullan lan di!er bir yöntem Raftery ve Lewis taraf ndan önerilmi tir.
Bu yöntemde, zincir otokorelasyonunun bir fonksiyonu olan seyreltme oran (thin), yak nsama
gerçekle ene kadar geçmesi gereken iterasyon say s (burn), güvenilir tahminler elde etmek için
gerekli toplam iterasyon say s (N) ve zincirdeki noktalar n ayn da! l ml ve ba! ms z olmas için
gerekli minimum iterasyon say s (Nmin) hesaplan r. Bu yöntemde ayr ca “I istatisti!i” ad verilen
I = N N min oran hesaplan r. Bu istatisti!in de!erinin 5’ten büyük olmas zincirde yak nsama
sorununun oldu!una i aret eder.
Geweke taraf ndan da yak nsaman n belirlenmesi için baz yöntemler önerilmi tir. Bu yöntemlerin
ilkinde, örneklemin ba tan %10 ile sondan %50’sinin ortalamalar kar la t r l r ve ortalamalar e itse
yak nsama probleminin olmad ! kabul edilir. Önerilen di!er bir yöntemde say sal standart hatalar ve
oransal say sal etkinlikler hesaplan r. Bu de!erler örneklemin farkl yüzdeliklerine ba!l olarak tahmin
edildi!inde bu tahminler aras nda önemli farklar n olmas , otokorelasyonlar n büyük oldu!una
dolay s yla yak nsama probleminin oldu!una i aret eder.
122
5. Uygulama
Uygulamada, Ocak 1999/Nisan 2009 aylar aras ndaki ayl k Euro/TL döviz oranlar verisinin
logaritmas al narak çözümlemeler gerçekle tirilmi tir. n=124 birimlik veri kümesinde
, ,&
parametreleri için 200000 iterasyon yap lm , ilk 100 iterasyon çözümlemeden ç kart lm ve
seyreltme oran 5 olarak al nm t r. Bu durumda, Raftery-Lewis ölçütlerine göre tüm parametreler için
I=1.049 olarak hesaplanm t r. Bu de!er 5’ten küçük oldu!u için parametre zincirlerinin yak nsama
gösterdi!i söylenebilir. Ayr ca, seyreltme oran n n (thin) 1 olarak bulunmas zincirlerde ard arda gelen
iki gözlem aras nda ili ki olmad ! na i aret eder. Bir ba ka ifade ile, elde edilen parametre
zincirlerinde orokorelasyon sorunu bulunmamaktad r. Zincirlerde otokorelasyon sorunu olmad !
a a! daki grafiklerden yararlanarak da söylenebilir.
phi
beta
1.0
0.5
0.0
-0.5
-1.0
1.0
0.5
0.0
-0.5
-1.0
0
20
0
40
20
40
lag
lag
tau
1.0
0.5
0.0
-0.5
-1.0
0
20
40
lag
Bekil 2. Parametre zincirlerine ili kin otokorelasyon fonksiyonlar n n grafikleri.
Geweke testine göre, parametre zincirlerinin ba tan %10 ve sondan %50’lik k s mlar n n ortalamalar
al narak dura!anl !a ula p ula mad ! ara t r lacak olunursa Çizelge 1’deki sonuçlara ula l r.
Çizelge1. Parametre zincirleri için Geweke testi sonuçlar .
Ki-kare p de!eri
Yüzdelik
%4
%8
%15
0.160142
0.115626
0.072133
0.480305
0.467867
0.433451
&
0.377679
0.356181
0.337174
Buna göre,
H0 : µ0.10 = µ0.50
H1 : µ0.10 : µ0.50
hipotezi için parametrelelerin p de!erleri incelenecek olursa, tüm parametre zincirlerinin dura!an
oldu!u S=0.05 yan lma olas l ! ile söylenebilir.
123
Parametre zincirlerinin yak nsama grafikleri a a! daki gibi elde edilmi tir.
beta
30.0
20.0
10.0
0.0
100
50000
100000
150000
iteration
phi
1.0
0.5
0.0
-0.5
100
50000
100000
150000
iteration
tau
6.0
4.0
2.0
0.0
100
50000
100000
150000
iteration
Bekil 3. Parametre zincirlerinin yak nsama grafikleri.
rekil 3’e göre, parametre zincirlerinde yak nsama problemi olmad ! , grafiklerin Geweke ile RafteryLewis test sonuçlar n destekledi!i söylenebilir.
Gibbs örnekleme algoritmas kullan larak elde edilen parametre zincirlerinin sonsal olas l k yo!unluk
fonksiyonlar na ili kin grafikler rekil 4’de verilmektedir.
phi sample: 39200
beta sample: 39200
4.0
3.0
2.0
1.0
0.0
1.5
1.0
0.5
0.0
0.0
10.0
-0.5
20.0
0.0
tau sample: 39200
1.5
1.0
0.5
0.0
2.0
3.0
4.0
Bekil 4. Parametre zincirlerinin sonsal olas l k yo!unluk fonksiyonlar n n grafikleri.
124
0.5
rekil 4’e göre SV modelinin parametrelerinden ’n n sonsal da! l m n n sola çarp k,
da! l m n n sa!a çarp k, & ’nun sonsal da! l m n n ise simetrik oldu!u söylenebilir.
’nin sonsal
Zincirlerde yak nsama sorunu olmad ! ndan model için güvenilir tahminler elde edilebilir. , , &
parametreleri için elde edilen özet istatistikler Çizelge 2’de verilmi tir. Çizelgede “ortalama” kolonu
parametrelere ili kin Bayesci tahminleri göstermektedir.
Çizelge 2. Parametre zincirlerinin özet istatistikleri.
Parametre
&
Ortalama
1.1260
Std.Sapma
0.5899
Std.Hata
0.0031
2.5%
0.4273
Ortanca
1.0090
97.5%
2.5560
0.6178
0.1512
0.0021
0.2374
0.6398
0.8442
3.3000
0.2911
0.0030
2.7730
3.2880
3.9080
Özet istatistikler de!erlendirildi!inde SV modeli için oynakl ktaki de!i mezlik 0.6178, en s k görülen
oynakl k 1.1260 ve oynakl ! n de!i imi 3.3 olarak hesaplanm t r.
6. Sonuç ve Tart !ma
Finansal verileri modellemeye ve zaman içerisinde bu serilerin fiyatlar ndaki riski ölçmeye yarayan
ARCH / GARCH modellerine güçlü bir seçenek olarak SV modelleri geli tirilmi tir. Bu sayede,
model varyans zamana göre olas l ksal de!i im gösteren bir raslant de!i keni olarak tan mlanabilmi
ve finans verilerinin daha esnek, gerçekçi modellenmesi sa!lanabilmi tir. Bayesci çözümleme ile de
modelin parametrelerinin tahmin edilmesi sürecinde klasik yöntemlerde kar la lan sorunlara etkin
çözümler getirilmi tir. Geli tirilen bilgisayar programlar sayesinde bu Bayesci çözümlemeler k sa
sürede ve kolay bir ekilde gerçekle tirilebilmektedir.
Çal mada, Ocak 1999/Nisan 2009 aylar aras ndaki ayl k Euro/TL döviz oranlar verisi için bir SV
modeli olu turulmu ve WinBUGS ile bu modelin Bayesci parametre tahminleri elde edilmi tir.
Uygulama sonuçlar de!erlendirildi!inde, elde edilen parametre zincirlerinde yak nsama sorunu
gözlenmedi!i için bu zincirler üzerinden modelin parametre tahminlerine geçilmi tir. Modelin
oynakl ! ndaki de!i mezlik 0.6178 olarak hesaplanm t r. Genel olarak uygulamada oynakl kdaki
de!i mezli!in ‘1’ de!erine yak n olmas istenir. De!er 1’e ne kadar yak n ise serinin piyasalardaki ani
ç k ve dü ü lere o kadar dirençli oldu!u söylenebilir. Sonuç olarak, iki farkl yat r m arac ndan
hangisinin daha riskli oldu!una bu de!er yard m ile karar verilebilir. En s k görülen oynakl k
1.1260’dir ve bu de!er model oynakl ! olarak yorumlan r.Yat r mc , amaçlar do!rultusunda riskli
ama getirisi yüksek olan ya da daha az riskli ancak getirisi de ayn biçimde daha dü ük olan yat r m
arac ndan hangisini tercih edece!ine bu de!eri baz alarak karar verebilir. Son olarak, kurulan modelde
oynakl ! n de!i imi 3.3 olarak hesaplanm t r. Yine bu de!er farkl zaman serilerinin
kar la t r lmas nda önemlidir.
Finans verilerinin ço!unda de!i en varyansl l k sorunu yer almaktad r ve genelde bu verilerde
oynakl k kümelerinin varl ! gözlenmektedir. Dolay s yla verilerin analizinde mevcut oynakl ! n
do!ru olarak modellenmesi ve elde edilen modelden güvenilir tahminlere ula lmas çok önemlidir. Bu
nedenle çal mada son zamanlarda literatürde geni bir yer tutan SV modelleri ve bu modellerin
Bayesci çözümlemesi bir uygulama üzerinden, kullan lan paket programda aç klanarak sunulmu tur.
125
Kaynaklar
[1] Akta , A.M., (2008), Bayesci Olas l ksal Oynakl k Modelleri, Yay:mlanmam:# Bilim Uzmanl:G: Tezi,
Hacettepe Üniversitesi, statistik Bölümü.
[2] Broto, C., Ruiz, E., (2002), Estimation Methods for Stochastic Volatility Models: A Survey,
Universidad Carlos III De Madrid Working Papers, Working Paper 02-54 (14).
[3] Gamerman, D., (1997), Markov Chain Monte Carlo Stochastic Simulation for Bayesian Inference,
Chapman and Hall, London.
[4] Geweke, J., (1992), Evaluating the Accuracy of Sampling-Based Approaches to the Calculation of
Posterior Moments, Bayesian Statistics 4, Bernardo, J.M., Berger, J.O., David, A.P., Smith, A.F.M.
(eds), Oxford University Press, Oxford, pp. 169-193.
[5] Jacquier, E., Polson, N.G., Rossi, P.E., (1994), Bayesian Analysis of Stochastic Volatility Models,
Journal of Business & Econometric Statistics, 12, 371-389.
[6] Jacquier, E., Polson, N.G., Rossi, P.E., (2004), Bayesian Analysis of Stochastic Volatility Models with
Fat-Tails and Correlated Errors, Journal of Econometrics, 122, 185-212.
[7] Meyer, R., Yu, J., (2000), BUGS for a Bayesian Analysis of Stochastic Volatility Models, Econometrics
Journal, 3, 198-215.
[8] Özkan, P., (2004), Analysis of Stochastic and Non-Stochastic Volatility Models, Yay:mlanmam:# Bilim
Uzmanl:G: Tezi, Ortado!u Teknik Üniversitesi, statistik Bölümü.
[9] Raftery, A.E, Lewis, S., (1995), The Number of Iterations, Convergence Diagnostics and Generic
Metropolis Algorithms, Practical Markov Chain Monte Carlo, Gilks, W.R., Spiegelhalter, D.J.,
Richardson, S. (eds), Chapman and Hall, London, pp. 115-130.
[10] Shephard, N., (2005), Stochastic Volatility, Oxford University Press, New York.
126
X
Kontrol kartlar için Bayesci kontrol s n rlar
Haydar Demirhan
Canan Hamurkaro!lu
Hacettepe Üniversitesi, statistik Bölümü,
06800-Beytepe, Anakra, Türkiye
Hacettepe Üniversitesi, statistik Bölümü,
06800-Beytepe, Ankara,Türkiye
[email protected]
[email protected]
Özet
Bu çal:#mada, üstel daG:l:ml: veri üreten süreçler için X kontrol kartlar:n:n Bayesci yakla#:m ile
olu#turulmas: üzerinde durulmu#tur. Kullan:lan yakla#:m, Bayesci çözümlemenin ard:ll:k özelliGine ve en
yüksek sonrsal yoGunluk aral:klar:na dayanmaktad:r. Üstel daG:l:ml: veri üreten süreçler için Bayesci
kontrol kartlar:n:n olu#turulmas: aç:klanm:#, X için olu#turulan Bayesci kontrol kartlar:n:n performans:
standart ve ho#görü aral:G: kontrol kartlar: ile kar#:la#t:r:lm:#t:r. Sonuç olarak, Bayesci kontrol
kartlar:n:n performans:n:n kar#:lat:r:lan diGer kartlara göre daha üstün olduGu görülmü#tür.
Anahtar Sözcükler: Bayesci yakla#:m; Gamma daG:l:m:; Kontrol s:n:r:; Sonsal daG:l:m; Kontrol s:n:r:
performans:; Ho#görü aral:G: kontrol s:n:r:; Shewart kontrol kart:.
Abstract
Bayesian Control Limits for X Control Charts
X control charts for exponentially distributed processes using
the Bayesian perspective. In this sense, we obtain new control limits for X charts for exponentially
This article deals with the construction of
distributed data. The approach is based on the sequential nature of Bayesian analysis and highest
probability density intervals. Construction of the control charts are illustrated and performance of the
proposed, standard and tolerance interval control limits are examined and compared via a Monte Carlo
simulation study. As the result, proposed Bayesian control limits are found to be better in performance
than standard and tolerance interval control limits for
X charts.
Keywords: Bayesian approaches; Gamma distribution; Control limit; Posterior distribution; Performance
of control limit; Tolerance interval control limit; Shewart control chart.
1. Giri!
Ölçülebilir kalite karakteristikleri raslant de!i keni olarak tan mland ! nda, bunlar n ortalamalar ,
de!i kenlikleri ve di!er baz özellikleri kontrol kartlar kullan larak de!erlendirilebilir. En yayg n
kontrol kartlar Shewart kartlar olarak bilinen kartlard r. Shewart kartlar normallik ve gözlemlerin
ba! ms zl ! varsay m ile olu turulur. Genellikle bir Shewart kart nda kontrol s n rlar aras nda kalan
olas l k yo!unlu!u kuramsal olarak 0.9973’tür. Bu kuramsal durumun gerçekle mesi normallik
varsay m n n sa!lanmas ile yak ndan ili kilidir. Bu nedenle konrtol kart n olu turmak için kullan lan
istatisti!in da! l m simetrik de!il ise ya da normal da! l m varsay m bu istatisti!in da! l m için
sa!lanm yorsa Shewart kartlar n n kullan m n n uygun olmad ! dü ünülmektedir.
Genel olarak çarp k da! l ml veri üreten süreçler bir i i yapma süresi, hizmet verme süresi, kullan m
süresi, ar za süresi, bekleme süresi gibi zaman ölçümlerinden olu an süreçlerdir. ki olay n görülmesi
aras nda geçen zaman üstel da! l ma uygun da! l göstermektedir [3]. Üstel da! l ml bir raslant
de!i keninin çarp kl k katsay s 2’dir. Bu durumda, üstel da! l m normal da! l ma göre sa!a çarp kt r.
Üstel da! l ml veri üreten süreçlerin kontrolü için standart Shewart kartlar n n kullan lmas gözlem
say s çok büyük olmad kça uygun bir durum de!ildir.
127
Üstel da! l ml veri üreten bir süreç için X ’n n da! l m simetrik de!ildir ve uygulamada kullan lan
örneklem büyüklü!ü küçük oldu!unda merkezi limit teoreminin uygulanmas uygun de!ildir. Bu
nedenle standart Shewart kartlar n n kullan m uygun olmamaktad r [2,5].
Hamada [2], bu soruna bir çözüm olarak ho görü aral ! (tolerance interval) kontrol s n rlar n n
kullan lmas n önermi ve gerekli olan kontol kart sabitlerinin ç kar m n yapm t r. Ho görü aral !
kontrol s n rlar n n bulunmas nda da! l msal bir varsay m yap lmamaktad r. Ayr ca Hamada [1], np, p,
c ve u kartlar için Bayesci ho görü aral ! kontrol kartlar n önermi tir.
Çal mada, üstel da! l ml veri üreten bir süreç için X kontrol kart s n rlar n n Bayesci yakla m ile
olu turulmas üzerinde durulmu tur. Bayesci yakla m n ard ll k özelli!i kullan larak X kartlar için
yüksek performansl kontrol s n rlar n n elde edilmesi amaçlanm t r. Bayesci yakla m n ard ll k
özelli!i sayesinde kart n t ad m nda sürece ili kin toplanan bilgi t 1 ad m ndakinden daha çok
oldu!undan daha güvenilir s n rlar elde edilmektedir.
Yap lan Monte Carlo benzetim çal mas ile önerilen Bayesci kontrol sn rlar n n performans , standart
ve ho görü kontrol s n rlar n n performans ile kar la t r lm t r. Kar la t rma için Hamada [1,2]
taraf ndan verilen performans ölçütleri kullan lm t r. Benzetim çal mas sonucunda önerilen Bayesci
kontrol s n rlar n n, standart ve ho görü kontrol s n rlar na göre daha yüksek performansa sahip oldu!u
görülmü tür.
kinci bölümde Bayesci kontrol kartlar n n olu turulmas üzerinde durulmu tur. Bayesci kontrol
s n rlar n n elde edili i üçüncü bölümde verilmi tir. Dördüncü bölümde bir say sal örnek verilmi tir.
Be inci bölümde Bayesci kontrol s n rlar n n performans n n ölçülmesinde ve di!er s n rlar ile
kar la t r lmas nda kullan lacak performans ölçüleri ve benzetim tasar m verilmi , benzetim
sonuçlar yorumlanm t r.
2. Bayesci kontrol kartlar
Bayesci kontrol kartlar n n olu turulmas nda kontrol s n rlar n n d nda kalan olas l k yo!unlu!unun
istenen düzeyde olmas temel amaçt r. Hamada [1,2] (1)’de verilen e itsizli!i np, p, c ve u kartlar için
Bayesci ho görü aral ! kontrol s n rlar n bulmakta kullanm t r:
[
(
)
]
PD X P(T < AKS( X) X ) ! p1 ve P T > ÜKS( X) X ! p 2 8 1
(1)
(1) e itsizli!inde T, kontrol kart istatisti!ini, D , sürecin üretti!i verinin da! l m n n parametresini,
AKS( X) , alt kontrol s n r n , ÜKS( X) üst kontrol s n r n , p1 ve p 2 s ras yla alt ve üst kontrol s n r
d nda kalmas amaçlanan olas l k yo!unluklar n ve 1
güven düzeyini göstermektedir. (1)
e itsizli!inde d taki olas l k üretici risikini, içteki olas l klar ise kontrol s n rlar aras nda kalmas
planlanan olas l k yo!unlu!unu kontrol eder.
Kart n olu turulmas s ras nda her ad mdaki bilgi, al nan her örneklemden sonra Bayesci yakla mlar n
ard ll k özelli!i kullan larak güncellenmi tir. Bayesci yakla mlar n ard ll k özelli!i t. ad mda elde
edilen sonsal da! l m n ( t + 1). ad mda önsel da! l m olarak kullan lmas ndan gelir. x1 , 1. ad mda
al nan örneklem olsun. Bu durumda p(D x1 ) B p(D )l(D x1 ) biçimindedir. Burada l(F F) olabilirlik
fonksiyonudur.
kinci ad ma geçildi!inde Bayesci yakla mlar n ard ll k özelli!inden
p(D x1 , x 2 ) B p(D x1 )l(D x 2 ) biçimindedir. Genel olarak t. ad m için ard ll k özelli!i
p(D x1 ,..., x t ) B p(D x1 ,..., x t
1
)l(D x t )
128
biçimindedir.
Çal mada önerilen Bayesci kontrol kart n n olu turulmas için Algoritma 1. kullan l r:
Algoritma 1. Bayesci kontrol kart n n olu!turulmas
A1. lk konrtol s n rlar için X ’n n da! l m n n parametresi önsel da! l m üzerinden tahmin edilir,
süreçten örneklem al n r ve A5.’e geçilir.
A2. X ’n n da! l m n n parametresi Bayesci yakla m ile tahmin edilir.
A3. Al nan örneklemden elde edilen x de!eri karta i aretlenir.
A4. x de!eri kontrol s n rlar n n d nda ise durulur. Süreçte gerekli düzeltme yap l r. Kontrol d
olan nokta d ar da b rak l r ve A5.’e geçilir. x de!eri kontrol s n rlar n n içinde ise do!rudan
A5.’e geçilir.
A5. Tahmin edilen parametre X ’n n da! l m nda yerine konulur.
A6. (1) e itsizli!ini sa!layan bir en yüksek yo!unluk (highest probability density) aral ! A5.’te
elde edilen da! l m kullan larak bulunur.
A7. Bulunan aral ! n alt ve üst s n rlar s ras yla AKS( X) ve ÜKS( X) ’ye e itlenir. Bu de!erler
kart üzerinde i aretlenir.
A8. Al nmas istenen örneklem say s na ula lmam
geçilir; ula lm ise durulur.
ise süreçten yeni örneklem al n r ve A2.’ye
Hamada [2] Bayesci ho görü aral ! kontrol s n rlar n elde ederken Algoritma 1.’de verilen A4. ad m
dikkate almamaktad r. Süreç ortalamas nda t . noktadan hemen sonra özel nedenlerden kaynaklanan
bir de!i im oldu!u varsay ls n. Kontrol s n rlar n n elde edilmesinde Bayesci yakla m n ard ll k
özelli!i kullan ld ! ndan ( t + 1) . ve sonraki noktalarda elde edilen s n rlar bu de!i imden etkilenir.
( t + 1) . ve sonraki s n rlar verinin, ba ta belirlenen da! l mdan de!il, ba ta belirlenen da! l m ile t .
noktada ortaya ç kan da! l m n bir karmas ndan gelip gelmedi!ini test eder. Ancak kontrol d nda
oldu!u belirlenen nokta sonraki ad mlarda d ar da b rak ld ! nda kontrol s n rlar tüm noktalarda
ba ta belirlenen da! l m için test yapar. Bu nedenle Algoritma 1.’de verilen A4. ad m n uygulanmas
kaç n lmazd r.
3. Bayesci kontrol s n rlar n n elde edilmesi
X1 ,..., X n ba! ms z raslant de!i kenlerinin tümü 1 / D ortalama ile üstel da! l ma sahip olsun. Bu
durumda X ’n n da! l m n ve 1 / (nD ) parametreleri ile gamma da! l m d r. Bu gamma da! l m n n
çarp kl k kartsay s 2 / n ’dir. Bu ko ullar alt nda X ’n n da! l m n’nin büyük de!erleri için simetrik
olabilmektedir.
X için Bayesci kontrol s n rlar n n elde edilmesinde Gamma (n ,1 / (nD )) ve Gamma ( , G ) s ras yla
olabilirlik fonksiyonu ve ilk önsel da! l m olarak kullan lm t r. Gamma da! l m bir e lenik önsel
oldu!undan sonsal da! l m da bir gamma da! l m d r. lk ad m için sonsal da! l m,
p(D x 1 ) B Dn +
1
exp{ D(nx 1 + 1 / G )}, D > 0
olarak elde edilir. kinci ad m için sonsal da! l m,
129
p(D x 1 , x 2 ) B D2 n +
1
exp{ D (n (x 1 + x 2 ) + 1 / G )}, D > 0
ve t. ad m için sonsal da! l m,
p(D x 1 ,..., x t ) B Dkn +
biçiminde
1
exp{ D(n (x1 + L + x t ) + 1 / G )}, D > 0
elde
S xt =
edilir.
(
D x 1 ,..., x t ~ Gamma kn + , nS xt + 1 / G
)
"
t
i =1
olarak
xi
tan mland ! nda,
1
biçimindedir. Bu durumda
X ’n n da! l m n n parametresi için Bayesci
1
x
Dˆ = (kn +
1) nS + 1 / G biçimindedir. Bu de!er sonsal da! l m n tepe de!eridir.
(
)
t
tahmin,
D ’n n önsel da! l m n n parametreleri, D ’ya ili kin önsel bilgi bulundu!unda, bu bilgiyi yans tacak
biçimde, bilgi bulunmad ! nda ise önsel da! l m olabildi!ince bas k yapacak biçimde seçilmelidir.
4. Bir say sal örnek
Bayesci X kart n n olu turulmas n aç klamak amac yla biri kontrolde, di!eri kontrol d nda olan iki
süreç rasgele olarak üretilmi tir. ki süreç için de n = 5 ve k = 25 olarak al nm t r. Birinci süreç için
veriler Üstel(0.1) da! l m ndan, ikinci süreç için veriler k = 6 , 12 ve 18 noktalar nda s ras yla
Üstel(0.05), Üstel(0.083) ve Üstel(1) da! l mlar ndan, di!er noktalarda ise Üstel(0.1) da! l m ndan
üretilmi tir. Üretilen x de!erleri Çizelge 1.’de verilmi tir.
Çizelge 1. Üretilen süreçler için x de!erleri.
12.995
13.548
10.337
3.930
4.757
3.116
Süreç I
Süreç II
5.284
12.993
4.887
4.114
7.494
4.095
8.247
15.990
4.379
5.728
14.284
2.950
14.646
4.294
8.507
3.651
5.381
5.573
5.966
7.142
16.571
2.674
7.558
6.711
12.072
6.988
15.117
20.431
7.578
8.034
14.458
4.441
9.966
4.706
4.561
5.497
8.314
14.125
10.040
10.127
7.578
8.910
5.968
0.808
Birinci ve ikinci süreç için olu turulan Bayesci X kart rekil 1’in (a) ve (b) k s mlar nda verilmi tir.
AKS
35
AKS
25
ÜKS
ÜKS
Ortalama
30
Ortalama
20
25
15
20
15
10
10
5
5
0
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
(a)
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
(b)
Bekil 1. Birinci (a) ve ikinci (b) süreç için olu turulan X kartlar .
Birinci süreç için elde edilen kontrol kart nda beklenildi!i gibi kontrol d nda herhangi bir nokta
bulunmamaktad r. Kontrol s n rlar ndaki de!i kenlik süreç ilerledikçe azalmaktad r. Bunun nedeni
130
sürecin ilerlemesi ile birlikte kontrol s n rlar n n, sürecin üretti!i verilerin da! l m hakk nda daha çok
bilgiye sahip olunarak elde ediliyor olmas d r. Ayr ca kontrol s n rlar n n gelen verinin de!erindeki bir
art ya da azal a duyarl oldu!u görülmektedir. Sürecin ilerlemesiyle birlikte her ad mda elde edilen
kontrol s n rlar bir öncekine göre daha çok bilgi varl ! nda elde edilmektedir.
kinci süreç ise beklenildi!i gibi kontrol d ndad r. kinci sürece ili kin kontrol kart n n olu turulmas
s ras nda kontrol d ndaki nokta d ar da b rak lmam t r. Bunun nedeni bu noktan n d ar da
b rak lmamas n n etkisini göstermektir. Sürecin kontrolden ç kt ! 6. noktaya bak ld ! nda kontrol
kart n n süreç ortalamas ndaki de!i imi yakalad ! görülmektedir. Süreç ortalamas 6. noktada 10’dan
20’ye ç km t r. 6. nokta için kontrol s n rlar , süreç ortalamas n n de!i meyece!i varsay m ile elde
edilmi ancak 6. noktada süreç ortalamas artm t r. 6. noktadan sonraki ad mlarda sürecin yeniden
kontrol d na ç kmas na kar n kontrol s n rlar d nda bir nokta görülmemektedir. Bunun nedeni 2.
Kesimin sonunda sözü edilen durumdur. rekil 1-(b)’de sözü edilen durum aç kça görülmektedir. 6.
noktadan sonra kontrol s n rlar , sürecin Üstel(0.1) ile Üstel(0.05) da! l mlar n n bir karmas ndan veri
üretmesi gerekti!i bilgisine göre elde edilmi ve hiç bir nokta kontrol s n rlar n n d na ç kmam t r.
18. noktada alt kontrol s n r 0.504, gözlenen de!er 0.808’dir. rekil 2-(a).’da 6. nokta d ar da
b rak ld ktan sonra elde edilen Bayesci X kart verilmi tir. Görüldü!ü gibi sürecin tekrar konrol
d na ç kt ! 12. nokta yakalanm t r ancak 17. nokta yine yakalanamam t r. 17. noktada (ba lang çta
18. nokta idi) alt kontrol s n r 0.694, gözlenen de!er 0.808’dir. rekil 2-(b).’de 12. nokta d ar da
b rak ld ktan sonra elde edilen Bayesci X kart verilmi tir. 16. noktada (ba lang çta 18. nokta idi) alt
kontrol s n r 0.821, gözlenen de!er 0.808’dir. Bu durumda sürecin kontrol d na ç kt ! söylenir. 16.
noktaya kadar tüm noktalar kontrol alt nda oldu!undan kontrol s r lar , kontrol d na ç kan noktay
do!ru belirlemi tir.
AKS
25
AKS
25
ÜKS
ÜKS
Ortalama
Ortalama
20
20
15
15
10
10
5
5
0
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
1
(a)
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20 21 22 23
(b)
Bekil 2. kinci süreçte 6. (a) ve 12. (b) nokta d ar da b rak ld ktan sonra olu turulan X kartlar .
Buradan, kontrol kart n n olu turulmas s ras nda kontrol d nda olan noktalar n belirlenmesinden
sonra devam etmeden önce, süreçte gerekli düzeltme yap ld ktan sonra bu noktalar n d ar da
b rak lmas n n önemi görülmektedir. Bu i lem sürece ili kin önsel bilginin korunmas n sa!lad ! gibi
kontrol d noktada özel nedenlerden kaynaklanan de!i kenli!inde giderilerek sürecin izlenmesini
sa!lar.
5. Benzetim çal !mas
Bayesci kontrol kartlar n n performans n n ölçülmesi ve ho görü aral ! ve standart kontrol s n rlar ile
kar la t r lmas nda kullan lacak performans ölçütleri Hamada [1, 2] taraf ndan
131
[(
)
]
]
F1 = PX [P(T < AKS( X) X ) ! p1 ], F2 = PX P T > ÜKS( X) X ! p 2 ,
[
(
)
F3 = PX P(T < AKS( X) X ) ! p1 ve P T > ÜKS( X) X ! p 2
(2)
biçiminde verilmi tir. F1 , AKS, F2 , ÜKS ve F3 genel performans n birer ölçüsüdür.
Üstel(0.05), Üstel(0.5), Üstel(5) ve Üstel(50) da! l mlar ndan rasgele olarak üretilen 4 adet süreç
üzerinde çal lm t r. Her süreç için n = 5 , 10, 15, 20, 25, 50 ve k = 10 , 25, 50 de!erlenin tüm
kombinasyonlar nda Bayesci X kartlar n n performans ölçümleri yap lm t r. p1 = p 2 = 0.00135 ve
= 0.05 olarak al nm t r. lk ad mdaki önsel da! l m için = 0.001 ve G = 1000 olarak al nm t r.
Her benzetim kombinasyonu için 10000 tekrar yap lm t r. X kart için standart kontrol s n rlar
x ± A 3 S ve ho görü aral ! kontrol s n rlar ise x ± k * R formülleri ile elde edilmi tir. A 3 katsay s
Montgomery [5, sy. 215, A-15] ve k* katsay s Hamada [1, sy. 482, 483] taraf ndan verilmi tir. k*
katsay s n n de!erleri n = 50 için verilmedi!inden ho görü aral ! kontrol s n rlar için n en çok 25
olarak al nm t r.
Standart X kart kontrol s n rlar n n performans sonuçlar (2) kullan larak elde edilmi ve Çizelge
2.’de verilmi tir. Standart kontrol s n rlar n n performans ölçümlerinin benzetim kombinasyonlar nda
büyük farkl l klar gösterdi!i görülmektedir. Standart kontrol s n rlar n n performans n n sadece D ’n n
de!erinden etkilenmedi!i, n ve k’daki de!i imden etkilendi!i söylenebilir. n ve k’n n büyümesi
performans olumsuz etkilemektedir. Standart kontrol s n rlar n n sadece n = 5 ve k = 10 için yeterli
oldu!u, di!er kombinasyonlarda üstel da! l ml veri üreten süreçlerde X kart için bu s n rlar n
kullan m n n uygun olmad ! söylenebilir.
Çizelge 2. Standart X kart kontrol s n rlar n n performans sonuçlar .
D
k
n
5
10
15
20
25
50
D
k
n
5
10
15
20
25
50
D
k
n
5
10
AKS
0.999
0.867
0.695
0.614
0.724
0.524
10
ÜKS
0.948
0.870
0.775
0.661
0.615
0.564
AKS
0.999
0.883
0.738
0.645
0.575
0.391
10
ÜKS
0.972
0.871
0.716
0.699
0.644
0.513
Genel
0.972
0.773
0.539
0.447
0.378
0.192
AKS
0.996
0.423
0.126
0.110
0.062
0.011
AKS
0.995
0.904
10
ÜKS
0.98
0.865
Genel
0.979
0.786
AKS
0.997
0.428
Genel
0.947
0.759
0.535
0.408
0.447
0.290
AKS
0.999
0.349
0.168
0.094
0.07
0.031
20
25
ÜKS
0.716
0.371
0.276
0.125
0.095
0.036
2
25
ÜKS
0.779
0.470
0.213
0.136
0.080
0.029
0.2
25
ÜKS
0.772
0.397
132
AKS
0.962
0.046
0.004
0.001
0.001
<0.001
50
ÜKS
0.331
0.026
0.007
0.005
0.007
<0.001
Genel
0.323
<0.001
<0.001
<0.001
<0.001
<0.001
Genel
0.777
0.198
0.021
0.012
0.003
<0.001
AKS
0.984
0.052
0.004
<0.001
<0.001
<0.001
50
ÜKS
0.273
0.038
0.010
<0.001
<0.001
<0.001
Genel
0.27
0.003
<0.001
<0.001
<0.001
<0.001
Genel
0.771
0.168
AKS
0.968
0.068
50
ÜKS
0.262
0.047
Genel
0.255
0.002
Genel
0.716
0.129
0.045
0.014
0.006
0.001
15
20
25
50
D
k
n
5
10
15
20
25
50
0.828
0.705
0.591
0.316
0.727
0.717
0.649
0.492
AKS
0.999
0.916
0.750
0.760
0.513
0.50
10
ÜKS
0.945
0.876
0.718
0.774
0.653
0.499
0.601
0.495
0.391
0.14
Genel
0.944
0.805
0.543
0.588
0.317
0.248
0.157
0.064
0.048
0.012
AKS
0.996
0.522
0.117
0.070
0.053
0.018
0.343
0.179
0.099
0.032
0.02
25
ÜKS
0.761
0.365
0.246
0.263
0.108
0.023
0.052
0.010
0.004
<0.001
Genel
0.759
0.195
0.026
0.015
0.006
<0.001
0.005
<0.001
<0.001
<0.001
0.016
0.002
0.002
<0.001
<0.001
<0.001
<0.001
<0.001
AKS
0.972
0.046
0.007
0.002
<0.001
<0.001
50
ÜKS
0.272
0.092
0.004
0.003
<0.001
<0.001
Genel
0.269
0.006
<0.001
<0.001
<0.001
<0.001
Ho görü aral ! X kart kontrol s n rlar n n (2) kullan larak elde edilen performans sonuçlar Çizelge
3.’te verilmi tir. Ho görü aral ! kontrol s n rlar n n performans n n standart kontrol s n rlar n n
performans na göre daha iyi oldu!u söylenebilir. Ho görü aral ! kontrol s n rlar n n AKS performans
ÜKS performans ndan daha dü üktür ve genel olarak yeterli de!ildir. Ho görü aral ! kontrol
s n rlar n n performans n ve k’n n de!erinden etkilenmekte, D’n n de!erinden etkilenmemektedir.
k’n n küçük de!erleri için ho görü aral ! kontrol s n rlar n n kullan m uygun olabilir. Ancak k’n n
büyük de!erleri için bunlar n kullan m sa!l kl de!ildir.
Çizelge 3. Ho görü aral ! X kart kontrol s n rlar n n performans sonuçlar .
D
k
n
5
10
15
20
25
D
k
n
5
10
15
20
25
D
k
n
5
10
15
20
25
D
k
n
5
10
AKS
0.790
0.823
0.743
0.687
0.736
10
ÜKS
0.884
0.927
0.824
0.907
0.744
Genel
0.691
0.759
0.614
0.620
0.554
AKS
0.935
0.316
0.267
0.130
0.142
AKS
0.888
0.876
0.773
0.651
0.688
10
ÜKS
0.810
0.867
0.837
0.843
0.719
Genel
0.732
0.759
0.650
0.544
0.487
AKS
0.947
0.267
0.260
0.162
0.177
AKS
0.897
0.872
0.772
0.761
0.718
10
ÜKS
0.733
0.888
0.849
0.790
0.772
Genel
0.664
0.778
0.656
0.607
0.562
AKS
0.900
0.222
0.265
0.166
0.167
AKS
0.755
0.877
10
ÜKS
0.84
0.905
Genel
0.634
0.794
AKS
0.954
0.388
20
25
ÜKS
0.573
0.374
0.390
0.343
0.211
2
25
ÜKS
0.613
0.321
0.288
0.220
0.148
0.2
25
ÜKS
0.584
0.356
0.472
0.305
0.175
0.2
25
ÜKS
0.608
0.404
133
Genel
0.534
0.117
0.106
0.038
0.032
AKS
0.476
0.035
0.004
0.003
0.004
50
ÜKS
0.206
0.030
0.018
0.007
0.002
Genel
0.085
0.001
<0.001
<0.001
<0.001
Genel
0.575
0.098
0.069
0.024
0.030
AKS
0.544
0.025
0.011
0.006
<0.001
50
ÜKS
0.219
0.032
0.010
0.006
0.001
Genel
0.125
0.001
<0.001
<0.001
<0.001
Genel
0.520
0.077
0.121
0.039
0.026
AKS
0.598
0.025
0.003
0.002
0.001
50
ÜKS
0.150
0.020
0.020
0.004
0.009
Genel
0.083
<0.001
<0.001
<0.001
<0.001
Genel
0.579
0.149
AKS
0.551
0.020
50
ÜKS
0.133
0.033
Genel
0.070
0.002
15
20
25
0.735
0.679
0.653
0.842
0.854
0.766
0.629
0.583
0.501
0.273
0.221
0.102
0.283
0.191
0.267
0.081
0.034
0.025
0.005
0.008
0.001
0.020
0.009
0.005
<0.001
<0.001
<0.001
Bayesci X kart kontrol s n rlar n n (2) kullan larak elde edilen performans sonuçlar Çizelge 4.’te
verilmi tir. Bayesci kontrol s n rlar n n performans benzetim kombinasyonlar na göre çok farkl l k
göstermemektedir. Bu istenen bir durumdur. Bayesci kontrol s n rlar n n performans n’nin de!erinden
az etkilenmekle birlikte k ve D’n n de!erinden etkilenmemektedir ve genel olarak yüksektir. Üstel
da! l ml veri üreten süreçlerin kontrolünde X kart için Bayesci kontrol s n rlar n n kullan m
önerilebilir.
Çizelge 4. Bayesci X kart kontrol s n rlar n n performans sonuçlar .
D
k
20
25
10
50
n
AKS
ÜKS
Genel
AKS
ÜKS
Genel
AKS
ÜKS
Genel
5
0.992
0.925
0.917
0.949
0.924
0.876
0.912
0.911
0.826
10
0.987
0.928
0.915
0.923
0.925
0.849
0.860
0.914
0.780
15
0.977
0.933
0.910
0.914
0.916
0.833
0.846
0.893
0.753
20
0.998
0.915
0.913
0.99
0.886
0.878
0.965
0.879
0.850
25
0.996
0.886
0.882
0.99
0.899
0.890
0.983
0.897
0.881
50
0.993
0.874
0.869
0.983
0.897
0.881
0.962
0.876
0.841
D
2
k
10
25
50
n
AKS
ÜKS
Genel
AKS
ÜKS
Genel
AKS
ÜKS
Genel
5
0.997
0.923
0.920
0.954
0.902
0.857
0.901
0.891
0.796
10
0.979
0.935
0.914
0.928
0.909
0.839
0.891
0.937
0.832
15
0.989
0.938
0.927
0.908
0.912
0.823
0.852
0.905
0.768
20
0.896
0.991
0.887
0.929
0.957
0.888
0.906
0.925
0.841
25
0.893
0.986
0.882
0.934
0.961
0.899
0.920
0.903
0.834
50
0.911
0.984
0.897
0.904
0.944
0.855
0.909
0.915
0.826
D
0.2
k
10
25
50
n
AKS
ÜKS
Genel
AKS
ÜKS
Genel
AKS
ÜKS
Genel
5
0.997
0.847
0.844
0.905
0.959
0.866
0.907
0.934
0.85
10
0.894
0.993
0.888
0.917
0.972
0.890
0.896
0.934
0.836
15
0.912
0.991
0.907
0.927
0.967
0.895
0.907
0.925
0.840
20
0.933
0.99
0.923
0.936
0.957
0.895
0.911
0.926
0.847
25
0.926
0.99
0.916
0.936
0.961
0.901
0.938
0.907
0.849
50
0.937
0.985
0.923
0.948
0.95
0.902
0.929
0.915
0.846
D
0.2
k
10
25
50
n
AKS
ÜKS
Genel
AKS
ÜKS
Genel
AKS
ÜKS
Genel
5
0.993
0.918
0.911
0.955
0.904
0.861
0.922
0.894
0.821
10
0.982
0.918
0.900
0.945
0.913
0.859
0.886
0.934
0.826
15
0.983
0.926
0.909
0.931
0.962
0.893
0.903
0.925
0.836
20
0.891
0.99
0.881
0.929
0.957
0.888
0.910
0.926
0.846
134
25
0.859
0.99
0.851
0.934
0.961
0.899
0.935
0.907
0.847
50
0.878
0.987
0.866
0.948
0.950
0.902
0.928
0.915
0.845
6. Sonuç ve öneriler
Üstel da! l ml veri üreten süreçlerin kontrolünde X kart için Bayesci, standart ve ho görü aral !
kontrol s n rlar verilen performans ölçütleri kullan larak kar la t r ld ! nda, Bayesci s n rlar n
performans n n çe itli benzetim ko ullar nda en az de!i im gösterdi!i ve istenen seviyede oldu!u
gözlenmi tir. Standart ve ho görü aral ! kontrol s n rlar n n ise benzetim kombinasyonlar n n
ço!unda dü ük performansl oldu!u gözlenmi tir. Bu nedenlerle, bu tür süreçlerin kontrolünde X
kart için çal mada önerilmi olan Bayesci X kontrol s n rlar n n kullan m ile süreç kontrolünün
daha güvenilir biçimde yap laca! söylenebilir, Bayesci kontrol s n rlar n n tercih edilmesi önerilir.
Kaynaklar
[1] M. Hamada, (2002), Bayesian tolerance interval control limits for attributes, Qual. Reliab. Engn. Int.,
18, 45-52.
[2] M. Hamada, (2003), Tolerance Interval Control Limits for X , R, and S Charts, Qual. Engn., 15, 471487.
[3] I. Miller, M. Miller, (1999), John E. Freund’s Mathematical Statistics, Prentice-Hall, London.
[4] D.C. Montgomery, (1996), Introduction to Statistical Quality Control, Wiley, New York.
[5] Z. Yang, M. Xie, (2000), Process monitoring of exponentially distributed characteristics through an
optimal normalizing transformation, J. of Applied Stat., 27, 8, 1051-1063.
135
Türkiye’deki bo!anma nedenleri profilinin veri
madencili<i yöntemlerinden karar a<açlar ile
olu!turulmas
Mehmet UYSAL
Volkan KATI
Hacettepe Üniversitesi, statistik Bölümü, Beytepe
06532, Ankara
[email protected]
Emniyet Genel MüdürlüGü, Personel Daire
Ba#kanl:G:, Kadro ^ube MüdürlüGü
Bakanl:klar 06100, Ankara
[email protected]
Özet
Veri madencili!i, günümüz bilgi ça! nda en güncel teknolojilerden birisidir. Bilgisayar sistemlerinin her geçen gün
hem daha ucuzluyor olmas , hem de güçlerinin art yor olmas , bilgisayarlarda daha büyük miktarlarda verinin
saklanabilmesine imkân vermektedir. Bu yüzden, büyük miktardaki verileri i leyebilen teknikleri kullanabilmek, büyük önem
kazanmaktad r. Veri madencili!i bu gibi durumlarda kullan lan, büyük miktardaki veri setlerinde sakl durumda bulunan
örüntü ve e!ilimleri ke fetme i lemidir.
Bu çal mada, en popüler veri madencili!i yöntemi olan “Karar A!açlar ” yard m yla Türkiye’deki bo anma
nedenlerinin demografik de!i kenlerle olan ili kisi ortaya konacakt r.
Anahtar sözcükler: Veri madencili!i, karar a!açlar , bo anma, bo anma nedenleri, bo anma nedenleri profili, CHAID
algoritmas .
Abstract
Forming the Profile of Cause of Divorce in Turkey by Using the Data Mining methods of Decision Trees
Data mining,is one of the most recent technology in our information age. Much more information can easily be saved in
computers due to computer systems are being cheaper and also being stronger day by day That’s why using the techniques of
analysing huge quantity data being more important nowadays. Data mining is the exploring process of pattern and aptitude
which are inside the huge quantity data sets.
In this study, relation between the cause of divorce and demographic variables in Turkey will be identified by the way of
“Decision Trees” which is the most popular method of data mining.
Keywords: Data mining, decision trees, divorce, cause of divorce, the profile of cause of divorce, the CHAID algorithm.
1. Giri!
Otomatik veri toplama araçlar ve veri taban teknolojilerindeki geli me, veritabanlar nda, veri
ambarlar nda ve di!er bilgi depolar nda çok miktarda bilgi depolanmas sonucunu do!urmu tur.
Büyük miktarlardaki veriler içindeki gizli örüntüler, geleneksel çözümleme araçlar yla
bulunamamaktad r.
136
Toplanan veri miktar büyüdükçe ve toplanan verilerdeki karma kl k artt kça, daha iyi çözümleme
tekniklerine olan gereksinim de artmaktad r. Bu tür bilgiler, bilgi bulma/ke fetme veya veri
madencili!i (data mining) olarak bilinen teknikler yard m yla çözümlenebilir[1,3].
2. Veri Madencili<i
Teknolojik geli me sonucunda otomatik veri toplama araçlar ve veri taban ndaki geli me nedeniyle,
veritabanlar nda, veri ambarlar nda ve di!er bilgi depolar nda çok miktarda bilgi depolanmas
sonucunda veritabanlar günümüzde terabaytlarla ifade edilen boyutlara ula m t r. Zaman içerisinde
bu büyük hacimde verinin içinde stratejik önem ta yan gizli bilgilerin bulundu!u belirlenmi tir.
Buradaki temel soru, bu gizli kalm bilgi ya da bilgiler nas l aç !a ç kar laca! d r. Bu sorunun en
güncel ve popüler yan t Veri Madencili!i (VM) olarak kar m za ç kmaktad r.
Veri madencili!i veri kümesi içerisinde ke fedilmemi örüntüleri bulmay hedefleyen teknikler
kolleksiyonunu betimlemektedir. Veri madencili!inin amac , geçmi faaliyetlerin analizini temel
alarak gelecekteki davran lar n tahminine yönelik karar-verme modelleri yaratmakt r. Veri
madencili!i, William Frawley ve Gregory Piatetsky-Shapiro (1991) taraf ndan, ‘ ... verideki gizli,
önceden bilinmeyen ve potansiyel olarak faydal enformasyonun önemsiz olmayanlar n n aç !a
ç kar lmas ...’ biçiminde yap lan bilgi ke fi tan m n destekler [4,5,6].
Veri Madencili!i, yöntem olarak güçlü teorik dayanaklara sahip olsa da; uygulamada yaz l mlarla
kar m za ç kmaktad r. Veri Madencili!i kavram yaz l m baz nda incelendi!inde; kar la lan temel
karakteristiklerinden birisi bilgilerin otomatik olarak aç !a ç kar lmas , ke fedilmesidir. Veri
Madencili!i’nin ikinci betimsel karakteristi!i ise tahmin edici modelleme yapmas d r. Dolay s yla,
Veri Madencili!i bir anlamda otomatik tahminsel modelleme ile bilgi ke fi olarak da tarif edilebilir[5].
Veri madencili!i süreci, ekil 1’de gösterildi!i gibi verinin nas l depolan p eri ilece!inden ba lar,
veriden bilgiye ula ncaya kadar tüm süreçleri kapsar[5, 11].
rekil 1- Veri madencili!i süreci
Veri madencili!inde kullan lan modeller tahmin edici ve tan mlay c olarak iki grupta incelenebilir.
Tan mlay c modellerde amaç karar vermeye yard mc olacak, mevcut veri kümesi içerisindeki yayg n
örüntülerin tan mlanmas ve nesneler aras ndaki ili kilerin bulunmas d r.
137
Tan mlay c modeller de kendi içerisinde kümeleme ve birliktelik analizi olarak ikiye ayr l r. Nesneler
aras ndaki bu ili kiler birliktelik kural ya da s k gözlenen nesnelerin kümeleri biçiminde gösterilir.
Birliktelik kurallar , ayn i lem içerisinde ço!unlukla görülen nesneleri saptama amaçl üretilen
kurallard r. Benzer biçimde, her bir i leminde mevcut ö!elerin birlikteli!inden olu tu!u dü ünülen bir
veri taban nda bütün birliktelikleri tarayarak s k tekrarlanan birlikteliklerin ortaya ç kar lmas n
amaçlayan kurallar olarak da tan mlanabilir[1,3,11].
Veri madencili!i yöntemleri denetimli(en yak n kom uluk, regresyon modelleri, sinir a!lar ve karar
a!açlar ) ve denetimsiz (a amal kümeleme) olmak üzere iki ana katogoriye ay rmak mümkündür[5].
Veri madencili!i, çe itli tekniklerle gerçekle tirilebilir. Bunlar, ak ll araçlar, güçlü veritaban
sorgular ve çok boyutlu çözümleme araçlar d r. Çok boyutlu çözümleme yöntemlerinde, karar a!ac
kullan labilir.
3. Karar A<ac
Karar a!ac , ad ndan da anla laca! gibi a!aç olarak görünen ve kolay kural ç kar m na olanak
vermesi nedeniyle s n fland rma, kümeleme ve tahmin modellerinde kullan lan bir tahmin tekni!idir.
Sorunla ilgili ara t rma alan n alt gruplara ay rmak için kullan l r. Karar a!açlar nda kök ve her
dü!üm bir soruyla etiketlenir. Dü!ümlerden ayr lan dallar ise ilgili sorunun olas yan tlar n belirtir.
Her dal dü!ümü de söz konusu sorunun çözümüne yönelik bir tahmini temsil eder.
Veri madencili!inde kurulu lar n n ucuz olmas , yorumlanmalar n n kolay olmas , veri taban
sistemleri ile kolayca entegre edilebilmeleri ve güvenilirliklerinin iyi olmas nedenleri ile s n flama
modelleri içerisinde en yayg n kullan ma sahip tekniktir. A!aç yap s ile, kolay anla labilen kurallar
yaratabilen, bilgi teknolojileri i lemleri ile kolay entegre olabilen en popüler s n flama tekni!idir[1,4].
Karar a!ac karar dü!ümleri, dallar ve yapraklardan olu ur. Karar dü!ümü, gerçekle tirilecek testi
belirtir. Bu testin sonucu a!ac n veri kaybetmeden dallara ayr lmas na neden olur. Her dü!ümde test
ve dallara ayr lma i lemleri ard k olarak gerçekle ir ve bu ayr lma i lemi üst seviyedeki ayr mlara
ba! ml d r. A!ac n her bir dal s n flama i lemini tamamlamaya adayd r. E!er bir dal n ucunda
s n flama i lemi gerçekle emiyorsa, o daim sonucunda bir karar dü!ümü olu ur. Ancak daim sonunda
belirli bir s n f olu uyorsa, o dal n sonunda yaprak vard r. Bu yaprak, veri üzerinde belirlenmek
istenen s n flardan biridir. Karar a!ac i lemi kök dü!ümünden ba lar ve yukar dan a a! ya do!ru
yapra!a ula ana dek ard k dü!ümleri takip ederek gerçekle ir. Karar a!açlar algoritmalar çapraz
tablolar n çözümlenmesinde de s kça kullan lmaktad r[3,5,11].
Son zamanlarda pek çok karar a!ac modelleri için algoritmalar (ID3, C4.5, C5, CART veya C&RT,
QUEST ve CHAID) geli tirilmi tir. Bu çal mada, CHAID algoritmas kullan lm t r. lk kez Gordon
V. Kass (1980) taraf ndan kullan lan CHAID algoritmas , karar a!ac tekni!inin bir türüdür[2].
CHAID algoritmas , de!i kenler aras ndaki birlikteli!i belirlemek için kullan lmaktad r. Regresyon
analizine tam olarak uymayan veri kümeleri için çoklu regresyona alternatif olarak kullan labilen bir
tekniktir. Bu teknikte ba! ml de!i kenler ile ba! ms z/aç klay c de!i kenler aras nda
birlikteli!i/ba!lant y aç klamak için herhangi bir formüle ve e itlik veya denklemlere gerek
duyulmamaktad r. CHAID algoritmas n n ç kt görselli!i son derecede anla l r ve yorumlanmas
kolay olmas kullan c lar için bir avantajd r[2,5,6].
4. Uygulama
Türkiye statistik Kurumu’ndan 2002 y l na ait bo anma ile ilgili demografik de!i kenler ve bu
demografik de!i kenlere ait ba! ml ve ba! ms z de!i kenler elde edilmi tir[12]. Bu de!i kenler
üzerinden, bo anma nedenleri profili ortaya konmak istenmektedir. Bu amaç için veri madencili!i
138
yöntemlerinden karar a!açlar n n kullan lmas planlanm t r. Bu modeli olu turmak için SPSS
program n n veri madencili!i için kullan lan CLEMENTINE program ndan yararlan lm t r[7,8,9,10].
A a! daki de!i kenlerden “bo anma nedeni” de!i keni, hedef de!i keni olarak belirlenmi tir.
Bo anma nedenlerinden “geçimsizlik” nedeninin çok yüksek frekansa sahip olmas , “di!er” nedeninin
de belirli bir aç klay c l ! olmamas sebebiyle ara t rmadan ç kar lm t r. Hedef de!i keni “Bo anma
nedeni” olarak belirlenirken, bu hedef de!i kenini etkileyen di!er de!i kenlerin tümü analize dâhil
edilmi tir.
Ara t rmada, de!i kenler bir ön elemeden geçirilip istenilen de!i kenler de!il, hepsi dâhil edilip buna
karar a!açlar üzerinde karar verilmek istenmi tir. Dolay s yla tüm de!i kenler dâhil edildi!i için
önemli olan de!i kenler karar a!açlar nda ortaya ç km t r. statistiksel olarak önemsiz olanlar da
a!aca dâhil olmam lard r. Bu çal mada kullan lan de!i kenler a a! daki gibi grupland r lm t r.
* Cinsiyet(davay açan taraf ):
(1): Erkek (2): Kad n
* llerin Geli mi lik Düzeyi(geli mi lik):
(1): 1.derecede, (2): 2.derecede, (3): 3.derecede, (4): 4.derecede, (5): 5.derecede
* Bo anma Nedeni(neden):
(1): Zina
(2): Cana kast ve fena muamele
(3): Cürüm ve haysiyetsizlik
(4): Terk
(5): Ak l hastal !
(6): Geçimsizlik
(7): Di!er
* Meslek grubu (Erkek ve Kad n için Emesgr ve Kmesgr):
(1): lmi ve teknik elemanlar, serbest meslek sahipleri ve bunlarla ilgili di!er meslekler,
(2): Müte ebbisler, direktörler ve üst kademe yöneticileri,
(3): dari personel ve benzeri çal anlar,
(4): Ticaret ve sat personeli,
(5): Hizmet i lerinde çal anlar,
(6): Tar mc , hayvanc , ormanc , bal kç ve avc lar,
(7): Tar m d
üretim faaliyetlerinde çal anlar ve ula t rma makineleri kullananlar,
(8): Di!er (ev kad n , emekli, ö!renci)
* Ö!renim (Erkek ve Kad n için Eogr ve Kogr):
(1): Okuma-yazma bilmeyenler,
(2): Bir ö!renim kurumundan mezun olmayanlar,
(3): lkokul,
(4): Ortaokul ve dengi,
139
(5): Lise ve dengi,
(6): Yüksekokul ve fakülte
* Ya (Erkek ve Kad n için Eyas ve Kyas)
* Evlilik Süresi (y l) (evyil):
(1): 0–1, (2): 2–3, (3): 4–5, (4): 6–8, (5): 9–12, (6): 13–17, (7): 18–21, (8): 22–26, (9): 27=>
* Ya büyüklü!ü (büyüklük):
(1): Erkek > Kad n
(2): Kad n > Erkek (3):Erkek= Kad n
* Evlenme Ay (evay)
* Evlenme Y l (evyil)
* Davan n Aç ld ! Ay (acay)
* Davan n Aç ld ! Y l (acyil)
* Davan n Kesinle ti!i Ay (davay)
* Davan n Kesinle ti!i Y l (davyil)
* Evlilik Süresi_Y l (sureyil)
* Evlilik Süresi_Ay (sureay)
* Çocuk Say s (çocuk)
* Annenin Velayetine Verilen Çocuk Say s (avel)
* Baban n Velayetine Verilen Çocuk Say s (bvel)
Bu çal mada, ç kt görselli!i son derecede anla l r ve yorumlanmas kolay ve di!er algoritmalardan
daha anlaml bir model olu turmas nedeniyle veri madencili!i yöntemlerinden CHAID karar a!açlar
algoritmas kullan lm t r
5. Sonuç ve Öneriler
Hedef de!i ken “bo anma nedenleri” ile istatistiksel aç dan en önemli ili kiye sahip de!i ken
“cinsiyet” olarak görülmü tür.
Cinsiyet de!i keni alt nda erkeklerde en önemli de!i ken “evlilik süresi” olarak belirlenirken,
kad nlarda “il geli mi lik durumu” olarak görülmü tür.
Bo anmay etkileyen en önemsiz de!i kenin ise kad nlar için “çocuk say s ” oldu!u belirlenmi tir.
Evlilik süresi: (8-11] y l aral ! d ndaki tüm evlilik sürelerinde erkekler; “terk edilme” nedeniyle
bo an rken, (8-11] y l evli kalan erkeklerin genellikle e inin “ak l hastal ! ” yüzünden bo and !
saptanm t r.
(5-8] y l evli kalan erkeklerden e leri 25 ya ve alt nda olanlar %45 olas l kla “zina” yüzünden, e leri
(25,31] ya lar ndaki erkekler “terk edilme” nedeniyle ve e leri 31 ve daha üst ya lardaki erkekler “terk
edilme” ve “ak l hastal ! ” nedeniyle bo and klar saptanm t r.
(8-11] y l evli kalan erkeklerden hiç çocu!u olmayanlar, %71 olas l kla e lerinin “ak l hastal ! ”
yüzünden bo an rken, çocu!u olanlar %50 olas l kla “terk edilme” sebebiyle bo anmaktad r.
140
(11-13] y l evli kalan erkeklerden ekim, kas m ve aral k aylar nda bo ananlar %64 olas l kla “cana kast
ve pek fena muamele” sebebiyle bo an rken, di!er aylarda bo ananlar “terk edilme” sebebiyle
bo anmaktad rlar.
Evlilik süresi 5 y l ve daha az olan erkeklerden 2.,3.,4. ve 5. derece geli mi illerde ya ayanlardan
“terk edilme” nedeniyle bo ananlarda baban n velayetine verilen çocuk say s hiç veya en fazla 1 iken,
e inin zina yapmas sebebiyle bo ananlarda erke!in velayetine verilen çocuk say s 1 den fazla olarak
belirlenmi tir.
(5-8] y l evli kalan erkeklerden e leri (25-31] ya aral ! nda ve ilkokul mezunu olanlar %45 olas l kla
e lerinden “zina” sebebiyle bo an rken, e leri (25-31] ya aral ! nda ve ortaokul veya lise mezunu
olanlar e lerinden %95 olas l kla “terk edilme” sebebiyle bo and klar saptanm t r.
(11-13] y l evli kalan erkeklerden bo anma davalar n 2001 ve daha öncesinde açanlar %87 olas l kla
“terk edilme” nedeniyle bo an rken, 2001 den daha sonra açanlar da %68 olas l kla “cürüm ve
haysiyetsizlik” sebebiyle bo anmaktad r.
Kad nlar n %36 olas l kla “terk edilme” nedeniyle bo and klar belirlenmi tir. 1. ve 5. derece geli mi
illerde ya ayan kad nlardan evlilik süreleri 8 ay ve daha az olanlar “terk edilme” nedeniyle bo an rken,
8 aydan fazla olanlar daha çok “cürüm ve haysiyetsizlik” nedeniyle bo anmaktad r.
Bu çal mada, ç kt görselli!i son derecede anla l r ve yorumlanmas kolay anlaml bir model
olu turmas nedeniyle, bo anma nedenlerinin demografik de!i kenlerle olan ili kisi veri madencili!i
yöntemlerinden CHAID karar a!açlar algoritmas kullan larak ortaya konmaya çal lm t r.
2008 y l ndan ba layan ve etkisi 2009 y l nda da bitmesi zor görünen ekonomik krizin bo anmalar
üzerindeki etkilerinin ara t r lmas yeni bir ara t rma konusu olarak önerilebilinir.
Kaynaklar
[1] Dolgun, M. Ö., 2006, Büyük Al:#veri# Merkezleri için Veri MadenciliGi Uygulamalar:, Yüksek Lisans
Tezi, H.Ü. Fen Bilimleri Ens., ANKARA
[2] G. V. Kass. (1980), “An Exploratory Technique for Investigating Large Quantities of Categorical
Data” Journal of Applied Statistics, Vol. 29, No. 2 , pp. 119-127.
[3] Hand, D., Mannila, H., Smyth, P., (2001), Principles of data Mining, MIT Press, London
[4] Hastie, T., Tibshirani, R. ve Friedman, J. 2001. The Elements of Statistical Learning; Data Mining,
Inference, Prediction. Springer, New YORK
[5] KOYUNCUG L, A. S.
(2009) , Data Mining Center, http://www.koyuncugil.org/
[6] Özgülba , N. ve Koyuncugil, A.S. (2006). MKB’de #lem Gören KOB ’lerin Veri MadenciliGi Karar
AGaçlar: Algoritmalar:ndan CHAID ile Profillendirilmesi ve Küreselle#me Sürecinde Güçlü Ve Zay:f
Yönlerinin Belirlenmesi. 10. Ulusal Finans Sempozyumu. 1-4 Kas m. zmir.
[7] SPSS. 2001. AnswerTree 3.0 User’s Guide, SPSS Inc. USA 226 p
[8] SPSS Türkiye, (2004). Clementine Temel EGitimi.
[9] SPSS Türkiye, (2004). Clementine Veri Manipülasyon Yöntemleri.
[10] SPSS Türkiye, (2004). Clementine ile leri Modelleme.
[11] Tan, P., Steinbach M., Kumar, V., (2006),
USA
ntroduction to Data Mining, Pearson Addison Wesley,
[12] TU K, (2004), 2002 Bo#anma statistikleri.
141
Geli tirilmi Anahtarlamal Bulan k Regresyon
Modeli ve Bir Uygulama
Duygu ÇEN
Hacettepe Üniversitesi
Fen Fakültesi statistik Bölümü
06800-Beytepe, Ankara, Türkiye
[email protected]
Süleyman GÜNAY
Hacettepe Üniversitesi
Fen Fakültesi statistik Bölümü
06800-Beytepe, Ankara, Türkiye
[email protected]
Özet
Klasik regresyon analizinde veri kümesinin tek bir s n ftan elde edildi!i varsay larak ba! ml ve ba! ms z
de!i kenler aras nda basit bir fonksiyonel ili ki ile veri analizi gerçekle tirilmektedir. Ancak veri
kümesinin birbirinden farkl da! l mlara sahip iki ya da daha çok s n ftan elde edilmesi durumunda veri
analizi için “Anahtarlamal Regresyon Modeli” (Switching Regression Model) kullan lmas gerekmektedir.
Bu çal mada ba! ms z de!i kene ait veri kümesine ili kin en uygun s n flar ve say s n belirlemek
amac yla bulan k kümelemeye dayal geçerlilik ölçütünden yararlan lm t r. Bu do!rultuda “Bulan k COrtalamalar Algoritmas ” (Fuzzy C-Means Algorithm) kullan larak küme say s saptanm t r. Elde edilen
alt kümelerin farkl regresyon do!rular na sahip olmas durumunda “Geli tirilmi Anahtarlamal Bulan k
Regresyon Modeli” (Enhanced Fuzzy Switching Regression Model) uygulanarak tahmin de!erleri
hesaplanm t r.
Anahtar Kelimeler: Bulan:k kümeler, Geli#tirilmi# anahtarlamal: bulan:k regresyon modeli, Bulan:k Cortalamalar algoritmas:.
Abstract
Enhanced Fuzzy Switching Regression Model and An Application
One of the most important assumptions in classical regression analysis is that the data set is obtained from
single cluster. Therefore the data analysis among dependent and independent variables occurs by the help
of simple functional relation. In the case of gathering data from two or more different distributed clusters,
a switching regression model needs to be fitted. In this study fuzzy clustering based legality criterion is
used to determine the best suitable clusters and the number of clusters which belong to the independent
data sets. In this respect, the number of clusters is found by using the fuzzy c-means algorithm. In case
derived subsets have different regression lines then values of estimators are calculated by applying
enhanced fuzzy switching regression model.
Keywords: Fuzzy Clusters, Enhanced Fuzzy Switching Regression Model, Fuzzy C-Means Algorithm
1. Giri!
Regresyon Analizi birden fazla de!i ken ve bunlar aras ndaki ba! nt lar n incelenmesinde kullan lan
bir yöntemdir. Üzerinde durulan de!i kenlerden ba! ml de!i ken y, ba! ms z de!i ken x ise, y=f(x)
eklindeki fonksiyona regresyon denir. f(x) fonksiyonu farkl ekiller alabilir, Fonksiyonun ald !
ekle göre Regresyon Analizi farkl isimler al r [7]
142
Kümeleme analizi veriyi anlaml alt bile enlere bölmeyi amaçlayan geni yöntemler toplulu!udur [1].
Kümeleme analizinde amaç gruplanmam verileri benzerliklerine göre homojen topluluklara ay rmak
oldu!u için bu analiz çok farkl problem çözümlerinde ba vurulan bir tekniktir[9]. Uygulamalarda
kümeler birbirinden belirgin ekilde ayr lam yorsa ya da baz birimlerin hangi kümeye ait oldu!u
konusunda karars zl k ya an yorsa Bulan k Kümeleme Yöntemi uygun bir analiz olarak kar m za
ç kar [6]. Özellikle sa!l k bilimleri, mühendislik ve psikoloji gibi pek çok alanda Bulan k Kümeleme
Teknikleriyle problem çözümleri gerçekle tirilmektedir.
2. Kullan lan Yöntemler
Verilerin analizinde kullan lacak ilk yöntem Bulan k Kümeleme Analizidir. Bu analiz sonras nda elde
edilen de!erler Geli tirilmi Anahtarlamal Bulan k Regresyon Modelinin ba lang ç verilerini
olu turur.
2.1. Bulan:k Kümeleme Analizi
Tüm kümeleme algoritmalar nda ayn kümede bulunan verilerin di!er kümelerde bulunan verilere göre
birbirlerine daha çok benzemesi amaçlan r. Tipik kümeleme ad mlar rekil 1 de verilmi tir [11].
Geri besleme Çevirimi
Öznitelik
seçimi
Örnekler
Örnek
benzerli!i
Örnek
Sunumlar
Gruplama
Kümeler
Bekil 1 Kümeleme i lemi ad mlar
Sonuçlar bak m ndan yakla k benzer sonuçlar veren kümeleme algoritmalar nda baz birimlerin
farkl kümelerde yer ald ! gözlenmektedir. Bu gibi durumlarda birimlerin küme üyeliklerinde
karars zl ! ortaya ç kmaktad r[5].
Bulan k kümeleme Analizi, kümeler birbirinden belirgin ekilde ayr lam yorsa ya da kümeleme
yap l rken baz birimler küme üyeliklerinde karars z davran yorsa uygun bir yöntem olarak
kullan lmaktad r [2]. Karars zl ! n bir ölçüsü olarak belirlenen üyelik fonksiyonu de!erleri her veri
için 0 ile 1 aras nda de!erler almaktad r. Burada üyelik dereceleri u ij , i = 1,2,..., n , j = 1,2,..., c ise
u ij > 0 , 6 i ve 6 j için ve u ij = 1 olmal d r [14]
Veriler aras ndaki bulan k ili kileri ya da belirlenen amaç fonksiyonunu kullanmaya göre ikiye ayr lan
bulan k kümeleme teknikleri di!er kümeleme yöntemlerinin aksine veri uzay ndaki her bir birimin
belirlenen kümelere belirli bir de!erle ba!lanmas n sa!lar [6]. Bulan k kümeleme algoritmalar
a a! da verilmektedir.
Bulan k Kümeleme Algoritmalar
Geleneksel Bulan k Kümeleme
Algoritmalar
Bulan k C-ortalamalar Algoritmas
Prototipti farkl Geometrik ekle sahip
kümeleme algoritmalar
Bulan k C-Regresyon Algoritmas
Gustafson-Kessel Algoritmas
Bulan k C-Hatlar Algoritmas
Gath-Geva Algoritmas
143
Uyarlamal Bulan k Küme Algoritmas
Kabuk Prototipler
En iyi bilinen bulan k kümeleme algoritmas 1974 y l nda Dunn taraf ndan önerilen ve Bezdek
taraf ndan geli tirilen Bulan k C-Ortalamalar (BCO) Algoritmas d r. Bu algoritma, veriler aras ndaki
uzakl klar kullanan ad msal bir algoritmad r [1]. Bulan k C-Ortalamalar Algoritmas n n hedefi
a a! da verilen amaç fonksiyonunu minimize etmektir.
m
J m (U ,V ) = "" (u ij ) d 2 (X j , Vi ) , K ! N
N
K
(1)
j =1 i =1
Burada
m: Bulan kl k indeksi
Xj: j geni li!indeki veri kümesi
Vi: i. küme merkezi
uij: Xj. Eleman n i. kümeye ait olan üyelik derecesi
d 2 X j ,Vi : Xj. Eleman n i. kümeye olan uzakl !
(
)
N: veri say s
K: küme say s
olarak verilmektedir. Bulan k küme bölünmesini gerçekle tirmek için gerekli olan algoritma,
Ad m 1: Ba lang ç küme merkezinin seçilmesi
Ad m 2: Tüm veriler için üyelik de!erlerinin hesaplanmas
1
1
2
d (X j ,Vi )
u ij =
( m 1)
1
K
1
" d (X
2
k =1
j
(2)
( m 1)
,Vi )
Ad m 3: yeni küme merkezini e itlik 3’e göre hesapland ktan sonra üyelik derecelerini u ij * uˆ ij
olarak ad m 2 ye göre güncellenmesi
" (u )
N
Vˆi =
m
j =1
ij
(3)
" (u )
N
m
ij
j =1
[
Ad m 4: max u ij
ij
Xj
uˆ ij
]< )
olana kadar i lemin devam etmesi, aksi halde ad m 3’e geri dönülmesi
eklinde aç klanabilir.
(
Burada }, 0 < ) < 1 ’ dur. Burada d 2 X j , V
) = (X
Vi ) A (X j
T
j
Vi ) olarak hesaplan r. A matrisi
m*m lik pozitif tan ml bir matristir. A=I olarak al n rsa Öklid uzakl ! kullan lm olur. Algoritman n
sonucunda Bulan k C-Ortalamalar ile elde edilen kümeler ve üyelik de!erleri elde edilir [4].
144
Bulan k kümelerde amaç farkl veri tiplerine uygulanabilirlik, gürültüye dayan kl l k, kümeye giri
de!erleri s ras n n önemsenmemesi ve h z olarak belirlenmi tir. Ayr ca Bulan k Kümelemenin avantaj
veri hakk nda daha detayl bilgi vermesidir. Ancak birey ve küme say s çok oldu!u durumda çok fazla
ç kt olaca! ndan bilgiyi özetlemek ve kategorize etmek zordur.
2.2 Geli#tirilmi# Anahtarlamal: Bulan:k Regresyon Modeli
Klasik Regresyon Analizinde verilerin tek bir s n ftan geldi!i kabul edilir. Ba! ms z veriler ile ba! ml
veri aras nda fonksiyonel bir ili ki kurulur. Genel model Y = f ( x ) + ) eklinde elde edilir [4].
Veri kümesi klasik regresyondakinin aksine birbirinden farkl da! l mlara sahip iki veya daha fazla
s n ftan al nan gözlemlerin bir araya getirilmesiyle meydana gelmi olabilir [3]. Bu durumda c s n f
say s n göstermek üzere, her farkl s n f bir f i fonksiyonu ile ve rastgele hata ei ile ifade edildi!inde
“Anahtarlamal Regresyon Modeli” olarak tan mlanan model E .(4) ile verilir.
Yi = f i ( x;
i
)+ )i
1! i ! c
(4)
Anahtarlamal Regresyon farkl ve kar t r lm s n flardan bir araya getirilmi verileri analiz eder.
Burada i her bir parametre vektörünü, ) i ise rastgele vektörü göstermektedir. { 1 , 2 ,..., c }
Parametreleri için en iyi tahmin “tek fonksiyonel ili ki” durumunda bulundu!u gibi elde edilmektedir.
Ancak burada problem herhangi bir ( x k , y k ) veri noktas için hangi modelin seçilece!idir. Bunun için
Bulan k Kümeleme Teknikleri kullan larak veri kümesinin bölünmesi i lemi yap l r. Bulan k CRegresyon Modeli kullan larak parametre tahmini yap ld ktan sonra ( x k , y k ) noktas n n üyelik
derecesi hangi kümeye daha fazla ise o veri noktas için o kümeye kar l k gelen regresyon modeli
kullan l r. Bu i leme anahtarlama denir. Geli tirilmi Anahtarlamal Bulan k Regresyon Modeli,
yap s do!rusall ktan farkl olan regresyon modellerine (kübik, karesel) sahip veri kümelerine de
uygulanabilir [8].
3. Uygulama
Bu çal mada Geli tirilmi Anahtarlamal Bulan k Regresyon Modelinin uygulanmas için ilk önce
modelde yer alacak de!i kenler, küme say s , ba lang ç ayr m matrisi, m bulan kl k indeksi, ) i lem
bitirme kriteri gibi ba lang ç de!erlerinin belirlenmesi gerekmektedir. Ba lang ç de!erleri elde
edildikten sonra model parametreleri belirlenerek tahmin i lemine geçilmi tir [6]. Java programlama
dilinde Eclipse IDE'si kullan larak çal ma sonland r lm t r.
Bu bölümde Türkiye’ deki sabit sermaye tüketiminin gelir yöntemiyle hesaplanan GSY H içindeki %
pay n n modellenmesi amaçlanmaktad r. Bu amaç do!rultusunda verilere Bulan k Kümeleme
Analizine dayanan Geli tirilmi Anahtarlamal Bulan k Regresyon Analizi uygulanm t r. Bunun için
Türkiye statistik Kurumunun Aral k 2007 de yay nlam oldu!u statistiksel Göstergeler 1923–2006
kitab ndan elde edilen veriler kullan lm t r.
Milli gelir bir ülkede belli bir dönemde milli ekonominin bir y l içinde yaratt ! toplam net has lay
ifade eder. Milli gelir reel olarak mal ve hizmet ak m n belirtir. Oysa bu ak m sadece fiyatlarla ifade
edilebilir. Belirlenen zaman içinde ekonominin durumunu gösteren ölçütlerden biri olan gayri safi
yurtiçi has la, bir ekonomide yerle ik olan üretici birimlerin belli bir dönemde, yurtiçi faaliyetleri
sonucu yaratm olduklar tüm mal ve hizmetlerin üretim de!erleri toplam ndan bu mal ve hizmetlerin
üretiminde kullan lan girdiler toplam n n dü ülmesi sonucu elde edilen de!erdir. Sabit sermaye
145
tüketiminin GSY H içindeki pay gelecek dönemlerde yap lacak olan yat r mlar etkiledi!i için
ekonomik geli mi li!in ölçüsü bak m ndan önemli bir de!i kendir.
Bu uygulama için olu turulan model E .(5) ile verilmi tir.
yˆ i = bi 0 + bi1 X
(5)
Burada
y: Türkiye’de sabit sermaye tüketiminin, gelir yöntemiyle hesaplanan GSY H içindeki % pay n
x: Bir önceki y la ait hesaplanan % pay göstermektedir.
lk ad mda BCO Kümeleme algoritmas kullan larak ba lang ç üyelik de!erleri matrisi elde edilmi tir.
Bu de!erler Çizelge1 ile verilmi tir.
Çizelge 1. BCO Algoritmas Sonucunda Elde Edilen Üyelik De!erleri
U1
0,00023291900251
0,00062004199838
0,00132446841073
0,92238351614136
0,00132446841073
0,00062004199838
0,00077451612946
0,00132446841073
0,00050756272429
0,02487057349040
0,00276339705449
0,02487057349040
0,00895340645655
0,00132446841073
0,00132446841073
0,02487057349040
0,82238351614136
0,72238351614136
0,00895340645655
0,72238351614136
U2
0,99976708099749
0,99937995800162
0,99867553158927
0,07761648385864
0,99867553158927
0,99937995800162
0,99922548387054
0,99867553158927
0,99949243727571
0,97512942650960
0,99723660294551
0,97512942650960
0,99104659354346
0,99867553158927
0,99867553158927
0,97512942650960
0,17761648385864
0,27761648385864
0,99104659354346
0,27761648385864
Elde edilen Üyelik de!erlerine göre iki gruba ayr lan veriler Çizelge 2 ile verilmi tir.
Çizelge 2. BCO Algoritmas Uyguland ktan Sonra Elde Edilen Kümeler.
Y
7,00
6,30
6,10
6,90
1. küme
X
6,30
6,30
6,30
6,30
Y
5,40
5,70
6,30
7,30
7,20
7,00
7,40
6,50
5,90
6,20
146
2. küme
X
4,80
5,40
5,70
7,00
7,30
7,20
7,00
7,40
6,50
5,90
6,10
5,70
7,00
6,50
6,30
6,30
6,20
6,10
5,70
7,00
6,50
6,10
Kümeleme i lemi gözlemin maksimum üyeli!ine göre yap l r. Her bir gözlem maksimum üyeli!e
sahip oldu!u kümeye tahsis edilir [6]. Yap lan denemeler sonucunda bulan kl k indeksi m=2 ve
)=0.001 olarak belirlenmi tir. Ayr m de!erleri elde edildikten sonra Türkiye deki sabit sermaye
tüketiminin gelir yöntemiyle hesaplanan GSY H içindeki % pay n n modellenmesi için Bulan k CRegresyon Modeli (BCRM) Algoritmas kullan lm t r. Modeller, tahmin algoritmas n n e!itim
kümesine ili kin verilere uygulanmas ile elde edilir. Bu tahmin algoritmas için tüm ba lang ç
de!erleri elde edildikten sonra {bi 0 , bi1 }parametreleri iterasyon ile elde edilmi tir. Tahmin
algoritmas n n e!itim kümesine ili kin verilere uygulanmas ndan sonra regresyon modelleri E .(6) ile
verilmi tir.
Yˆ1i = 5,42287 + 0,13692 X 1
(6)
ve
Yˆ2i = 1,867424 + 0,75827 X 1
Bir y la kar l k gelen xk tüketim de!erinin tahmini için kullan lacak en uygun model maksimum
üyeli!e sahip oldu!u kümenin regresyon modeli olacakt r. Ayr m matrisi güncellendikten sonra elde
edilen üyelik dereceleri Çizelge 3’te verilmi tir.
Çizelge 3. Güncellenen Üyelik dereceleri
U1
0,00001573956925
0.02787861405468
0.98644167474457
0.09149559337267
0,00065674817969
0.00298166816655
0.06407812971621
0.00343744608818
0.99995027191776
0.94345484819241
0.83078119498336
0.95825547261928
0.73179141073012
0.62424580259360
0.99880507120091
0.99998686236769
0.99999961280683
0.97321549114344
0.99995734665852
0.05434177151782
U2
0,99998426043075
0,97212138594532
0,01355832525543
0,90850440662733
0,99934325182031
0,99701833183345
0,93592187028379
0,99656255391182
0,00004972808224
0,99995027191777
0,16921880501664
0,04174452738072
0,26820858926988
0,37575419740640
0,00119492879909
0,00001313763231
0,99998686236770
0,99999961280684
0,00004265334148
0,99995734665853
147
Güncellenen üyelik derecelerine göre elde edilen kümeler Çizelge 4’te görülmektedir
Çizelge 4. BCRM Uyguland ktan Sonra Güncellenen Kümeler.
1. Küme
Y
6,30
6,50
6,20
6,10
5,70
7,00
6,50
6,30
6,30
6,30
2. Küme
X
5,70
7,40
5,90
6,20
6,10
5,70
7,00
6,50
6,30
6,10
Y
5,40
5,70
7,00
7,30
7,20
7,00
7,40
5,90
6,10
6,90
X
4,80
5,40
6,30
7,00
7,30
7,20
7,00
6,50
6,30
6,30
ki farkl regresyon do!rusuna göre elde edilen tahminler ise Çizelge 5’te verilmi tir.
Çizelge 5. BCRM Uyguland ktan Sonra Elde Edilen Tahmin De!erleri
Y1 den
6,1558
6,2166
6,2469
6,3077
6,3787
6,4090
6,3989
6,3787
6,4192
6,3280
6,2672
6,2976
6,0287
6,8869
6,3787
6,3280
6,3077
6,3077
6,2875
6,3077
Y2 den
5,4476
5,9126
6,1451
6,6100
7,1525
7,3850
7,3075
7,1525
7,4625
6,0105
6,3000
6,5325
6,4550
6,1451
7,1525
6,7650
6,6100
6,3261
6,4550
6,6100
148
Geli tirilmi Anahtarlamal Bulan k Regresyonda her veri için kullan lacak olan regresyon do!rusuna
ve regresyon modeline üyelik derecelerine göre karar verilmektedir. Bu analize göre elde edilen
tahminler ile mutlak yüzde hata ve ortalama yüzde hata de!erleri Çizelge 6’da verilmi tir.
Çizelge 6. Geli tirilmi Anahtarlamal Bulan k Regresyon ile Elde Edilen
Tahmin De!erleri ve Hatalar
Y llar
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
Gerçek
De%er
5,40
5,70
6,30
7,00
7,30
7,20
7,00
7,40
6,50
5,90
6,20
6,10
5,70
7,00
6,50
6,30
6,30
6,10
6,30
6,90
Tahmin
5,45
5,91
6,25
6,61
7,15
7,38
7,31
7,15
6,42
6,01
6,27
6,30
6,03
6,89
6,38
6,33
6,31
6,33
6,29
6,61
OMYH=
MYH (%)
0,882
3,729
0,842
5,571
2,021
2,569
4,392
3,345
1,243
1,864
1,084
3,239
5,789
1,571
1,867
0,444
0,123
3,770
0,199
4,203
2,463766823
E!itim kümesi ile yap lan uygulamada Geli tirilmi Anahtarlamal Bulan k Regresyonun üstünlü!ünü
kan tlamak için ayn e!itim verisine Klasik Regresyon Analizi uygulanm t r. Kar la t rma ölçütü
olarak mutlak yüzde hata ve ortalama yüzde hata de!erleri kullan lm t r[6]. Klasik Regresyon Analizi
ile elde edilen sonuçlar Çizelge 7’de verilmi tir.
Çizelge 7.Klasik Regresyon ile Elde Edilen Tahmin De!erleri ve Hatalar
Y llar
1981
1982
1983
1984
1985
1986
1987
1988
Gerçek
De%er
5,40
5,70
6,30
7,00
7,30
7,20
7,00
7,40
Tahmin
MYH (%)
5,52
5,90
6,09
6,47
6,91
7,10
7,03
6,91
2,306
3,538
3,329
7,609
5,378
1,445
0,473
6,657
149
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
6,50
5,90
6,20
6,10
5,70
7,00
6,50
6,30
6,30
6,10
6,30
6,90
7,16
6,59
6,22
6,40
6,34
6,09
6,91
6,59
6,47
6,47
6,34
6,47
OMYH=
10,136
11,748
0,257
4,992
11,258
12,996
6,268
4,653
2,657
6,023
0,662
6,270
5,65126711
Her iki analiz ile elde edilen tahmin de!erlerinin gerçek de!erlere göre grafikleri rekil 2 ve rekil 3’te
verilmi tir. Ayr ca Geli tirilmi Anahtarlamal Bulan k Regresyon ile Klasik Do!rusal Regresyon
yöntemleri için elde edilen yüzde hatalar rekil 4 de verilmi tir.
Bekil 2 Gerçek De!erler ile Anahtarlamal Bulan k Regresyon Tahmin De!erleri
150
Bekil 3 Gerçek De!erler ile Klasik Do!rusal Regresyon Tahmin De!erleri
Bekil 4 Klasik Do!rusal Regresyon % Hatas ve Anahtarlamal Bulan k Regresyon % Hatas
4. Sonuç ve Öneriler
Bu çal mada kullan lan ba! ms z de!i kenlere ait veri kümesinde, de!i ik regresyon modellerine
sahip alt kümelerin oldu!u belirlenmi tir. Bulan k C-ortalamalar algoritmas kullan larak küme say s
saptanm t r. Geli tirilmi Anahtarlamal Bulan k Regresyon Modeli uygulanarak elde edilen tahmin
de!erleri, klasik do!rusal regresyon analizi ile elde edilen tahmin de!erleriyle kar la t r lm t r. Buna
göre 1981–2000 y llar na ili kin Geli tirilmi Anahtarlamal Bulan k Regresyon için bulunan Ortalama
Mutlak Yüzde Hata 2,46’ n n, Klasik Do!rusal Regresyon Analizi ile elde edilen Ortalama Mutlak
Yüzde Hata de!eri 5,65’ ten daha küçük oldu!u görülmektedir. Ayr ca her iki yöntemden elde edilen
yüzde hatalar n grafi!ine bak ld ! nda Geli tirilmi Anahtarlamal Bulan k Regresyon Analizinin
yüzde hatas n n daha az oldu!u belirlenmi tir. Daha sonraki çal malarda küme say s belirlenirken
Bulan k C-Ortalamalar Algoritmas yerine farkl algoritmalar kullan larak analize devam edilebilir.
KAYNAKLAR
[1] J.C. Bezdek, R.Ehrlich, W. Full, , (1984), FCM: Fuzzy C-Means Algorithm Computers and Geoscience 10.
151
[2] M.S. Chen, S.W. Wang, (1999), Fuzzy Clustering Analysis for Optimizing Fuzzy Membership Functions,
Fuzzy Sets and Systems, Vol 103.
[3] C. Chi-Bin, E.S. Lee, (2001), Switching Regression Analysis by Fuzzy Adaptive Network, Europen Journal
of Operational Research, Vol 128.
[4] T.E. Dalk l ç, (2005), Switching Regresyonda Bulan k Sinir A!lar ile Parametre Tahmini, Doktora Tezi,
Ankara Üniversitesi, Fen Bilimleri Enstitüsü, Ankara.
[5] I.Gath, A.B.Geva, (1989), Unsupervised, Optimal Fuzzy Clustering, IEEE, Vol 11, Issue 7, 773- 780.
[6] N. Güler, (2006) Bulan k Kümeleme Analizi ve Bulan k Modellemeye Uygulamalar , Yüksek Lisans Tezi,
T.C. Mu!la Üniversitesi Fen Bilimleri Enstitüsü, statistik ve Bilgisayar Bilimleri Ana Bilim Dal , Mu!la.
[7] M.Halkidi, Y. Batistakis, M. Vazirgiannis, (2001), On Clustering Validation Techhiques, Journal og
Intelligent Information Systems, 17:2/3, 107-145.
[8] R. J. Hathaway, Bezdek, J.C, (1993), Switching Regression Models and Fuzzy Clustering, IEEE Transactions
on Fuzzy Systems, Vol.1, No.3.
[9] A.K. Jain, M.N. Murty, P.J. Flynn, (1999), Data Clustering: A Review, ACM Computing Surveys, Vol 31,
No 3
[10] R.A. Johnson, D.W. Wichern, (2007), Applied Multivariate Statistical Analysis, Pearson International
Edition, United States of America.
[11] L. Meng, C. Hu, F.Z. Wang, (2006), Density Based Cluster Validity Measurement for Fuzzy Clustering,
IEEE, Vol 42, No 1, 201-263.
152
Bir Ayarlama Yöntemi Olarak K smi En Küçük Kareler
Regresyonu
Esra POLAT
Süleyman GÜNAY
Hacettepe Üniversitesi, Fen Fakültesi, statistik
Bölümü
06800-Beytepe, Ankara, Türkiye
[email protected]
Hacettepe Üniversitesi, Fen Fakültesi, statistik
Bölümü
06800-Beytepe, Ankara, Türkiye
[email protected]
Özet
K:smi En Küçük Kareler Regresyonu, çok deGi#kenli ayarlamada bir veri s:k:#t:rma yöntemi olarak,
Temel Bile#enler Regresyonu ile kullan:lmaktad:r. Bir ayarlama modeli elde edildikten sonra bilinmeyen
y deGerlerini kestirme yeteneGinin belirlenmesi #artt:r. Özellikle ayarlama yöntemleri aras:ndan bir
seçim yaparken ve modelde kullan:lacak bile#en say:s:na karar verirken, ayarlama modelinin kestirim
yeteneGinin test edilmesi önemli olmaktad:r. Bu çal:#mada literatürde kullan:lan kimyasal bir veriye
ili#kin ayarlama kümesi kullan:larak Çoklu DoGrusal Regresyon, Temel Bile#enler Regresyonu, K:smi En
Küçük Kareler Regresyonu ve Ridge Regresyon modelleri düzenlenir ve daha sonra bu modeller
ayarlaman:n hata kareler ortalamas:n:n karekökü, çapraz geçerliGin hata kareler ortalamas:n:n
karekökü ve kestirimin hata kareler ortalamas:n:n karekökü kullan:larak uyum ve kestirim bak:m:ndan
kar#:la#t:r:l:r.
Anahtar Kelimeler: Ayarlama, K:smi En Küçük Kareler Regresyonu, Temel Bile#enler Regresyonu,
Ridge Regresyon, ayarlaman:n hata kareler ortalamas:n:n karekökü, çapraz geçerliGin hata kareler
ortalamas:n:n karekökü, kestirimin hata kareler ortalamas:n:n karekökü.
Abstract
Partial Least Squares Regression as a Calibration Method
Partial Least Squares Regression is used in multivariate calibration as a data compression method with
Principal Component Regression. After a calibration model obtained, the ability of it to predict unknown
y values must be determined. The inspection of predictive ability of a calibration model is significant
especially while choosing between calibration methods and in the determination of number of
components that will be used in the model. In this study, by using calibration set of a chemical data,
which is used in literature, Multiple Linear Regression, Principal Component Regression, Partial Least
Squares Regression and Ridge Regression models are established. Afterwards, these models are
153
compared in terms of model fit and prediction by using root mean square error of calibration, root mean
square error of cross-validation and root mean square error of prediction.
Key Words: Calibration, Partial Least Squares Regression, Principal Component Regression, Ridge
Regression, root mean square error of calibration, root mean square error of cross-validation, root
mean square error of prediction.
1. Giri!
Çok emek ve uzun süre gerektiren ancak do!ru sonuç veren ölçme yöntemlerinin ucuz, h zl ve daha
az do!rulu!a sahip dolayl ölçme yöntemleriyle yer de!i tirmesi, ayarlama (calibration) olarak
tan mlan r. Ayarlama, birden çok ba! ml ve ba! ms z de!i ken oldu!unda “çok de!i kenli ayarlama”
olarak adland r l r. Çok de!i kenli ayarlama çal malar , “Kemometri” bilim alan n n en yayg n
konular ndan biridir. Kemometri; istatistik ve matematik ile birlikte bilgisayar kullanarak, kimyasal
verilerin i lenmesini içeren kimya alan nda bir bilim dal d r. Ayarlama, Ŷ = f (X )
eklinde bir
kestirici formül bulmay amaçlamaktad r. Ŷ = f (X ) eklindeki kestiricileri verebilen bir ayarlama
modeli, T = h 1 (X ) , Y = h 2 (T ) + F ve X = h 3 (T ) + E eklindeki gizli de!i kenler (LVs) üzerinden
regresyondur. Burada T özgün de!i kenlerden daha az say daki bile en say s n temsil ederken, E ve
F, art klar temsil etmektedir. Bu türün temsilcisi olan K smi En Küçük Kareler Regresyonu
(PLSR/Partial Least Squares Regression), çok de!i kenli ayarlamada bir veri s k t rma yöntemi
olarak, Temel Bile enler Regresyonu (PCR/Principal Component Regression) ile kullan lmaktad r [1,
6, 7].
K smi En Küçük Kareler (PLS/Partial Least Squares) yönteminde amaç, X ve Y bloklar için elde
edilen LVs aras ndaki ba!lant dan yararlanarak bu iki veri blo!u aras nda ili ki bulmakt r. PLS
yöntemi ilk olarak Herman Wold (1966) taraf ndan, ekonomik ve sosyal olay modellemek için
kullan lm t r. PLS kimya bilim alan nda Kowalski, Gerlach ve Wold (1979) taraf ndan yap lan bir
ba lang ç çal mas ndan sonra kullan lmaya ba lanm t r. PLS yöntemi analitik kimya, fiziksel kimya,
klinik kimya ve endüstriyel süreç kontrolü gibi kimyan n birçok alan nda kullan lmaktad r. PLS,
kimyasal literatürde ba lang çta bir algoritma olarak sunulmu tur. lerleyen zamanlarda ise, say sal ve
istatistiksel özellikleri daha anla l r bir hale gelmi tir. Özellikle çokluba!lant durumunda Çoklu
Do!rusal Regresyon (MLR/Multiple Linear Regression) uygulamalar nda, daha sa!lam ve güvenilir
sonuçlar elde etmek için kullan lmaya ba lanm t r [6, 7].
2. Ayarlama
X, ölçülmesi güç ve pahal bir nicelik ve Y de, X’e göre daha kolay ölçülebilen ancak çok duyarl
olmayan bir nicelik olsun. X, x 1 , L , x n de!erlerini al rken; Y, y1 , L , y n ölçümlerini versin. Y
rastlant de!i keni, µ ortalama ve
2
varyans ile normal da! l ml iken model denklemi, e itlik
(
)
(1)’deki gibi yaz labilir. Burada, ) i ~ N 0, 2 ’dir. Ayarlama problemleri için bu denklem, ayarlama
e!risi olarak adland r l r. Böylece iki a amal bir ayarlama deneyi u ekilde tasarlan r: lk a amada, X
de!i keninin x 1 , L , x n gibi bilinen de!erlerine kar l k gelen y1 , L , y n ölçümleri yap l r. Bu
ölçümlerin ba! ms z oldu!u varsay m alt nda, n say da (x i , y i ) gözlem çifti için e itlik (1)’in
kestirimi elde edilir. kinci a amada, X’in bilinmeyen bir x de!erine kar l k gelecek Y de!i keninin
bir ya da birden çok ölçümleri yap l r. Bu ölçümler, test yöntemi sonuçlar ya da önkestirim kümesi
olarak da bilinir. (1) e itli!inden yararlanarak, y i de!erine kar l k gelen bilinmeyen x i de!erleri
kestirilir. statistiksel ayarlama, regresyon çözümlemesinin ters kestirim türüdür; ŷ = f (x ) ’den x’in
154
kestirimidir. Buna göre ayarlaman n amac s radan bir model elde etmek de!il, genelde rastlant
de!i keni olmayan X’e ili kin ileriye dönük kestirimler yapmakt r [3, 8].
y i = f (x i ) + ) i ,
i = 1, L , n
(1)
2.1. Çok DeGi#kenli Ayarlama
Çok de!i kenli ayarlama bir aletten elde edilen birden fazla tepkiyi, bir örne!in özelliklerine ba!lamak
için bir matematiksel model kurma sürecidir. Kestirim ise, modeli kullanarak verilen alet tepkilerinde
bir örne!in özelliklerini bulma sürecidir. Ayarlama modelleri yard m ile pahal ölçümlerin, ucuz
ölçümlerden kestirilebilece!i iyi ili kiler bulunmaktad r [1, 6]. Ayarlaman n as l amac Ŷ = f (X )
kestirimi oldu!undan, X’den Y’ye do!ru ileri ‘yön’ olarak da adland r lmaktad r. Ŷ = f (X )
kestiricileri verebilen ayarlama modellerinden biri, ileri regresyon modeli Y = f (X ) + F ’dir. F,
art klar temsil etmektedir. Y = XB + F eklindeki MLR modeli, bu tür bir ileri regresyon modelidir.
Ayarlaman n bu türü istatistikte bazen ‘ters’ ayarlama olarak da adland r lmaktad r. PLSR de, bu tarz
bir “ters” ayarlama modelidir [6].
Çok de!i kenli ayarlama kimyasal analizlerde, kimyasal veri kümelerinden gerçek veya sakl bilginin
aç !a ç kar lmas na olanak tan yan güçlü bir araçt r. Kimyasal analiz, genellikle iki ad mdan olu ur:
lk ad mda bir yöntem ya da ö!enin karakteristikleri ara t r l r ve i leyi i için bir model bulmaya
çal l r. Bu ad mda kullan lan veri kümesi, ayarlama ya da çal ma kümesi ve elde edilen model
parametreleri ise regresyon katsay lar olarak adland r l r. kinci ad mda, bir ya da daha çok gözlem
için ba! ms z de!i kenler elde edilir. Bu ba! ms z de!i kenler regresyon katsay lar yla birlikte ba! ml
de!i kenlere ili kin de!erleri kestirmek amac yla kullan l r. kinci ad mda kullan lan veri kümesi ise
kestirim ya da test kümesi olarak adland r lmaktad r [3, 6, 8]. Martens ve Naes (1989)’e göre çok
de!i kenli ayarlama yeni analitik ayg tlar n geli mesinde, geleneksel ayg tlar n analitik kapasitelerinin
ve güvenirliklerinin artt r lmas nda, endüstriyel süreç kontrolündeki nicel kimyasal çözümlemelerde
vb. yard mc olmaktad r. Spektroskopinin (spectroscopy) amaçlardan biri, örne!in bir tah l ya da etin
k z l ötesi yans yan spektrumu (NIR/Near Infrared Reflectance) gibi kimyasal birle imini tahmin
etmektir. X de!i kenleri spektroskopik (spectroscopic) ölçümler ve Y de!i kenleri örne!in
konsantrasyon miktarlar iken genelde çok de!i kenli ayarlama, çok de!i kenli regresyon
çözümlemesinin bir uygulama alan olarak görülebilir [6, 7].
2.2. Çoklu DoGrusal Regresyon
y’yi kestirmek için birkaç tane ba! ms z de!i ken oldu!u zaman kullan lan MLR modeli, e itlik
(2)’deki gibi yaz labilir. f hata terimlerinin rasgele oldu!u dü ünülüp, beklenen de!eri s f r ve varyans
da genellikle
2
f
ile gösterilir. E itlik (2)’deki model, do!rusal regresyon modeline benzeyen
eklindeki bir matris biçiminde yaz labilir. Bu modeldeki terimler, e itlik (3)’deki gibi
tan mlan r. X ve y’deki sat r say s olan N, gözlem say s n ve X’deki sütun say s da olan K, ba! ms z
de!i ken say s n göstermektedir.
y = Xb + f
K
y = b0 + " bk x k + f
k =1
(2)
155
y1
y
y= 2 ,
M
yN
f1
f
f= 2 ,
M
fN
1 x 11
1 x 21
x=
M
M
1 x N1
L x 1K
L x 2K
,
O
M
L x NK
b0
b
b= 1
M
bK
(3)
Ayn kitleden gelecek gözlemlerden elde edilen x ölçümlerinden yararlanarak y kestirilmek istenir. Bu
nedenle, f’in art k kareler toplam n minimize eden b 0 ve b regresyon katsay lar bulunur. Böylece
Klasik En Küçük Kareler (OLS/Ordinary Least Squares) yöntemine ili kin çözüm e itlik (4)’deki gibi
elde edilebilir. E itlik (4)’deki, X HX matrisinin tersinin al nabilmesi için X’in sütunlar n n do!rusal
olarak ba! ms z olmas gerekir. E!er ba! ms z de!i kenlerden her biri, N tane gözlem için elde edilen
ortalamay ç kararak merkezle tirilirse, b0’ n tahminini ( y ) di!er K katsay dan ay rmak mümkündür.
Bu durumda katsay lar tahmin etmek için e itlik (4)’ü kullanmadan önce, X matrisinin birlerden
olu an ilk kolonu silinir (di!er kolonlar ndaki x merkezle tirilmi tir) ve b vektöründen de ba taki b0
silinir.
Model
denklemine
b̂
konulursa,
y’nin
kestiricisi
ya
da
tahmini
olan
ŷ = f (X ) = Xb̂ = X(X HX ) X Hy e itli!ine ula l r. b̂ tahmin edicisi, yans zd r ve kovaryans matrisi,
1
2
f
(X HX ) 1
eklinde yaz labilir [6, 7].
b̂ = (X HX ) 1 X Hy
(4)
2.3. Veri S:k:#t:rma Yöntemleri
Bu yakla mda birçok gözlemlenmi de!i kendeki bilgi, LVs’e
(t 1 ,L , t A )H = h 1 (x 1 ,L, x k )H
eklinde s k t r labilir. Daha sonra bu bile enler e itlik (5)’de gösterildi!i üzere, regresyon
denkleminde ba! ms z de!i kenler olarak kullan l r. f terimi, y’nin t = (t 1 , L , t A ) bile enleri
taraf ndan aç klanamayan k sm n temsil etmektedir. A ise, y’yi kestirmek için önemli olan bile en
say s n göstermektedir.
(y1 ,L, y j )H = h 2 (t 1 ,L,t A )H
+fH
(5)
Çok de!i kenli ayarlamada genellikle N<K oldu!undan, her zaman OLS yöntemine dayal standart
MLR ile çözüm elde edilememektedir. Ba! ms z de!i kenler aras nda tam do!rusal ili kilere yol açan
ve tam çokluba!lant olarak da adland r lan bu durumda, e itlik (6)’da gösterildi!i gibi X
de!i kenlerinden daha az say daki T de!i kenlerinin kullan lmas , tahmin edilmesi gereken model
parametrelerinin say s n azaltarak hem istatistiksel ayarlamay hem de sonuçlar n yorumlanmas n
kolayla t rmaktad r. X ve Y merkezle tirildi!inde elde edilen e itlik (7)’deki do!rusal s k t rma
modelini kullanarak, V’nin belirlenmesi ve Q’nun tahmin edilmesinden sonra, Ŷ = XVQ̂ H kestiricisi
elde edilir. X ve Y merkezle tirilmedi!inde ise e itlik (8)’deki do!rusal s k t rma modeli ortaya
ç kmaktad r. Bu modelde, B̂ = VQ̂ H ve b̂ H0 = y H
x HB̂ ’d r [6].
156
T = XV
(6)
Y = TQ H + F
(7)
Ŷ = 1b̂ 0 H + XB̂
(8)
Bir ayarlama modelleme türü olan veri s k t rmay yapmak için çok fazla farkl yöntem mevcuttur. Bu
yöntemler aras ndan seçim, ayarlama problemi hakk ndaki önsel bilgiye dayanmaktad r. Önsel
bilgiden kas t örne!in, ba! ms z de!i kenler aras ndaki ili kilerin düzgünlü!ü olabilir. X ve Y
aras ndaki ili kiler hakk nda çok az önsel bilgi gerektiren esnek yöntemler, “yumu ak modelleme (soft
modelling)” ya da “bilineer yöntemler” olarak adland r labilir. PCR ve PLSR, iki bilineer ayarlama
yöntemidir [6].
2.4. Bilineer Modelleme
Veri s k t rma yöntemleri gibi bilineer yöntemler de, genelde ileri ayarlama yöntemleri olarak
uygulanmaktad r. Y, X’in bir fonksiyonu olarak (T=XV olmak üzere) modellenir. Bilineer yöntemler
ayarlama için kullan lan veriden V’nin elemanlar n n bir çe it OLS tahminini kendileri elde eder.
Bilineer Modelleme (BLM/Bilinear Modelling) ad X’in kendisine X = h 3 (T ) + E biçiminde bir
modelle yak nsamas ndan gelmektedir. Bu model, tahmin edilecek iki do!rusal parametreler kümesi
olan skorlar (T) ve yüklerin (P) bir ürünüdür. Merkezle tirilmi X ve Y de!i kenlerini kullanarak, tam
bilineer ayarlama modeli a a! daki biçimde yaz labilir. Burada, T = XV ’dir. P ve Q matrisleri
s ras yla X’in ve Y’nin T üzerinden regresyon katsay lar n , E ve F art klar ise A bile enli bilineer
yap ile aç klanamayan X ve Y’deki özgün de!i imi temsil etmektedir [6].
X = TP H + E
(9)
Y = TQ H + F
(10)
Bilineer ayarlama yöntemlerinde merkezle tirilmi X ve Y için elde edilen bilineer modelin
parametrelerinin tahmini ve kestirimi a a! daki ekilde gösterilebilir.
Ayarlama:
V̂ = f (X, Y ) , V̂ belirlenir.
T̂ = XV̂ , T̂ hesaplan r.
X = T̂P H + E ;5
< P̂, Q̂, Ê ve F̂ hesaplan r.
Y = T̂QH + F5=
157
Tam kestirim:
t̂ Hi = x Hi V̂ , t̂ i hesaplan r.
ŷ Hi = t̂ Hi Q̂H , ŷ i hesaplan r.
êHi = x Hi
t̂ Hi P̂ H , ê i art klar hesaplan r.
Yeni bir gözlem için x i ölçümlerinden bilinmeyen y i ’nin ard k kestirimi, “tam kestirim” ve “k sa
kestirim” olmak üzere iki yolla yap labilir. Bu yöntemler, benzer ŷ ij kestirimleri verirken bir taraftan
da farkl miktarlarda bilgi verir. Her iki yöntem için de x girdi ölçümleri ile ŷ ij ç kt kestirimleri,
ayarlama öncesinde do!rusalla t rma ve önsel ölçeklendirmelerle dönü türülmelidir. “Tam kestirim”
en çok bilgilendirici kestirim tekni!i olarak ŷ i ’lar yeni t̂ Hi = t̂ i1 ,L, t̂ iA bile enlerini kullanarak
(
)
hesaplamakt r. Buna göre, her bir x i girdi vektörü ayarlamada oldu!u gibi ilk olarak ortalama için
düzeltilir. Daha sonra merkezle tirilmi X vektörü V̂ ile çarp larak, t̂ Hi = (x Hi
x H)V̂
eklinde
bile enler elde edilir. Daha sonra bu bile enler Q̂ ile çarp l p y’nin ortalamas eklenir ve
ŷ Hi = y H + t̂ Hi Q̂H kestiricisi elde edilir. Seçenek olarak “k sa kestirim” tekni!inde merkezle tirilmemi
x i ’ye dayal merkezle tirilmemi y i ’in bilineer kestirimi, x i ’in do!rusal bir fonksiyonu olarak
ŷHi = b̂ H0 + x Hi B̂ eklinde ifade edilebilir. Burada B̂ = V̂Q̂H ve b̂H0 = yH x HB̂ ’d r [6].
2.5. Temel Bile#enler Regresyonu
PCR ad , V̂ a! rl klar n belirlemek için X’in Temel Bile enler Analizi’nin (PCA/Principal
Component Analysis) kullan lmas ndan kaynaklanmaktad r. PCR’de ilk önce X’e ili kin temel
bile enler (PCs/principal components) hesaplan r ve sonra e itlik (10)’daki regresyon denkleminde
sadece bir kaç kullan l r. X’in do!rusal birle imi olan T̂ ’daki bile enler, X’in en bask n A tane
PC’sinden olu ur. E!er N>K ise, hesaplanabilecek maksimum bile en say s ba! ms z de!i ken
say s na e ittir. Genellikle X de!i kenleri ili kili oldu!undan, ideal bile en say s K’dan daha azd r.
PCR’de a! rl k matrisi V̂ ve yük matrisi P̂ benzer oldu!undan, P̂ her ikisini de temsil etmek için
kullan labilir [6, 7]. Merkezle tirilmi X matrisi, e itlik (11)’deki gibi yaz labilir. Bu e itlikteki PCs,
X HX matrisinin özvektör ayr m n kullanarak hesaplanabilir. P̂ ’n n sütunlar , X HX matrisinin birim
uzunlu!undaki özvektörleridir. Bile enler matrisi, T̂ = XP̂ çözümünü verecek ekilde X’i P̂ üzerinde
döndürerek bulunabilir. X HX ’in özde!erleri, T̂ ’n n kolonlar n n kareler toplam na e ittir. lk A tane
PC en büyük özde!ere sahip A tane özvektöre denktir. Buna göre regresyon denklemi ise, e itlik
(12)’de oldu!u gibi T̂ ’y X yerine kullanarak yaz labilir. q’daki regresyon katsay lar , klasik OLS ile
tahmin edilebilir [7].
X = T̂P̂ H + Ê
(11)
y = T̂q + f
(12)
158
Yeni gözlemler için y’yi kestirmek, iki e de!er yolla yap labilir. lk yöntemde, t̂ H = x HP̂ formülünü
kullanarak her bir gözlem için t̂ hesaplan r. Daha sonra e itlik (12)’ye uygun olarak t̂ , kestirim
denklemi ŷ = y + t̂ Hq̂ ’da kullan l r ve ŷ = y + xHP̂q̂ e itli!ini verir. Bir di!er yöntem ise do!rudan
ŷ = y + x Hb̂ do!rusal kestiricisini kullanmakt r. Böylece regresyon katsay vektörü b̂ = P̂q̂ olarak
hesaplan r. Her iki yöntemde de X matrisi merkezle tirildi!inden kesim noktas y ’ya e ittir. PCR
yöntemi bile enleri y hakk ndaki bilgiyi kullanmadan sadece X’deki de!i kenli!i aç klamadaki
yeteneklerine göre seçti!inden, bile enlerden baz lar n n y’yi kestirmek için çok az yetene!e sahip
olma riski vard r [6, 7].
2.6. K:smi En Küçük Kareler Regresyonu
PCR yönteminin aksine, PLS yöntemi tahmin yaparken do!rudan hem X hem de y’deki bilgiden
yararlanarak belirlenen ve böylece y’deki de!i kenlik ile do!rudan ba!lant l olan bile enleri PC’ler
olarak kullan r. Yani, PLSR için her bir bile en y ve x’in tüm do!rusal fonksiyonlar aras ndaki
kovaryans maksimize ederek elde edilir. lk PLS bile eninin yönü olan ve yük a! rl k vektörü olarak
adland r lan ŵ 1 , kovaryans ölçütünü maksimize ederek elde edilir. Birim uzunlu!a sahip ŵ 1
vektörünü kullanarak ilk bile en, t̂ 1 = Xŵ 1 eklinde hesaplan r. Daha sonra p̂1 yük vektörünü elde
etmek için, X’deki tüm de!i kenler t̂ 1 üzerinde döndürülür. Benzer olarak q̂1 regresyon katsay lar da
y’yi t̂ 1 üzerinde döndürerek elde edilir. kinci yön ŵ 2 ise, birincisiyle benzer bir yolla bulunur.
Ancak ilk bile enin elde edilmesinden sonra X’den, t̂ 1p̂1 ve y’den, t̂ 1q̂1 ç kar l r ve böylece ikinci
bile eni elde etmek için özgün veri yerine art klar kullan l r. Bile enlerin hesapland ! bu süreç,
istenilen bile en say s elde edilene kadar ayn ekilde devam eder. PCR’de sadece bir küme yük
varken, PLSR’de birbirine e it olmayan Ŵ yük a! rl klar ve P̂ yükleri vard r. PLSR’deki yük
a! rl k vektörleri ve bile enler birbirine dik olurken, yük vektörleri de!ildir. P̂ matrisi ve q̂ vektörü,
PCR yöntemindeki gibi X ve y’yi en son PLSR bile en matrisi T̂ üzerinde döndürerek elde edilebilir.
Böylece PLSR yönteminde kullan lan regresyon katsay vektörü e itlik (13)’deki gibi hesaplanabilir
[7].
( )
b̂ = Ŵ P̂ HŴ
(13)
1
q̂
( )
E itlik (13)’den de görüldü!ü üzere PLSR için V̂ matrisi, V̂ = Ŵ P̂HŴ
1
eklinde yaz labilir. PLSR
skorlar n n dik olmas arzuland ! nda PLSR için elde edilen bu V̂ matrisinin, PCR için elde edilen V̂
matrisine k yasla yorumlanmas n n biraz daha zor oldu!u görülmektedir [6].
2.6.1. Non-linear Iterative Partial Least Squares Algoritmas:
PLSR’nin temel algoritmas olan Non-linear Iterative Partial Least Squares (NIPALS) algoritmas n n
ad mlar a a! daki gibi gösterilebilir. Algoritma iste!e ba!l olarak dönü türülmü , ölçeklendirilmi ve
merkezle tirilmi özgün X ve Y ile ba lar.
A. Genellikle, Y’nin kolonlar ndan biri olan bir ba lang ç vektörü, u ile ba lar. Tek bir y
de!i keni oldu!unda, u=y’dir.
B. X a! rl klar w: w = X Hu / u Hu ’dur (burada w de!i tirilebilir). w, w = 1.0
uzunlu!unda olmas için ölçeklendirilir.
159
eklinde bir
C. X skorlar olan t hesaplan r: t = Xw .
D. Y a! rl klar , c: c = Y Ht / t Ht ’d r. c, bir uzunlu!una sahip olmas için ölçeklendirilir.
E. Son olarak, Y skorlar n n güncellenmi bir kümesi, u: u = Y Hc / cHc bulunur.
F. t’deki de!i imden yararlanarak, yak nsakl k test edilir. Örne!in, t eski
t yeni / t yeni < ) ’d r.
Burada }, 10 6 ya da 10 8 aras nda küçük bir de!erdir. E!er yak nsakl k sa!lanmazsa B’ye
dönülür, sa!lan rsa G ile ve daha sonra tekrar A ile devam edilir. E!er tek bir y de!i keni
varsa, süreç tek bir yinelemede yak nsar. Daha sonra ise, do!rudan G ile devam eder.
G. X ve Y’den, hali haz rdaki bile en ç kar l r. Bu indirgenmi matrisler, bir sonraki bile ende X
ve Y olarak kullan l r.
X yükleri: p = X Ht / (t Ht )
Y yükleri: q = Y Hu / (u Hu )
Regresyon (t üzerine u’nun): b = u Ht / (t Ht )
Art k Matrisleri: X * X
tp H ve Y * Y btcH
H. Çapraz geçerlik yöntemi, X’de Y hakk nda daha fazla önemli bilgi olmad ! n gösterene kadar
bir sonraki bile enle devam edilir (ad m A’ya geri dönülür).
Algoritmadan da görüldü!ü gibi bir sonraki yineleme, bir önceki yinelemeden elde edilen art k
matrisleri olan yeni X ve Y matrisleri ile ba lamaktad r. Yinelemelere, bir durdurma ölçütü kullan lana
kadar ya da X s f r matrisi olana kadar devam edilebilir [12].
2.7. Modelin GeçerliGinin ncelenmesi
Modelin geçerli!i, modelin amaçlanan kullan m ortam nda ba ar l bir ekilde kullan l p
kullan lamayaca! n n belirlenmesine yönelik bir kavramd r. Bir modelin geçerli oldu!unun en iyi
göstergesi, yeni X de!i kenleriyle beraber gözlemlerin Y de!erlerini tutarl ve do!ru bir ekilde
kestirmesidir. Ancak, ba! ms z ve tipik bir geçerlik kümesine ender sahip olunur. Gerçek bir geçerlik
kümesinin yoklu!unda modelin geçerlili!inin incelenmesinin mant kl yöntemi çapraz geçerlik
(CV/cross-validation) ile verilmektedir [12]. Eldeki verilere en uygun olacak ekilde ve yeni
gözlemlerin kestirimi için geli tirilmi olan bir model, yeni gözlemlerin kestiriminde her zaman çok
iyi sonuçlar vermeyebilir. Bunun nedeni, modelin sadece eldeki verilere en iyi uyacak ekilde
olu turulmas d r. Bu ekilde olu turulan bir modelin de, yeni veriler girildi!inde do!al olarak
beklenenden daha kötü bir kestirim performans gösterme olas l ! yüksektir [11].
2.7.1. Ayarlama kümesine dayal: geçerlik
Kestirim hatas n n deneysel bir tahmini e itlik (14)’de gösterildi!i üzere, ayarlaman n hata kareler
ortalamas n n kareköküdür (RMSEC/root mean square error of calibration). Bu e itlikteki ŷ ’lar,
ayarlama denklemini do!rudan ayarlama verisi üzerinde test ederek elde edilir. Ancak bu hata
tahminiyle ilgili problem, onun bir kestirimin hatas de!il esas olarak model hatas n n bir tahmini
olmas d r. Bu durumda b̂ regresyon katsay lar n n tahmin hatalar dikkate al nmamaktad r. Bundan
dolay RMSEC, yüksek bir derecede kestirim yetene!inin çok iyimser bir tahmini olabilir. Özellikle
160
çok fazla ba! ms z de!i ken ya da PLS/PCR bile eni olan modeller için RMSEC ve gerçek kestirim
hatas aras ndaki fark çok büyük olabilir [7].
RMSEC =
N
" (ŷ
i =1
y i ) / (N A 1)
2
i
(14)
2.7.2. Kestirim testi
Yeni veri için referans de!erleri bilindi!i sürece model yeni bir veriye uyguland ! nda e itlik (15)’de
gösterildi!i gibi kestirimin hata kareler ortalamas n n karekökünü (RMSEP/root mean square error of
prediction) hesaplamak mümkündür. RMSEP’de y i tahminleri, önceden olu turulmu ve kestirim için
kullan lan gözlemlerin dâhil edilmedi!i modele dayan r. Ayarlamadaki kullan m bak m ndan kestirim
testi (prediction testing) veri kümesini, biri model boyutunun seçimi için “ayarlama” ve di!eri de
kestiricinin ba ar s n n daha objektif bir testi için “geçerlik/test (validation/testing)” için olmak üzere
iki kümeye ay rmaya dayan r. ŷ i ve yi s ras yla, test kümesindeki gözlemler için kestirilen ve ölçülen
de!erleri göstermektedir. Np ise, test kümesindeki gözlemlerin say s d r. Kestirim testinde, tüm katsay
tahminleri çoktan hesaplanm olarak kullan lan gerçek kestiricinin kestirim yetene!i tahmin
edildi!inden kavramsal olarak en basit geçerlik yöntemidir. Bir ayarlama modelinin farkl test
kümeleri için ve test etmek için kullan lan gözlemlerin say s na da ba!l olarak, kestirim yetene!i
bak m ndan farkl özellikler gösterece!ini vurgulamak önemlidir [7].
RMSEP =
Np
" (ŷ
i =1
yi ) / N p
2
i
(15)
2.7.3. Çapraz geçerlik
CV yönteminin temelinde de, veri kümesinin iki farkl gruba ayr l p bu gruplardan birinin “çal ma
kümesi” olarak modeli olu turmak, di!erinin ise “test kümesi” olarak elde edilen modelin kestirim
performans n n ara t r lmas için kullan lmas yatmaktad r. Ancak CV yöntemi için test kümesindeki
gözlemler, kestirim testindekinden farkl olarak, do!rudan çal ma kümesinden çe itli yöntemlerle
elde edilmektedir. Ayarlamada da CV, sadece ayarlama denklemine dayal bir geçerlik tekni!idir.
Ayarlama için kullan lmayan veri üzerinde kestiricileri test etti!i için, kestirim testi yöntemine
benzerdir. Ancak CV yönteminde bu, ayarlama kümesinden art arda birbirini izleyerek gözlemlerin
silinmesiyle yap l r. En son modelde kalacak bile en say s , genellikle bir CV süreciyle, kestirilen
tahmin hatas n minimize ederek seçilir. Modelin yeni gözlemleri kestirme yetene!ini gösteren çapraz
geçerli!in hata kareler ortalamas n n karekökü (RMSECV/root mean square error of cross-validation)
e itlik (16)’daki gibi elde edilebilir. Burada ŷ CV ,i , i. gözlem silindikten sonra yi için ayarlama
denklemine dayal tahmindir. Bir ba ka ifadeyle, ŷ CV ,i ’ler model formülünde yer almayan gözlemler
için kestirimdir. CV denildi!inde ilk ve belki de tek akla gelen yöntem, birini-d ar da-b rakma çapraz
geçerlik (LOOCV/leave-one-out cross-validation) yöntemidir. LOOCV, her seferde bir gözlemi model
olu umundan ç kararak ve bir kez kestirerek CV’yi yerine getirmektedir [7, 11].
161
N
RMSECV =
" (ŷ
i =1
yi )
2
CV ,i
N
(16)
Tam (full) CV yöntemi olarak da bilinen LOOCV yöntemine bir seçenek, gözlemlerden olu turulan
parçalar silmektir. Böylece daha az say da ayarlama yap lmak zorunda olunaca! ndan, yöntem
bilgisayarda daha h zl çal r. Bu nedenle, veri kümesinde uygun yap lar varsa parçalanm
(segmented) CV çok faydal olabilir [7]. LOOCV yöntemine iyi bir seçenek olan “venetian blinds” CV
yöntemi, PLSR’de yak n zamanda s kl kla uygulanmaya ba lanm t r. Bu yöntemde veri, “venetian
blinds” yöntemiyle birkaç gruba bölünür. Bu yakla mda veri rasgele parçalara bölünmez, her bir k.
gözlem al narak alt kümeler olu turulur. k ise alt küme say s n göstermektedir. Elde edilen k alt
kümeden birisi geçerlik analizi için d ar da b rak l p, geriye kalan (k 1) alt küme modelin
olu turulmas için kullan l r. Elde edilen modelin kestirim performans d ar da b rak lan k- nc alt
küme kullan larak de!erlendirilir. Bu i lem, bütün alt kümeler bir kez d ar da b rak lana kadar
yinelenir ve son geçerlik ölçütünü elde etmek üzere bulunan hatalar n ortalamas al n r. E!er yeteri
kadar gözlem varsa bu yöntem basit, uygulamak için kolay ve genellikle güvenilirdir. Bu yöntem için
olu turulacak alt küme say s PLS_Toolbox’da otomatik olarak gözlem say s n n kareköküne yak n
tamsay olarak seçilir. Örne!in bu çal mada ayarlamada kullan lan 12 gözlemli veri kümesi, her
birinde 4 gözlem olan 3 alt gruba bölünsün. Böylece “venetian blinds” seçimini yaparak her bir
gruptaki gözlemler a a! daki ekilde olacakt r [11].
Küme 1: 1, 4, 7, 10
Küme 2: 2, 5, 8, 11
Küme 3: 3, 6, 9, 12
3. Ridge Regresyon
Çokluba!lant durumunda, yans z OLS tahminleri varyanslar büyüdü!ünden gerçek de!erlerinden
uzakla abilmektedir. RR analizinde, X HX matrisinin kö egen de!erlerine küçük bir yanl l k sabiti (k)
eklenerek varyanslar küçültülerek daha dura!an sonuçlar elde edilebilmektedir. RR ile bir taraftan
tahminlerin varyanslar azalt lmakta, di!er taraftan ise bu katsay (k) oran nda yanl tahminler elde
edilmektedir. k 8 0 olmak üzere klasik ridge tahmin edicisi e itlik (17)’deki gibi gösterilebilir ve bu
e itlikten, W = W (k ) = [X HX + kI] oldu!u görülmektedir. Bir ridge tahmin edicisinin bir OLS
tahmin edicisiyle olan ili kisi ise, e itlik (18)’deki gibi gösterilebilir. Bu e itlikten de,
1
[
Z = Z(k ) = I + k (X HX )
eklinde
ˆ(
yaz l r
= (X HX + kI )
olarak Z, Z = I
1
]
ve
1
oldu!u görülmektedir. Ridge tahmin edicisi ˆ ( = (X HX + kI ) X HX ˆ
X HX ’ye,
kI
terimi
bir
eklenip
bir
ç kar l rsa
1
[(X HX + kI) kI]ˆ = [I k(X HX + kI ) 1 ]ˆ = Z ˆ elde edilir. Bu nedenle seçenek
k (X HX + kI ) 1 = I kW eklinde de yaz labilir. E itlik (18)’deki denklemin her iki
1
( )
taraf n n beklenen de!eri al nd ! nda E ˆ * = Z elde edilir ve böylece ˆ * ’ n, {’n n yanl bir tahmini
oldu!u aç kça görülür. ˆ ( ’ n varyans-kovaryans matrisi ise, e itlik (19)’daki gibi elde edilir. k = 0
oldu!unda, ridge tahmin edicisi ˆ * OLS tahmin edicisi {’ya e it olur [5, 9, 13].
ˆ ( = ˆ * (k ) = [X HX + kI] 1 X HY = WX HY
(17)
162
[
ˆ ( = (X HX + kI ) 1 X HY = (X HX + kI ) 1 X HX(X HX ) 1 X HY = (X HX )
[
= I + k (X HX )
(18)
( )
1
]
1
1
(XHX + kI)]
1
ˆ
ˆ = Zˆ
( )
()
Var ˆ * = Var Z ˆ = Z 2 Var ˆ
[
= (X HX + kI )
2
=
1
(XHX )]
2
() [
Var ˆ = (X HX + kI )
1
(XHX )]
2
2
(X HX ) 1
(XHX + kI) 1 (XHX )(XHX + kI) 1
(19)
OLS gibi yans z bir tahmin ediciyi seçenek yanl bir tahmin edici ile kar la t rmak için hata kareler
ortalamaya (MSE/mean square error) bak l r. Ridge tahmin edicisi için Yan ˆ * ve MSE ˆ *
de!erleri s ras yla, e itlik (20) ve e itlik (21)’deki gibi elde edilir [13]. D1 , D 2 , L , D p , X HX
matrisinin özde!erleridir. E itlik (21)’in sa! taraf ndaki ilk terim, ˆ ( ’daki regresyon katsay
( )
( )
tahminlerinin varyanslar n n toplam olarak gösterilebilir. kinci terim ise yan de!erinin karesidir ve
k=0 olursa, s f ra e it olur. k > 0 ise ˆ ( yanl olur ve k artarken yan de!eri de artar. Ancak k artarken
yan de!erindeki art n tam aksine, toplam varyans azalacakt r. RR’de, yan de!erindeki art n toplam
varyanstaki dü ü ü a mayaca! bir k de!erini seçmek amaçlan r [2, 5, 10].
( ) ( )
Yan ˆ * = E ˆ *
=
[
k (X HX + kI )
[
1
]
=
[ (1
]
= (1 k (X HX + kI ) 1 ) 1 = k (X HX + kI )
(20)
( ) (
MSE ˆ * = E ˆ *
2
=
=
=
2
2
)
2
( ) [( ) ]
= Var ˆ * + E ˆ *
2
[
1
1
)]
1
( ) [ ( )]
= Var ˆ * + Yan ˆ *
(X HX + kI ) 1 (X HX )(X HX + kI ) 1 + [
z (X HX + kI )
k (X HX + kI )
k (X HX + kI )
2
]
1 2
(X HX )(X HX + kI) 1 ] + k 2 H(XHX + kI ) 2
p
" D i /(D i + k )2 + k 2 H(XHX + kI) 2
i =1
(21)
RR’de amaç, k’y tahmin edicinin MSE de!erini en küçük yapacak ekilde seçmektir. Ancak do!al
olarak ba lang çta MSE de!erini de!erlendirmek mümkün olmad ! ndan, k’n n seçimi biraz özneldir.
Genellikle k s f ra çok yak n bir de!erdir ( k ! 0.1 ). k’ya karar vermenin en eski yollar ndan biri ridge
163
izidir. Ridge izi, 0-1 aral ! ndaki k de!erlerine kar yine bu de!erler için bulunan ˆ ( regresyon
katsay tahminlerinin çizimi ile elde edilen grafi!e denir. E!er çokluba!lant ciddi bir sorun ise ridge
tahmin edicileri, k’n n küçük de!erleri için h zl de!i ecek ve büyük de!erleri için ise yava yava
kararl hale gelecektir. Katsay lar n sabitle ti!i k de!erinde ˆ ( sonunda kararl bir hale gelecektir.
Ridge izinin en pozitif özelli!i veriye dayal ve pratik olmas d r [2, 5, 9].
Hoerl, Kennard ve Baldwin (1975), k’y seçmek için bir ölçüt olarak e itlik (22)’nin kullan lmas n
önermektedir. Bu e itlikte p, 0 ’ n hariç tutuldu!u regresyon katsay s say s n , s 2 ise OLS
yönteminde (k=0) tahmin edilen art k kare ortalamas n göstermektedir. E itlik (22)’in paydas ;
merkezle tirilmi ve ölçeklendirilmi ba! ms z de!i kenlerden hesaplanan, sabit terimin hariç
tutuldu!u, klasik OLS regresyon katsay lar ˆ (0 ) ’lar n kareler toplam n göstermektedir. Van
Nostrand (1980)’a göre ridge izinde kararl l ! n ne oldu!una karar vermek öznel ve k’n n seçimi keyfi
oldu!undan, ridge izine dayal olarak k’y seçerken k’n n çok büyük bir de!erini seçmeye yönelik bir
e!ilim vard r. Bu nedenle, e itlik (22) ile belirlenen k de!erini kullanmak daha iyi olabilir [9].
k = ps 2 / ˆ (0)H ˆ (0)
(22)
RR ile elde edilen tahmin ediciler yanl d r. Ancak, OLS tahmin edicilerinden daha küçük MSE’ye
sahiptir. Bu özellikten dolay ridge yöntemiyle tahmin edilen katsay de!erlerinin, OLS tahminlerine
göre regresyon katsay lar n n gerçek de!erlerine daha yak n olmalar beklenmektedir. Ridge tahmin
edicileri, verideki küçük de!i ikliklerden fazla etkilenmedikleri için kararl d r [5].
leri ayarlama modeli y = b 0 +
K
" x k b k + f ’ye dayal
MLR’deki çokluba!lant problemini çözmek
k =1
için kullan lan yöntemlerden biri de RR’dir. RR ile PCR aras nda benzerlik olmas na ra!men, RR veri
s k t rmayla tan mlanamamaktad r. PCR daha küçük özvektörlerin etkilerini silerken, RR sadece
onlar n etkilerini azaltmaktad r. Literatürdeki baz uygulamalarda RR’nin mant kl bir k seçildi!inde
kestirim bak m ndan PCR’ye üstün oldu!u gösterilmi tir [6].
4. Uygulama
Bu uygulamada kullan lan veri, yer bu!day gözlemlerindeki protein içeri!inin ölçümü için bir NIR
yans ma arac yla ayarlama yapmak için yerine getirilmi bir deneyin sonuçlar d r. 24 gözlemli
ayarlama kümesi ve ayarlamay test etmek için 26 gözlemli ba ka bir test kümesi elde edilmi tir.
Verideki L1-L6 aras ndaki alt de!er, 1680-2310 nm aral ! ndaki alt farkl dalga boyunda bu!day
gözlemlerine ili kin NIR radyasyonunun yans mas n n ölçümleridir. Bu ölçümler bir log (1/R)
ölçe!inde yap l r. Burada R bir yans mad r ve ço!unlukla bu ölçümler “log de!erleri” olarak
adland r l r. Bu veri kümesi için yap lan ayarlamada amaç, protein içeri!ini kestiren log de!erlerinin
do!rusal bir birle imini bulmakt r. Daha sonra katsay lar, ölçümü yapan aletin içine programlanabilir
ve böylece gelecekteki bilinmeyen gözlemlerin protein içeri!i do!rudan okunabilir [4]. Bu
uygulamada, Naes ve Martens (1985) ile Stone ve Brooks (1990) çal malar dikkate al narak ilk 12
gözlem ayarlama kümesi olarak kullan l r ve modeller kurulur. Daha sonra ayarlama kümesine ili kin
son 12 gözlemi ve 26 gözlemli test kümesini kullanarak, geçerlik incelemeleri yap l r.
Ayarlama kümesi için % 95 geleneksel anlaml l k düzeyinde MLR modelinin anlaml oldu!u
görülmektedir (F=66.08; p=0.000). Ancak, VIF (VIF1=1155.6, VIF2=565.1, VIF3=1066.3,
VIF4=576.4, VIF5=16.0, VIF6=83.1) de!erlerinin neredeyse hepsi 10’nun çok üstünde oldu!u için
güçlü bir çokluba!lant dan bahsedilebilir. Güçlü çokluba!lant regresyon sonuçlar nda belirsizliklere
ve zay f tahmin ba ar s na yol açabilir.
164
Çokluba!lant n n etkisini gidermek için veri kümesi üzerinde RR, PCR ve PLSR yöntemleri
uygulan r. RMSEC, RMSECV ve RMSEP istatistiklerini kullanarak modellerin kullan lan veri
kümesine uyumu ve kestirim gücü hem birbirleriyle hem de MLR ile kar la t r l r. Bu uygulamadaki
veri kümesi, öncelikle standartla t r l r. RMSECV de!erlerini hesaplamak için “venetian blinds” CV
yöntemi kullan l r ve alt küme say s üç olarak belirlenir.
Bekil 1. PCR yöntemine ili kin RMSECV grafi!i.
rekil 1’e göre PCR için modelde kalacak maksimum PC say s , be olarak seçilebilir. Çizelge 1’deki
varyans yakalama yüzdelerine bak ld ! nda hem X hem de Y için be bile en taraf ndan aç klanan
varyans oran çok yüksektir. PCR’deki be PC, ba! ms z de!i kenlerdeki varyans n % 99.99’unu ve
ba! ml de!i kendeki de!i imin % 98’ni aç klamaktad r.
Çizelge 1. PCR kullanarak regresyon modeli taraf ndan yakalanan varyans yüzdesi.
X blo!u
Y blo!u
PC
PC
Toplam
PC
Toplam
1
92.40
92.40
0.00
0.00
2
4.54
96.93
18.74
18.74
3
2.26
99.19
75.85
94.58
4
0.79
99.98
2.66
97.24
5
0.02
99.99
0.76
98.00
6
0.01
100.00
0.75
98.75
165
Bekil 2. PLSR yöntemine ili kin RMSECV grafi!i.
PLSR için modelde kalacak ideal LV say s na karar vermek için rekil 2’ye bak l r. Hem rekil 2 hem
de Çizelge 2’ye göre, PLSR için modelde kalacak maksimum LV say s dört olarak seçilebilir. Dört
LV’li PLSR taraf ndan yakalanan varyans oran n görmek için Çizelge 2’ye bak l r. Çizelge 2’ye göre
dört LV, ba! ms z de!i kenlerdeki varyans n % 99.98’ini ve ba! ml de!i kendeki de!i imin %
97.31’ni aç klamaktad r.
Çizelge 2. PLSR kullanarak regresyon modeli taraf ndan yakalanan varyans yüzdesi.
X blo!u
Y blo!u
LV
LV
Toplam
LV
Toplam
1
4.68
4.68
85.07
85.07
2
90.09
94.77
2.01
87.08
3
4.40
99.17
9.44
96.52
4
0.81
99.98
0.79
97.31
5
0.01
99.99
1.25
98.56
6
0.01
100.00
0.19
98.75
rekil 3’de gösterildi!i üzere “ ” simgesi ile gösterilen ridge parametresi k, Hoerl, Kennard ve
Baldwin (1975)’nin yöntemini kullanarak k=0.000456412 olarak belirlenir. Bu de!er RR analizinde
kullan lan “ridge” komutu yard m yla otomatik olarak hesaplanmaktad r.
166
Bekil 3. RR yöntemine ili kin Ridge zi.
Çizelge 3’deki RMSEP1, 12 gözlemli test kümesi ve RMSEP2 ise, 26 gözlemli test kümesi içindir.
Çizelge 3’den de görüldü!ü üzere, veriye uyum bak m ndan en iyi modeller s ras yla MLR ve RR’dir.
RMSECV bak m ndan en iyi modeller, s ras yla RR ve PCR’dir. RMSEP1 bak m ndan en iyi
modeller, s ras yla PLSR ve RR’dir. RMSEP2 bak m ndan en iyi modeller ise s ras yla PLSR ve
PCR’dir. Bu uygulama için, kestirim bak m ndan yanl regresyon yöntemlerinin MLR yönteminden
çok daha iyi sonuçlar verdi!ini söylemek mümkündür. 12 gözlemli ve 26 gözlemli test kümeleri için
modeller hemen hemen benzer kestim sonuçlar vermektedir. Ancak 12 gözlem kullan ld ! nda RR
kestirim bak m ndan PCR’den daha iyi sonuç verirken, 26 gözlem kullan ld ! nda PCR kestirim
bak m ndan RR’den daha ba ar l d r.
Çizelge 3. Tüm kestirim yöntemlerine ili kin RMSEC, RMSECV ve RMSEP de!erleri.
MLR
PCR (5 PC)
PLSR (4 LV)
RR
RMSEC
0.148051*
0.187582
0.217569
0.1641
RMSECV
0.619912
0.489013
0.519267
0.3150*
RMSEP1
0.607359
0.511108
0.347677*
0.4866
RMSEP2
0.833289
0.448338
0.279457*
0.5191
5. Sonuç ve öneriler
Bir ayarlama denklemi hesapland ktan sonra bilinmeyen y de!erlerini kestirme yetene!inin
belirlenmesi artt r. Özellikle ayarlama yöntemleri aras ndan bir seçim yaparken ve modelde
kullan lacak bile en say s na karar verirken, ayarlama denkleminin kestirim yetene!inin test edilmesi
önemli olmaktad r. Bu çal mada literatürde kullan lan kimyasal bir veri kümesi kullan larak MLR,
PCR, PLSR, RR modelleri düzenlendi, daha sonra bu modeller uyum ve kestirim bak m ndan
kar la t r ld . Sonuç olarak, MLR ve RR modellerinin veriye daha iyi uydu!unu ve kestirim
bak m ndan ise yanl regresyon yöntemlerinin MLR yönteminden çok daha iyi sonuçlar verdi!ini
167
söylemek mümkündür. Bir modelde daha az bile en olmas yorumlamay kolayla t rmaktad r.
Bu nedenle hem daha az say da bile ene hem de en küçük RMSEP de!erlerine sahip oldu!u
için, kestirim bak m ndan PLSR yöntemi di!er yöntemlere tercih edilebilir. ki test kümesi
için PCR ve RR yöntemlerinin kestirim ba ar lar ndaki s ralamalar de!i mektedir. Bu nedenle
bu örnekten de görülece!i üzere, bir ayarlama modeli farkl test kümeleri için ya da test etmek
amac yla kullan lan gözlemlerin say s na ba!l olarak, kestirim bak m ndan farkl özellikler de
gösterebilir.
Kaynaklar
[1] K. R. Bebe et al., (1998), Chemometrics: A Pratical Guide, John Wiley & Sons, Inc. New York.
[2] S. Chatterjee, B. Price, (1991), Regression Analysis by Example (2nd Edition), John Wiley & Sons, Inc. New
York.
[3] G. Çakar, (1994), Regresyon Çözümlemesinde Ayarlama (Kalibrasyon) Problemlerinin ncelenmesi, Bilim
Uzmanl ! Tezi, Hacettepe Üniversitesi Fen Bilimleri Enstitüsü, Ankara.
[4] T. Fearn, (1983), A Misuse of Ridge Regression in the Calibration of a Near Infrared Reflectance Instrument,
Applied Statistics, 32 (1), 73-79.
[5] A. E. Hoerl, R. W. Kennard, (1970a), Ridge Regression: Biased Estimation for Nonorthogonal Problems,
Technometrics, 12(1), 55-67.
[6] H. Martens, T. Naes, (1989), Multivariate Calibration, John Wiley & Sons, Chichester, New York, Brisbane,
Toronto, Singapore.
[7] T. Naes et al., (2002), A User-Friendly Guide to Multivariate Calibration and Classification, NIR
Publications Chichester, UK.
[8] Ö. Özyurt, (2002), Do/rusal Regresyonda Çok De/i kenli Ayarlama (Kalibrasyon) Sorunu, Bilim
Uzmanl,/, Tezi, Hacettepe Üniversitesi Fen Bilimleri Enstitüsü, Ankara.
[9] J. O. Rawlings, (1988), Applied Regression Analysis: A Research Tool, Wadsworth & Brooks/Cole
Advanced Books & Software, Pacific Grove, California.
[10] P. T. Ryan, (1997), Modern Regression Methods, John Wiley & Sons, New York.
[11] A. K. Uluda!, (2005), DoGrusal Regresyon Modellerinde Çapraz Geçerlik Yöntemleri, Yüksek Lisans Tezi,
Hacettepe Üniversitesi Sa!l k Bilimleri Enstitüsü Biyoistatistik Program , Ankara.
[12] S. Wold et al., (2001), PLS-regression: a basic tool of chemometrics, Chemometrics and Intelligent
Laboratory Systems, 58, 109-130.
[13] E. Yavuz, (2004), Çoklu BaG:nt:l: DoGrusal Modellerde Ridge Regresyon Yöntemi, Yüksek Lisans Tezi,
Trakya Üniversitesi Sa!l k Bilimleri Enstitüsü Biyoistatistik Anabilim Dal , Edirne.
168
Bootstrap Yönteminin Regresyon Analizinde
Kullan m ve Di!er Yöntemlerle Kar la t r lmas
Hakan Sava Sazak
Duygu Okutan
Ege Üniversitesi
Ege Üniversitesi
Fen Fakültesi, statistik Bölümü
35100-Bornova, zmir, Türkiye
[email protected]
Fen Fakültesi, statistik Bölümü
35100-Bornova, zmir, Türkiye
[email protected]
Özet
Orijinal veri setinden yeniden örnekleme yapan yöntemlerin (yeniden örnekleme yöntemleri) bir çe#idi
olan bootstrap, parametre tahmin edicisinin standart hatas:n: tahmin etmede, özellikle tahminci
kompleks ise ve standart yakla#:m:n uygun olmad:G: zaman veya çok kusurlu olduGunda kullan:l:r.
Regresyonda ise baz: uygulamalarda belli ba#l: varsay:mlar geçersiz olabilir. Bu durumlarda bootstrap,
özellikle regresyon modelindeki parametrelerin kompleks tahmincilerinin varyans:n: bulmada yard:mc:
olur. Bootstrap, baz: özel daG:l:mlar:n doGrusal regresyon modeli için Uyarlanm:# En Çok Olabilirlik
(MML) tahmin edicisi ve klasik En Küçük Kareler (LS) tahmin edicisinin varyans:n: tahmin etmede
kullan:ld:. Kar#:la#t:rma yapmak amac:yla deGi#ik daG:l:m modelleri alt:nda klasik ve tahmin edilmi#
varyanslara dayal: güven aral:klar: simüle edilip güç deGerleri kar#:la#t:r:ld:. Sonuçlara göre
regresyonda bootstrap yönteminin kullan:m:n:n daha gerçekçi sonuçlar verebileceGi görülmektedir.
Anahtar sözcükler: Bootstrap; regresyon; Uzun kuyruklu simetrik daG:l:m; Uyarlanm:# En Çok
Olabilirlik; En Küçük Kareler.
Abstract
The Usage of the Bootstrap Method in Regression Analysis and its Comparison with
Other Methods
The bootstrap is a form of a larger class of methods that resample from the original data set and thus are
called resampling procedures. The bootstrap is useful for the estimation of the standard error of the
parameter estimator, particularly when the estimator is complex and standard approximations are not
appropriate or too inaccurate. In the regression case some applications certain key assumptions may be
violated. This is where the bootstrap can help especially to find the variance of the complex estimators of
the parameters in the regression model. Bootstrap method is used to approximate the variance of the
Modified Maximum Likelihood (MML) estimators and the classical Least Squares (LS) estimators for the
linear regression model for some specific distributions. Confidence intervals based on the classical and
the estimated variances have been simulated and compared with respect to their powers. The results show
that sing bootstrap method in regression can give more realistic results.
Keywords: Bootstrap; regression; Long-tailed Symmetric distribution; Modified Maximum Likelihood,
Least Squares.
1. Giri!
statistikte kitle hakk nda bilgi edinmek için, kitle parametresi için güvenilir bir tahminlemenin
yap labilmesi gerekir. Güvenilir bir tahminleme ise al nan örne!in kitleyi iyi temsil etmesi ile
do!rudan ili kilidir. Bunun için çok say da ve büyük veri setlerinden olu an örneklere ihtiyaç
duyulmaktad r. Ço!u durumda da çok say da ve büyük veri setlerine ula mak mümkün de!ildir. Bu
169
durumda, kitleden al nm mevcut veri ile olu turulan modelin güvenilirlik derecesini ölçmenin bir
yolu Bootstrap yöntemini kullanmak olabilir.
Bootstrap yöntemi, ilk kez Efron [1] taraf ndan öne sürülmü tür. Bu yöntem eldeki örnek verilerin
iadeli ve rastsal örnekleme yöntemiyle olu turulmas na, bu ekilde olu turulan her bir örneklem için
ilgili istatistiklerin tahmin edilmesine ve bu i lemin defalarca tekrar na dayanan bir süreçtir.
Bootstrap yöntemi, matematik formülleri içermeyen, çok basit bir yöntemdir. Veri da! l m ile ilgili
a! r varsay mlar gerektirmedi!inden bilinen istatistiksel yöntemlerin ve varsay mlar n yetersiz kald !
durumlarda güvenilir sonuçlar vermektedir. Veri da! l m na dayanan varsay mlar n do!rulu!undan
kesin olarak emin olunamad ! için bu yakla m uygulamada çok yararl olabilmektedir. Ayr ca
Bootstrap yöntemi ile elde edilen tahmincilerin etkinlikleri varsay mdan sapmalardan
etkilenmemektedir (Shou ve Tu [3]).
Bu çal mada bootstrap yöntemi regresyon analizindeki parametrelerin tahmin edicilerinin
varyanslar n bulmada kullan lacakt r. Burada gerçek hayat problemlerinde s kl kla kar la lan Uzun
Kuyruklu Simetrik (LTS) da! l m na dayanan Uyarlanm En Çok Olabilirlik (MML) tahmin
edicilerinin ve En Küçük Kareler (LS) tahmin edicilerinin varyanslar tahmin edilip bunlara dayanan
güven aral klar olu turulacakt r (Bak n z, Tiku ve di!erleri [4]). Belli da! l mlar alt nda bootstrap
yöntemine dayanan varyans ve güven aral klar klasik varyanslara dayanan güven aral klar yla
kar la t r lacakt r.
2. Metodoloji
2.1. Genel bootstrap yöntemi:
Bootstrap yöntemi, di!er yöntemlerin kullan m n n uygun olmad ! yada parametrik varsay mlar n
geçersiz oldu!u durumlarda tercih edilebilmektedir. Bunun yan s ra, kitleden al nan örnek veri
setlerine dayal bir tahminin güvenilirli!ini ortaya koymak amac yla da bu yöntem önem ta maktad r.
Bu yöntem a a! daki gibi aç klanabilmektedir.
n adet gözlemden olu an, x = ( x1 ,..., xn ) orijinal veri seti kullan larak iadeli ve rastsal olarak yap lan
(
)
örnekleme ile yeni bir veri seti x * = x1* ,..., xn* elde edilmektedir. Orijinal veri setinden örnekleme
yaparken olu turulan x
*
veri setinin içinde, baz xi verilerinin birden fazla yada hiç görülmeme
olas l ! bulunmaktad r. Yeniden örnekleme i lemi istenildi!i kadar yinelenerek birbirinden farkl B
adet Bootstrap gözlemler seti olu turulabilir ve b = 1,..., B için olu an bootstrap veri seti x *b ile
gösterilebilir. lgilenilen istatistik bu yeni veri setleri kullan larak hesaplanmaktad r.
2.2. Jackknife yöntemi:
Jackknife, bootstrap yönteminden önce geli tirilmi bir yöntemdir ve ayn amaçla kullan l r. Bu
yöntem a a! daki gibi aç klanabilmektedir.
n adet gözlemden olu an, x = ( x1 ,..., xi 1 , xi , xi +1 ,..., x n ) orijinal veri setinde i. gözlem d ar da
b rak larak yeni bir veri seti x J = ( x1 ,..., xi 1 , xi +1 ,..., x n ) elde edilmektedir. Burada her yeni veri
setinde yaln zca bir gözlem d ar da b rak l r ve kalanlarla ilgilenilen istatistik de!eri hesaplan r. Bu
i lem n adet gözlemin her biri d ar da b rak lana kadar devam eder.
2.3. Regresyon analizinde Bootstrap Yönteminin kullan:m::
170
De!i kenler aras ndaki ili kiyi ara t ran en önemli istatistiksel yöntemlerden biri regresyon analizidir.
Regresyon analizinde hata terimleri ve ba! ms z de!i kenlerle ilgili yap lan varsay mlar n
gerçekle memesi durumunda bir düzeltme i lemi amac yla da kullan lan bootstrap yöntemi, daha
küçük tahmin hatalar n n elde edilmesi, standart sapmalar n küçülmesi ve buna ba!l olarak da daha
güvenilir parametre tahmincilerinin elde edilmesi ve güven aral klar n n olu turulmas amac yla
geli tirilmi tir (Efron ve Tibshirani [2]). Bootstrap yöntemi ile elde edilen tahmincilerin etkinlikleri
varsay mdan sapmalardan etkilenmemektedir (Shao ve Tu [3]).
Çal mada bootstrap yönteminin etkinli!inin ölçülmesi için do!rusal regresyon analizinde hata
terimlerinin yeniden örneklemesine dayanan bootstrap yakla m kullan lm t r.
Do!rusal regresyon modeli:
Y = X +)
(1)
Burada;
X ba! ms z de!i keni (n × k ) boyutunda matris, regresyon katsay s (k × 1) boyutunda matris, Y
ba! ml de!i keni (n × 1) boyutunda matris, ) hata terimi (n × 1) boyutunda bir vektördür.
Var olan örneklemden Y ve X de!i kenleri ile regresyon denklemi Y = X + ) tahmin edilir.
Buradan da ) = Y
Yˆ kullan larak hata vektörü tahmin edilir.
Hata terimlerinin bootstrap örnekleri elde edilir ve yeniden örneklenen hata terimleri eklenerek
bootstrap Y de!erleri hesaplan r.
Yb* = Yˆ + )ˆb*
(2)
Bootstrap yöntemi uygulanm
(Y ) ba! ml
*
b
( )
de!i ken ve ( X ) ba! ms z de!i keninden hareketle her
bir üretilmi bootstrap örneklemi için, ˆb regresyon katsay s n n bootstrap tahmini elde edilir.
Yb* = X ˆb* + )ˆb*
(3)
Bu noktada parametre tahmini yap l rken hangi tahmin edicinin özellikleri ile ilgileniliyorsa o yöntem
kullan larak parametre tahmini yap l r. Bu i lemin ‘B’ say da tekrarlanmas ile tahmin edicinin
örneklem da! l m ve özellikleri elde edilir ve bunlara dayanan güven aral klar olu turulur.
2.4. Bootstrap güven aral:G::
Büyük bir kitleden al nan veri setleri için parametre tahminlerinin güvenilirli!i, bu veri setlerinin ne
kadar de!i ken oldu!una ba!l d r. Söz konusu tahminin ne kadar güvenilir oldu!u hakk nda bilgi ise
güven aral klar ndan al nmaktad r. Bootstrap metodu ile yakla k olarak güven aral klar n olu turmak
mümkündür (Efron [1]). Genel olarak herhangi bir ~ parametresi için güven aral ! , ~ parametresinin
nokta tahmininden daha fazla bilgi vermektedir. Güven aral klar n n olu turulmas nda çe itli Bootstrap
yöntemleri kullan labilir.
171
2.4.1. Standart bootstrap güven aral:G::
Standart bootstrap güven aral ! , güven aral ! n n parametrik modeline dayanmaktad r. Ortalama için
(1 ) F100% güven aral ! a a! daki formülle bulunur.
z (1
P X
/ 2)
n
z(
<µ<X
/ 2)
=1
n
(4)
Benzer biçimde, standart bootstrap güven aral ! ise a a! daki gibi yaz labilir.
(ˆ
z (1
/ 2)
SE ˆ , ˆ z (
/ 2)
)
SE ˆ
(5)
Burada SE ˆ , bootstrap kullan larak elde edilen ˆ istatisti!inin standart hatas d r.
^
SE B
()
B
ˆ = /0 1
ˆ *b
"
1 B 1 b =1
1
ˆ
*
2
;2
<
=
(6)
B
ˆ* = 1
ˆ *b
"
B b =1
(7)
2.4.2. BC a metodu:
BC a metodu, 2 parametreye ( , ẑ 0 ) dayanan aral k bitim noktalar n ayarlar. BC a metodu
) F 100% güven aral ! a a! daki formülle bulunur.
kullan larak (1
(ˆ
Lo
) (
, ˆHi = ˆB*( 1 ) , ˆB*(
2
)
)
(8)
Burada,
1
= 3 zˆ 0 +
zˆ 0 + z ( / 2 )
1 ˆ zˆ 0 + z ( / 2 )
(
)
(9)
2
zˆ 0 + z (1 / 2 )
= 3 zˆ 0 +
1 ˆ zˆ 0 + z (1 / 2 )
(
)
(10)
(9) ve (10) e itlikleri ile verilen
1
ve
2
formüllerinin içindeki 3 , standart normal kümülatif
da! l m fonksiyonunu gösterir. Bilindi!i gibi 0 !
1
! 1 ve 0 !
172
2
! 1 olur.
Orijinal örneklemden hesaplanan ˆ istatisti!inden küçük olan ˆ *b bootstrap tekrarlar n n oran na
dayanan ẑ 0 de!eri a a! daki gibi hesaplan r. Burada 3 1 ifadesi standart normal kümülatif da! l m
ters fonksiyonudur.
zˆ 0 = 3
(
# ˆ *b < ˆ
B
1
)
(11)
ˆ parametresi ise jackknife yöntemi kullan larak bulunur.
" {ˆ
n
ˆ=
(J )
ˆ(
i)
i =1
/
60" ˆ ( J )
1 i =1
n
ˆ(
i)
}
3
2
;
<
=
3/ 2
(12)
Burada ˆ ( i ) , i. de!er ç kar ld ! nda kullan lan örneklemin istatistik de!eridir. ˆ ( J ) ise, i. de!er
ç kar ld ! nda kullan lan örneklemin ortalamas d r.
n
ˆ (J ) = 1
ˆ(
"
n i =1
i)
(13)
ẑ 0 , orijinal örneklemin ˆ de!eri ve bootstrap tekrarlar n n medyan aras ndaki fark n ölçümüdür
(Efron ve Tibshirani [2]). E!er bootstrap tekrarlar n n yar s ˆ de!erinden küçük yada e it ise,
medyan yanl l ! olamaz ve ẑ de!eri s f r olamaz. ˆ parametresi, ˆ de!erinin standart hatas n n
0
ivme oran n n ölçümüdür.
2.5. MML tahmin edicileri:
E!er verinin geldi!i iki de!i kenli da! l m f ( x, y ) ise bu da! l m her zaman g (x) marjinal da! l m
( )
( )
ve h y x ko ullu da! l m n n çarp m olarak f ( x, y ) = g ( x) h y x
bu iki de!i kenli da! l m n olabilirlik fonksiyonu L, L = L X LY
eklinde ifade edilebilir. O halde
X
eklinde ifade edilebilir. Bu
çal mada iki de!i kenli da! l m n normal da! l m yerine uygulamalarda daha s kl kla kar la t ! m z
LTS marjinal ve ko ullu da! l mlardan olu tu!u varsay lm t r (Ayr nt lar için bak n z, Tiku ve
di!erleri [4]). Burada µ1 , µ 2 ; 12 , 22 ; s ras yla iki de!i kenli da! l m n konum, ölçek ve korelasyon
katsay s parametreleridir. Marjinal ve ko ullu da! l m n LTS olmas durumunda iki de!i kenli
da! l m n olabilirli!i daha önce ifade etti!imiz ekilde a a! daki gibi yaz labilir ( p1 , k1 = 2 p1 3 ve
p2 , k 2 = 2 p2
L = L X LY
3 ekil parametreleri ile):
X
(14)
173
LX =
LY
X
(
=
n
1
(1 2 , p1
k1
(k
1 2)
)
n
1
i =1
1 xi µ 1
1+
k1
1
(15)
n
1
(1 2 , p 2
2
1 2)
p1
2
2
1
2
)
n
1
1+
k2
i =1
µ2
yi
2
2
2
(1
( xi µ1 )
1
2
2
p2
)
(16)
µ1 ) /
z i = ( x (i )
µ 2.1 = µ 2
1
g1 ( z i ) #
µ1 ve
1i
a (i ) = e(i )
ve
1
=
2
2.1
1i
2
2
(1
2
2.1
= y[i ]
1
x[i ]
µ 2.1
2.1
yaz l r.
1
=
2
,
1
) dir.
z (i ) ve g 2 (a (i ) ) #
Burada
2i
2i
a (i ) , 1 ! i ! n
(17)
Burada
2
= t13(i )
k1
1i
1+
t12(i )
2
ve
k1
1i
t12(i )
=1
1+
k1
t12(i )
2
.
k1
(18)
(
) de benzer
ekilde t1(i ) ve k1 yerine t 2 (i ) ve k 2 konularak bulunur. g 1 ( z (i ) ) ve g 2 (a (i ) )
yerine 1i
1i z (i ) ve
2i
2 i a (i ) konularak elde edilen yeni MML denklemleri çözülerek a a! daki
tahmin ediciler elde edilir:
2i
,
2i
µˆ 1 = K1 , ˆ 1 =
B1 + B12 + 4nC1
2 n(n 1)
,
(19)
ˆx ,
1 [.]
µˆ 2.1 = y[.]
ˆ 2.1 =
B2 + B22 + 4nC 2
2 n(n 2)
(20)
ˆ =K
1
2
L ˆ 2.1
(21)
Burada,
n
m1 = "
i =1
1i
, m2 =
n
"
i =1
2i
, x[.] =
1
m2
n
"
i =1
2i
x[i ] , y[.] =
174
1
m2
n
"
i =1
2i
y[i ] , ve
K1 =
1 n
"
m1 i =1
n
K2 = "
i =1
2i
1i x (i ) , B1 =
(x [ ]
2 p1
k1
x[.] )y[i ]
i
n
"
1i x (i ) , C1 =
i =1
" (x [ ]
i =1
i =1
B2 =
2 p2
k2
" {y[ ]
y[.]
K 2 (x[i ]
x[.] )}
C2 =
2 p2
k2
" {y[ ]
y[.]
K 2 (x[i ]
x[.] )} .
n
2i
i =1
i
n
2i
i =1
i
1i
i =1
n
2
i
n
"
x[.] ) , L = "
n
2i
2 p1
k1
2i
K1 ) 2
( x (i )
(x[ ]
i
x[.] )
" (x [ ]
n
i =1
2i
i
x[.] )
2
2
(22)
µˆ 2 = µˆ 2.1 + ˆ1 µˆ 1 , ˆ 2 =
ˆ 22.1 + ˆ 2 ˆ 12 ve
(23)
ˆ
ˆ = ˆ1 1
ˆ2
(24)
MML tahmin edicileri iki iterasyon ile bulunur. lk iterasyonda
formülü kullan larak hesaplan r. Burada
~
1
n
= " (xi
i =1
x )( y i
y)
i =1
i
x ) kullan l r. wi ’ ye göre s ralanm
~
kinci iterasyonda ise wi ’ler bulunurken
göre s ralanm
(x[ ] , y[ ] ) ikilileri bulunur.
i
i
2.6. En küçük kareler tahmin edicisi:
n
En küçük kareler yöntemi
" ( xi
i =1
n
i =1
n
µ~2 = (1 / n )" yi , ~2 = s y =
~
2.1
= s 2.1 ,
~
i =1
n
2
µ1 ) ve
µ~1 = x = (1 / n )" xi , ~1 = s x =
"e
i =1
n
" (x
i =1
2
i
x)
i
n
minimize etmeye dayan r.
(n 1) ,
2
" ( y y ) (n 1) , µ~
(s s )
= s xy s x2 ve ~ = s xy
i
yerine MML yöntemiyle bulunan ˆ1 kullan larak wi ’ ye
1
(x[ ] , y[ ] ) ikilileri kullan l r.
i
x (1 ! i ! n )
1 i
yerine, en küçük kareler tahmin edicisi olan
1
2
n
" (x
wi ’ler wi = yi
2
i
i =1
x
2.1
=y
~
1
y
(25)
Burada;
175
x,
s 2.1 =
" {y
n
i =1
i
y
~
( xi
}
x)
2
n
(n 2) ve s xy = " ( xi
i =1
x )yi
(n 1) .
(26)
3. Sonuç ve kar! la!t rmalar
Bu çal mada, LS ve MML ile elde edilen ˆ1 regresyon katsay s tahminlerine yönelik güven aral klar
olu turulmu tur. Olu turulan güven aral klar için yap lan testin gücü, de!i ik da! l m ve modeller
alt nda Monte Carlo ve Bootstrap çal mas ile ara t r lm t r. Modeller a a! daki gibi yaz labilir;
1. Model: ki de!i kenli normal da! l m BN( µ1 , µ 2 ;
2
1
,
2
2
; ),
(
X ~ LTS µ1 ,
2. Model: Uzun kuyruklu simetrik marjinal ve ko ullu da! l m
(
Y X ~ N µ 2.1 ,
2
2.1
2
1
, p1 ) ,
)
, p2 ,
3. Model: Dixon’ n uçde!er modeli;
Gözlemlerin %90’ X ~ N µ1 ,
(
2
1
4. Model: Dixon’ n uçde!er modeli:
Gözlemlerin %90’ X ~ LTS µ1 ,
(
(
) , %10’u X ~ N (µ ,4 ),
2
1
1
2
1
%10’u X ~ LTS µ1 ,4
(
, p1 ) , Y X ~ N µ 2.1 ,
2
1
)
2
2.1
(
, p1 , Y X ~ N µ 2.1 ,
, p2
2
2.1
)
)
, p2 .
Yukar daki modeller için simülasyon 1000 kere döndürülerek yap lm , bootstrap tekrar say s 200 ve
örneklem say s 50 al nm t r. µ1 , 1 , µ 2 , 2 s ras yla 0, 1, 0, 1 ve = 0,...,0.5 olarak al nm t r.
ki de!i kenli normal da! l m için
di!er parametreler
1
=
(
2
1
) , µ 2.1 = µ 2
µ 1 ve
ili kileri kullan larak bulunmu tur. Çizelge 1 de, LS ile elde edilen ˆ1 regresyon
katsay s tahminine yönelik olu turulan 1000 adet güven aral ! n n ilk on tanesini göstermektedir.
Çizelge 2 de ise, MML ile elde edilen ˆ1 regresyon katsay s tahminine yönelik olu turulan 1000 adet
güven aral ! n n ilk on tanesini göstermektedir. Güven aral klar klasik güven aral ! , Standart
bootstrap güven aral ! ve BC metodu olmak üzere üç ayr yöntem kullan larak olu turulmu tur.
Çizelge 2-5 de Olu turulan güven aral klar için yap lan testin gücü de!i ik da! l m ve modeller
alt nda ara t r lm t r.
2.1
=
2
1
2
Çizelge 1. Normal da! l m için LS ile elde edilen güven aral klar
Klasik
Güven Aral !
Alt s n r Üst s n r
-0.2482
0.3190
-0.2956
0.3177
LS
Standart Bootstrap
Güven Aral !
Alt s n r
Üst s n r
-0.2379
0.3088
-0.2773
0.2995
176
BC Metodu.
Alt s n r
-0.2371
-0.2460
Üst s n r
0.2980
0.3452
-0.3734
-0.3135
-0.1495
-0.3338
-0.2201
-0.0898
-0.4458
-0.3419
0.2511
0.1982
0.3814
0.3799
0.3820
0.5208
0.1597
0.1773
-0.3551
-0.3139
-0.1325
-0.3425
-0.2016
-0.0618
-0.4297
-0.3192
0.2328
0.1985
0.3645
0.3887
0.3636
0.4929
0.1436
0.1545
-0.2789
-0.2901
-0.1297
-0.3071
-0.1812
-0.0262
-0.4060
-0.3061
0.2609
0.1826
0.3911
0.4282
0.3849
0.6033
0.1385
0.1406
Çizelge 2. Normal da! l m için MML ile elde edilen güven aral klar
Klasik
Güven Aral !
Alt s n r Üst s n r
-0.2216
0.3175
-0.3159
0.3125
-0.4005
0.2133
-0.2939
0.2011
-0.1290
0.3783
-0.3614
0.3322
-0.2314
0.2937
-0.1117
0.4853
-0.4235
0.1657
-0.3597
0.1691
MML
Standart Bootstrap
Güven Aral !
Alt s n r
Üst s n r
-0.2256
0.3214
-0.2988
0.2955
-0.3983
0.2112
-0.3116
0.2188
-0.1245
0.3738
-0.3934
0.3642
-0.2115
0.2737
-0.1025
0.4761
-0.4308
0.1730
-0.3486
0.1579
BC Metodu.
Alt s n r
-0.1938
-0.2943
-0.3353
-0.2863
-0.1279
-0.4234
-0.2005
-0.0791
-0.3823
-0.3802
Üst s n r
0.3905
0.2760
0.2332
0.2481
0.4061
0.3216
0.1938
0.4950
0.2209
0.1459
Çizelge 3. Normal da! l m için güven aral klar na dayanan testinin gücü
Klasik
Güven
Aral !
0.00
0.10
0.20
0.30
0.40
0.50
0.047
0.104
0.276
0.587
0.853
0.968
LS
Standart
Bootstrap
Güven
Aral !
0.063
0.124
0.306
0.628
0.872
0.972
BC
Metodu
Klasik
Güven
Aral !
0.068
0.126
0.309
0.627
0.863
0.974
0.063
0.136
0.313
0.631
0.866
0.967
MML
Standart
Bootstrap
Güven
Aral !
0.062
0.125
0.296
0.624
0.857
0.969
BC
Metodu
0.073
0.129
0.306
0.614
0.845
0.960
Çizelge 4. Uzun kuyruklu simetrik da! l m için güven aral klar na dayanan testinin gücü, p1 = 5.0 ,
p 2 = 5.0
p
0.00
0.10
Klasik
Güven
Aral !
0.051
0.103
LS
Standart
Bootstrap
Güven
Aral !
0.064
0.122
BC
Metodu
Klasik
Güven
Aral !
0.074
0.128
0.057
0.120
177
MML
Standart
Bootstrap
Güven
Aral !
0.063
0.125
BC
Metodu
0.075
0.138
0.20
0.30
0.40
0.50
0.306
0.585
0.843
0.951
0.341
0.620
0.862
0.963
0.341
0.605
0.852
0.956
0.330
0.621
0.858
0.972
0.348
0.634
0.870
0.970
0.348
0.640
0.859
0.966
Çizelge 5. Normal da! l m alt nda Dixon’ n uçde!er modeli için güven aral klar na dayanan testinin
gücü, p1 = 5.0 , p 2 = 5.0
p
0.00
0.10
0.20
0.30
0.40
0.50
Klasik
Güven
Aral !
0.044
0.120
0.263
0.570
0.827
0.967
LS
Standart
Bootstrap
Güven
Aral !
0.061
0.144
0.305
0.603
0.847
0.974
BC
Metodu
Klasik
Güven
Aral !
0.063
0.146
0.319
0.595
0.853
0.971
0.059
0.143
0.298
0.596
0.848
0.971
MML
Standart
Bootstrap
Güven
Aral !
0.057
0.141
0.298
0.589
0.839
0.972
BC
Metodu
0.066
0.160
0.311
0.586
0.837
0.965
Çizelge 6. Uzun kuyruklu simetrik da! l m alt nda Dixon’ n uçde!er modeli için güven aral klar na
dayanan testinin gücü , p1 = 5.0 , p 2 = 5.0
p
0.00
0.10
0.20
0.30
0.40
0.50
Klasik
Güven
Aral !
0.048
0.117
0.277
0.615
0.828
0.952
LS
Standart
Bootstrap
Güven
Aral !
0.059
0.143
0.317
0.647
0.847
0.967
BC
Metodu
Klasik
Güven
Aral !
0.067
0.147
0.323
0.639
0.828
0.961
0.050
0.131
0.294
0.634
0.859
0.970
MML
Standart
Bootstrap
Güven
Aral !
0.055
0.135
0.324
0.647
0.864
0.970
BC
Metodu
0.069
0.145
0.333
0.653
0.873
0.968
4. Yorum ve öneriler
Normal Da! l m aç s ndan incelendi!inde, LS ve MML ile olu turulan güven aral klar nda görüldü!ü
gibi standart bootstrap yöntemiyle yap lan güven aral ! klasik güven aral ! ndan daha dar güven
aral klar olu turmaktad r. Ayn ekilde BC metodu ile yap lan güven aral klar ise standart bootstrap
yöntemiyle olu turulan güven aral klar ndan da dar güven aral klar olu turmaktad r. Ayr ca I. tip
hatada LS için klasik güven aral ! 0.05 de!erine çok daha yak n sonuçlar vermektedir. Standart
bootstrap yöntemi ile MML ile LS I. tip hata için yak n sonuçlar vermesine ra!men, güven aral klar
için yap lan testin gücünde LS yönteminin daha iyi oldu!u görülmü tür.
Uzun Kuyruklu Simetrik Da! l m için bak ld ! nda, I. tip hatada LS için klasik güven aral ! 0.05
de!erine daha yak n sonuçlar vermektedir. Standart bootstrap yöntemi ile güven aral klar için yap lan
testin gücünde ise MML yönteminin daha iyi oldu!u görülmü tür.
Normal da! l m alt nda Dixon’ n uçde!er modeli için bak ld ! nda, I. tip hatada LS için klasik güven
aral ! 0.05 seviyesine daha yak n sonuçlar vermektedir. Standart bootstrap yöntemi ile MML ile LS
I. tip hata için ve güven aral klar için yap lan testin gücünde yak n sonuçlar verdi!i görülmü tür.
Uzun kuyruklu simetrik da! l m alt nda Dixon’ n uçde!er modeli için bak ld ! nda, I. tip hatada MML
için klasik güven aral ! n n 0.05 de!erine çok daha yak n sonuçlar verdi!i ve güven aral klar için
178
yap lan testin gücünde yine MML yönteminin daha iyi oldu!u görülmü tür. Ayn ekilde standart
bootstrap yöntemi ile güven aral klar için yap lan testin gücünde MML yönteminin daha iyi oldu!u
görülmü tür.
Normal da! l mda görüldü!ü gibi di!er da! l m modelleri de incelendi!inde, LS ve MML ile
olu turulan güven aral klar nda standart bootstrap yöntemiyle yap lan güven aral ! klasik güven
aral ! ndan daha dar güven aral klar olu turmaktad r. Ayn ekilde BC metodu ile yap lan güven
aral klar ise standart bootstrap yöntemiyle olu turulan güven aral klar ndan da dar güven aral klar
olu turmaktad r.
Simülasyon sonuçlar gösteriyor ki veri da! l m n n tam olarak bilinmedi!i ve varsay mlar n tam
olarak tutmad ! durumlarda bootstrap yöntemini kullanmak, uygulamada daha yararl olabilmektedir.
Kaynaklar
[1]
[2]
[3]
[4]
Efron, B., (1979), Bootstrap Methods: Another Look at the Jackknife, The Annals of Statistics, 7, 1-26.
Efron, B., Tibshirani, R., (1993), An Introduction to the Bootstrap, New York:Chapman & Hall.
Shao, J., Tu, D., (1995), The jackknife and the bootstrap, Springer-Verlag, New Jork.
Tiku, M.L., Islam, M.Q., Sazak, H.S. (2008), Estimation in bivariate nonnormal distributions with
stochastic variance functions, Computational Statistics and Data Analysis, 52, pp.1728-1745.
179
Parametrik lojistik regresyon modelinin yar parametrik
alternatifine kar! testi
Özge Akku
Hüseyin Tatl dil
MuGla Ünv. Fen Edebiyat Fak.
statistik Bölümü,48000,
Kötekli, MuGla
[email protected]
Hacettepe Ünv. Fen Fak.
statistik Bölümü, 06532,
Beytepe, Ankara
[email protected]
Özet
Hata teriminin lojistik daG:ld:G: varsay:m: üzerine kurulu olan iki düzeyli lojistik regresyon modeli
uygulamal: çal:#malarda s:kl:kla kullan:lmaktad:r. Hata terimi ile ilgili bilinen daG:l:m
varsay:m:ndan dolay: bu model, parametrik bir model olarak adland:r:lmaktad:r. Varsay:m
bozulumlar:n:n olmas: durumunda yanl: tahminlerin elde edildiGi ise teorik olarak ispatlanm:#t:r.
statistiksel olarak doGru tahminler elde etmek amac:yla model için daha az varsay:ma gereksinim
duyan yar: parametrik yakla#:m:n kullan:m: giderek yayg:nla#maktad:r. Ancak, yar: parametrik
alternatifi ile kar#:la#t:r:ld:G:nda parametrik lojistik regresyon analizi uygulamada ve
yorumlamada büyük kolayl:k saGlamaktad:r. Bu nedenle analiz a#amas:na geçmeden önce
parametrik lojistik regresyon model varsay:mlar:n:n geçerliliGi test edilmelidir.
Bu çal:#mada, parametrik lojistik regresyon modelini yar: parametrik alternatifine kar#: test etmek
için XploRe yaz:l:m:n:n windows tabanl: yeni versiyonunda olu#turduGumuz kodlar kullan:lm:# ve
uygulama bölümünde kullan:lan veri kümesi için en uygun model belirlenmi#tir. Bu modele göre
parametre tahminleri elde edilmi# ve sonuçlar yorumlanm:#t:r.
Anahtar Kelimeler: Yar: parametrik model, Lojistik regresyon, XploRe.
Abstract
The Validity Test of the Parametric Logistic Regression Model Against the Semiparametric Alternative
Binary logistic regression model based on the logistic distribution assumption of the error term is
frequently used in applied studies. This model is called a parametric model due to the known
distribution assumption related to the error term. It is theoretically proved that biased estimations
are obtained if the assumptions are violated. The use of the semiparametric approach that requires
less assumtion for the model gradually become widespread to obtain statistically correct estimates.
However, the parametric logistic regression analysis provides large amount of simlicity both in
application and interpretation compared with the semiparametric alternative. Therefore, the
validity of the parametric logistic regression model assumptions must be tested before the analysis
step.
In this study, the codes that we wrote in the new windows based version of the XploRe package
were used for testing the parametric logistic regression analysis against the semiparametric
alternative and the most appropriate model was determined for the data set used in the application
part. Parameter estimates were obtained and results were interpreted according to this appropriate
model.
Keywords: Semi parametric model, Logistic regression, XploRe.
1. Giri!
ki düzeyli ba! ml de!i ken modellemesinde uygulama ve yorumlamadaki kolayl ! nedeniyle
parametrik lojistik regresyon modeli yayg n olarak kullan lmaktad r. Ancak model geçerlili!i, temel
olarak hata da! l m ile ilgili olarak yap lan lojistik da! l m varsay m na ba!l d r. Bu varsay m n
geçerlilik testi ise ço!u uygulamada göz ard edilmekte ve istatistiksel olarak yanl tahminler
180
yorumlanm olmaktad r. Parametrik lojistik regresyon model varsay mlar n n sa!lanmamas
durumunda alternatif tahmin edicilerin kullan lmas önerilmektedir. Model tahminine yar parametrik
yakla mlar bunlardan birisidir [5,8].
Bu çal mada, Uniform Güven Bantlar (UGB)’na dayal olarak Akku (2008) taraf ndan XploRe
yaz l m n n windows tabanl yeni versiyonunda olu turulan kodlar kullan larak mide kanseri verisi için
parametrik lojistik regresyon modelinin uygun olup olmad ! test edilmi tir. Uygun modele göre
tahminler yap lm ve sonuçlar yorumlanm t r.
2. Genel bilgiler
ki düzeyli bir ba! ml de!i kenin yer ald ! model tahmininde ko ullu ortalama fonksiyonu,
E(Y / X = x ) = P [Y = 1 / X = x ]
(1)
biçiminde verilen bir olas l k ifadesine dönü mektedir. Model tahmini için iki temel yakla m vard r.
Bunlar; parametrik ve yar parametrik yakla mlard r [5,8].
2.1. Parametrik yakla#:m
Parametrik model genel olarak a a! daki biçimde ifade edilmektedir.
E(Y / X = x ) = P [Y = 1 / X = x ] = G ( x T {)
(2)
Burada G, hata terimi için varsay lan da! l m fonksiyonunu, { , tahmin edilmesi gereken sonlu
boyutlu parametreler vektörünü ve T, matris transpozunu göstermektedir. Bu yakla m bilinen bir G ve
aç klay c de!i kenler aras ndaki do!rusal indeks ( x T { ) varsay m na dayal d r. G’nin yerine lojistik
da! l m gösteren I gibi belirli bir kümülatif da! l m fonksiyonunun koyulmas durumunda i. gözlem
için ba! ml de!i kenin 1 olarak kodlanan düzeyinin gözlenmesi olas l ! elde edilmektedir. Model,
E(Y / X = x ) = P [Yi = 1 / X = x i ] = I
exp ( x iT {ˆ )
1 + exp ( x T {ˆ )
(3)
i
biçiminde ifade edilir. Model parametreleri En Çok Olabilirlik Tahmin Yöntemi (EÇOTE) ile elde
edilmektedir [1,11].
2.1.1. En çok olabilirlik tahmin yöntemi
Lojistik regresyon modeli için olabilirlik ve logaritmik olabilirlik fonksiyonlar s ras yla E itlik (4) ve
(5)’de verilmi tir.
L ( Y / X, { ) =
N
i =1
exp (" {ˆ k x ik )
1 + exp (" {ˆ k x ik )
Yi
1
1 + exp (" {ˆ k x ik )
log L (Y / X, {) = " [Yi log Pi + (1 Yi ) log (1 Pi )]
N
i =1
1 Yi
(4)
(5)
E itliklerde k, aç klay c de!i ken say s n , N ise gözlem say s n göstermektedir. { parametreler
vektörünün tahmini,
181
log L N
= " Yi
{
i =1
exp (" b̂ k x ik )
1 + exp (" b̂ k x ik )
x ij = 0 ;
i = 1,2, K , N
(6)
j = 1,2, K , K
olarak tan mlanan logaritmik olabilirlik fonksiyonunun { ’lara göre birinci dereceden k smi türevi ile
elde edilmektedir. Di!er bir ifade ile olabilirlik fonksiyonunu maksimum yapan optimal bir {ˆ
parametreler vektörü bulunur [1,3,4,11].
E itlik (6)’dan görüldü!ü gibi lojistik da! l m varsay m parametre tahminlerinin elde edilmesini son
derece kolayla t rmaktad r. Ancak varsay m bozulumu, sonuçlar n istatistiksel olarak geçersiz olaca!
anlam na gelmektedir. Bu nedenle kullan lan veri kümesi için parametrik yakla m n uygun olup
olmad ! n n test edilmesi önemli bir a amad r. Test sonucunda kullan lan veri kümesi için parametrik
model varsay mlar n n uygun olmas durumunda, sonuçlar n gösterimi de yorumu da kolayd r.
Varsay m bozulumunda ise alternatifi olan yar parametrik yakla m n kullan m önerilmektedir [5,8].
2.2. Yar: parametrik yakla#:m
Bu yakla mda E itlik (2)’deki G ’nin bilinmedi!i (g ile gösterilir) varsay lmaktad r. Model,
E(Y / X = x ) = P [Y = 1 / X = x ] = g ( x T {)
(7)
biçiminde ifade edilir. Yar parametrik yakla m, parametrik ve parametrik olmayan yakla mlar n
birle imidir. x T { do!rusal indeks varsay m yakla m n parametrik k sm n ; bilinmeyen hata da! l m
(g) ise parametrik olmayan k sm n ifade etmektedir. Tahmin süreci a a! daki ad mlardan olu ur.
(1) lk olarak { uygun bir yöntem ile tahmin edilir.
(2) Daha sonra her bir gözlem için x iT {ˆ indeks de!erleri hesaplan r.
(3) Y’nin x iT {ˆ üzerine tek de!i kenli parametrik olmayan ortalama regresyonu uygulanarak her bir
gözlemin ba! ml de!i kende “1” olarak kodlanan düzeye ait olma olas l klar tahmin edilir.
Model parametrelerinin ( { ) tahmininde, tüm aç klay c de!i kenlerin sürekli oldu!u durumlar için
Yo!unlukla A! rl kland r lm Ortalama Türev Tahmin Edicisi (YAOTT), karma (kesikli-sürekli)
oldu!u durumlar için ise Klein ve Spady (KS) (1993) tahmin edicisi kullan lmaktad r [5,8,13].
2.2.1. YoGunlukla aG:rl:kland:r:lm:# ortalama türev tahmin edicisi
A! rl kland r lm Ortalama Türev Tahmin Edicisi (AOTT)’nin iki önemli avantaj vard r. Bunlar,
ba! ml de!i ken Y için herhangi bir da! l m varsay m na ihtiyaç duyulmamas ve sonuçta elde edilen
tahmin edicinin iteratif olmamas d r. { ’n n tan mlanabilirli!i için gerekli olan G’nin
diferansiyellenebilir bir fonksiyon oldu!u varsay ld ! nda,
E (Y / x )
= { G ' ( x{ )
x
(8)
ifadesi elde edilir. Ayr ca, herhangi bir s n rland r lm , sürekli fonksiyon W için,
182
E W (X)
[
E (Y / X )
= { E W (X) G ' (X{)
x
]
(9)
yaz labilir.
E itlik (9)’un sol taraf , W a! rl k fonksiyonu ile E ( Y / x ) ’in “A! rl kland r lm Ortalama Türevi”
olarak adland r lmaktad r. E itlik (9), E ( Y / x ) ’in a! rl kland r lm ortalama türevinin { ’ya orant l
oldu!unu göstermektedir. Ölçek normalle tirmesi gereksiniminden dolay , { , sadece ölçe!e göre
tan mlan r, böylece E ( Y / x ) ’in herhangi bir a! rl kland r lm ortalama türevi gözlemsel olarak { ’ya
e ittir. Bu durumda, { ’y tahmin etmek için E itlik (9)’un sol taraf n n tahmini yeterlidir. E itlik
(9)’un sol taraf ndaki her bir bile en ilk bile ene bölünerek yar parametrik yakla mda parametrelerin
tan mlanabilirli!i için gerekli olan {1 = 1 ölçek normalle tirmesi de kabul ettirilebilir [10].
E itlik (9)’un sol taraf ,
E (Y / X)
yerine çekirdek kestiricisinin ve kitle beklenen de!erinin [ E (.) ]
x
yerine örneklem ortalamas koyularak tahmin edilebilir. W a! rl k fonksiyonunun X’lerin olas l k
yo!unluk fonksiyonu olarak al nmas durumunda tahmin edici, YAOTT olarak adland r lmaktad r.
YAOTT,
E (Y / X)
=
E W (X)
x
N N
2
1
""
N ( N 1) i =1 j=1 h N
k +1
K'
j: i
Xi
Xj
hN
Yi
(10)
biçiminde tan mlan r. Burada, K ' , tahmin için seçilen çekirdek fonksiyonunun 1. dereceden k smi
türevini, h n , optimal bant geni li!ini, k, tahmin edilecek parametre say s n ve N, gözlem say s n
göstermektedir [7,12].
2.2.2. Klein ve Spady’nin yar: parametrik en çok olabilirlik tahmin edicisi
KS tahmin edicisi, Y’nin sadece 0-1 gibi iki de!er ald ! durum için kullan lmaktad r. Y, iki düzeyli
bir de!i ken oldu!undan dolay , model için logaritmik olabilirlik fonksiyonu,
log L N (b) = N
1
N
" {y n log G ( x n{) + (1 y n ) log [1 G ( x n{)]}
n =1
(11)
biçimindedir. Modelde hata terimi ile ilgili herhangi bir da! l m varsay m yap lmad ! ndan dolay
G ( x n{) ’nin de tahmin edilmesi gerekmektedir. G N ( x n{) , G ( x n{) ’n n parametrik olmayan
tahmini olmak üzere, Klein ve Spady (1993), G N ’in, y’nin xb k s üzerine parametrik olmayan
regresyon tahmini ile elde edilebilece!ini göstermi tir.
N
PN =
" yn
n =1
(12)
N
ba! ml de!i kende “1” cevab n verenlerin oran
183
g N (A / y = 1) =
N
(A x n b ks )
1
" yn K
hN
( N PN h N ) n =1
(13)
ba! ml de!i kende “1” cevab n veren ki iler için elde edilen, • = x n b ks ’nin çekirdek yo!unluk
fonksiyonu tahmini, ve
g N ( • / y = 0) =
N
( • x n b ks )
1
" (1 y n ) K
[N (1 PN ) h N ] n =1
hN
(14)
tercih eden ki iler için elde edilen, • = x n b ks ’nin çekirdek yo!unluk
ba! ml de!i kende “0”
fonksiyonu tahmini olmak üzere, G N , a a! daki biçimde elde edilmektedir.
G N (A) =
PN g N (A / y = 1)
PN g N (A / y = 1) + (1 PN ) g N (A / y = 0)
(15)
E itlik (15) ile verilen G N (A) ’nin, E itlik (11)’de yerine konulup olabilirlik fonksiyonunun
maksimize edilmesi ile bilinmeyen
parametreler vektörü tahmin edilir.
Yar parametrik tahminde tan mlanabilirlik ko ullar n yerine getirebilmek ve tek bir ˆ vektörünü elde
edebilmek amac yla en az bir tane sürekli aç klay c de!i kenin varl ! na ihtiyaç duyulmaktad r.
Ayr ca hata teriminin da! l m fonksiyonu için bir varsay m yap lmad ! ndan dolay modelde sabit
terim ortadan kalkmakta ve { ’lar n tan mlanabilirli!i için gerekli olan sürekli aç klay c de!i kenin
katsay s “1” e normalle tirilmektedir [9,10].
2.3. Uniform güven bantlar:
Çal mada, parametrik lojistik regresyon modelinin geçerlili!i, olu turulan UGB’nin alt ve üst limitleri
dikkate al narak test edilmi tir. Parametrik modelin ba! fonksiyonunun güven bölgesinde uzanmas
durumunda veri kümesi için uygun oldu!u sonucuna ula l r. Her bir x noktas ndaki parametrik
olmayan regresyon tahmini m ( x ) için UGB a a! daki biçimde tan mlanmaktad r [8].
/
5
P 0m̂ h ( x ) z n , S
51
Q̂ 2h K
2
2
n h f̂ h ( x )
! m ( x ) ! m̂ h ( x ) + z n , S
;
5
< #1 S
n h f̂ h ( x ) 5
=
Q̂ 2h K
2
2
(16)
Burada,
1/ 2
K
2
2
= . [K (s)] ds ; z n , S
2
/
;
1
log (1 S )
5 log
5
2
5
5
=0
+
d
n<
1/ 2
(2 ‚ log n )
5
5
51
5=
(17)
ve
d n = (2 ‚ log n )1 / 2
'
1 K 2
1/ 2
log
+ (2 ‚ log n )
2ƒ K 2
1/ 2
(18)
184
biçimindedir. h, parametrik olmayan m ( x ) tahmini için gerekli olan optimal bant geni li!ini, Q̂ 2h ,
m̂ ( x ) ’in tahmin edilen varyans n , K, keyfi bir çekirdek fonksiyonunu, K ' , K’n n birinci dereceden
2
k smi türevini ve K 2 , K’n n ikinci dereceden normunu göstermektedir.
Q̂ 2h ( x ) =
x x
1 n
"K i
n i=1
h
n
"K
i =1
{y i
xi
m̂ h ( x )}
2
(19)
x
h
m ( x ) , ko ullu ortalama fonksiyonunun x noktas ndaki parametrik olmayan tahminini vermektedir.
Bu tahmin yöntemi yar parametrik yakla m n ikinci ad m n olu turmakta ve olas l k tahminleri için
kullan lmaktad r [5,8,9].
3. Say sal örnek
Çal man n uygulama bölümü iki a amadan olu maktad r. Birinci bölümde, parametrik lojistik
regresyon modelinin geçerlili!i test edilmi tir. Veri kümesinde yer alan de!i kenlerin tümü sürekli
oldu!undan dolay test için olu turulan XploRe kodlar nda parametre tahminleri için YAOTT
kullan lm t r. Bu bölüm uygun modelin belirlendi!i bölümdür. kinci bölümde, belirlenen uygun
modele göre tahminler yap lm ve ba! ml de!i kene etki eden önemli faktörler belirlenmi tir.
3.1. Veri
Mide kanseri olan 95 hasta üzerinden yap lan çal mada, Akku (2008) taraf ndan olu turulan XploRe
kodlar kullan larak veri kümesi için parametrik lojistik regresyon modelinin uygun olup olmad !
belirlenmi tir [6]. Uygun modele göre tahminler yap larak sonuçlar yorumlanm t r.
Çizelge 1. Kullan lan de!i kenler ve düzeyleri
De<i!ken
De<i!ken Ortalamalar
( x ± standart hata)
n (%)
YAr (YIL)
56.3736 ± 1.2388
-
SÜRE
23.5433 ± 1.6425
-
HEMOGLOB N
11.7412 ± 0.2264
-
CEA
4.9237 ± 1.2493
-
BAoIMLI DEo rKEN
(Y)
(0) Ya yor
61 (64.2)
(1) Ölü
34 (35.8)
Ya , Tedavi Süresi, Hemoglobin Düzeyi ve Cea Serum miktar n n aç klay c de!i kenler olarak
belirlendi!i çal mada, hastan n “Ölü” olmas na etki eden faktörler belirlenmi tir.
185
3.2. Parametrik lojistik regresyon modelinin geçerlilik testi
Parametrik lojistik regresyon modelinin kullan lan veri kümesi için uygunlu!unu test eden güven bant
grafi!i rekil 1’de verilmektedir. YAOTT için optimal bant geni li!i h = 0.46814 olarak
bulunmu tur.
rekilde siyah düz çizgi parametrik olmayan regresyon tahmini m ( x ) ’i; kesik iki mavi çizgi alt ve üst
güven bant limitlerini; k rm z halkalar ise parametrik lojistik regresyon modelinden elde edilen
olas l k tahminlerini grafiklemektedir. Grafik incelendi!inde, k rm z halkalar n alt ve üst güven
limitlerinin d nda kald ! görülmekte ve veri kümesi için parametrik lojistik regresyon model
varsay mlar n n geçerli olmad ! sonucuna ula lmaktad r. Bu veri kümesi için alternatif bir tahmin
yönteminin kullan lmas önerilmektedir. Yar parametrik model tahmini alternatif yöntemlerden
birisidir.
Bekil 1. Lojistik regresyon modelinin testi için uniform güven bant grafi!i
3.3.Yar: parametrik model tahmini sonuçlar:
Model parametrelerinin yar parametrik tahmini için Altbölüm 2.2.2’de verilen KS tahmin edicisi
kullan lm t r. Tahminler optimal bant geni li!i h = 0.46814 ve lojistik çekirdek fonksiyonuna göre
elde edilmi tir. Parametrelerin tan mlanabilirlik ko ullar n yerine getirebilmek amac yla sürekli bir
de!i kenin katsay s n n “1” e normalle tirilmesinin gereklili!i daha önce belirtilmi ti. Burada farkl
normalle tirmeler yap larak sonuçlardaki de!i imler incelenmi tir. Çizelge 2’de s ras yla “CEA”,
“HEMOGLOB N”, “SÜRE” ve “YAr” de!i kenlerinin katsay lar n n “1” e normalle tirilmesiyle elde
edilen sonuçlar verilmi tir. Ayr ca hata terimi için herhangi bir da! l m varsay m , dolay s yla
herhangi bir merkezlenme varsay m yap lmad ! ndan dolay bu yakla mda sabit terim de tahmin
edilmemektedir. Çizelgede katsay lar normalle tirilen ve tahmini yap lamayan de!i kenler sabit
parametre olarak belirtilmi tir.
Çizelge 2 incelendi!inde, CEA de!i keni normalle tirildi!inde SÜRE; HEMOGLOB N ve SÜRE
de!i kenleri normalle tirildi!inde YAr de!i keninin istatistiksel olarak önemli bulundu!u; YAr
de!i keninin normalle tirildi!i durumda ise önemli bulunan bir de!i ken olmad ! gözlenmi tir.
Bu durumda yar parametrik modellemede dikkat edilmesi gereken di!er bir önemli nokta, katsay s
normalle tirilecek sürekli de!i kene karar verme a amas d r. Bu karar çal lan konuya ve ara t rma
sonucunda istatistiksel olarak etkisi ara t r lan de!i kenlere göre belirlenmelidir.
Burada örnek olmas bak m ndan CEA de!i keninin katsay s n n normalle tirildi!i 1.tahmin sonuçlar
yorumlanm t r.
186
Çizelge 2. KS parametre tahminleri
Parametre tahmini
Standart hata
( {ˆ )
(Sh)
De<i!ken
{ˆ
Sh
p-de!eri
Odds oran
1. TAHM N SONUÇLARI
YAr
0.00069450
0.04921948
0.014
0.9887
1.00069474
SÜRE
-0.07208389
0.03638445
-1.981
0.0476*
0.93045284
HEMOGLOB N
0.11747370
0.23470919
0.501
0.6167
1.12465205
CEA
1.0
Sabit parametre
---
---
---
Sabit Terim
0.0
Sabit parametre
---
---
---
2. TAHM N SONUÇLARI
CEA
0.03768289
0.02912038
1.294
0.1957
1.03840190
YAr
-0.19440554
0.06555742
-2.965
0.0030*
0.82332395
SURE
0.01635433
0.04835433
0.338
0.7352
1.01648880
HEMOGLOB N
1.0
Sabit parametre
---
---
---
Sabit Terim
0.0
Sabit parametre
---
---
---
3. TAHM N SONUÇLARI
HEMOGLOB N
0.63695409
0.61382255
1.038
0.2994
1.89071315
CEA
-0.01632048
0.38911277
-0.042
0.9665
0.98381198
YAr
0.22116445
0.06964147
3.176
0.0015*
1.24752857
SÜRE
1.0
Sabit parametre
---
---
---
Sabit Terim
0.0
Sabit parametre
---
---
---
4. TAHM N SONUÇLARI
SÜRE
-0.10084387
0.11650667
-0.866
0.3867
0.90407417
HEMOGLOB N
0.16270510
0.41635434
0.391
0.6960
1.17668963
CEA
0.05232328
0.23504822
0.223
0.8238
1.05371633
YAr
1.0
Sabit parametre
---
---
---
Sabit Terim
0.0
Sabit parametre
---
---
---
* =0.05 yan lma düzeyinde anlaml
Parametre Tahminleri
CEA normalle tirmesine göre sonuçlar incelendi!inde, SÜRE de!i keninin katsay s n n kritik bir
noktada olmas na ra!men 0.05 yan lma düzeyinde anlaml oldu!u görülmü tür (p=0.0476<0.05).
Tahmin edilen katsay s n n negatif olmas ise (-0.07208389) tedavi süresi artt kça mide kanseri olan
hastalar n “Ölü” olma ihtimallerinin azalaca! n ortaya ç karmaktad r. Di!er de!i kenler istatistiksel
olarak önemli bulunmam t r.
187
Odds Oran
statistiksel olarak anlaml bulunan SÜRE de!i keni için odds oran yakla k olarak 0.930’dur. (0-1)
aral ! nda olmas nedeniyle yorumu daha anla l r yapmak amac yla bu de!erin tersi al nd ! nda
(1.075269) de!eri elde edilir. Bu durumda sonuçlar n yorumu için ba! ml de!i kende kodlanan
kategorilerin de yer de!i tirmesi gerekir. Odds oran n n 1’e yak n olmas SÜRE de!i keninin ba! ml
de!i kenin düzeyleri aras nda çok önemli bir farkl l !a neden olmad ! anlam na gelmektedir. Zaten
bu de!i kenin istatistiksel olarak kritik bir noktada anlaml bulundu!u daha önce belirtilmi ti. Bulunan
odds oran de!eri yorumland ! nda, tedavi süresindeki 1 ayl k bir art n hastan n ya ama ihtimalini
yakla k 1.08 kat art rd ! söylenebilir.
4. Sonuç ve öneriler
Parametrik modelleme uygulamal çal malarda s kl kla kullan lmaktad r. Bunun ba l ca nedeni model
ile ilgili olarak yap lan varsay mlar n modelleme sürecini kolayla t rmas d r. Ancak, model
varsay mlar n n geçerlili!i test edilmeden elde edilen sonuçlar n veri ile ilgili do!ru tahminler verdi!i
üphelidir. Bu nedenle parametrik model varsay mlar n n geçerlili!inin test edilmesi önemlidir.
Parametrik model varsay mlar n n sa!lanmamas durumunda alternatif tahmin yöntemlerinin
kullan lmas gerekir. Parametrik modellemeye göre daha az varsay m gerektirmesinden dolay yar
parametrik yakla m bu alternatif yöntemlerden birisidir.
Bu çal mada ilk olarak, ba! ml de!i kenin iki düzeyli kategorik bir de!i ken olmas durumu için
yayg n olarak kullan lan parametrik lojistik regresyon model varsay mlar n n geçerlili!i test edilmi tir.
Bu test, Uniform Güven Bantlar üzerine kurulu olarak Akku ve Tatl dil (2008) taraf ndan XploRe
yaz l m n n windows tabanl yeni versiyonunda olu turulan kodlar kullan larak yap lm t r. Uygulama,
mide kanseri olan 95 hasta üzerinden gerçekle tirilmi tir. Sonuçlar, parametrik lojistik regresyon
modelinin veri için uygun olmad ! ve alternatif yar parametrik yakla m n kullan lmas n n daha
do!ru olaca! yönündedir.
Çal man n ikinci bölümünde ilk bölümde elde edilen sonuçlar do!rultusunda veri, yar parametrik
yakla mla modellenmi , ba! ml de!i kende “1” olarak kodlanan hastan n “Ölü” olmas na etki eden
önemli faktörler belirlenmeye çal lm t r. Parametre tahminleri, dört farkl
katsay
normalle tirmesine göre Klein ve Spady’nin yar parametrik en çok olabilirlik fonksiyonunun
maksimizasyonu ile elde edilmi tir. Örnek olmas bak m ndan CEA de!i keninin normalle tirilmesi
ile elde edilen sonuçlar yorumlanm t r. Bu normalle tirme sonucunda SÜRE de!i keni istatistiksel
olarak anlaml bulunan tek de!i kendir. Bu de!i ken ile ilgili olarak katsay ve odds oran yorumlar
yap lm t r. Böylece yar parametrik yakla m n uygulanabilirli!i de gösterilmi tir.
Yar parametrik yakla mla elde edilen sonuçlar n yorumu parametrik lojistik regresyon modeli ile
elde edilen sonuçlardan farkl de!ildir. Buradaki ba l ca amaç, veri için en uygun modeli belirleyerek
do!ru tahminler ve do!ru yorumlar yapabilmektir.
Anahtar sözcükler: Yar parametrik model; Lojistik regresyon; XploRe.
Kaynaklar
[1]
A. Agresti, (1990), Logistic Regression, In: An Introduction to Categorical Data Analysis. 1st. ed., John Wiley&Sons,
New York, 103-144.
[2]
Ö. Akku , (2008), Tek ndeks Modellerinde Yar Parametrik Yakla mlar, Doktora Tezi, Hacettepe Üniversitesi Fen
Bilimleri Enstitüsü, Ankara, 98s.
[3]
T. Amemiya, (1981), Qualitative Response Models: A Survey, Journal of Economic Literature, 19, 1483-1536.
[4]
W.H. Greene, (2000), Econometric Analysis, New York University, Prince Hall, New Jersey 07458, 1004p.
188
[5]
W.Hardle, M. Müller, S. Sperlich, A. Werwatz, (2004), Nonparametric and Semiparametric Models, Springer-Verlag,
New York.
[6]
W. Hardle, Z. Hlavka, S. Klinke, (2003), XploRe Application Guide, e-book. MD Tech, Springer-Verlag, New York.
[7]
W. Hardle, T.M. Stoker, (1989). Investigating Smooth Multiple Regression by the Method of Average Derivatives,
Journal of the American Statistical Association, 84, 986-995.
[8]
J.L. Horowitz, (1998), Semiparametric Methods in Econometrics, Springer-Verlag, New York.
[9]
W. Klein, R.H. Spady, (1993), An Efficient Semiparametric Estimator for Binary Response Models, Econometrica,
61, 387-421.
[10]
W. Lin, (2006), Statistical Inference for Single Index Model, A Dissertation Presented to the Graduate School of
Clemson University, UMI Number: 3215795.
[11]
P.McCullagh, J.A. Nelder, (1989), Generalized Linear Models, Monographs on Statistics and Applied Probability,
Chapman and Hall, No:37, London.
[12]
J.L. Powell, J.H. Stock, T.M. Stoker, (1989), Semiparametric Estimation of Index Coefficients, Econometrica, 57,
No:6, 1403-1430.
[13]
I. Proença, A. Werwatz, (1994), Comparing Parametric and Semiparametric Binary Response Models,
Sonderforschungsbereich 373, 36, Humboldt Universitaet, Berlin.
189
Bulan k risk s n fland rma
Ay!en Apayd n
Furkan Ba!er
Nuray Güneri Tosono<lu
Ankara Üniversitesi, Fen Fakültesi,
statistik Bölümü 06100-TandoGan,
Ankara, Türkiye
Gazi Üniversitesi, TTEF, Bilgisayar
Uyg. EGt. Bölümü 06830-Gölba#:,
Ankara, Türkiye
Gazi Üniversitesi, TTEF, Bilgisayar
Uyg. EGt. Bölümü 06830-Gölba#:,
Ankara, Türkiye
[email protected]
[email protected]
[email protected]
Özet
Sigortalanan riskin benzer özelliklerine, hasar üretme ihtimaline ve bu hasarlar:n büyüklüGüne göre
kategorize etme i#lemi olarak ifade edilebilecek risk s:n:fland:rma aktüerya biliminin temel konular:ndan
biridir. Bu çal:#mada, hayat sigortalar:nda bireyleri, bulan:k kümeler ile tan:mlanacak sistolik kan
bas:nc: ve kolesterol düzeyi, obezite ve sigara al:#kanl:klar: biçiminde belirlenen kardiyovasküler risk
faktörlerine göre s:n:fland:rmak üzere bulan:k ç:kar:m sistemleri kullan:lacakt:r. Bu amaçla, imtiyazl:
risk grubu, normal veya kabul edilebilir risk grubu, standart olmayan risk grubu ve kabul edilemez risk
grubu biçiminde bir s:n:fland:rma kullan:lacak ve bulan:k ç:kar:m sistemleri sonucunda kesin ç:kt:
deGeri olarak bir risk yüklemesi elde edilecektir.
Anahtar sözcükler: Sigorta; Hayat sigortas:; Risk s:n:fland:rma; Bulan:k mant:k, Bulan:k ç:kar:m
sistemleri.
Abstract
Fuzzy risk classification
Risk classification, which can be defined as to categorize insured risks according to their probability of
generating claims and according to the size of those claims, is one of the most important topic in actuarial
science. In this paper, we investigate an alternative method of classifying risks in life insurance, based on
the concept of fuzzy inference systems. We differentiate policyholders on the basis of their blood pressure,
levels of cholesterol, obesity and smoking behaviour, former three of which are handled as fuzzy
variables. Four categories of group are considered: preferred risk, normal or acceptable risk,
substandard risk and unacceptable risk. According to these groups, we determine risk loading and the
gross premium paid by the insured.
Keywords: Insurance; Life insurance; Risk classification; Fuzzy logic; Fuzzy inference systems.
1. Giri!
Aktüerya bilimi, belirsizlik durumunda sigorta prim ve rezervlerini tespit etmek amac yla her türlü risk
ölçüm ve hesaplamalar n kapsamaktad r. Ba ta enflasyon olmak üzere ekonomik etkiler, sigorta
irketindeki üretimin niteli!i ve kapasitesi, mevzuat, sosyal ve politik etkenler, irketin risk kabul
politikalar , poliçe ve ürün özellikleri gibi belirsizli!i art racak yönde geli en birçok iç ve d faktörün
etkisinden dolay hesaplamalar daha karma k ve uzmanl k düzeyinde analiz gerektiren bir olgu haline
gelmektedir. Bu nedenle, önemli ölçüde öznel yarg lar gerektiren, bilginin yetersiz ve belirsiz oldu!u
problemlerin modellenmesinde bulan k teori uygun ve elveri li bir araç haline gelmektedir.
Bulan k mant ! n sigorta ara t rmalar na temel te kil edecek çok say da potansiyel uygulama alan
mevcuttur. Klasik aktüeryal metodolojiler genel anlamda olas l k modelleri üzerine kurulmu ve
ço!unlukla sigorta irketinin kat düzenlemeleri ile kullan lm t r. Son y llarda k s tlay c artlar n
190
azalmas ve küresel rekabet bu alanda esnek hesaplama yöntemlerini içeren yeni metodolojilerin
kullan m na kap lar n açm t r.
Bulan k küme metodolojisinin aktüerya bilimine do!rudan uyguland ! ilk çal ma DeWit [4]
taraf ndan yap lm t r. Bu çal mada, sigortalama öznel bir durum olarak de!erlendirilmi ve
sigortalama sürecinde, olas l k teorisi ile tam anlam yla aç klanamayan bir belirsizli!in hakim oldu!u
vurgulanm t r. Bulan k uzman sistemlerin, bireysel sigortalama problemine uygulanabilece!i
gösterilmi tir. O zamandan beri bulan k mant ! n, risk s n fland rma, sigortalama, yükümlülükler
tahmini, bugünkü ve gelecek de!er hesab , poliçe de!erleme, varl k tahsisi, yat r mlar ve nakit ak
konular nda uygulamalar dikkate de!er geli meler göstermi tir.
Lemaire [8], hayat sigortalar nda imtiyazl poliçe sahibi için bir esnek tan mlama geli tirmek amac yla
bulan k uzman sistemlerini kullanm t r. Çal man n sigortalama literatürüne üç farkl katk s vard r.
Bunlardan ilki, sürekli üyelik fonksiyonlar n n kullan lm olmas ; ikincisi, Hamacher ve Yager
operatörleri kullan larak bulan k kümelerde arakesit operatörünün tan m n n geni letilmi olmas ;
üçüncüsü ise minimum operatörü ile bir karar kural n sadele tirmek amac yla S–kesimin nas l
uygulanaca! n n gösterilmi olmas d r.
Young [14], grup sa!l k sigortas için model seçim sürecinde bulan k uzman sistemleri kullanm t r.
lk olarak tek plan sigortalama ele al nm daha sonra çal ma çoklu seçenekli planlar için
geni letilmi tir. Tek plan durumunda, son iki y lda gruptaki ya ve cinsiyet faktörlerinin de!i im
özellikleri, grup büyüklü!ünün de!i imi, gruptaki sigorta miktar ve kapsam nda çal anlar n oran ,
prim miktarlar n n içinde çal an ve i verenlerin oran gibi baz bulan k girdi özellikleri ele al nm t r.
Sigortalama, sigortalanabilir risklerin seçimi ve s n fland r lmas sürecidir. Hayat sigortalar nda; özel
artlar, durumlar ve primler gibi sigorta poliçesi ö!elerinin sigortalanan riske uygunlu!u sigorta irketi
ve sigortalanan aç s ndan büyük öneme sahiptir. Sigortac , mevcut risklere uygun prim oranlar nda
mümkün oldu!unca çok sigorta ba vurusu kabul ederek prim gelirlerini maksimize etme aray
içerisindedir. Her bir bireyin ortak havuzda birbirlerinden farkl bulan k risk karakteristikleri
mevcuttur [3, 7, 8].
Bu çal mada, hayat sigortalar nda bireyleri, bulan k kümeler ile tan mlanacak sistolik kan bas nc ve
kolesterol düzeyi, obezite ve sigara al kanl klar biçiminde belirlenen kardiyovasküler risk
faktörlerine göre s n fland rmak üzere bulan k ç kar m sistemleri kullan lacakt r. Bu amaçla, imtiyazl
risk grubu, normal veya kabul edilebilir risk grubu, standart olmayan risk grubu ve kabul edilemez risk
grubu biçiminde bir s n fland rma kullan lacak ve bulan k ç kar m sistemleri sonucunda kesin ç kt
de!eri olarak bir risk yüklemesi elde edilecektir.
2. Bulan k Mant k
Bulan k mant k, temelleri Aristo mant ! na dayanan ikili mant k sistemine kar geli tirilen ve günlük
hayatta kar la lan de!i kenlere üyelik dereceleri atayarak olaylar n hangi oranlarda gerçekle ti!ini
belirlemeye çal an bir çoklu mant k sistemidir. Ba l ca yard m belirsiz bilgiyi temsil edebilme
yetene!idir.
Bulan k mant ! n geçerli oldu!u durumlardan ilki, incelenen olay n çok karma k olmas ve bununla
ilgili yeterli bilginin bulunmamas durumunda ki ilerin görü ve de!er yarg lar na yer verilmesi,
ikincisi ise insan kavray ve yarg s na gerek duyan durumlard r. nsan dü üncesinde say sal olmasa
bile belirsizlik, yararl bir bilgi kayna! d r. Bu tür bilgi kaynaklar n n, olaylar n incelenmesinde özgün
bir biçimde kullan lmas na bulan k mant k ilkeleri yard mc olmaktad r [1].
Bulan k mant ! n önemli bir parças olan sözel de!i kenler; de!erleri, kelimeler ve cümleler ile
tan mlanan de!i kenler biçiminde ifade edilir. Örne!in, risk kapasitesi hem [0, 100%] aral ! nda
de!i en bir say sal de!er olarak hem de yüksek, çok yüksek vb. gibi de!erler alan bir sözel de!i ken
191
olarak ele al nabilir. Burada tan mlanan her bir sözel de!er, X = [0, 100%] evrensel kümesinde yer
alan bir bulan k alt kümenin etiketi olarak yorumlanabilir. Bulan k kümeler, kümedeki her bir elemana
s f r ile bir aras nda de!i en üyelik derecesi atayan bir üyelik fonksiyonu ile karakterize edilirler. Söz
konusu fonksiyon evrensel kümenin elemanlar n belirli bir aral ktaki reel say lara kar l k getirerek
elemanlar aras ndaki derecelendirmeyi gerçekle tirmektedir. Bulan k küme teorisinin üyelikten, üye
olmamaya dereceli geçi i ifade etmesindeki yetene!i, belirsizli!in ölçülmesinde güçlü ve anlaml
araçlar sunmakta ve do!al dilde ifade edilen belirsiz kavramlar n anlaml bir ekilde temsilini de
vermektedir. rekil 1 ile verilen, yüksek risk kapasiteli mü terilere ili kin bir bulan k küme örne!inde,
risk kapasitesi %50 ve %50’den dü ük olan ki ilere üyelik derecesi s f r, risk kapasitesi %80 ve
%80’den yüksek olan ki ilere üyelik derecesi bir olarak atanm t r. (50%, 80%) aras nda de!i en risk
kapasitesi için üyelik derecesi ise bulan kt r.
Bulan k
Yüksek
1
µ Yüksek ( x )
0
10
20
30
40
50
60
70
80
90
100
x
Risk Kapasitesi (%)
Dü ük
Bekil 1. Yüksek risk kapasiteli mü terilere ili kin bir bulan k küme örne!i
2.1. Bulan:k kümeler
Kümeler, temel matematik ve mant k kavramlar n n esaslar n te kil etmektedir. ncelenen bir olay n
veya verilen bir problemin sonucunda ula labilmesi mümkün olabilirlikler toplulu!una küme ve bu
kümeyi olu turan nesnelere ise kümenin elemanlar ad verilmektedir. Üzerinde çal lan kümelerin
her birini alt küme olarak kabul eden ve en geni küme olan evrensel kümedeki nesnelerin ortak
özelliklerine göre bir araya getirilmesi i lemi geleneksel küme yakla m olarak de!erlendirilir.
Geleneksel küme teorisinde kesin s n rl küme kavram kullan l r. Bu kavram bir nesnenin, bir
kümenin eleman olmas ya da olmamas gibi iki seçenekli bir mant !a dayanmaktad r.
Bir çe it çok de!erli küme kuram olan bulan k küme kuram , belirsizli!in bir çe it
formülle tirilmesidir. Fakat i lemleri, di!er küme kuramlar ndan farkl l klar gösterir. Kümedeki her
bir birey, klasik çift de!erli küme kuramlar nda oldu!u gibi üye ya da üye de!il olarak de!il, bir
dereceye kadar üye olarak görülür.
Bulan k kümelerde üyelik dereceleri aras ndaki geçi yumu ak ve sürekli bir ekilde olmaktad r.
Ö!eler bulan k kümeye k smi derecede aittir. Bulan k kümelerde; klasik kümelerdeki karakteristik
fonksiyon, µ A : X * {0,1}, yerini üyelik fonksiyonuna b rak r. Bu da; µ A : X * [0, 1] biçiminde
gösterilir.
Bulan k küme de!i ik üyelik derecesinde ö!eleri olan bir topluluktur. Klasik küme teorisindeki siyahbeyaz ikili üyelik kavram n k smi üyelik kavram na genelle tirir. Burada “0” de!eri üye olmamay ,
“1” de!eri tam üye olmay belirtirken (0, 1) aral ! ndaki de!erlerde k smi üyelik kavram na kar l k
gelir.
Bulan k küme, bir nesne ve bu nesnenin ilgili kümeye üyelik derecesini gösteren
A = {(x, µ A ( x) ) x 7 X } eklindeki s ral çiftlerle ifade edilir. E!er X kümesi, {x1 , x 2 ,..., x n } eklinde
192
kesikli bir küme ise, bir bulan k A kümesi, A = {" µ A ( xi ) / xi } olarak gösterilir. Bulan k kümenin
sürekli olmas durumunda gösterim, A = {. µ A ( xi ) / xi } biçiminde olacakt r [1].
2.2. Bulan:k ç:kar:m sistemi
Klasik matematiksel modellerle kesin say sal i leme yaln zca parametreler ve girdiler do!ru olarak
bilindi!i zaman yap labilir. Bu çok rastlanan bir durum olmad ! ndan, uygulamada sadece verileri
de!il ayn zamanda bununla ilgili belirsizli!i de yeterince i leyebilen bir modelleme çat s gerekir.
Stokastik yakla m, belirsizli!i de!erlendirmede klasik bir yoldur. Bununla beraber tüm belirsizlik
tipleri de rasgelelik çat s içerisinde de!erlendirilemez. Bulan k mant k ve bulan k küme teorisi bu
konuda bir alternatif önermektedir [1].
Sözel bilgilerin say sal hale getirilip, bilgisayarlar ve algoritmalar taraf ndan alg lanarak
hesaplamalar n yap labilmesi için bulan k sistemlere ihtiyaç duyulmaktad r. Bulan k ç kar m sistemi;
bulan k küme teorisi, bulan k e!er-ise kurallar ve bulan k mant k kavramlar na dayanan bir hesaplama
sistemidir. Bu mant k prosedürü, tüm kurallardan kümelenen bilgilere dayanan ç kt de!erlerini türetir
[2, 13]. rekil 2’de bir bulan k ç kar m sisteminin genel yap s görülmektedir.
Gerçek Problem
EYLEM
Bulan k Kural Taban
Kesin Ç kt :
G RD
Bulan kla t r c
Bulan k girdi
Bulan k
Ç kar m Motoru
Bulan k ç kt
Durula t r c
Bekil 2. Bulan k ç kar m sisteminin genel yap s
rekil 2’de görülen bulan k sistemin bile enleri a a! da tan mlanm t r [1,13].
Genel bilgi taban birimi, incelenecek olay n etkilendi!i girdi de!i kenlerini ve bunlar hakk ndaki
say sal ve/veya sözel tüm bilgileri içeren bile endir.
Bulan kla!t rma arayüzü, kesin girdi de!erlerini bulan k de!erlere çevirir. Bunun için girdi
de!erlerini al r, girdi de!i ken aral ! n n uygun evrensel kümeye dönü türülmesini sa!lar ve girdi
verilerini uygun sözel de!erlere (bulan k kümeler) dönü türür.
Bulan k kural taban birimi, veri taban nda giri leri ç k de!i kenlerine ba!layan mant ksal e!er-ise
türünde yaz labilen kurallar n tümünü içeren bile endir. Bu kurallar n yaz lmas nda sadece girdi
verileri ile ç kt lar aras nda olabilecek tüm bulan k küme ba!lant lar dü ünülür. Böylece her bir kural
girdi uzay n n bir parças n ç kt uzay na mant ksal olarak ba!lar.
A i , Bi ve C i bulan k alt kümelerinin üyelik fonksiyonlar s ras yla µ A i , µ B i , µ C i olsun. Genel bir
bulan k e!er-ise kural ;
Ki: E!er ” x A i dir” ve ” y B i dir” ise, ” z C i dir”
193
i = 1,2,…, n
(1)
biçiminde olu turulur. ”E!er” ile ”ise” kelimeleri aras nda bulunan k sma öncül veya ön artlar, ”ise”
kelimesinden sonra gelen k smada soncul veya ç kar m ad verilir.
Bulan k ç kar m motoru birimi, bulan k kural taban nda giri ve ç k bulan k kümeleri aras nda
kurulmu olan parça ili kilerin hepsini bir arada toplayarak sistemin bir ç k l davranmas n sa!layan
i lemler toplulu!unu içeren bile endir. Her bir kural n ç kar mlar n bir araya toplayarak tüm sistemin
nas l bir ç kt verece!inin belirlenmesine yarar.
Durula!t rma arayüzü, bulan k i lemler sonucu elde edilen bulan k ç kar m sonuçlar n kesin say sal
ç kt de!erlerine dönü türen bile endir.
Ç kt birimi, bilgi ve bulan k kural tabanlar n n bulan k ç kar m motoru arac l ! ile etkile imi
sonucunda elde edilen ç kt de!erlerinin toplulu!unu belirten birimdir.
Bulan k e!er-ise kurallar ve kümeleme yöntemlerinin farkl çe itleri, farkl ç kar m sistemlerinin
olu mas n sa!lamaktad r. Sonuç biçimine göre genel olarak üç tip kurala dayal bulan k model ay rt
edilmektedir. Bunlar sözel bulan k model (Mamdani yöntemi), bulan k ba! nt sal model ve Takagi
Sugeno Kang modelidir. Sözel bulan k modelde, hem öncül hem de soncul bulan k önermedir. Bulan k
ba! nt sal model, sözel bulan k modelin öncül ile soncul aras ndaki terimler bulan k ba! nt olacak
ekilde genelle tirilmi biçimidir. Takagi Sugeno Kang bulan k modelinde ise öncül bulan k önerme
ve soncul da kesin fonksiyondur [1].
Mamdani yöntemi, bulan k içerme i lemcisi olarak EK i lemcisini, bile ke i lemcisi olarak da EBEK’y kullan r. Bulan k kurallar (1) ile verildi!i gibi olsun.
Girdi verisi x = x 0 ve y = y 0 gibi bir kesin say oldu!unda A i ve Bi e le me derecesi s ras yla
µ A i ( x0 ) ve µ B i ( y 0 ) dir. Bundan dolay , Ki kural n n e le me derecesi;
i
= µ A i ( x0 ) J µ B i ( y 0 )
(2)
dir. C Hi , Ki kural n n sonucu oldu!unda;
µ
C 'i
( z) =
i
J µ C i ( z)
(3)
dir ve toplam sonuç C H bireysel denetim kurallar ndan türer;
µ
( z)
C'
n
= K[
i =1
i
J µ C i ( z )]
(4)
n
C H = U C Hi
(5)
i =1
3. Hayat Sigortalar nda Risk S n fland rma
3.1. Risk seçim ve s:n:fland:rmada amaç
Sigorta irketleri mü terilerine yani poliçe sahiplerine, mevcut veya gelecekte ortaya ç kabilecek
talepleri için ödeme taahhüdünde bulunurlar ve mü teriler de bu taahhütlerin zaman nda ve düzgün
ekilde kar lanmas n beklerler. Ancak sigortac l k temelde bir risk i i oldu!u için, önceden
öngörülemeyen risklerin ortaya ç kmas durumunda irketlerin kaynaklar yükümlülüklerini
194
kar lamada yetersiz kalabilmektedir. te bu nedenle, poliçe sahiplerinin menfaatlerini korumak
amac yla, sigorta irketlerinin mali yap lar n n yeterince güçlü olmas gerekmektedir.
Sigorta planlar nda, poliçe sahiplerinin farkl s n flar aras nda adaleti koruyabilmek amac yla; her bir
sigortalanan birey mü terek fona maruz kalabilece!i risklere ili kin kay plar ölçüsünde katk da
bulunurlar. E!er bir bireye mevcut katk s ndan daha az ödeme yapmas na izin verilirse, bu di!er
bireylerin ödemelerinin a r yüklenmesine neden olur. Bu a amada sigorta irketinin görevi, mevcut
riski dikkatli bir biçimde s n fland rmak ve poliçe sahiplerine adaletli prim borcu yüklemektir. Genel
olarak; risk seçim ve s n fland rman n amac , hem sigorta irketi hem de sigortalanan aç s ndan kabul
edilebilir prim oranlar n n belirlenmesi biçiminde aç klanabilir [7].
3.2. Hayat riskini etkileyen faktörler
Poliçe sahipleri aras nda prim oranlar aç s ndan adaletli olmak ve sigorta plan n n mali yeterlili!inin
sürdürülebilmesi amac yla; risk s n fland rma sürecinde sigorta irketi, hayat riskini etkileyen baz
faktörlerin üzerinde önemle durmas gerekmektedir. Bu faktörler do!rultusunda sa!lanan bilgiler,
sigorta irketine mevcut riskin büyüklü!ünün ve kapsam n n belirlenmesinde yard mc olacakt r. Bu
faktörlerden önemlileri sigorta ba vurusu yapan bireylerin ya , fiziksel yap s , aileden gelen
özellikleri, sa!l k özgeçmi i, mesle!i, al kanl klar ve cinsiyeti olarak verilebilir [7, 11].
3.3. Klasik s:n:fland:rma yöntemleri
Hayat sigortalar nda bireylerin mevcut sigortalama bilgilerinin toplanmas n n ard ndan; veriler
de!erlendirilmeli ve ba vuru sahibinin standart risk grubu olarak kabul edilip edilemeyece!i, kabul
edilebilir fakat standart olmayan risk grubunda yer almas gerekti!i veya sigorta ba vurusunun
tamam yla red edilmesi gerekti!i kararlar n verebilmek üzere risk s n fland rma yöntemleri
geli tirilmi tir. Sigorta irketleri taraf ndan kullan lan risk de!erlendirme ve s n fland rma sistemleri,
Hayat riskini etkileyen her bir faktörün etkisini do!ru ölçmeli,
Birbirleri ile ili kili veya çeli en faktörlerin birlikte etkilerini de!erlendirmeli,
Yans z sonuçlar üretmeli,
Basit ve kullan l olmal d r [11].
3.3.1 Yarg:sal derecelendirme yöntemi
Yarg sal derecelendirme yöntemini kullanan sigorta irketi t bbi, aktüeryal veya ilgili di!er alanlarda
uzman ki ilerin birlikte verece!i yarg lar na ba! ml d r. Bu yöntem, bir karma k risk faktörü
oldu!unda ve sadece bireylerin standart risk grubuna dahil edilmesi veya ba vurunun tamam yla red
edilmesi kararlar n vermek üzere kullan l bir yöntemdir. Baz lar birbirleri ile çeli en çoklu
karma k risk faktörleri oldu!unda standart olmayan risk s n fland rmas n n da kullan lmas gereklidir.
Yarg sal derecelendirme yönteminin bu gibi zay f yönlerinin olmas nedeniyle say sal derecelendirme
sistemi önerilmi tir.
3.3.2 Say:sal derecelendirme sistemi
Say sal derecelendirme sistemi, hayat riskine etki eden birçok faktörün riskin kompozisyonuna dahil
edilmesi ve bu faktörlerin istatistiksel incelemeler do!rultusunda belirlenmesi prensibine dayal bir
yöntemdir. Bu plana göre 100% (baz de!eri), fiziksel, manevi olarak ve finansal aç dan sa!lam
bireylerin içerildi!i standart veya normal risk grubunu temsil etmektedir. Bu yöntemde, belirlenen
faktörlerin bireyin hayat riskine muhtemel etkileri borç ve alacak biçiminde sisteme kaydedilir. Her bir
faktörün etkilerine ili kin bu kaydedilen de!erler, baz risk karakteristikleri ve bilgileri aç s ndan
benzer özelliklere sahip gruplar içinde ölüm oran incelemeleri neticesinde yarg sal olarak belirlenir.
Böylece ba vuranlar için genellikle 75-500 aras nda bir da! l m meydana gelir. Bu da! l mda 75-125
195
aras nda kalan ki iler sigortalanacak riskin kabul edilebilir limitleri içerisinde kald ! varsay larak
sözle me yap l r.
Derecelendirme yap ld ktan sonra sigorta ba vurular n n sigorta maliyetlerinin saptanmas için oranlar
belirlenir. Bu oranlar n, i letmenin sigortalamay kabul etti!i riskten do!acak zararlar ödemeye
yetecek kadar yüksek olmas gerekir. Fiyat n gerekti!inden çok yüksek tutulmas da talebi azaltarak,
büyük say lar kanununun i lemesine yeterli say da birimin bir araya getirilememesi sonucunu do!urur.
Böylece riskin olas de!erinin gerçek de!erine yak n olarak tahmin edilmesi ans azal r [11].
Örne!in, 35 ya nda bir ki i 30 y ll k karma hayat sigortas na ba vursun. Sigorta irketinin elde etti!i
bilgilere göre ki inin boy uzunlu!u 175 cm ve a! rl ! 93 kg; belirli zaman aral klar nda kaydedilen üç
sistolik kan bas nc düzeyinin ortalamas 178 mm Hg ve ki inin aileden gelebilecek kal tsal bir
hastal ! olmas n. Say sal derecelendirme sistemine göre elde edilen sonuç Çizelge 1 ile gösterilmi tir.
160 de!eri, sigorta ba vurusu yapan birey için beklenen ölüm oran n n, standart veya normal risk
grubu için belirlenen ölüm oran ndan %60 daha fazla oldu!unu göstermektedir.
Çizelge 1. Say sal derecelendirme sistemi örne!i
Faktör
Baz De<eri: 100%
A r kilo
+ 25
Aileden gelen özellikler: yi
-5
Sistolik kan bas nc : Yüksek
+ 50
Sigorta plan : 30 y ll k karma hayat sigortas
- 10
Toplam
+ 75
Derece:
- 15
160
Say sal derecelendirme sisteminde s n fland rma, riskin homojen oldu!u varsay m ile yap l r. Fakat
gerçekte risk heterojendir ve hayat riskine etki eden sadece birkaç faktör ile s n fland rma
yap ld ! nda, riskin di!er birçok karakteristi!i göz ard edilmektedir. Oysa sigorta irketi ayn riskle
kar kar ya bulunan, çok say da benzer nitelikte birimi bir araya getirerek, onlar için teker teker
belirsiz olan hasar olas l ! n tahmin edilebilir duruma getirmek istemektedir. Bu dü ünce büyük
say lar kanunundan kaynaklanmaktad r [6, 11].
Ayr ca, bu yöntemde yer alan problemlerden biride hayat riskini etkileyen birçok risk faktörünün
esas nda bulan k olmas d r. Sigorta ba vurusu yapan bireyleri cinsiyet ve medeni durumlar na göre
s n fland rmak oldukça basittir; fakat bireyleri sa!l k durumu gibi di!er de!i kenlere göre kesin
s n rlar ile bir gruba dahil etmek do!ru bir yakla m olmayacakt r. Örne!in, sistolik kan bas nc 160
mm Hg’den yüksek olan bireyleri standart olmayan risk grubunda s n fland r rken, 159 mm Hg kan
bas nc na sahip bireylerin standart risk grubu olarak de!erlendirilmesi risk yönetiminin ba ar s z bir
biçimde yürütülmesine yol açacakt r.
4. Bulan k Ç kar m Sistemleri ile Risk S n fland rma
Sigortalanan riskin benzer özelliklerine, hasar üretme ihtimaline ve bu hasarlar n büyüklü!üne göre
kategorize etme i lemi olarak ifade edilebilecek risk s n fland rma aktüerya biliminin temel
konular ndan biridir. Hayat sigortalar nda poliçe sahipleri, klasik hayat tablolar kullan larak ve
genellikle az say daki risk karakteristiklerine göre s n fland r lmakta ve birçok di!er bulan k risk
faktörleri göz ard edilmektedir [6]. Klasik kümeleme algoritmalar , her bir nesnenin bir kümeye kesin
s n rlar ile ait oldu!u dü üncesine göre olu turulur. Ancak nesnelerin ait olabilece!i s n flar n s n rlar
her zaman kesin olarak tan mlanamayabilir. Bu gibi durumlarda ve çoklu karma k risk
196
karakteristikleri mevcut ise bulan k küme metodolojisi, sistemi en iyi temsil edecek bir model
olu turmak üzere etkili bir yöntem sa!lamaktad r[10].
Sigorta i letmeleri kendilerine gönderilen ba vuru formlar n inceler, sa!l k denetimi sonuçlar n
ald ktan sonra s ras yla seçim, ay r m ve derecelendirme i lemlerini yaparlar. Ba vuru formlar ndaki
bilgilere ve sa!l k denetimi raporunun sonuçlar na göre yap lan bu de!erlendirmelere göre, sigorta için
ba vuran ki i kabul veya reddedilir. Ba vuruda bulunan bütün birimlerin ayn oranda ölüm riski ile
kar kar ya bulunduklar söylenemez.
Bütün dünyada oldu!u gibi ülkemizde de, kardiyovasküler hastal klar ölüm nedenleri aras nda ilk
s rada yer almaktad r [9]. Sigara al kanl ! , yüksek kolesterol düzeyi, hipertansiyon ve obezite
kardiyovasküler hastal klar ile ili kili olduklar genel olarak kabul edilmi risk faktörleridir [5]. Kad n
ve erkekler aras nda, kardiyovasküler hastal k geli imi aç s ndan, en önemli risk faktörü, sigara
tüketimidir. çilen sigara say s ile risk aras nda doza ba! ml olan çok aç k bir ili ki vard r [12].
Sigorta planlar nda primler toplam , riskin olas de!erinden az olursa sigorta irketi böyle bir durumda
zararla kar kar ya kalabilir. Bu zarar olas l ! n ortadan kald rmak veya minimuma dü ürmek
amac yla net primlere bir güvence pay (safety margin) eklenilmektedir. letme giderleri ve kâr
paylar ile güvence paylar n n net primlere eklenmesiyle saptanan ödentiye brüt prim denilir.
Hayat sigortas nda standart riske kar sigortalanan ki ilerden, ayr ya ve cinsiyette bulunmalar
ko uluyla sabit oranda primler al nmaktad r. E!er sigorta i letmesi standard n alt nda riskle kar
kar ya bulunan ki ileri de sigortalamak yoluna giderse, bu kez daha yüksek oranlarda primler al rlar.
E!er (P) ile her sigortal dan al nan net tek prim ve (C) ile güvence pay gösterilirse, sigortal dan al nan
brüt prim;
PH = P + C
(6)
biçiminde yaz labilir [7, 11]. Bu ba!lamda, sigorta irketinin sigortal lardan alacaklar primler
belirlenirken; kardiyovasküler hastal klar yönünden yüksek riske sahip bireyler pozitif risk yüklemesi
( D > 0 ) ile dü ük riske sahip bireyler ise negatif risk yüklemesi ( D < 0 ) ile mü terek fona katk da
bulunmal d rlar. Yani sa!l kl bireylerin ödeyece!i primlerde indirim yap lmal d r.
Bu çal mada, imtiyazl risk grubu, normal veya kabul edilebilir risk grubu, standart olmayan risk
grubu ve kabul edilemez (yüksek) risk grubu biçiminde bir s n fland rma kullan lacak ve bulan k
ç kar m sistemleri sonucunda kesin ç kt de!eri olarak bir risk yüklemesi elde edilecektir. Bu amaçla,
net tek prim ile orant l olarak belirlenen bir risk yüklemesi sonucunda elde edilecek brüt prim;
PH = P +
D(n)
P
100
(7)
biçiminde hesaplanacakt r. Burada, D(n) , n. nci bireye ili kin risk yükleme oran n (%)
göstermektedir.
4.1. Model
Bulan k kümeler ya da bulan k mant ! ve buna kar l k gelen matematiksel çat y kullanan statik ya
da dinamik sistemler “bulan k sistemler” olarak tan mlan r. Bu sistemler, bulan k mant kla ç kar m ve
karar vermeye dayal çal ma ilkeleri olan sistemlerdir. Bulan k sistemlerin ba l ca özellikleri aras nda
en önemlisi; çoklu girdileri, kural taban ve ç kar m motoru ile i leyerek tek ç kt haline
dönü türmesidir. Baz özel durumlarda ç kt lar birden fazlada olabilir [1, 13].
197
Modellerin geli tirilmesi için girdi de!i kenlerinin belirlenmesi, bulan kla t r lmas ve daha sonra
karar verme mekanizmas için her bir girdi ve ç kt de!i kenlerini ba!layan kurallar n olu turulmas
gerekir. Bulan k sisteme gelen veriler, öncelikle i lenmeye haz r hale getirildikten sonra bulan k kural
taban nda yüklenmi e!er-ise biçiminde tan mlanm kurallara göre, ç kar m mekanizmas nda
i lenirler.
Bu çal mada, eldeki girdiye kar l k olarak gelen ç kt de!erinin belirlenmesi amac yla, kural
taban nda bilginin modellenme ekline göre; sözel bulan k modelde denilen Mamdani yöntemi
kullan lacakt r. Bulan k i lemler sonucu elde edilen bulan k ç kar m sonuçlar n kesin say sal ç kt
de!erlerine dönü türmek amac yla ise; yayg n olarak kullan lan Sentroid yöntemi (A! rl k merkezi
yöntemi) uygulanacakt r.
Hayat sigortalar nda bireyleri, sistolik kan bas nc ve kolesterol düzeyi, beden kitle indeksi ve günlük
ortalama sigara tüketimi biçiminde belirlenen kardiyovasküler risk faktörlerine göre s n fland rmak
üzere her bir girdi ve ç kt de!i kenlerine ili kin bulan k alt kümeler a a! daki gibi tan mlanm t r.
Obezitenin saptanmas nda en çok kullan lan ve bilinen yöntem Beden Kitle ndeksi (BK )’dir. BK ,
Vücut A! rl ! (kg) / Boy2 (m2) ile hesaplan r [12].
Sistolik Kan Bas nc (mm Hg):
A = { A 1 , A 2 , A 3 , A4 } = {Optimal, Normal, Yüksek, Hipertansiyon}
Kolesterol Düzeyi (mg/dl):
B = {B 1 , B 2 , B 3 } = {Normal, Orta, Yüksek}
Beden Kitle ndeksi (kg/m2):
C = {C 1 , C 2 , C 3 , C 4 } = {Normal, Hafif Kilolu, Kilolu, Tehlikeli Kilolu}
Günlük Ortalama Sigara Tüketimi (adet):
D = {D 1 , D 2 , D 3 } = {Dü ük, Normal, Yüksek}
Risk Yüklemesi (%):
R = {R 1 , R 2 , R 3 , R 4 } = { mtiyazl Risk, Normal Risk, Standart Olmayan Risk, Yüksek veya
Kabul Edilemez
Risk}
Sistolik kan bas nc , kolesterol düzeyi, beden kitle indeksi, sigara tüketimi girdileri ve risk yüklemesi
ç kt s için belirlenen sözel de!i kenlere ili kin üyelik fonksiyonlar uzman deste!i al narak
belirlenmi ve analitik olarak rekil 4 ile verilmi tir.
Olu turulan bulan k model, girdi – ç kt de!i kenleri ve bulan k kurallar n grafiksel olarak
tasarlanabilece!i Matlab program nda, Bulan k Mant k Araç Kutusu (Fuzzy Logic Toolbox)
kullan larak de!erlendirilmi tir. Modelin grafiksel yap s rekil 3 ile verilmi tir. Bulan k e!er – ise
kurallar n n belirlenmesinde girdiler ile ç kt aras nda olabilecek tüm bulan k küme ba!lant lar
dü ünülmü ve toplam 144 kural tan mlanm t r.
Sistolik Kan Bas nc
Bulan k Ç kar m
198
(Mamdani Yöntemi)
Kolesterol
Risk Yüklemesi
Beden Kitle ndeksi (BK )
Günlük Ortalama Sigara Tüketimi
Bekil 3. Matlab program ile olu turulan risk s n fland rma modelinin yap s
µ A ( x1 )
Optimal
Normal
Yüksek
Hipertansiyon
1
100
110
120
130
140
150
160
170
180
190
x1
SKB (mm Hg)
µ B (x 2 )
Normal
Orta
Yüksek
1
180
µC (x 3 )
190
200
210
Normal
220
230
240
Hafif Kilolu
250
260
270
x2
Kolesterol Düzeyi (mg/dl)
Kilolu
Tehlikeli Kilolu
1
18
20
22
24
26
28
30
32
34
36
38
(kg/m2)
µ D (x 4 )
Dü ük
Normal
1
199
Yüksek
40
BK
x3
0
1
2
3
4
5
6
7
8
9
10
11
12
x4
Günlük Ort.
Sig.
Tüketimi
µ R (D )
Normal Risk
1
Standart
Olmayan Risk
Yüksek Risk
mtiyazl
Risk
-20
-10
0
10
20
30
40
50
60
70
80
90 100
D
Risk Yüklemesi
(%)
Bekil 4. Bulan k alt kümelere ili kin üyelik fonksiyonlar
4.2. Uygulama
i. Sistolik kan bas nc 135 mm Hg, kolesterol düzeyi 230 mg/dl, beden kitle indeksi 29 kg/m2
ve sigara içmeyen bir bireye ili kin;
x = x ( x1 , x 2 , x3 , x 4 ) = x ( 135, 230, 29, 0 )
girdisi için bulan k kural taban nda yer alan 144 kural aras ndan aktif olan 8 kural a a! da verilmi tir.
Kural 1: Bireyin sistolik kan bas:nc: normal ve kolesterol düzeyi orta ve beden kitle indeksi hafif
kilolu ve günlük ortalama sigara tüketimi dü ük ise risk yüklemesi imtiyazl d r.
Kural 2: Bireyin sistolik kan bas:nc: normal ve kolesterol düzeyi orta ve beden kitle indeksi kilolu ve
günlük ortalama sigara tüketimi dü ük ise risk yüklemesi normaldir.
Kural 3: Bireyin sistolik kan bas:nc: normal ve kolesterol düzeyi yüksek ve beden kitle indeksi hafif
kilolu ve günlük ortalama sigara tüketimi dü ük ise risk yüklemesi normaldir.
200
Bekil 5. x (135, 230, 29, 0 ) girdisi için bulan k kural taban
Kural 4: Bireyin sistolik kan bas:nc: normal ve kolesterol düzeyi yüksek ve beden kitle indeksi kilolu
ve günlük ortalama sigara tüketimi dü ük ise risk yüklemesi normaldir.
Kural 5: Bireyin sistolik kan bas:nc: yüksek ve kolesterol düzeyi orta ve beden kitle indeksi hafif
kilolu ve günlük ortalama sigara tüketimi dü ük ise risk yüklemesi normaldir.
Kural 6: Bireyin sistolik kan bas:nc: yüksek ve kolesterol düzeyi orta ve beden kitle indeksi kilolu ve
günlük ortalama sigara tüketimi dü ük ise risk yüklemesi standart olmayand r.
Kural 7: Bireyin sistolik kan bas:nc: yüksek ve kolesterol düzeyi yüksek ve beden kitle indeksi hafif
kilolu ve günlük ortalama sigara tüketimi dü ük ise risk yüklemesi standart olmayand r.
Kural 8: Bireyin sistolik kan bas:nc: yüksek ve kolesterol düzeyi yüksek ve beden kitle indeksi kilolu
ve günlük ortalama sigara tüketimi dü ük ise risk yüklemesi standart olmayand r.
Kural taban nda bilginin modellenmesinde Mamdani yöntemi ve durula t rma yöntemi olarak da
Sentroid yöntemi kullan ld ! nda elde edilen Matlab program ç kt s rekil 5’de görüldü!ü gibidir.
Buna göre; sigorta ba vurusu yapan bireyler aras ndan, sistolik kan bas nc 135 mm Hg, kolesterol
düzeyi 230 mg/dl, beden kitle indeksi 29 kg/m2 ve sigara içmeyen bir ki i için belirlenen risk
yüklemesi ( D ) %26’d r. Elde edilen bu sonuca göre, birey için belirlenecek brüt prim;
201
PH = P +
26
P
100
biçiminde olacakt r.
ii. Sistolik kan bas nc 155 mm Hg, kolesterol düzeyi 250 mg/dl, beden kitle indeksi 35 kg/m2
ve sigara içmeyen bir bireye ili kin;
x = x ( x1 , x 2 , x3 , x 4 ) = x ( 155, 250, 35, 0 )
girdisi için bulan k kural taban nda yer alan kurallar aras ndan aktif olan 4 kural a a! da verilmi tir.
Kural 1: Bireyin sistolik kan bas:nc: yüksek ve kolesterol düzeyi yüksek ve beden kitle indeksi kilolu
ve günlük ortalama sigara tüketimi dü ük ise risk yüklemesi standart olmayand r.
Kural 2: Bireyin sistolik kan bas:nc: yüksek ve kolesterol düzeyi yüksek ve beden kitle indeksi
tehlikeli kilolu ve günlük ortalama sigara tüketimi dü ük ise risk yüklemesi standart olmayand r.
Kural 3: Bireyin sistolik kan bas:nc: hipertansiyon ve kolesterol düzeyi yüksek ve beden kitle indeksi
kilolu ve günlük ortalama sigara tüketimi dü ük ise risk yüklemesi yüksektir.
Kural 4: Bireyin sistolik kan bas:nc: hipertansiyon ve kolesterol düzeyi yüksek ve beden kitle indeksi
kilolu ve günlük ortalama sigara tüketimi dü ük ise risk yüklemesi yüksektir.
rekil 6 ile verilen Matlab program ç kt s na göre sigorta ba vurusu yapan bireyler aras ndan, sistolik
kan bas nc 155 mm Hg, kolesterol düzeyi 250 mg/dl, beden kitle indeksi 35 kg/m2 ve sigara içmeyen
bir ki i için risk yüklemesi ( D ) %74.3 olarak belirlenmi tir. Elde edilen bu sonuca göre, birey için
belirlenecek brüt prim;
PH = P +
74.3
P
100
biçiminde olacakt r.
202
Bekil 6. x (155, 250, 35, 0 ) girdisi için bulan k kural taban
5. Sonuç ve Öneriler
Hayat sigortalar nda klasik risk s n fland rma yöntemlerine göre bireyler, hayat tablolar kullan larak
ve genellikle az say daki risk faktörlerine göre s n fland r lmakta ve birçok di!er bulan k risk
karakteristikleri göz ard edilmektedir. Sigorta planlar nda, poliçe sahiplerinin farkl s n flar aras nda
adaletin korunmas ve her bir sigortalanan bireyin, mü terek fona maruz kalabilece!i risklere ili kin
kay plar ölçüsünde katk da bulunmas ; hem sigortalanan hem de sigorta irketi aç s ndan öneme
sahiptir. Bu nedenle risk seçim ve s n fland rma problemi aktüerya biliminin temel konular ndan
biridir.
Bu çal mada, hayat sigortalar nda risk seçim ve s n fland rma sürecinde bulan k sistem modellemenin
bir uygulamas yap lm t r. Bu do!rultuda, ölüm nedenleri aras nda ilk s rada yer alan kardiyovasküler
hastal k riskini art ran faktörler belirlenmi ve poliçe sahipleri bu risk faktörlerine göre
s n fland r lm t r. Bu amaçla; imtiyazl risk grubu, normal veya kabul edilebilir risk grubu, standart
olmayan risk grubu ve kabul edilemez risk grubu biçiminde bir s n fland rma kullan lm t r.
Sigortada, özellikle nitel durumlar ile karakterize edilen alanlarda matematiksel modellere ihtiyaç
duyuldu!undan dolay ; risk s n fland rma problemlerinde bulan k ç kar m sistemlerinin kullan lmas
büyük yarar sa!layacakt r. Bu yöntem ile bulan kl ktan kaynaklanan belirsizli!inde
de!erlendirilmesiyle; hayat riskini etkileyen her bir faktörün etkisini do!ru ölçen, birbirleri ile ili kili
veya çeli en faktörlerin birlikte etkileri de!erlendirebilen bir model geli tirilmi tir.
203
Kaynaklar
[1] N. Baykal, T. Beyan, (2004), Bulan k Mant k Uzman Sistemler ve Denetleyiciler, B çaklar Kitabevi,
Ankara. s. 190-260.
[2] G. Bojadziev, M. Bojadziev, (2007), Fuzzy Logic for Business, Finance and Management, World
Scientific, London. s. 127-155.
[3] R. A. Derrig, K. M. Ostaszewski, (1999), Fuzzy Sets Methodologies in Actuarial Science, Practical
Applications of Fuzzy Technologies, Zimmerman, H. J. (ed.), Kluwer Academic Publishers, Boston. s.
531-553.
[4] G.W. DeWit, (1982), Underwriting and uncertainty, Insurance Mathematics and Economics, 1, 277–
285.
[5] N. Dikmeno!lu, (2006), Kardiyovasküler hastal klarda sigara ve kolesterol kadar önemli bir risk
faktörü: kan ak kanl ! , Hacettepe T p Dergisi, 37, 93–97.
[6] P.-J. Horgby , (1998), Risk Classification by Fuzzy Inference, The Geneva Papers on Risk and
Insurance, 23, 63-82.
[7] S. S. Huebner, K. Black, (1976), Life Insurance, Prentice-Hall, New Jersey. s. 360-384.
[8] J. Lemaire, (1990), Fuzzy Insurance, Astin Bulletin, 20, 33-56.
[9] A. Onat, (2001), Risk factors and cardiovascular disease in Turkey, Atherosclerosis, 156, 1-10.
[10] K. M. Ostaszewski, (1993), An Investigation into Possible Applications of Fuzzy Set Methods in
Actuarial Science, The Society of Actuaries, Schaumburg. s. 47-67.
[11] A. Özdemir, (1980), Hayat Sigortas : Teori ve Türkiye’de Uygulama, A. Ü. Siyasal Bilgiler Fakültesi
Yay nlar , Ankara. s. 61–84.
[12] G. Samur, E. Y ld z, (2008), Obezite ve Kardiyovasküler Hastal klar / Hipertansiyon, Klasmat
Matbaac l k, Ankara. s. 3–11.
[13] Z. ren, (2001), Bulan k Mant k ve Modelleme lkeleri, Bilge Kültür Sanat, stanbul. s. 20–26.
[14] V.R. Young, (1993), The application of fuzzy sets to group health underwriting, Trans. Soc. Actuaries,
45, 551–590.
204
Aral k uzunlu!unun optimizasyonuna dayal yüksek dereceli
bulan k zaman serisi yakla m
Erol E!rio!lu
Ç. Hakan Alada!
Ufuk Yolcu
Ondokuz May:s Üniversitesi.
Fen Edebiyat Fak. statistik Böl.
55139-Kurupelit, Samsun-Türkiye
[email protected]
Hacettepe Üniversitesi
Fen Fak. statistik Böl.
06532-Beytepe, Ankara-Türkiye
[email protected]
Ondokuz May:s Üniversitesi
Fen Edebiyat Fak. statistik Böl.
55139-Kurupelit, Samsun-Türkiye
[email protected]
M. Alper Ba aran
V. Rezan USLU
NiGde Üniversitesi
Fen Edebiyat Fak. Matematik Bölümü
51350 NiGde, Türkiye
[email protected]
Ondokuz May:s Üniversitesi
Fen Edebiyat Fak. statistik Böl.
55139-Kurupelit, Samsun-Türkiye
[email protected]
Özet
Literatürde bulan:k zaman serisi yakla#:mlar: bir çok çal:#mada ba#ar:l: bir #ekilde kullan:lm:#t:r. Daha
iyi öngörüleri elde etmek için farkl: bulan:k zaman serisi yakla#:mlar: önerilmi#tir. Bu yakla#:mlarda
aral:k uzunluGunun belirlenmesi öngörü doGruluGu için önemlidir. EGrioGlu vd.aral:k uzunluGunun
optimizasyonuna dayal: birinci dereceden bulan:k zaman serisi öngörü yakla#:m: önermi#lerdir [2]. Bu
çal:#mada, aral:k uzunluGunun belirlenmesinde optimizasyonun kullan:ld:G: yeni bir yüksek dereceli
bulan:k zaman serisi yakla#:m: önerilmi#tir. Önerilen yakla#:m literatürde iyi bilinen bir zaman serisine
uygulanarak, elde edilen sonuçlar tart:#:lm:#t:r.
Anahtar sözcükler: Bulanýk zaman serileri, öngörü, optimizasyon, yüksek dereceli öngörü modeli.
Abstract
A high order time series approach based on optimization of interval length
In the literature, there have been many studies in which fuzzy time series approach is successfully used.
Different fuzzy time series approaches have been proposed to obtain better forecast values In these
approaches, determining the length of interval is important for forecasting accuracy. Eðrioðlu et al.
proposed a first order fuzzy time series approach based on optimization of length of interval [2]. In this
study, by employing optimization to determine the length of interval, a novel high order fuzzy time series
approach is proposed. Then, the proposed approach is applied to well known time series in the literature
and obtained results are discussed.
Keywords: Fuzzy time series; Forecasting; Optimization; High order forecasting model.
205
1.
Giri!
Bulan k zaman serisi yakla mlar borsa, s cakl k ve kay t verisi gibi gözlemleri belirsizlik
içeren zaman serilerine ba ar yla uygulanmaktad r. Bulan k zaman serisi yakla mlar
geleneksel yöntemlerdeki normallik, do!rusall k gibi varsay mlar gerektirmemektedir.
Bulan k zaman serisi yakla mlar ilk olarak Song ve Chissom taraf ndan önerilmi tir [7,8,9].
Sullivan ve Woodall, Markov modeline dayal ba ka bir yakla m önermi tir [5]. Chen, matris
operasyonlar gerektirmeyen daha kolay bir yöntem önermi tir [11]. Huarng, aral k
uzunlu!unun belirlenmesinin öngörü performans nda etkili oldu!unu göstererek aral k
uzunlu!unun belirlenmesi için ortalama ve da! l ma dayal iki yakla m önermi tir [6].
Egrioglu vd. ise aral k uzunlu!unun optimizasyonuna dayal yeni bir yakla m önermi tir [2].
Tüm bu çal malar birinci dereceden bulan k zaman serisi öngörü modeline dayanmaktad r.
Birinci dereceden modeller basit yap s nedeniyle daha karma k ili kiler içeren bulan k
zaman serilerinin çözümlenmesinde yetersiz kalabilmektedir. Bu nedenle Chen, yüksek
dereceden bulan k zaman serisi öngörü modelini çözümleyen bir yakla m önermi tir [12].
Alada! vd. ise bulan k ili kilerin ileri beslemeli yapay sinir a! ile belirlendi!i yüksek
dereceden bulan k zaman serisi öngörü modelini çözümleyen bir yakla m önermi tir [1].
Bu çal mada, yüksek dereceden bulan k zaman serisi öngörü modelini çözümleyen, aral k
uzunlu!unun optimize edildi!i bir yakla m önerilmi tir. Aral k uzunlu!unun
optimizasyonunda polinomsal interpolasyon ve alt n aramas (golden section search)
yönteminin birlikte kullan ld ! “fminbnd” isimli MATLAB fonksiyonu kullan lm t r.
Önerilen yöntem Alabama Üniversitesi kay t verisine uygulanm t r. Elde edilen sonuçlar
literatürdeki di!er birinci dereceden ve yüksek dereceden yakla mlar ile kar la t r lm t r.
Çal man n ikinci bölümünde bulan k zaman serileri ile ilgili temel tan mlar yap lm , üçüncü
bölümde Chen taraf ndan önerilen yüksek dereceli bulan k zaman serisi yöntemi tan t lm t r
[12]. Dördüncü bölümde bu çal mada önerilen yakla m ve uygulamas verilmi tir. Son
bölümde ise elde edilen bulgular tart lm t r.
2. Bulan k zaman serileri
Bulan k zaman serisi tan m ilk olarak, Song ve Chissom taraf ndan yap lm t r [8,9]. Bulan k
zaman serisi yakla mlar nda, geleneksel yöntemlerde ihtiyaç duyulan teorik varsay mlara
gerek duyulmamaktad r. Bu nedenle, bulan k zaman serisi yakla mlar n n en önemli avantaj
az say da gözlemle ve do!rusall k varsay m olmaks z n uygulanabilir olmas d r. Baz temel
bulan k zaman serisi tan mlar a a! daki gibi verilebilir
U = {u1 , u 2 ,..., u b } , evrensel küme ve evrensel kümenin belirlenen bir sabit aral k uzunlu!una
göre parçalanmas ile elde edilen u i ’ler alt aral klar olmak üzere bulan k kümeler,
Ai = f Ai (u1 ) / u1 + f Ai (u 2 ) / u 2 + L + f Ai (u b ) / u b
206
(1)
eklinde tan mlan r. Burada, f Ai , Ai bulan k kümesinin üyelik fonksiyonunu gösterir ve
f Ai : U * [0,1] olacakt r. Bunun yan nda f Ai (u a ) ise u a alt aral ! n n Ai bulan k kümesine ait
olmas n n üyelik derecesidir ve 1 ! a ! b olmak üzere f Ai (u a ) 7 [0,1] olacakt r.
Tan m 1. Y(t), (t=…, 0, 1, 2, …) reel de!erli zaman serisi olsun. Zaman serisine uygun
evrensel küme tan m ve alt aral klar n tespit edilmesinden sonra bunlara ba!l olarak elde
edilen Ai bulan k kümelerinden olu an yeni zaman serisi, F(t) bulan k zaman serisi olarak
adland r l r.
Tan m 2. “*” herhangi bir operatörü göstermek üzere, e!er F(t) bulan k zaman serisi yaln zca
bir gecikmeli F(t-1) bulan k zaman serisinden etkilenmekte ise, F(t) ile F(t-1) bulan k zaman
serisi aras ndaki bulan k ili ki,
F (t ) = F (t 1) ( R (t , t 1)
(2)
eklinde ifade edilir ve birinci dereceden bulan k zaman serisi öngörü modeli olarak
adland r l r. Bu ili ki Song ve Chissom taraf ndan a a! daki gibi tan mlanm t r [8],
F (t 1) * F (t )
(3)
Sonuç olarak F (t 1) = Ai ve F (t ) = A j oldu!unda F(t) ile F(t-1) bulan k zaman serisi
aras ndaki bulan k ili ki,
Ai * A j
(4)
olacakt r. Burada Ai , bulan k ili kinin sol yan , A j ise bulan k ili inin sa! yan olarak
isimlendirilir.
Tan m 3. E!er F(t) bulan k zaman serisi, gecikmeli F (t 1), F (t 2), K , F (t n) bulan k
zaman
serilerinden
etkilenmekte
ise,
F(t)
bulan k
zaman
serisi
ile
F (t 1), F (t 2), K , F (t n) bulan k zaman serileri aras ndaki bulan k ili ki,
F (t
n),..., F (t
2), F (t 1) * F (t )
(5)
ifadesi ile verilebilir ve n’nci dereceden bulan k zaman serisi öngörü modeli olarak
adland r l r.
3.
Chen’in yüksek dereceli bulanýk zaman serisi yöntemi
Chen, 2002 y l nda yapt ! çal mada öngörü elde etmede yüksek dereceli bulan k zaman
serisi yakla m n önermi tir. Chen taraf ndan verilen bu yöntemde yüksek dereceli
modellerde tüm gecikmeli bulan k de!i kenler bulunmaktad r. Yani 4. dereceden bir zaman
serisinin çözümlenmesinde, F(t) bulan k zaman serisi iken, F(t-1), F(t-2), F(t-3), F(t-4)
bulan k gecikmeli de!i kenleri modelde yer almaktad r. Birinci dereceden bulan k zaman
207
serisi öngörü modellerine göre daha iyi sonuçlar veren, bu yüksek dereceli bulan k zaman
serisi yönteminin algoritmas a a! daki ad mlardan olu ur [12].
Ad m 1. Evrensel küme ve alt aral klar tan mlan r.
Veri setinin en küçük ve en büyük de!erleri s ras yla Dmin ve Dmax , ayr ca keyfi iki say D1
ve D2 olmak üzere evrensel küme,
U = [Dmin
D1 , Dmax + D2 ]
(6)
eklinde ve sabit aral k uzunlu!una sahip u i alt aral klar ,
U = {u1 , u 2 ,K, u b }
(7)
olacak ekilde tan mlan r.
Ad m 2. Evrensel küme ve belirlenen alt aral klara ba!l olarak A j bulan k kümeleri
tan mlan r.
Üyelik dereceleri,
/1 , k = j
5
a jk = 00.5 , k = j 1, j + 1
50 , d .d .
1
,
j = 1, 2,K, b
(8)
olmak üzere, bulan k kümeler a a! daki gibi tan mlan r.
A j = a j1 / u1 + a j 2 / u 2 + L + a jb / u b
,
j = 1, 2, K , b
(9)
Ad m 3. Gözlemler bulan kla t r l r.
Her bir veri bulundu!u aral ! n en büyük üyelik de!erine sahip oldu!u bulan k küme ile
e le tirilerek zaman serisi bulan kla t r l r.
Ad m 4. Bulan k mant k ili ki ve grup ili ki tablosu olu turulur.
Bulan k mant k ili ki ve grup ili ki tablosu olu turulmas n kavrayabilmek için birkaç örnekle
aç klamaya çal al m. Örne!in, birinci dereceden bulan k mant k ili kiler,
Ai * A j
,
Ai * Ai
,
Ai * Ak
(10)
eklinde verilmi ken, bulan k mant k grup ili kisi,
Ai * A j , Ai , Ak
(11)
208
olarak elde edilir. Benzer ekilde genel bir ifade ile n’nci dereceden bulan k mant k ili kiler,
Ain , Ai ( n 1) ,K , Ai1 * A j1
Ain , Ai ( n 1) ,K , Ai1 * A j 2
(12)
M
M
Ain , Ai ( n 1) ,K , Ai1 * A jp
eklinde verilmi ken, bulan k mant k grup ili kisi,
Ain , Ai ( n 1) ,K , Ai1 * A j1 , A j 2 ,K , A jp
(13)
olarak elde edilir. Bulan k mant k ili ki ve grup ili ki tablolar , elde edilen bu bulan k mant k
ili ki ve grup ili kilerden olu ur.
Ad m 5. Bulan k öngörüler elde edilir.
n’nci dereceden bulan k zaman serisi öngörü modeli için bulan k öngörüler elde edilirken üç
durum söz konusudur.
Durum 1. n’nci dereceden bulan k mant k grup ili ki tablosunda,
Ain , Ai ( n 1) , K , Ai1 * A j
(14)
ili kisi mevcut ise bulan k öngörü, A j olacakt r.
Durum 2. n’nci dereceden bulan k mant k grup ili ki tablosunda,
Ain , Ai ( n 1) ,K , Ai1 * A j1 , A j 2 ,K , A jp
(15)
ili kisi mevcut ise bulan k öngörüde belirsizlik söz konusudur ve bulan k öngörünün elde
edilebilmesi için belirsizlik giderilene kadar incelenen derecenin bir üst derecesine bak larak
m>n olmak üzere,
Aim , Ai ( m 1) , K , Ai1 * A j
(16)
ili kisini veren m aran r ve bu durumda bulan k öngörü, yine A j olacakt r.
Durum 3. n’nci dereceden bulan k mant k grup ili ki tablosunda,
Ain , Ai ( n 1) , K , Ai1 * Bo#
ili kisi mevcut ise reel öngörü,
(17)
Ain , Ai ( n 1) , K , Ai1 bulan k kümelerine ba!l
u in , u i ( n 1) , K , u i1 aral klar n n orta noktalar , min , mi ( n 1) , K , mi1 olmak üzere,
209
olarak,
1 × min + 2 × mi ( n
1)
+ L + n × mi1
(18)
1+ 2 +L+ n
ifadesi ile elde edilir.
Ad m 6. Durula t rma i lemi uygulan r.
Durula t rmada merkezile tirme yöntemi kullan l r. Öngörülerin elde edilmesinde kar la lan
Durum 1. ve Durum 2. için bulan k öngörü A j olarak elde edilmi ken, durula t r lm öngörü,
A j bulan k kümesinde en yüksek üyelik de!erine sahip olan u j aral ! n n orta noktas
olacakt r. Durum 3. için ise reel öngörünün, Ain , Ai ( n 1) , K , Ai1 bulan k kümelerine ba!l olarak
nas l elde edildi!i daha önce belirtilmi ti.
4.
Önerilen yaklaþým ve uygulamasý
Bulan k zaman serisi yakla mlar nda aral k uzunlu!u, öngörü performans üzerinde oldukça
etkilidir. Bu nedenle, bulan k zaman serilerinde öngörülerin iyile tirilmesi için aral k
uzunlu!unun seçimi kritik bir karard r. E!rio!lu vd., birinci dereceden bulan k zaman serisi
öngörü modelinin kullan ld ! ve aral k uzunlu!unun optimal de!erinin belirlenebildi!i bir
yöntem önermi tir [2]. Bu çal mada, E!rio!lu vd. taraf ndan önerilen yöntem, yüksek
dereceden bulan k zaman serisi öngörü modeli kullan larak geli tirilmi tir [2]. Optimizasyon
için, polinomsal interpolasyon ve alt n arama (Golden Section Search) yöntemlerini birlikte
kullanan tek de!i kenli optimizasyon algoritmas , “fminbnd” isimli MATLAB
fonksiyonundan yararlan larak kullan lm t r. Optimizasyon problemi, “la” aral k uzunlu!unu
göstermek üzere,
min HKO (la )
(19)
Yan ^art : la 7 [a, b]
eklinde ifade edilir. HKO de!erinin aral k uzunlu!unun bir fonksiyonu olaca! aç kt r, ancak
“la” de!i kenine göre HKO fonksiyonu aç k bir formda yaz lamamaktad r. Optimizasyon
probleminin her ad m nda de!i tirilen aral k uzunlu!u için Chen taraf ndan önerilen yüksek
dereceli bulan k zaman serisi öngörü yöntemi için geçerli olan algoritma kullan lmaktad r
[12].
Önerilen yakla m Tablo 1’de verilen Alabama Üniversitesi Kay t verisine uygulanm t r.
Uygulamada ikinci, üçüncü ve dördüncü dereceden bulan k zaman serisi öngörü modelleri
kullan larak elde edilen sonuçlar, literatürün bir k sm n olu turan, Song ve Chissom [7,8],
Sullivan ve Woodall [5], Chen [11,12], Huarng [6], Alada! vd.[1] ve E!rio!lu vd.[2]
taraf nfan önerilen yöntemler ile kar la t r lm t r.
Tablo 1. Alabama Üniversitesi kayýt verisi
Yýllar
1971
1972
1973
Gerçek Veri
13055
13563
13867
210
Yýllar
1982
1983
1984
Gerçek Veri
15433
15497
15145
1974
1975
1976
1977
1978
1979
1980
1981
14696
15460
15311
15603
15861
16807
16919
16388
1985
1986
1987
1988
1989
1990
1991
1992
15163
15984
16859
18150
18970
19328
19337
18876
Uygulamada aral k uzunlu!unun ba lang ç de!eri önceki çal malarda oldu!u gibi, 13000
olarak al nm t r. Optimizasyonda kullan lan amaç fonksiyonu, öngörüler için elde edilen
HKO de!eridir. Aral k uzunlu!u (la) için 200 < la ! 1000 aral ! nda Matlab “fminbnd”
fonksiyonu yard m yla tek de!i kenli k s tl optimizasyon algoritmas uygulanarak HKO
de!erini minimum yapacak optimal aral k uzunlu!u elde edilmi tir.
Aral k uzunlu!unun seçimi bulan k zaman serisi yakla m nda kritik bir karard r. Aral k
uzunlu!unun çok büyük seçimi zaman serisindeki dalgalanmay yok edecek, çok küçük
seçimi ise klasik analizle bulan k zaman serisi yakla m aras ndaki ay r m ortadan
kald racakt r. Bu nedenle, aral ! n, çok küçük ve çok büyük olmayacak ve yöntemin HKO
de!erini en küçük yapacak ekilde seçilmesi gerekir. Optimizasyon algoritmas , aral k
uzunlu!unun çok küçük ya da çok büyük olmas sorununu giderebilmek amac ile, aral k
uzunlu!u 200 ve 1000 aras nda s n rland r larak uyguland .
kinci, üçüncü ve dördüncü dereceden bulan k zaman serisi öngörü modelleri için elde edilen
optimal aral k uzunluklar ve bu aral k uzunluklar na kar l k gelen HKO de!erleri Tablo 2’
de verilmi tir. Tablo 2 incelendi!inde, en iyi sonucun 3. dereceden modelde, 60714 HKO
de!eri ile, 222.0880 aral k uzunlu!u için bulundu!u görülür.
Tablo 2. Önerilen yaklaþým sonuçlarý
Derece
2
3
4
Optimal aral k uzunlu!u
231.7782
222.0880
404.2322
HKO
62639
60714
172820
Önerilen yöntemden, 3. dereceden modelde 222.0880 aral k uzunlu!u için elde edilmi , en iyi
durum ve di!er baz yöntemlerin sonuçlar Tablo 3’de özetlenmi tir. Tablo 3’den de
görülebilece!i gibi, bu çal mada önerilen, aral k uzunlu!unun optimizasyonuna dayal
yüksek dereceli bulan k zaman serisi yakla m , di!er yöntemlerden daha dü ük HKO
de!erine sahiptir. Ba ka bir ifade ile önerilen yakla m kar la t rma yap lan di!er tüm
yöntemlerden daha iyi bir öngörü performans na sahiptir.
Tablo 3. Sonuçlar n kar la t r lmas
Yöntem
Derece
HKO
Song and Chissom [8]
1
412499
Song and Chissom [7]
1
775687
Sullivan and Woodall [5]
1
386055
211
Chen [11]
1
407507
Huarng [6]
1
78792
Chen [12]
3
124707
86694
Aladag vd. [1]
2
78073
Egrioglu vd. [2]
1
66661
Önerilen Yakla m
3
60714
a
b
a- Ortalamaya dayalý uzunluk
b- Daðýlýma dayalý uzunluk
5.
Sonuç ve öneriler
Bu çal mada, yüksek dereceli bulan k zaman serisi öngörü modelinin çözümlenmesi için,
aral k uzunlu!unun optimizasyonuna dayal yeni bir yakla m önerilmi tir. Chen taraf ndan
önerilen yüksek dereceli bulan k zaman serisi yakla m nda aral k uzunlu!u kullan c
tercihine b rak lm t r [12]. Ancak aral k uzunlu!unun belirlenmesinin bulan k zaman serisi
yakla mlar n n öngörü performans üzerinde önemli etkisi oldu!u bilinmektedir. Bu
çal mada önerilen yakla mda, Chen’in önerdi!i [12] yöntemden farkl olarak, HKO
de!erini minimum yapan aral k uzunlu!u tek de!i kenli k s tl optimizasyon ile
belirlenmektedir. Daha önce Egrioglu vd., taraf ndan birinci dereceden bulan k zaman serisi
öngörü modelinde aral k uzunlu!unun optimize edilerek daha iyi öngörülerin elde edildi!i bir
yakla m önerilmi tir [2]. Bu çal ma, Egrioglu vd.’ne ait çal man n yüksek dereceli bulan k
zaman serisi öngörü modeline geli tirilmi bir halidir.
Önerilen yöntemde tek de!i kenli k s tl optimizasyonun uygulanmas nda önemli bir karar,
aral k uzunlu!unun k s tlanaca! aral ! n belirlenmesidir. Çok büyük aral k uzunlu!u, zaman
serisindeki dalgalanmay kaybedecek, çok küçük aral k uzunlu!u ise bulan k olmayan (crisp)
zaman serisine denk bir bulan k zaman serisi ortaya ç karacakt r. Bu nedenle, aral k uzunlu!u
Alabama Üniversitesi kay t verisi için 200 ile 1000 aral ! nda k s tlanm t r. Yüksek dereceli
modelin derecesi, 2,3 ve 4 olarak de!i tirildi!inde en iyi sonucun 3. dereceden model ile elde
edildi!i görülmektedir ki bu sonuç, kar la t r lmas yap lan di!er tüm yöntemlere göre daha
iyi bir öngörü performans içermektedir.
Bu çal mada önerilen yöntemde bulan k ili kilerin belirlenmesi Chen taraf ndan önerilen
yüksek dereceli yakla ma göre yap lmaktad r [12]. Bulan k ili kilerin alternatif yöntemlerle
belirlendi!i ve aral k uzunlu!unun optimize edildi!i yeni bir yakla m ise ara t r labilecek
yeni bir konudur.
Kaynaklar
[1]
[2]
Ç.H. Alada!, M.A. Ba aran, E. E!rio!lu, U. Yolcu, V.R. Uslu, (2009), Forecasting in High Order Fuzzy
Times Series by Using Neural Networks to Define Fuzzy Relations, Expert Systems with Applications, 36,
4228-4231.
E. E!rio!lu, Ç.H. Alada!, M.A. Ba aran, V.R. Uslu, U. Yolcu, (2009), A New Approach Based on the
Optimization of the Length of Intervals in Fuzzy Time Series, Journal of Intelligent and Fuzzy Systems.
(Accepted Manuscript).
212
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
G.E. Forsythe, M.A. Malcolm, C.B. Moler, (1976), Computer Methods for Mathematical Computations,
Prentice Hall.
J. Kiefer, (1953), Sequential minimax search for a maximum. Proceedings of the American Mathematical
Society 4, 502-506, MR0055639, doi:10,2307/2032161.
J. Sullivan, W. H. Woodall, (1994), A comparison of fuzzy forecasting and Markov modeling. Fuzzy Sets
and Systems, 64(3), 279 - 293.
K. Huarng, (2001), Effective length of intervals to improve forecasting in fuzzy time-series, Fuzzy Sets
and Systems, 123, 387-394.
Q. Song, B. S. Chissom, (1994), Forecasting enrollments with fuzzy time series - Part II, Fuzzy Sets and
Systems, 62(l), 1-8.
Q. Song, B.S. Chissom, (1993a), Fuzzy time series and its models. Fuzzy Sets and Systems, 54, 269-277.
Q. Song, B.S. Chissom, (1993b), Forecasting enrollments with fuzzy time series - Part I, Fuzzy Sets and
Systems, 54, 1-10.
R.P. Brent, (1973), Algorithms for Minimization without Derivatives, Prentice-Hall, Englewood Cliffs,
New Jersey.
S.M. Chen, (1996), Forecasting enrollments based on fuzzy time-series, Fuzzy Sets and Systems, 81, 311319.
S.M. Chen, (2002), Forecasting enrollments based on high order fuzzy time series, Cybernetics and
Systems, 33, 1-16.
213
Sa!dan Sansürlemenin Sa!kal m Analizindeki Etkisi
Çi!dem TOPÇU
Fahrettin ARSLAN
Ankara Üniversitesi Fen Fakültesi
statistik Bölümü
TandoGan,Ankara,Türkiye
[email protected]
Ankara Üniversitesi Fen Fakültesi
statistik Bölümü
TandoGan,Ankara,Türkiye
[email protected]
ÖZET
SaGkal:m analizi, ba#lama an:ndan belirlenen bir olay:n ortaya ç:kmas:na kadar geçen süre olarak elde edilen verilerin
analizidir. Söz konusu gözlemlerin, bir tak:m nedenlerden dolay: tam olarak gözlenememesi sansürlü verilerin elde
edilmesine neden olur. Sansürlü verilerin analizinin hedeflendiGi saGkal:m analizinde, ilgilenilen temel konu
Pr(T > t ) = S (t ) saGkal:m fonksiyonunun tahmin edilmesidir. SaGkal:m analizinde T ve C , s:ras:yla saGkal:m süresi
ve sansürleme süresini gösteren negatif olmayan rasgele deGi#kenler olmak üzere, gözlemler
elde edilmektedir.
X = min(T , C )
formunda
ve C ’nin baG:ms:zl:G:n:n varsay:m:n: içeren bilgilendirici olmayan (noninformative) sansürleme
S (t ) saGkal:m fonksiyonu için en uygun tahmin edici, Kaplan-Meier (K-M) tahmin edicisi olmaktad:r.
analizi için önerilen neredeyse tüm istatistiksel yöntemlerde T ve C ’nin baG:ms:zl:G: varsay:m:
T
modeli çerçevesinde,
Sansürlü verilerin
kullan:lmaktad:r.
Bu çal:#mada, bu genel varsay:m:n geçerliliGinin sorguland:G: durumlarda, yani bireyin saGkal:m süresinin sansürlemenin
ortaya ç:k:# nedenleriyle ili#kili olduGu bilgilendiri (informative) sansürleme modeli çerçevesinde, zay:fl:k(frailty) daG:l:m:
yard:m: ile S (t ) saGkal:m fonksiyonu için önerilen uyarlanm:# Kaplan-Meier tahmin edicisi incelenmi#tir.
Anahtar sözcükler: Bilgilendirici Sansürleme, Bilgilendirici Olmayan Sansürleme, Kaplan- Meier Tahmini, Frailty
1. G R B
Klinik çal malarda, en genel anlam yla, önceden belirlenen bir olay n ortaya ç kmas na kadar geçen
süre olarak elde edilen verilere ‘sa!kal m verileri’ ad verilir. Çal man n ba nda belirlenen ve ortaya
ç kmas beklenen olay, ölüm olabilece!i gibi, bir hastal ! n ortaya ç kmas , bir komplikasyonun
belirmesi yada epileptik bir krizin ba lamas gibi olaylarda olabilmektedir. Sa!kal m analizinde ortaya
ç kmas beklenen olay genellikle olumsuz oldu!undan ba ar s zl k olarak ifade edilir.
Sa!kal m verilerinin analizi, istatistikte özel bir alan olarak göze çarpmaktad r. Bu tip verilerinin
incelenmesinde en önemli nokta belirlenen olay n ortaya ç kmas na kadar geçen sürenin ba ar l bir
ekilde gözlenebilmesidir. Baz durumlarda, baz deney birimleri için bu süre tam olarak gözlenemez
ve bu gözlemler için tüm bilinen, bireyin sa!kal m süresinin belirlenen olay n ortaya ç kma süresini
am
oldu!udur. Bu tür gözlemlere sa!dan sansürlü gözlemler denir. Sa!kal m analizini di!er
214
istatistiksel analizlerden ay ran ve bu tür verileri özel yapan sansürlemenin varl ! d r. K saca,
sansürleme gözlemelerin k smen bilinmesidir.
Klinik denemelerde, biyolojik ve medikal çal malarda kar la lan yada en s k kullan lan sansürleme
çe idi sa!dan sansürlemedir. Bu çal mada, sa!dan sansürlemenin sa!kal m verilerinin analizine olan
etkileri ele al nm t r. Sa!kal m modellerinde sansürleme bilgilendirici olmayan (noninformative) ve
bilgilendirici (informative) olarak ikiye ayr lm t r. Hemen hemen sansürlenmi veriler için tüm
istatistiksel yöntemlerde sansürlemenin bilgilendirici olmad !
varsay lm t r. Yani, sa!kal m
süresinin sansürlemenin nedenlerinden etkilenmedi!i kabul edilmektedir.
2.Kaplan-Meier Tahmini
t1 , t2 ,..., tn eklinde gösterilen bir rasgele örneklemi anlatmak için en uygun yol, ampirik sa!kal m
fonksiyonunun yada ampirik da! l m fonksiyonunun grafi!ini çizmektir. Bu yöntem, da! l m n
parametrik olmayan tahminini gerektirmektedir. n birimlik bir rasgele örneklemde sansürlenmi
verilerin olmad ! durumda ampirik sa!kal m fonksiyonunun tahmini;
t zaman:nda ya#ayan birey say:s: N t
=
Sˆ (t ) =
n
n
, t >0
(2.1)
olarak tan mlan r.
Ampirik sa!kal m fonksiyonunun grafi!i azalan bir basamak fonksiyonudur .
Genel olarak, sa!kal m süresi t’ye e it d tane sa!kal m süresi var ise, ampirik sa!kal m fonksiyonu her
ti zaman nda d i ni kadar azal r (rekil 2.1).
215
Sˆ (t )
1
d1
n1
Sˆ (t1 )
d2
n2
Sˆ (t2 )
d3
n3
Sˆ (t3 )
d4
n4
Sˆ (t4 )
0
t1
t2
t3
t
.....
t4
rekil 2.1 Ampirik sa!kal m fonksiyonu grafi!i
Sansürlenmi gözlemlerin oldu!u örneklemlerde ise, sa!kal m süresi t ’den büyük gözlemlerin say s
kesin olarak bilinemeyecektir. Bu durum, sansürlemenin olmad ! durumda elde edilen sa!kal m
fonksiyonunun tahmininin sansürlemenin oldu!u duruma uyarlanmas n gerektirir. Bu uyarlama
sonucu elde edilen sa!kal m fonksiyonunun tahmini "Çarp m Limit (Ç-L) tahmini" ya da "KaplanMeier (K-M) tahmini" olarak bilinir [2].
( ti , L i ) ,
i = 1, 2,..., n sa!kal m sürelerinin sansürlenmi bir
rasgele örneklemini göstermektedir. Bireyler için ba ar s zl ! n meydana geldi!i k ( k ! n) tane ayr
t1 < t2 < ... < tk zamanlar n n oldu!u ve t j zaman nda birden fazla ba ar s zl ! n meydana gelebilme
olas ! n n var oldu!u dü ünülsün.
d j = " I (ti' = t j , L i = 1) , t j
zaman nda meydana gelen
ba ar s zl klar n say s n vermektedir. t1 , t2 ,..., tk sa!kal m sürelerine ek olarak, ayn zamanda
sa!kal m süreleri gözlenememi bireylere ait sansürleme zamanlar vard r. Bu durumda, S (t ) ’nin KM tahmini a a! daki gibi tan mlan r.
nj
Sˆ (t ) =
j:t j <t
dj
(2.2)
nj
216
Burada, n j =
" I (t
'
j
8 t j ) eklinde ifade edilir ve t j zaman nda risk alt nda bulunan birey say s n
yani t j zaman ndan önce sa! olan ve sansürlenmemi birey say s n göstermektedir.
3.
B LG LEND R C
SANSÜRLEME
VE
B LG LEND R C
OLMAYAN
SANSÜRLEME
Medikal çal malardan elde edilen sa!kal m tipi verilerde en s k kar la lan sansürleme tipi sa!dan
sansürlemedir. Sansürlenmi sa!kal m verilerinin analizinde kullan lan neredeyse tüm istatistiksel
yöntemlerde, sansürlemenin bilgilendirici olmad ! (noninformative) varsay lmaktad r.
Bu varsay mda, sa!kal m süresinin sansürlemenin meydana gelme sebeplerinden etkilenmedi!i
dü ünülmektedir. Örne!in; klinik çal malarda hastalar tedaviden, tedavinin yan etkilerinden veya
tedavinin etkisiz kalmas ndan veya ba ka bir ajan n ortaya ç kmas ndan dolay ayr labilir. Bu
durumlar n sonucunda, sansürlü gözlemler elde edilmektedir. Böyle durumlarda, sa!kal m
fonksiyonunun tahmini a amas nda, her bireyin sansürlenme nedeninin sa!kal m süresine olan etkisi
göz ard edilmektedir. Yani; sansürlemenin bireyin sa!kal m süresi hakk nda bilgi vermedi!i
dü ünülmektedir [3].
Sa!dan sansürlemenin varl ! nda, sa!kal m fonksiyonunun tahmin probleminde, C1 , C2 ,..., Cn
sansürleme zamanlar n n T1 , T2 ,..., Tn sa!kal m sürelerinden ba! ms z oldu!u dü ünülen model için,
K-M tahmini, S (t ) için en uygun tahmin edici olmaktad r.
Bu varsay m n geçerlili!inin a a! da belirtilen üç durum için sorgulanabilir oldu!unu öne sürülmü tür
[3].
Klinik denemelerde tedavinin yan etkilerinden dolay çal madan ayr lmalar
Yine klinik çal malarda, hastalar n metaztas gibi kritik sebeplerden dolay çal maya devam
edememesi
As l ortaya ç kmas beklenen olay d nda, ikinci bir olay n ortaya ç kmas nedeniyle
çal madan ayr lmas
Bu üç durumda da bireylerin sa!kal m süreleri sansürlenmi tir. Sansürleme sonucunda; hastal ! n
seyri hakk nda hüküm vermek (prognoz) için kullan lan gelecek sa!kal m tahminleri, sansürlenen bu
bireylerin olas sa!kal mlar ndan etkilenmektedir. Fakat, K-M tahmini bu durumu gözard etmektedir.
217
Sansürlemenin gerçekçi olmayan prognoz ortaya ç kard ! durumlarda, uygun tahmin ediciler K-M
tahmin edicisi ile üstten, gözlenen X rasgele de!i keninin ampirik sa!kal m fonsiyonu ile alttan
s n rl olmal d r [4].
3.1 Bilgilendirici Sansürleme
Sansürlemenin, gerçekçi olmayan bir prognozu ortaya ç kard ! durumlarda sa!kal m fonksiyonunun
tahmini için basit modellere ihtiyaç duyulmu tur. Bu amaçla, William A. Link ‘in çal mas nda;
sansürlemenin yüksek (dü ük) risk grubuna uyguland ! varsay lan modellerde sa!kal m fonksiyonu
tahmini için uyarlanm K-M tahmin edicisini önermi tir.
3.1.1 Model
Bilgilendirici sansürleme için önerilen modelde, sa!kal m olas l klar aras ndaki heterojenli!i ifade
eden ve Vaupel, Mantan ve Stallard (1979) taraf ndan tan mlanan ‘zay fl k modeli ‘(frailty model) göz
önüne al nmaktad r.
Zay fl k (frailty); olaylar kar s ndaki bireysel dayan kl l k veya zay fl ! ifade etmektedir. Modeldeki
anlam ise, bireyler aras ortaya ç kan rasgele heterojenliktir.
Sa!kal m süresini ifade eden T ile ili kili olarak, Z rasgele de!i keni ‘zay fl k’ (frailty) olarak
adland r lmaktad r. Zay fl k modeli, bir ki iye ait zay fl k z olmak üzere, µ ( t ; z ) = z µ (t ) formunda
oldu!u varsay lan t ya ndaki bir kimsenin hazard oran n belirler. Burada; ya etkisini gösteren µ ( t ) ,
z ’den ba! ms zd r [1]. Zay fl k de!erine ba!l ko ullu sa!kal m fonksiyonu;
/5
Pr(T 8 t | Z = z ) = S (t | Z = z ) = exp 0
15
olarak verilmektedir. Amaç;
;
z
µ
s
ds
(
)
<
.0
=
t
S (t ) = E {S (t | Z )}
(3.1)
sa!kal m fonksiyonunu tahmin etmektir.
Bilgilendirici olmayan yada ba! ms z sansürleme modelinde, T sa!kal m süresi ve C sansürleme
süresinin ba! ms z oldu!unu varsay m na daha önce yer verilmi ti. Bilgilendirici sansürlemede ise,
sansürlemenin meydana gelmesinin yüksek(dü ük) zay fl k de!erine sahip bireyler için olas oldu!u
varsay lmaktad r. Yani; Z de!eri çok büyük (yada küçük) ve T ! C ise sansürlü gözlem olarak
kaydedilmektedir. A , Z ’nin de!er kümesi olmak üzere, X ve T aras ndaki ili ki,
218
/1, Z 7 A
olmak üzere;
10, d . y
GA =0
X = (1 G AT ) + G A min(T , C )
(3.2)
olarak ifade edilir [4].
3.1.2 Sa<kal m fonksiyonu tahmini
Ti , sa!kal m süresi ise, Ti ’nin t ’den büyük olup olmad ! kesinlikle bilinir. E!er, Ti , t ’ye e it veya
büyük bir sansürleme zaman ise, gerçek sa!kal m süresinin (ölüm zaman n n) t ’den büyük oldu!u
bilinir. t ’den küçük bir sansürleme zaman için ise, bu bireye ait sa! kal m süresinin t ’den büyük
olup olmad ! söylenemez. Çünkü bu süre, Ti ile t aras na dü ebilir. E!er, S (t ) bilinseydi, bu
sansürlü gözlemin sa!kal m süresinin t ’den büyük olmas olas l ! , Pr(T > t | L = 0) = S (t ) S (Ti )
olarak tahmin edilebilirdi.
n
1 5/ n
Sˆ (t ) ;5
Sˆ (t ) = 0" M(Ti > t ) + "
<
ˆ
n 51 i =1
i =1 S (Ti ) 5
=
(3.3)
0 = x0 < x1 < ... < xn s ral gözlem de!erleri ve L (1) , L ( 2) ,..., L ( n ) , L ’n n gözlemlere kar l k gelen
de!erlerini göstermek üzere, sa!kal m fonksiyonlar n n dizisinin tek limiti olan K-M tahmini öyle
elde edilir ( K * + ) ;
n
1 /5 n
S% ( K ) (t ) ;5
S% ( K +1) (t ) = 0" M( X i > t ) + " 1 L ( i ) ( K )
<
n 15 i =1
S% ( xi ) 5=
i =1
(
)
(3.4)
Sonuç olarak, (3.4) ile gösterilen ifadenin yak nsamas sonucu a a! daki ifadeye ula l r.
n
1 /5 n
S% (t ) ;
Sˆ (t ) = 0" M( X i > t ) + " 1 L ( i )
<
n 15 i =1
S% ( xi ) =
i =1
(
)
(3.5)
Bu e itlik, t zaman ndan sonra tahmin edilen sa!kal m fonksiyonunun, t ’den sonra sa! kalan
bireylerin oran ile t ’den sonra sa!kalma olabilirli!i olan fakat t ’den önce sansürlenen bireylerin
oran n n toplam oldu!unu söylemektedir.
219
Bilgilendirici sansürleme modeli varsay m alt nda,
Pr(T > t | X = xi , L = 0) =
S ( t | Z 7 A)
S ( xi | Z 7 A)
(3.6)
olmaktad r.
Buradan hareketle,
n
1 5/ n
S% ( K ) (t | Z 7 A) 5;
K
S% ( +1) (t ) = 0" M( X i > t ) + " 1 L ( i ) ( K )
<
n 51 i =1
S% ( xi | Z 7 A) 5=
i =1
(
)
(3.7)
elde edilir. S% ( K ) (t | Z 7 A) , S (t | Z 7 A) ’n n tahminidir . Yine (3.7) ile gösterilen ifadenin,
a a! daki ifadeye yak nsad ! dü ünülmü tür. k * + durumunda elde edilen bu tahmin ediciye
uyarlanm KM (MKME) tahmin edicisi denir.
n
1 /5 n
S% (t | Z 7 A) ;
Sˆ (t ) = 0" M( X i > t ) + " 1 L ( i )
<
n 51 i =1
S% ( xi | Z 7 A) =
i =1
(
)
(3.8)
Bu dü ünceye göre a a! da ki simülasyon sonuçlar elde edilmi tir.
4. S MÜLASYON
E
exp(1) , Z
exp(1) ve U T = E / ( E + Z ) olmak üzere, (U T , G A ) çiftinden 1000 tane
örneklem üretilmi tir. G A = I ( Z 7 A) , A = [3, + ) ve µ ( t ; z ) = z µ (t ) , t 7 ( 0,1) formunda olup,
µ (t ) = (1 t )
2
olarak tan mlanm t r. Çal mada, A = [3, + ) kümesi, Pr( Z 7 A) = 0.90 kabul
edilerek belirlenmi tir. Elde edilen verilere göre, uyarlanm KM tahmini, KM tahmini elde
edilmi ve elde edilen tahminlere ili kin yan ve hata kareler ortalamas (HKO) de!erleri elde
edilmi tir. U T de!erleri (0,1) aral ! nda düzgün da! l ma sahip oldu!undan gerçek sa!kal m
220
de!erleri elde edilerek tahmin de!erleri ile kar la t r lm t r. Simülasyon çal mas nda tekrar
say s 1000 olarak al nm ve sansürlemenin zay fl k de!eri yüksek olan gruba uyguland !
dü ünülmü tür.
t
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
Tahmin
Edici
KME
MKME
KME
MKME
KME
MKME
KME
MKME
KME
MKME
KME
MKME
KME
MKME
KME
MKME
KME
MKME
Sa<kal m
Tahmini
0.9067
0.9068
0.8048
0.8043
0.7043
0.7023
0.6044
0.6017
0.5033
0.5006
0.4043
0.4019
0.3036
0.3016
0.2018
0.2005
0.1010
0.1005
Yan
HKO
0.0064
0.0084
0.0048
0.0043
0.0040
0.0023
0.0044
0.0017
0.0033
0.0006
0.0043
0.0019
0.0036
0.0016
0.0018
0.0005
0.0009
0.0005
0.000135
0.000177
0.000177
0.000176
0.000231
0.000219
0.000274
0.000260
0.000249
0.000239
0.000256
0.000241
0.000219
0.000209
0.000156
0.000153
0.000094
0.000093
Gerçek
Sa<kal m
0.90
0.80
0.70
0.60
0.50
0.40
0.30
0.20
0.10
Tablo 4.1: Simülasyon Sonuçlar
KAYNAKLAR
[1] Hougaard, P. (1986), Survival model for heterogeneous populations derived from stable distributions.
Biometrics, 73, 2, 387-96.
[2] Kaplan,E.J., Meier, P. (1958), Nonparametric estimation from incomplete observations. Journal American
Statistics Association, 53, 457-481.
[3] Lagakos, S.W., (1979), General right censoring and its impact on the analysis of survival data, Biometrics,
35, 139-156.
[4] Link, W.A,(1989), A model for informative censoring, Journal of the American Statistical Assaciation,
84,407,749-752.
[5] Williams, J. S., Lagakos, S.W., (1977), Models for censored survival analysis: Constant-sum and variable
sum models. Biometrika, 64, 215-24.
221
Random Forest ve Destek Vektör Makinas
Yöntemleri ile Gen Seçimi ve S n flama
Ar. Gör. Erdal COrGUN1
Dr. Erdem KARABULUT2
Hacettepe Üniversitesi,
T:p Fakültesi, Biyoistatistik Anabilim
Dal:, S:hhiye, Ankara, Türkiye
Hacettepe Üniversitesi,
T:p Fakültesi, Biyoistatistik Anabilim
Dal:, S:hhiye, Ankara, Türkiye
[email protected]
[email protected]
Prof.Dr. Ergun
KARAAoAOoLU3
Hacettepe Üniversitesi,
T:p Fakültesi, Biyoistatistik Anabilim
Dal:, S:hhiye, Ankara, Türkiye
[email protected]
Özet
Bu çal:#mada, son y:llarda özellikle veri madenciliGi alan:nda s:n:flama yapmak için kullan:lan iki
yöntemden "Random Forest" (RF) ve "Destek Vektör Makinas:" (DVM) yöntemleri ile birlikte yapay
veri üzerinde gen s:n:flamas: ve seçimi yap:lm:#t:r. Gen ara#t:rmalar: maliyet ve zaman bak:m:ndan
dezavantaja sahip olmalar:ndan dolay: az say:da hasta üzerinde yap:labilmektedir. Az say:daki hastaya
ait binlerce gen verisini deGerlendirmekte klasik istatistiksel yöntemler zay:f kalmaktad:r,bu nedenle söz
konusu iki yöntem kullan:lm:#t:r. Sonuç olarak, RF yöntemi daha yüksek doGru s:n:flama oran:na
ula#m:#t:r. Gen seçiminde ise her iki yöntem benzer sonuçlara ula#:lm:#t:r. leriki çal:#malarda yanl:
sonuçlara ula#madan s:n:flama yapmak için bu yöntemlerin iyi birer alternatif olduGu rahatl:kla
söylenebilir.
Anahtar sözcükler: Mikroarray Veri; Veri MadenciliGi; Random Forest; Destek Vektör Makinas:; Gen
S:n:flamas:; SIMAGE.
Abstract
Gene Selection And Classification with Random Forest and Support Vector Machine
In this study, Random Forest (RF) and Support Vector Machine (SVM),two of the methods which have
been used for classification in Data Mining in recent years, are used in classifying and selecting genes
on artificial data.Gene researches can be applied to a small number of patients as they have
disadvantages considering the cost and time constrictions.Classical statistical methods are not sufficient
in determining the gene data from a limited number of patients, so these two methods have been used.
Consequently, RF method have reached to a higher rate of correct classification. But in gene selection,
both methods have achieved the same results. It can be easily stated that these methods are each good
alternatives in classification without reaching biased results.
Keywords: Microarray Data; Data Mining; Random Forest; Support Vector Machine; Gene
Classification; SIMAGE
1. Giri!
nsan genomunda yakla k 30.000 gen bulundu!u varsay lmaktad r. Bu kadar çok genin tek tek
incelenmesi mümkün de!ildir. Fakat günümüzde, geli tirilen otomasyona dayal sistemlerle çok fazla
say daki genin ayn anda analizi mümkün hale gelmi tir. Ancak gen ara t rmalar hem maliyeti hem de
ölçümlerin tekrar edilmesindeki zorluklar nedeniyle çok fazla hasta üzerinde yap lamamaktad r. Bu
nedenle az say daki hastaya ait yüzlerce gen verisi üzerinden baz sonuçlara ula lmak durumunda
kal nm t r. Ve klasik istatistiksel yöntemler bu tip verileri aç klamakta sorun ya amaktad r. Son
y llarda bu tip veriler üzerinde Destek Vektör Makinas (DVM), Yapay Sinir A!lar , Karar A!açlar ,
Naive Bayes gibi birçok veri madencili!i yöntemi denenmi ve ba ar l sonuçlar elde edilmi tir. Bu
çal mada amaç: Random Forest (RF) ve DVM yöntemlerinin gen ara t rmalar nda önemli genlerin
222
belirlenmesi ve hastalar n s n fland r lmas nda nas l kullan laca! n , SIMAGE [9] projesinin bir ürünü
olan “DNA Ekspresyon Veri Simülatörü” ile türetilen 15 hastaya ait 2200 gen verisi üzerinde
göstermektir.
2. Yöntemler
2.1. Materyal
Türetilen 15 hastaya ait gen ekspresyon verilerinden en önemli genin seçimi ve hastalar n
s n flanmas
i lemi için Random Forest ve Destek Vektör Makinas yöntemleri
kullan lm t r.Uygulamalar Statistica 7- Data Miner ve R programlar nda yap lm t r. RF
yöntemi genelle tirmeye ihtiyaç duymad ! için herhangi bir müdahale yap lmam , DVM
için ise 10-fold Çapraz geçerlilik ( Cross Validation) yap larak sonuçlar genelle tirilmi tir.
Verilerin türetildi!i SIMAGE [9] program , web tabanl olarak, belirli parametrelerle veri
türeten (Ek.1’de parametreler verilmi tir.) bir simulasyon program d r. Bu programdaki amaç
ara t r c lara gerçek veri setine en uygun veriyi elde etme imkan vermektir. Bu çal mada
Ek.1’de verilen ve uluslararas toplant larda kabul görmü parametrelerle veriler türetilmi tir.
2.2. Random Forest
RF bir çok karar a!ac ndan meydana gelir. Her bir a!aç bir s n flama yapar. Ve bu
s n flamalar oy (vote) al r. RF ise forest içindeki tüm a!açlardan en çok oy (vote) alan seçer
ve onun s n flamas n kullan r.
Her Bir A!ac n Olu umu :
1) Bootstrap yöntemi ile e!itim veri setinden örneklem seçilir ve seçilen verilerin 2/3’ü
a!aç olu turmak için kullan l r. (inBag)
2) M tane girdi de!i kenden, her dü!ümde m tanesi rastgele olarak seçilir ve bunlara göre
en iyi ayr lma gerçekle tirilir, bölünme kriteri “gini de!eri”dir. “m” de!eri RF
olu tururken her a!açta sabit olmal d r.
3) Her a!aç ne kadar bölünürse bölünsün, budanmaz
(no pruning),
4) Out-of-bag verileri ile tahmin yap l r ve “tahmin hata”lar belirlenir. RF hata oran 2
duruma ba!l d r:
4.a) ki a!aç aras ndaki korelasyona.
(Korelasyon artt kça hata oran artar.)
4.b) Her a!ac n kendi hata oran na.
( Dü ük hata oran na sahip a!aç daha iyi s n flay c d r.
Her bir a!aç dü ük hata oran na sahip ise RF da dü ük hataya sahip olur.)
223
Tüm a!açlar için; olu turulduklar ndan sonra, tüm veri a!aca uygulan r, ve tüm olgu
çiftlerinde benzerlik (proximity) hesaplan r. E!er iki olgu ayn uç dü!ümde yer al yorsa
akrabal klar bir birim artar. Bu i lem sonras nda çiftler aras ndaki akrabal k say s a!aç
say s na bölünerek normalle tirilir. Elde edilen bu de!erler “eksik veri, a r de!er”
analizlerinde i e yarar.
2.2.a. OUT-OF-BAG (OOB) Hata Tahmini
RF’da çapraz geçerlilik (cross-validation) ya da di!er yans z tahmin sa!lamay amaçlayan
testlere ihtiyaç yoktur. Algoritma kendi içinde bunu u ekilde gerçekle tirir.
1) Tüm a!açlar farkl bootstrap örneklemleri ile olu turulur. Ayr ca e!itim veri setinin
3’te 1’i bootstrap a amas nda ayr l r (OOB) ve a!aç yap s nda kullan lmaz.
2) k. nc a!aç yap s nda d ar da b rak lan veriler (OOB), k. nc a!aca uygulanarak
s n flama yap l r.
3) Algoritma sonunda, j, OOB ile gerçekle tirilen deneme sonunda, bir verinin ait oldu!u
s n f ifade ederken, tüm veriler ile yap lan s n flama sonucu j’nin gerçek s n f de!erine
e it olmad ! durumlar n oran “OOB error rate”tir ve yans zd r.
DeGi#ken önemliliGi : RF’taki her bir a!ac n olu turulmas s ras nda, OOB verileri a!açta
kullan l r ve do!ru s n flamalar için oy (vote) lar say l r. Rastgele seçilen i. de!i ken için
OOB’den veriler seçilir ve a!açta denenerek bir “vote” de!eri elde edilir. Tüm a!açlarda i.
de!i keni için elde edilen ortalama oy (vote) de!eri, i. de!i keninin önemlili!ini (importance)
ifade eder.
RF’nin Baz Özellikleri:
RF’da a r uyum olamaz.
stedi!iniz kadar a!aç türetebilirsiniz.
H zl bir algoritmad r.
Elde edilen RF güncellenen veri setlerinde kullan lmak üzere saklanabilir.
Eksik veri analizlerinde çok etkili bir metottur, yüksek do!ru s n flama oran eksik
veriler olsa da devam eder.
Yüzlerce input de!i keni herhangi bir eleme yapmadan kullanabilir.
Unsupervised kümeleme yönteminde kullan labilir.
224
2.3. Destek Vektör Makinas: (DVM)
Son y llarda özellikle veri madencili!inde s n flama yapmak amac yla s k kullan lan bir
yöntemdir. lk olarak Vapnik taraf ndan 1963 y l nda bir do!rusal s n flay c olarak
önerilmi tir. Uygulamada yayg n olarak kullan lmaya 1990’lar n sonunda ba lanm t r. Boser
ve arkada lar (1992) do!rusal olmayan s n flay c lar olu turmak için çekirdek
fonksiyonlar n n kullan lmas n önermi lerdir. Vapnik (1996) regresyon için DVM’nin
uyarlamas olan destek vektör regresyonunu (DVR) önermi tir. DVM temelde s n flanmas
zor olan (do!rusal ya da do!rusal olmayan) veri setlerini, kulland ! çekirdek fonksiyonlar
yard m ile kolayl kla s n flayabilen bir s n flama ve regresyon yöntemidir. Popüler olmas n
sa!layan 4 önemli etken:
Yöntemin güçlü kuramsal temeli
Büyük veri setleri üzerinde çal abilmesi
Kullan lan çekirdek fonksiyonlar ile esnek bir algoritmas n n olmas
Sonuçlar ndaki yüksek do!ruluk oran d r.
Do!rusal olarak s n flanabilen verileri birbirinden ay rt edebilmek için olas pek çok do!rusal
fonksiyon içerisinden marjini en büyük olan belirler. Do!rusal olarak s n flanamayan verileri
daha yüksek boyutlu uzaya aktar r ve marjini en büyük olan çoklu-düzlemleri bulur. Verileri
çok boyutlu uzayda kategorilere ay rmak için farkl çekirdek fonksiyonlar kullan labilir:
Do!rusal
Polinomiyal
Radyal temel fonksiyonu (RTF)
Sigmoid
Metin madencili!i , Görüntü/yüz tan ma, Görüntü i leme, Ses i leme, El yaz s tan ma, T p
alan nda ise özellikle de!i ken say s n n çok fazla oldu!u mikroarray verilerin analizi gibi çok
çe itli alanlarda kullan lmaktad r.
D veri seti (X1,y1), (X2,y2), ..., (Xn,yn) olarak verilmi olsun. Burada Xi’ler e!itim veri
setindeki ba! ms z de!i kenler ve yi’ler s n f etiketleridir. Her bir yi +1 ya da –1 de!erlerinden
birini alabilir (yi 7 {+1,-1}).
225
Bekil 1. Destek Vektörler
Veriyi ay rmak için kullan lan çoklu düzlem W F X + b = 0 ’d r. Burada, W a! rl k vektörü ve
b yanl l k olarak adland r lan skalerdir. Çoklu düzlem ile marjin üzerindeki herhangi bir nokta
1
’d r.
aras ndaki uzakl k:
W
Bu de!er di!er marjin üzerindeki herhangi bir noktan n çoklu düzleme olan uzakl ! ile
2
ayn d r. Bu nedenle, marjin geni li!i
W
Marjini en büyük yapmak, di!er bir deyi le paralel düzlemler aras ndaki mesafeyi
olabildi!ince açmak için uygun “W ve b” seçilir. A! rl klar ayarlanarak, marjinleri
tan mlayan çoklu düzlemler a a! daki gibi yaz labilir:
w F xi b 8 +1
w F xi b ! 1
ise xi. gözlem ilk s n fa
ise xi. gözlem ikinci s n fa
(1)
(2)
Bu e itlikler:
yi ( w F xi b) 8 +1 1 ! i ! n için eklinde yaz labilir.
Ortaya ç kan optimizasyon probleminin çözümü W’nin mutlak de!erine ba!l d r. Bu nedenle,
matematikte konveks olmayan optimizasyon problemi olarak adland r lan ve çözümü zor olan
1 2
bir problemle kar la l r. Ancak e itlikte, çözümü de!i tirmeden w yerine
w
2
kullan labilir.
Bu durumda problem, standart quadratik programlama teknikleri ve programlar ile
çözülebilir biçime dönü ür.
226
Destek vektör makinesi a a! daki optimizasyon probleminin çözümünü gerektirir.
l
1 T
min N N + C " 9 i
N ,b ,9 2
i =1
(3)
G i (N T ( xi ) + b ) 8 1 9 i
(4)
9i 8 0
(5)
Hata terimi k s tlay c fonksiyon ile artar ve optimizasyon geni marjin-küçük hata k s t
aras ndaki dengenin sa!lanmas na dönü ür.
Gözlemler do!rusal olarak s n flanamad ! nda Cortes ve Vapnik 1995’te yanl etikenlenmi
(s n flanm ) gözlemlere izin veren uyarlanm maksimum marjini önermi tir. Verileri iki
s n fa tam olarak do!ru bölen bir çoklu düzlem yoksa, esnek marjin yöntemi olabildi!ince
do!ru olarak örnekleri ay rmaya çal r. Tam olarak ayr labilen veriler aras ndaki marjini
maksimum yapar. Gözlemler do!rusal olarak s n flanamad ! nda
Bekil 2. Do!rusal olarak ayr lamayan veri setleri
Çekirdek fonksiyonunun kullan m , dönü üm yap lm özellik uzay nda en büyük marjinli
çoklu düzlemin elde edilmesine olanak sa!lar. Veri daha yüksek boyutlu bir uzaya
dönü türülür. Böylece, orijinal girdi uzay nda do!rusal olmayan s n flay c yüksek boyutlu
özellik uzay nda bir çoklu düzlem olur.
Bekil 3. Çoklu Düzlemde S n flama Örne!i
227
Çekirdek fonksiyonu
K ( xi , x j ) = ( xi ) ( x j ) ile gösterilir.
En s k kullan lan çekirdek fonksiyonlar:
1)
DoGrusal
K ( xi , x j ) = xiT x j
2)
Polinomiyal
K ( xi , x j ) = (xi x j )
3)
Radyal Temel Fonksiyon
K ( xi , x j ) = exp G xi
4)
Sigmoid
K ( xi , x j ) = tanh(kxi x j L )
(6)
d
(
(7)
xj
2
) ,G > 0
(8)
(9)
2.3. DNA Ekspresyonu
Gen ekspresyonu, DNA dizisi olan genlerin, fonksiyonel protein yap lar na dönü mesi süreci için
kullan lan bir terimdir. Basitçe, bu durum genlerin aç k (aktif) olup olmad klar olarak da
tan mlanabilir.Bu deneyleri yapan bir çok Gen ekspresyon tekni!i bulunmaktad r.(SAGE, DNA
ekspresyon,Tiling array, ChIP-Seq, mRNA-Seq.) Bu çal mada DNA Gen ekspresyonu tekni!i
kullan lm t r.Bu teknik sonucu elde edilen görüntülerin analizi ile her bir gen için “k rm z ve ye il”
n yo!unluk de!erlerinin say sal olarak belirlenmi tir. Sonras nda bunlar n birbirine oran n n
logaritmas ile as l ekspresyon verileri elde edilir. A a! da bu tip verilerdeki ak
emas
gösterilmektedir.
Bekil 4. Mikroarray Veri analiz Ak remas
228
Ekspresyonun ölçülmesi tüm hasta örnekleri için a a! daki formüllerden hesaplan r :
K rm z Yo!unluk = Rfg - Rbg
Ye il Yo!unluk
= Gfg - Gbg
fg = foreground, bg = background
Ve bu iki sinyal oran n n logaritmas (2 taban nda) ekspresyon oran n verir.
Log2 (K rm z Yo!unluk / Ye il Yo!unluk )
Bekil 5. Örnek Gen Expression Verisi
229
3. Sonuç ve Öneriler
Çizelge 1’de, kullan lan dört çe it çekirdek fonksiyon için do!ru s n flama yüzdeleri verilmi tir. En
yüksek yüzdeyi veren çekirdek fonksiyon DVM yöntemini RF yöntemi ile kar la t r rken
kullan lm t r. Yöntemler ile elde edilen sonuçlar u ekildedir:
Çizelge 1. DVM çekirdek fonksiyonlar için Do!ru s n flama Yüzdeleri
DVM Çekirdek
Fonksiyon
Do<ru S n flama
Yüzdeleri
Do<rusal
89,2
Sigmoid
74,2
Polinomiyal
76,5
Radyal Temel
86,5
Çizelge 2. RF ve DVM için Do!ru S n flama Yüzdeleri
YÖNTEM
Do<ru S n flama
Yüzdeleri
RF
91,3
DVM(Do<rusal Çekirdek
89,2
230
Çizelge 3. RF ve DVM için Önemli Bulunan Genler
YÖNTEM
Seçilen YÖNTEM Seçilen
En
En
Önemli
Önemli
Gen
Gen
No
No
509
RF
2050
824
DVM
415
2146
111
1645
189
545
1841
Yukar daki Çizelge 2 ve Çizelge 3’den de anla ld ! üzere, RF’ n do!ru s n flama oran n n DVM
do!ru s n flama oran na göre daha fazla oldu!u görülmektedir. Bu sonuç literatürdeki çal malarla da
uyumludur. Bununla birlikte SIMAGE veri setlerinin de bu tip çal malarda, gerçek veri s k nt s
çekilen durumlarda kullan l oldu!u görülmektedir.
Çal man n bir di!er amac olan önemli genlerin seçiminde ise, her iki yöntem için ilk 5 gen farkl
olmakla birlikte, ilk 100 gen için yap lan kar la t rmada %56 oran nda ayn genler önemli
bulunmu tur. Bu nedenle “gen seçimi ve hastalar n” s n fland r lmas sonuçlar n n ayr ayr
incelenmesi ve birincil amaca göre do!ru yakla mlar n seçilmesi gerekmektedir.
Bu çal madaki birincil amaç son zamanlarda gen ara t rmalar nda temel araçlar içine giren Random
Forest ve Destek Vektör Makinas yöntemlerinin yapay veri üzerinde uygulamalar n göstermektir.
Bununla birlikte yöntemlerin teorik alt yap lar na da de!inilmesi çal man n literatüre ayr bir
katk s d r.
231
Kaynaklar
[1] Gene expression,Statistics ,(2002) 246, Week 3,
[2] Leo Breiman and Adele Cutler, (2003), Random Forests
[3] Freeman, W. M., Robertson, D.J., Vrana, K.E., (2000) , Fundamentals of DNA Hybridization Arrays for
Gene Expresion Analysis. BioTechniques. 29:1042-1055
[4] Ramón Díaz-Uriarte, Sara Alvarez de Andrés, (2006), Gene Selection And Classification Of Microarray
Data Using Random Forest , BMC Bioinformatics, 7:3
[5] Sayan Mukherjee, (2006), Classifying Microarray Data Using Support Vector Machines, , Doctorial
Thesis, BMC Bioinformatics
[6] Alex H. Beesley, ( ), The gene expression signature of relapse in paediatric acute lymphoblastic
leukaemia: implications for mechanisms of therapy failure,
[7] Aaron J. Cummings,Joseph R. Freitas,Katrin Hoffmann,Martin J. Firth,Jette Ford,
[8] Lingkang Huang, Alexandra N Heinloth, Zhao-Bang Zeng, (2006), Genes related to apoptosis predict
necrosis of the liver as a phenotype observed in rats exposed to a compendium of hepatotoxicants ,
BMC GENOMICS
[9]
http://bioinformatics.biol.rug.nl/websoftware/simage/simage_start.php, Son Eri im Tarihi : 21.04.2009
232
Ek .1. SIMAGE Veri Türetme Ayarlar
Array number of grid rows
12
Array number of grid columns
4
Number of spots in a grid row
10
Number of spots in a grid column
10
Number of spot pins
48
Number of technical replicates
2
Number of genes
0
Number of slides
10
Perform dye swaps
yes
Gene expression filter
yes
Reset gene filter for each slide
no
Mean signal
10.33
Change in log2ratio due to upregulation
1.07
Change in log2ratio due to downregulation
-1.26
Variance of gene expression
2.7
% of upregulated genes
15
% of downregulated genes
11
Correlation between channels
1
Dye filter
yes
Reset dye filter for each slide
yes
Channel variation
0.2
Gene x Dye
0
Error filter
yes
Reset error filter for each slide
yes
Random noise standard deviation
0.62
Tail behaviour in the MA plot
0.108
Non-linearity filter
yes
233
Reset non-linearity filter for each slide
yes
Non-linearity parameter curvature
0.2
Non-linearity parameter tilt
4.5
Non-linearity from scanner filter
yes
Reset non-linearity scanner filter for each slide
yes
Scanning device bias
0.04
spotpin deviation filter
yes
Reset spotpin filter for each slide
no
spotpin variation
0.32
Background filter
yes
Reset background filter for each slide
yes
Number of background densities
5
Mean standard deviation per background density
0.2
Maximum of the background signal relative to the
non-background
signals
50
Standard deviation of the random noise for the
background signals
0.1
Background gradient filter
no
Reset gradient filter for each slide
yes
Maximum slope of the linear tilt
700
Missing values filter
yes
Reset missing spots filter for each slide
yes
Number of hairs
3
Maximum length of hair
20
Number of discs
4
Average radius disc
10
Number of missing spots
50
234
Voleybol Maç Sonuçlar n n Modellenmesi:
Kesikli Seçim Modelleri ile Bir Uygulama
Ar. Gör. Erkan I kl
Yrd. Doç. Dr. Mehtap Hisarc kl lar
Wayne State University
Industrial & Manufacturing Eng. Dept.
Detroit, MI 48202, USA
[email protected]
[email protected]
stanbul Teknik Üniversitesi
#letme MühendisliGi Bölümü
Say:sal Yöntemler Kürsüsü
34367-Maçka, stanbul, Türkiye
[email protected]
Özet
Voleybol, dinamizmi ve kendine has kurallar yla son derece heyecanl bir spordur. Son y llarda, özellikle
medyan n etkisiyle, daha çok izleyici voleybol maçlar na ilgi göstermeye ba lam t r. Bu çal mada,
temel amaç, voleybol maç sonuçlar n n modellenmesi ve bir tak m n ba ar s na etki eden etmenlerin
belirlenmesidir. Tak m ba ar s , galibiyet durumunda 1; ma!lubiyet durumunda 0 de!erini alan ikili bir
ba! ml de!i ken olarak modellenmi , ard ndan da ev sahibi tak m olma, maç izleyen seyirci say s ve
dünya s ralamas ndaki durumun buna etkisi olup olmad ! incelenmi tir. Kesikli seçim modellerinin
kullan ld ! çal mada, 2008 y l nda gerçekle tirilen üç büyük turnuvaya ait gözlemlerden olu an bir veri
seti kullan lm t r.
Anahtar sözcükler: Voleybol; Olimpiyat; Spor verisi; Kesikli Seçim Modelleri, Lojit; Probit.
Abstract
Modeling Volleyball Match Result: An Application of Discrete Choice Models
In this study, we are trying to find out if it is possible to predict which team will win, given the optimal
combinations of two opponent teams in a volleyball match. We examine if some factors, such as home
court advantage, number of spectators, and world rankings have an effect on the outcome of a volleyball
match. We estimated some discrete choice models and compared their performances using a data set
collected from Beijing Olympics, World League, and World Grand Prix, which were all organized in
2008. The dependent variable in all models is dichotomous, which is 1 if a team wins and 0 otherwise.
Keywords: Volleyball; Olympics; Sports data; Discrete choice models; Logit; Probit.
1. Giri!
Son y llarda spor bilimleri dünya çap nda oldukça dikkat çekici bir ara t rma alan haline gelmi tir.
Uygulama yapmak için gayet elveri li olan spor endüstrisinde, girdiler (oyuncular, koçlar) ve ç kt lar
(maç sonuçlar ) hakk nda hemen her türlü bilgiye medya ve nternet arac l ! yla ula mak mümkündür.
Bu durum, özellikle profesyonel tak m sporlar endüstrisi için ara t rmac lara zengin bir kaynak
olu turmaktad r. Spor endüstrisi de!i ik aç lardan çe itli ara t rmac lar taraf ndan incelenmi tir. Bu
çal mada, spor ekonomisinde türlü arz ve talep modelleri kurmaya u!ra m Sandy ve di!erleri
(2004), Boon ve Sierksma (2003), Forrest ve Simmons (2002) gibi ara t rmac lardan farkl olarak,
futbol maçlar ndaki beraberlik olas l ! n belirlemek için modeller geli tiren Karlis ve Ntzoufras
(2001), karar setine ba larken izlenmesi gereken servis stratejisi üzerinde tart an Lee ve Chin (2003),
s ral probit modeli kullanarak ngiliz futbol liglerindeki maç sonuçlar n tahmin eden Goddard ve
Asimakopoulos (2004) gibi spor müsabakalar n n modellenmesi üzerine odaklan lm t r. Uluslararas
235
spor müsabakalar n n sonuçlar n tahmin etmeye veya modellemeye yönelik ara t rmalar n aras nda
voleybola odaklananlar n say s n n yok denecek kadar az oldu!unu belirtmek gerekir.
William Morgan taraf ndan yarat lan voleybol, h zl ve hareketleri co ku verici oldu!undan izleyenlere
büyük keyif veren bir spordur. Pasla ma, tak m oyunu olma, ikiye bölünmü oyun alan nda oynanma
gibi önemli unsurlar n y llar geçse de kaybetmemi olan bu spor dal , ülkemizde geli mekten olan bir
imaja sahiptir. Voleybol, Uluslararas Voleybol Federasyonu’na (FIVB) üye olan 220 ülke
federasyonu arac l ! yla dünya genelinde tan t lmakta ve geli tirilmektedir. FIVB, çe itli turnuvalarla
(Dünya rampiyonas , Dünya Ligi, Dünya Grand Prix, SWATCH Dünya Turu, Dünya Kupas , Büyük
rampiyonlar Kupas , Olimpiyatlar) voleybolun her alanda (kad n/erkek, y ld z/genç/büyük, plaj/salon)
popüler bir spor olmas için u!ra vermektedir.
Bu çal mada, hâlihaz rdaki spor literatürüne katk yapmak amac yla, voleybol maç sonuçlar çe itli
aç klay c de!i kenler kullan larak modellenmi ve maç sonuçlar n n önceden kestiriminin mümkün
olup olmad ! irdelenmi tir. Saha avantaj , seyirci say s ve dünya s ralamas gibi etkenlerin maç
sonuçlar na do!rudan bir etkisi olup olmad ! n ortaya koyabilmek için kesikli seçim modellerinden
faydalan lm t r.
kinci bölümde, uygulama yap lan turnuvalara dair k saca bilgi verilmi , kullan lan veri kümesi ve
de!i kenlere dair gerekli aç klamalar yap lm t r. Üçüncü bölümde, çe itli kesikli seçim modellerinin
tahmin sonuçlar verilmi ve bu modellerin k yaslamas yap lm t r. Dördüncü bölümde, sonuçlar
özetlenmi ve literatürdeki di!er benzer çal malarla kar la t rmalar yap lm t r. Son bölümde ise, bu
çal man n genel anlamda literatürde doldurdu!u bo luk özetlenmi ve ileride yap labileceklere i aret
edilmi tir.
2. Veri Kümesi ve De<i!kenler
Bir voleybol maç nda, rakip tak mlar n en uygun birle imleri verildi!inde, hangi tak m n galip
gelece!ini öngörmenin mümkün olup olmad ! n ara t r rken, toplam 251 gözlem içeren bir veri
kümesi kulland k. Veri kümesi, 2008’de, kad n ve erkekler kategorisinde toplam 33 ulusal tak m n
mücadele etti!i üç turnuvaya (Dünya Grand Prix, Dünya Ligi, Pekin Olimpiyatlar ) ait çe itli
istatistiklerden olu maktad r.
Olimpiyatlar, dünyadaki hemen her ulusun temsil edildi!i, hem atletler hem de seyirciler aç s ndan son
derece önemli ve heyecan verici bir spor olay d r. Uluslararas Olimpiyat Komitesi, di!er pek çok
organizasyondaki durumun aksine, egemenli!i tüm dünyaca tan nmayan ülkeleri bile Olimpiyat
oyunlar na dâhil ederek tüm uluslar n sporla birle tirilmesini amaçlamaktad r. Kamuoyunun artan
ilgisi ve dünyan n her yerinden gelen kat l mc lar ile Olimpiyat oyunlar n n popülaritesi son yirmi
y lda kayda de!er bir art göstermi tir. lk kez 1896 y l nda 14 ulusun kat l m yla gerçekle tirilen
Modern Olimpiyat Oyunlar ’na 2008 y l nda dünyan n 204 ülkesinden toplam 10,500 atlet kat lm t r.
Bu yüzden Olimpiyat Oyunlar ’n n dünyan n en büyük organizasyonu oldu!unu söylemek yanl
olmaz.
Dünya Ligi ve Dünya Grand Prix, s ras yla 1990 ve 1993 y llar nda FIVB taraf ndan, dünyada
voleybolun tan t m na katk da bulunmalar ve bu spora olan ilgiyi canland rmalar amac yla ihdas
edilmi turnuvalard r. Sadece erkekler kategorisinde gerçekle tirilen Dünya Ligi, FIVB taraf ndan
organize edilen uluslararas turnuvalar içinde, da! tt ! milyonlarca dolarl k ödüllerle son derece ilgi
çekici hale gelmi en uzun soluklu FIVB organizasyonudur. Dünya Ligi’ne k yasla daha az ilgi
gösterilen bir organizasyon olsa da, sadece kad nlar kategorisinde gerçekle tirilen Dünya Grand Prix,
son zamanlarda özellikle Do!u Asya’da ilgi çekici hale gelmi tir.
ncelenen bu üç büyük turnuvada ilk üç s raya yerle en tak mlara kupa veya ilt; bu tak mlar n
oyuncular na ise madalya verilir. Tablo 1’de, sözü edilen turnuvalarda 2008 y l nda alt n, gümü ve
bronz madalya kazanan ulusal tak mlar gösterilmektedir.
236
Tablo 1. Üç Büyük Turnuvadaki Madalya S ralamas
OL MP YATLAR
Grand
DÜNYA
SIRA
Kad n
Erkek
Prix
LG
1
Brezilya
A.B.D.
Brezilya
A.B.D.
2
A.B.D.
Brezilya
Küba
S rbistan
3
Çin
Rusya
talya
Rusya
Tablo 2’de, ilgi dâhilindeki turnuvalarda oynanan maçlar n sonuçlar n n da! l m özetlenmi tir. Tüm
sonuçlar, müsabaka cetvelinde ad önce yaz lan tak ma göre düzenlenmi tir. Müsabaka cetvelinde ad
önce yaz l olmayan bir tak m n turnuvan n ev sahiplerinden olmas durumunda, modelleme
yap l rken, bu tak mlar n yerleri de!i tirilmi tir.
Tablo 2. Maç Sonuçlar n n Turnuvalara Göre Da! l m
TURNUVA
KADIN ERKEK GAL B YET MAILUB YET
Dünya Ligi
0
106
68
38
Grand Prix
69
0
44
25
Olimpiyat Oyunlar
38
38
41
35
TOPLAM
107
144
153
98
3:0
0:3
17
14
21
9
20
19
58
42
3:1 3:2
1:3 2:3
35 16
11 13
15
8
8
8
11 10
12
4
61 34
31 25
Modellerde kullan lan ba! ml de!i ken, sonuc, bir tak m n galip gelmesi durumunda 1, ma!lup
olmas durumunda 0 de!erini alan bir kukla de!i kendir. Ba! ms z de!i kenler kümesini, iki gruba
ayr labilir. Birinci grup, maçlar n karakteristik özelliklerini temsil eden, ço!unlu!u kukla
de!i kenlerden meydana gelmektedir. Be sete uzayan baz maçlarda galip gelen tak m, ma!lup olan
tak mdan toplamda daha az say alm olabilir. Ancak, bir voleybol maç n en çok say alan tak m
de!il, en çok set alan tak m kazan r. Bunun yan s ra, Torgler (2004) gibi baz ara t rmac lar,
turnuvan n ev sahibi olman n bir futbol maç n n kazan lma olas l ! na do!rudan etkisi olup olmad ! n
incelemi tir. Birinci gruptaki besset, be sete uzayan maçlar n; evsah ise, ev sahibi tak m
(organizasyonu düzenleyen ülkelerden biri) olman n etkisini ölçmek için kullan lm t r. Bunlara ek
olarak, seyir, spor salonunda maç izleyen toplam seyirci say s n temsil etmektedir. kinci grup, tak m
oyuncular n n boy uzunluklar , ya lar , kilolar , blok yükseklikleri (blok yaparken ç kabilecekleri
maksimum yükseklik), smaç yükseklikleri (smaç vururken ç kabilecekleri maksimum yükseklik) ile
tak mlar n dünya s ralamas ndaki ulusal puanlar gibi sürekli de!i kenlerden olu maktad r. Modelleme
yap l rken, bu gruptaki de!i kenlerin (ulusal puanlar temsil eden de!i ken hariç) her maçta her iki
tak ma göre ortalamalar kullan lm t r.
FIVB dünya s ralamas , tak mlar n son iki y lda düzenlenen büyük turnuvalarda kazand klar
ba ar lar n Tablo 3’te özetlenen ekilde puanland r lmas yla olu turulmaktad r. FIVB, her büyük
turnuvadan sonra dünya s ralamas n yenilemektedir. FIVB’nin dünya s ralamas prosedürü hakk nda
ayr nt l bilgi için http://www.fivb.org/en/volleyball/Rankings/Rankings.htm adresine bak labilir.
237
Tablo 3. ncelenen Turnuvalardan Elde Edilen Ba ar lar n Puanland r lmas
Turnuva
Dünya Grand Prix
Dünya Ligi
Olimpiyat
Oyunlar
S ra
1
2
3
4
5
6
7
8
9
10
11
12
1
2
3
4
5
6
7-9
10-12
13-16
1
2
3
4
5-8
9-10
11-12
Puan
50
45
40
35
30
25
15
10
7
5
3
1
30
26
22
18
14
10
5
3
2
100
90
80
70
45
15
5
Tablo 4‘te, incelenen tak mlar n her turnuvadan önceki ulusal puanlar ve dünya s ralamas ndaki
yerleri verilmi tir. FIVB Dünya S ralamas ’na göre Dünya Ligi’ne ve Olimpiyatlara kat lan tak mlar
aras nda üçüncü s rada olan A.B.D. Erkek Milli Tak m ile Dünya Grand Prix ve Olimpiyat
Oyunlar ’na kat lan tak mlar aras nda birinci s rada olan Brezilya Kad n Milli Tak m her iki
turnuvada da ampiyon olmu lard r.
238
Tablo 5. Erkek Tak mlar n n Ulusal Puanlar
Tablo 6. Kad n Tak mlar n n Ulusal Puanlar
239
Tablo 7, modellerde kullan lacak de!i kenlere ait genel istatistikleri, de!i kenlerin aç klamalar yla
birlikte özetlemektedir. npp ve npd de!i kenleri haricindeki tüm de!i kenlerin de!i im aral ! oldukça
küçüktür.
Tablo 7. De!i kenlere Ait Genel Bilgi
De<i!ken
uluspo
yasoo
boyoo
kiloo
smaoo
blooo
seyir
uluspf
yasof
boyof
kilof
smaof
bloof
Aç klama
Ulus puanlar oran
Ya ortalamas oran
Boy ortalamas oran
Kilo ortalamas oran
Smaç yüksekli!i ort. oran
Blok yüksekli!i ort. oran
Seyirci say s
Ulus puanlar fark
Ya ortalamas fark
Boy ortalamas fark
Kilo ortalamas fark
Smaç yüksekli!i ort. fark
Blok yüksekli!i ort. fark
Ortalama
1.627
1.020
1.000
1.004
1.002
1.002
2003
0.060
0.306
-0.021
0.098
0.408
0.544
Std. Sapma
1.698
0.134
0.025
0.075
0.029
0.036
3789
102.047
3.440
4.814
5.878
9.514
11.231
Min.
0.122
0.735
0.927
0.796
0.929
0.911
0.000
-223.000
-7.571
-14.167
-16.250
-24.733
-27.778
Maks.
9.101
1.453
1.067
1.286
1.074
1.092
13000
224.250
9.536
11.722
17.762
22.958
26.056
Bu çal man n çerçevesinde olmayan, ancak tak m ba ar s n etkileyebilecek pek çok de!i ken
(hücumcu/savunmac taktik anlay , antrenör deneyimi, motivasyon, oyuncular n bireysel deneyimi ve
form durumlar ) bulunmaktad r. Ancak bu etmenlere ait bilgi toplanmas zor ve zaman al c olabilir.
Bunun yan s ra, ulusal tak m baz nda ara t rma yap ld ! için bu çal mada demografik farkl l ! n
veya sosyal türde li!in tak m ba ar s na etkisi de belirlenememektedir. Do!al olarak, önerilen
modellerin kulüpleraras voleybol müsabakalar na genellenmesi ak lc olmaz.
3. Modeller
Bu çal mada oran modeli ve fark modeli olarak adland r lan iki temel model vard r. Her iki modelde
de birinci grupta bulunan tüm de!i kenler kullan lm t r. Ancak, tak mlar n karakteristik yap s n
temsil eden ikinci gruptaki de!i kenler, oran modelinde tak mlara göre oranlanarak (birinci tak m
temel al narak); fark modelinde ise, her de!i kenden kendisine kar l k gelen de!i kenin
ç kart lmas yla olu turulmu tur. kinci grupta yer alan bir de!i kenin modellere dâhil edilmesinde
izlenen yol, denklem (1) ve (2) ile örneklenmi tir. A ve B tak mlar aras ndaki bir maçta bu tak mlar n
ulus puanlar n n oran , uluspoi ; ulus puanlar ndaki fark uluspf i ile ifade edilmektedir. A tak m n n
ulusal tak m puan ulusp A ile, B tak m n n ulusal tak m puan ulusp B ile temsil edilmi tir.
uluspoi =
ulusp A
ulusp B
uluspf i = ulusp A
(1)
ulusp B
(2)
Aralar ndaki ilgile im (korelasyon) katsay s mutlak de!erce 0.70’in üzerinde olan de!i kenler (bloof
ile smaof, blooo ile smaoo) bir arada modellere dahil edilmemi tir. Okuyucu bunaltmamak için, Tablo
8 ve Tablo 9’da, her modele ait en iyi tahmin sonuçlar verilmi tir.
240
Tablo 8. Modeller için Logit Tahmini Sonuçlar
Oran Modeli
Fark Modeli
De<i!ken Katsay s
De<i!ken Katsay s
sabit
-31.2744***
sabit
0.6179***
(8.6284)
(0.2711)
***
uluspo
1.3913
0.0179***
uluspf
(0.2857)
(0.0027)
smaoo
14.7552**
smaof
0.0687***
(7.2253)
(0.0244)
boyoo
17.4641*
boyof
.05277
(9.7576)
(0.0541)
kilooo
-3.4178
kilof
-0.0098
(3.2357)
(0.0427)
yasoo
1.2054
yasof
-0.0340
(1.6764)
(0.0696)
seyir
0.0000
seyir
0.0000
(0.00004)
(0.00004)
besset
- 0.1627
besset
-0.2272
(0.3688)
(0.3874)
evsah
0.3465
evsah
0.3801
(0.3678)
(0.3961)
*
%10 düzeyinde anlaml , ** %5 düzeyinde anlaml , *** %1 düzeyinde anlaml
De!i kenlerdeki birer birimlik de!i imin maç kazanma sonucuna nas l etki etti!ini görmek için
marjinal etki de!erleri hesaplanm t r. Oran modeli, yap s itibariyle marjinal etki hesaplamaya ve
bunu yorumlamaya uygun olmad ! ndan, sadece fark modeli için marjinal etki de!erleri
hesaplanm t r. Tablo 9, bu de!erleri özetlemektedir. Buna göre, ulus puanlar aras ndaki 100 birimlik
bir fark, birinci tak m n maç kazanma olas l ! n yakla k olarak 0.4 art rmaktad r. Tablo 5’teki ulus
puanlar na bak ld ! nda, baz tak mlar n ulus puanlar aras nda 100 birimden fazla fark oldu!u
görülmektedir. Örne!in, Brezilya ile Çin tak mlar aras ndaki bir maçta, tak mlara ait tüm de!i kenler
e itken, Brezilya’n n maç kazanma olas l ! Çin’inkinden ortalamada, yakla k olarak, 0.81 daha
fazlad r.
Tablo 9. Fark Modeli için Hesaplanan Marjinal Etki De!erleri
Fark Modeli
De<i!ken Marj. Etkisi
uluspf
0.0039***
smaof
0.0149***
boyof
0.0115
kilof
-0.0021
yasof
-0.0074
seyir
0.0000
besset
-0.0505
evsah
0.0833
***
%1 düzeyinde anlaml
Modellerin iyili!ini ölçmek amac yla, 0.5 e ik de!eri kullan larak, do!ru ve yanl tahmin oranlar
hesaplanm t r. Tablo 10’da, %5 düzeyinde anlaml olmayan de!i kenlerin ç kar lmas yla tahmin
edilen düzeltilmi modellerin güçleri ile hiçbir de!i ken ihraç edilmeden tahmin edilen modellerin
güçleri k yaslanmaktad r. Buna göre, fark modeli, sonucu galibiyet olan maçlar n 28’inin
ma!lubiyetle; sonucu ma!lubiyet olan maçlar n 21’inin galibiyetle sonuçlanaca! n tahmin etmi tir.
Bu modelin lojit tahmini yakla k %80 oran nda isabetlidir. Model, bir bütün olarak anlaml d r ve
Pseudo-R2 de!eri 0.3503 olarak bulunmu tur.
241
Tablo 10. Modellerin Tahmin Güçlerinin K yaslanmas
Model
De<i!kenler
Oran Modeli Tüm oran
deGi#kenleri
Fark Modeli Tüm fark
deGi#kenleri
Düzeltilmi Oran uluspo
Modeli smaoo
Düzeltilmi Fark uluspf
Modeli smapf
sabetli
Ma<lubiyet
Say s
sabetli
Galibiyet
Say s
Tahmin
Gücü
Pseudo-R2
74
123
%79.11
0.2819
70
130
%80.32
0.3503
71
121
%77.11
0.2693
69
130
%79.92
0.3421
4. Sonuç ve Öneriler
Bu çal mada, voleybol maç sonuçlar n n önceden tahmin edilebilmesi için basit, ama istatistiksel
aç dan zay f olmayan istatistiksel modeller kurulmu tur. Tahmin edilen modellerde maç sonuçlar n n
sadece uluspf ve sadece uluspo de!i kenlerince öngörülebilmesi, incelenen turnuvalarda ‘belirsizlik’
ilkesinin tam olarak varl k gösterdi!ini söylemeyi mümkün k lmamaktad r. Sonucun belirsizli!i, bir
turnuvada herhangi iki tak m aras ndaki maç n sonucunun bir dereceye kadar belirsiz olmas olarak
aç klanabilir (Forrest ve Simmons, 2003). Torgler (2004)’in aksine, bir tak m n dünya s ralamas ndaki
yerinin maç n sonucuna do!rudan bir etkisi olmad ! n söylemek mümkün de!ildir. kinci olarak, saha
avantaj ve seyirci deste!inin, san lan n aksine, tak m n genel ba ar s n do!rudan etkilemedi!i
söylenebilir.
Kaynaklar
[1] Boon, B. H. ve Sierksma, G., 2003. Team Formation: Matching Quality Supply and Demand. European
Journal of Operational Research, 148, pp.277-292.
[2] Forrest, D. ve Simmons, R., 2002. Outcome Uncertainty and Attendance Demand in Sport : The Case of
English Soccer. The Statistican, 51(2), pp.229-241.
[3] Goddard and Asimakopoulos, 2004. Forecasting football results and the efficiency of fixed-odds
betting. Journal of Forecasting, 23(1), pp.51-66.
[4] Hal c o!lu, F., 2005. Can We Predict the Outcome of the International Football Tournaments?: The
Case of Euro 2000. DoGu# Üniversitesi Dergisi, 6(1), pp.112-122.
[5] Karlis, D. ve Ntzoufras, I., 2003. Analysis of Sports Data by Using Bivariate Poisson Models. The
Statistician, 52(3), pp.381-393.
[6] Lee, K. T. and Chin, S. T., 2004. Strategies to Serve or Receive the Service in Volleybal. Mathematical
Methods of Operations Research, 59, pp.53-67.
[7] Torgler, B., 2004. The Economics of the FIFA World Cup. Kyklos, 57(2), pp.287-300.
242
Teknolojik geli me sürecine paralel uygulamal
istatistik e!itimi ve ya ad klar m
F.Zehra Muluk
M.Emrah Oral
Ba#kent Üniversitesi Ticari Bilimler Fakültesi
Sigortac:l:k ve Risk Yönetimi Bölümü
Ankara, Türkiye
[email protected]
Umut sok. 28/7
Kurtulu#
06600 Ankara, Türkiye
[email protected]
Özet
Çal:#mam:z:n amac:, 1960’lardan günümüze ya#anan h:zl: teknolojik geli#menin istatistik eGitimine
yans:mas: ve bu geli#me içinde bizim ya#ad:klar:m:z:n anlat:lmas:d:r. statistik, dünyada ve ülkemizde
diGer bilim dallar:n:n içinde geli#mi#tir. Ülkemizde istatistiGin eGitim sürecinde kullan:lmas:, iktisat,
hukuk gibi sosyal bilimlerde betimsel istatistik ile birlikte regresyon analizi konular:na yer vermi#tir. T:p,
ziraat, veterinerlik alanlar:nda ise, varyans analizi ve deney tasar:m: konular:na önem verilmi#tir.
statistiGin kuramsal yönü matematik ile çok ilgili olmas:na raGmen, ülkemizde matematik bölümlerinin
ders kapsam: içine girmesi 1960 y:llar:na rastlar.Çal:#mam:zda, zaman içerisinde Uygulamal: statistik
alan:nda kullan:lan teknik donan:mlar, ülkemizde ve diGer ülkelerdeki istatistik bölümlerinin aç:l:#
tarihleri ve geli#imleri kar#:la#t:rmal: olarak sunulmaya çal:#:lacakt:r.
Anahtar sözcükler: statistik Lisans eGitimi, hesap makineleri, bilgisayarlar, paket programlar
Abstract
A personal perspective on the parallel evolution of applied statistics education and
information technologies.
This study aims to reflect the way Statistics Education evolved around fast-paced advances in technology
since the 1960s, and our experiences within the process. In Turkey and abroad, the roots of Statistics can
be traced back to other disciplines. Descriptive Statistics and Regression Analysis have found their
places in the education of social sciences like Economics and Law, while education in disciplines such as
Medicine, Veterinary Medicine and Agriculture utilized statistical methods like Variance Analysis and
Experimental Design. Although Theoretical Statistics is closely related to Mathematics, its inclusion in
the curriculum of mathematics departments in Turkey only dates back to the 1960s. This study will focus
on the Applied Statistics education and the evolution of information technologies that were used in this
field at Hacettepe University.
Keywords: Statistics Undergraduate Education; Calculators; Computers; Statistical Software Packages.
243
1. Giri!
Böyle bir çal may siz meslek arkada lar mla payla may uzun zamand r dü ünmekteydim. Ancak ne
kadar yararl olabilir kayg s içinde oldu!um için geciktirdim. Son iki y ld r ö!rencilerime paket
programlardan söz ederken geçmi te ya ad klar m anlat yorum. Anlatt klar m n çok ilgi gördü!ünü
saptad m. Geçmi i bilmenin bu günü de!erlendirmek için gerekli oldu!u dü üncesi ile birikimimiz
olan bilgilerin gençlere aktar lmas n n yararl olaca! n dü ündüm. Çal maya ba lad ! mda yapt ! m
ara t rmalar, verdi!im karar n do!ru oldu!unu gösterdi. Bilgisayar n e!itime girmesi ile geçen elli
y l n de!erlendirmeleri yurt d nda bir çok sayg n üniversitede titiz çal malarla de!erlendirilmi ti.
Ülkemizde de benzer çal malara rastlad m. Geçmi te elde edilmesi bin bir zorluk ile gerçekle en
donan mlar n k ymet bilinmeden bir kö eye at lmas ve ya anan zorluklar n genç ku aklara
aktar lmamas bu gün ula lan de!erlerin k ymetini bilmeme olgusunu getirmektedir. Bu görü ler
do!rultusunda yapaca! m çal man n önemini kabul ettim.
Akademik ya ant m 1966 y l nda Hacettepe Üniversitesinde ba lad . Rakamlar n ve hesaplamalar n
yo!un oldu!u bir bilim dal olan istatistik çal ma alan m oldu. Matematik e!itiminden sonra
uygulamal istatistik konusu çok ho uma gitti. Bölümümüzün kurucusu olan de!erli hocam Prof. Dr.
Alaettin Kutsal’ n mesle!imizi benimsememizde, önemsememizde ve bir ömür severek yapmam zda
katk s büyüktür. Bu gün Hacettepe Üniversitesi statistik Bölümü ülkemize de!erli istatistikçiler
kazand rd ise, bölüm akademik çal malar ile dünya literatüründe ismini duyurabilmi ise, bu de!erli
insan n att ! ilk ad m n sayesindedir.
Çal mam z n ba nda da belirtti!im gibi burada, ya ad klar m zdan kesitler vererek son k rk y lda
teknolojide olan geli imin istatistik e!itimine yapt ! katk y anlatmaya çal aca! m. Di!er
üniversitelerimizde de benzer öyküler ya and ! n biliyorum; ancak insan kendi ya ad klar n daha
gerçekçi sunabilir. Bu tür an lar n di!er üniversitelerdeki arkada lar m z taraf ndan da genç
arkada lar m za aktar laca! n biliyorum.
Çal mam zda zaman içerisinde Uygulamal statistik alan nda kullan lan teknik donan mlar,
ülkemizde ve di!er ülkelerdeki istatistik bölümlerinin aç l tarihleri ve geli imleri kar la t rmal
olarak sunulmaya çal lacakt r. Çizelge 1’de tarih s ras ile k sa bilgiler verilmi tir.
Bu çal ma, baz arkada lar m z geçmi e götürecek, bu gün ile k yaslama yapt racak, genç
arkada lar m za da geçmi ten bir yaprak sunacakt r.
Çizelge 1. statistik e!itimi geli im sürecinde önemli baz olaylar
1911
Karl Pearson taraf ndan University College London’da istatistik lisans program
aç l yor.[1]
1931
Harold Hotelling taraf ndan Columbia University’de istatistik lisans program
aç l yor.[2]
1933
George W. Snedecor taraf ndan Iowa State University’de istatistik lisans program
aç l yor. [2]
1941
Gertrude Cox taraf ndan North Carolina State University’de istatistik lisans
program aç l yor. [2]
244
1947
1948-1965
M. S. Bartlett taraf ndan University of Manchester de istatistik lisans program
aç l yor; Walter T. Federer taraf ndan, Cornell Üniversite’sinde biyometri ve
istatistik Bölümü kuruluyor[2].
Yurt d nda 1948-1949 y llar aras nda 10 farkl üniversitede de istatistik bölümleri
kurulmu tur[2]
1965
John W Tukey taraf ndan Princeton University’de istatistik lisans program
aç l yor.. [2]
1966
John Aitchison ve David Silvey taraf nda University of Glasgow’da istatistik lisans
program aç l yor. [2]
1966
North Carolina State Univ. Lisansüstü ö!rencisi olan Anthony J.Bar M.Kendall’ n
notasyonlar ndan yararlanarak bir varyans analizi program , ard ndan regresyon
program olu turuyor. SAS dilinin temelleri olu uyor.[3]
1967
Hacettepe Üniversitesinde istatistik lisans e!itimine Fen Fakültesi bünyesinde, 1
Ekim 1967 tarihinde Prof. Dr. Alaettin Kutsal ba kanl ! nda, 27 ö!renci ile
ba lanm t r.[4]
1967
Hacettepe Üniversitesi’nde elektrikli FACIT hesap makineleri ile ilk istatistik
laboratuar n n kuruluyor.
1968
Norman Nie ve Hadlai Hull Nie taraf ndan SPSS istatistik paket program IBM ve
ICL gibi mainframelerde kullan lmak üzere geli tirilmi .[3]
1968
Bilgisayar kullan m n n temelleri ve programlama dillerinden FORTRAN ile ilk
kez tan l yor.
1969
Dr.Ayd n Köksal ba kanl ! nda Hacettepe Üniversite’sinde Burroughs 3500
sisteminin kurulmas . Üzerinde çevrimiçi uygulamalar n da yap ld ! , gösterici
uçbirimlerle donat lm bu sistem, 1969 Türkiye’sinde büyük bir yenilikti.[5]
1969
Hacettepe Üniversitesinde ilk statistik Doktora derecesinin al nmas .
245
1976
ODTÜ’de Uygulamal statistik e!itimi, 1975 y l nda Ekonometri Bölümü
bünyesinde ba lam , 1976 y l nda ise statistik Bölümü Fen Edebiyat Fakültesi
alt nda aç lm t r.[6]
1976
SAS paket program Anthony Barr, James Goodnight, John Sall ve Jane Carolina
taraf ndan SAS nstitute Inc. ad alt nda irketle iyor.[3]
~1978
SYSTAT statistik ve Grafikler için Paket Program n yaz lmas [3]
1979
Toronto Üniversite’sinde istatistik bölümünün aç l yor.[2]
1982
A TBA bünyesinde 1956’da Prof.Dr.Necati çil ba kanl ! nda aç lan Tatbiki
Matematik Kürsüsü, 1982 y l na kadar e!itimini sürdürmü , bu tarihten sonra
statistik Lisans e!itimine Gazi Üniversitesi Fen Edebiyat Fakültesi bünyesinde
ba lanm t r.[6]
1982
Anadolu Üniversitesi’nde istatistik bölümünün aç l yor.[6]
1983
Ondokuz May s Üniversitesi’nde istatistik bölümü kuruluyor.[6].
1984-
Mimar Sinan Üniversitesi’nde istatistik bölümünün aç lmas , takip eden y llarda
Türkiye’nin farkl üniversitelerinde 13 tane daha istatistik bölümü aç l yor.[6]
1988
D. V. Hinkley taraf ndan University of Oxford’a istatistik bölümü kuruluyor.[3]
1988-1989
HÜ statistik Bölümü’nde ö!renci laboratuarlar n n IBM uyumlu PC’ler ile
düzenlenmesi.
1990-2009
90’l y llar n ba lar nda bilgisayar ve Internet teknolojilerinin geli imi, katlanan bir
ivme ile h zlanmaya ba l yor. Küreselle me, etkisini bu alanda da göstermek sureti
ile bu teknolojiler, di!er disiplinlerde oldu!u gibi, istatistik alan nda da ortaya ç kan
her türlü geli meye an nda dünyan n her noktas ndan eri ilebiliyor.
2. statistik e<itimine genel bak !
246
statistik, dünyada ve ülkemizde di!er bilim dallar n n içinde geli mi tir. Ülkemizde istatisti!in e!itim
sürecinde kullan lmas sosyal bilimler ve biyolojik bilimlerde farkl olmu tur. ktisat, hukuk gibi
sosyal bilimlerde betimsel istatistik ve regresyon analizi konular na yer verilmi tir. T p, ziraat,
veterinerlik alanlar nda ise, varyans analizi ve deney tasar m konular na önem verilmi tir. R.Yüceulu!
taraf ndan 1949 y l nda yap lan bir çal mada Cumhuriyet öncesi ve Cumhuriyet döneminde istatistik
e!itimi veren kurumlar, e!iticiler, ders programlar ayr nt l olarak incelenmi tir[7]. Bu programlar
incelendi!inde istatistik e!itiminin daha çok betimsel içerikte verildi!i görülmektedir. statisti!in
kuramsal yönü matematik ile çok ilgili olmas na ra!men, ülkemizde matematik bölümlerinin ders
kapsam içine girmesi 1960 y llar na rastlar. Oysa dünyada istatistik, matematik bölümleri bünyesinde
geli mi tir. Dünya’da ilk istatistik bölümü 1911 y l nda bölüm ba kanl ! n Karl Pearson’ n yapt !
University College London’da kurulmu tur. Bu bölüm halen faaliyetini sürdürmektedir. Bölümün
Internet adresi http://www.ucl.ac.uk/ dir[1].
Ülkemizde ilk istatistik lisans program , Hacettepe Üniversitesinde, 1 Ekim 1967 tarihinde 27 ö!renci
ile e!itime Fen Fakültesi bünyesinde ba lam t r[2]. Hacettepe statistik Bölümü Internet adresi
http://www.stat.hacettepe.edu.tr/turkce_yeni/indexe.php dir. Daha sonra Gazi Üniversitesi ve Orta
Do!u Teknik Üniversitesi’nde aç lan istatistik lisans programlar n görmekteyiz. statistik bölümleri
kurulduklar tarihte uygulad klar ders programlar n belli sürelerde güncelleme gereksinimi
duymu lar ve de!i tirmi lerdir. Ancak Uygulamal statistik dersi her programda yer alm , geli en
teknolojiye paralel olarak içerik de!i ikliklerine u!ram t r. Örne!in; Hacettepe Üniversitesi’nde
bölümün ilk kurulu y llar nda Uygulamal statistik dersinin hesaplama yöntemlerinde formüllerin
do!ru kullan mlar öncelikte iken, bilgisayar n hayat m za girmesi ile formüllerin FORTRAN
programlama dili ile yaz lmas önem kazanm t r. lerleyen y llarda, uzman programlar n h zl bir
ivme ile bilgisayar kullan c lar na sunulmas , bu programlar n etkin kullan labilme gereksinimini
beraberinde getirmi , Uygulamal statistik derslerinin içeri!i bu yönde yap land r lm t r. Bizim
derslerimizde ya ad ! m z de!i im sürecinin istatistik bölümlerinde okutulan di!er derslerde de
ya anm oldu!u bilinen gerçektir.
3. Kulland < m z teknik araçlar yönünden ya!ad klar m z
Hacettepe Üniversitesine girdi!imiz y llardan ba layarak akademik çal malar m zda ve e!itimde
kulland ! m z teknik donan mlar dört evre olarak aktarmak istiyorum. Teknolojik olanaklar n artmas
bir önce kulland ! m z gereçleri tamamen ortadan kald rmam , her iki teknoloji bir süre beraber
kullan lm t r.
3.1 Mekanik hesap makinelerinin kullan:ld:G: dönem
Hacettepe Üniversitesi Say n Prof.Dr. hsan Do!ramac önderli!inde kurulu u ve geli mesi ile Türk
E!itim tarihinde modern bir yap lanman n önemli bir örne!idir. Türkiye’de istatistik e!itiminde
gördü!ümüz at l m da bu sürecin sonuçlar ndan biridir. 1965 y l nda Ankara Üniversitesi Matematik
Bölümünü bitirdi!imizde istatistik sözcü!ünün ne anlama geldi!ini bile bilmiyorduk. Hacettepe T p
Fakültesine ba vururken matematik konusunda çal abilece!imizi dü ünüyorduk. Bize matematik
yerine istatistik alan nda çal mam z önerildi!inde, bu konuyu bilmedi!imizi belirttik. Kendisini her
zaman sayg ve rahmet ile and ! m de!erli Hocam Prof.Dr. Alaettin Kutsal statisti!i matematikçilerin
daha iyi yapabilece!ini ve bizi yeterli bulurlar ise istatisti!i ö!retebilece!ini söyledi. Bu görü ile iki
y l içinde ayn yerde çal an dört matematik mezunu olduk. lk y llar t p ve sa!l k bilimleri
fakültelerinde verilen istatistik derslerinde yard mc olduk. 1966 y l nda ilk göreve ba lad ! m aylarda
istatistik hesaplamalarda kullan ld ! için logaritma hesaplamalar n ö!renciye anlatmam o y llarda ek
zamanl olarak istatistik derslerine gelen Prof.Dr. Orhan Düzgüne hocam z taraf ndan benden istendi.
Ö!rencilerimiz uygulama saatlerinde hesaplamalar n sürgülü hesap cetveli ile yap yorlard . Üzerinde
rakamlar bulunan ve ortas nda hareketli bir parças olan bu cetvel, o zamanlar kimya ve fizik
ö!rencilerinin de kulland ! basit bir hesap makinesi idi.
247
Hacettepe T p ve Sa!l k Bilimleri Fakültesinin üniversite haline dönü mesi 8 Temmuz 1967 y l nda
892 say l yasa ile gerçekle ti. Akademik kadronun ço!unlu!u t p mensubu oldu!u için Hocam z n
önemli görevlerinden biri de biyoistatistik konusunu t p mensuplar na tan tmak, kabul ettirmek ve
çal malar n n istatistiklerinde yard mc olmakt . Bizleri de bu konuda yeti tiriyor, onlar ile
konu urken bizim de dinlememizi istiyor, baz hesaplamalar bize yapt r yordu. Hesaplamalar için
mekanik, kollu hesap makinesi (FACIT marka) kullan yorduk. Yaz lar için daktilo, hesaplar için kollu
FACIT hesap makinesi en büyük kolayl ! m zd . Doktora tez çal mam 1968-1969 y llar nda yapt m.
Doktora konum prematüre çocuklar n geli imlerinin modellenmesiydi. 726 çocu!un be de!i keni ile
çal t m, tüm hesaplamalar kollu FACIT ile uzun bir zaman süresi içinde gerçekle tirdim. Doktora
tezimin ço!alt lmas teksir ka! d denilen ve özel bir mürekkebi olan teksir bask makinesinde yap ld .
Bu bask yöntemi soru ka! tlar n n bas m nda, ders notlar n n ço!alt lmas nda kullan l yordu. Benden
hemen sonra doktoralar n yapan iki arkada m hesaplar n elektrikli Monroe hesap makinesinde
gerçekle tirdiler. Bu bizim için büyük bir geli me idi. Elektrikli Monroe hesap makineleri sonuçlar
özel rulo ka! da kaydediyor ve çok gürültülü çal yordu. Ayn zamanda bölümümüze Monroe hesap
makinesine göre daha sessiz çal an ve sonuçlar n makinenin ince ekran nda veren elektrikli FACIT
hesap makinesi de al nm t .
Uygulamal istatistik dersinde verdi!imiz problemler çok hesaplama gerektirdi!i için ö!rencilerimize
makinelerin bulundu!u bir laboratuar olu turmam z gerekti. lk ö!rencilerimiz kollu FACIT’leri
kulland lar. kinci dönem ö!rencilerimiz için elektrikli FACIT’lerden olu an bir laboratuar düzenlendi.
FACIT makineler o dönem için ülkemizde olan en kullan l hesap makineleri idi. Yanl
hat rlam yorsam 18 makine vard . Bu makineler mekanik yap ya sahip oldu!u için laboratuar dersi
oldu!unda hepsi birden çal t r l nca o binada çal an arkada lar n gürültüden kafalar i iyordu.
Elektrikli FACIT’leri ö!renci uygulamalar nda uzun y llar kulland k. Büyük sistem bilgisayarlar n
kullan lmaya ba lad ! y llarda da bu laboratuarlar kullan ld . Hacettepe Üniversitesine kurulan büyük
sistem bilgisayar (Burroughs 3500 Mainframe) tüm üniversiteye hizmet ediyordu. Uygulamal
derslerimiz için sistemi kullanma olana! m z yoktu. Daha sonrada de!inece!im gibi sistem ö!renci
ödevlerinde ve ara t rma sonuçlar n almada randevu ile kullan l yordu.
Beytepe kampüsüne ta nmadan san r m bir y l önce uygulama laboratuarlar m za daha sessiz çal an
ve art k mekanik olmayan Canon ve benzeri hesap makinelerinin al nmas planland . Ö!retim
elemanlar na al nanlar n d nda üç makine al nd ; ancak o günlerde ö!rencilerin ellerinde ve
çevremizde Texas Instruments(SR-51A)[8] küçük hesap makinelerini görmeye ba lad k. Bu hesap
makinelerinde baz i lemler programlanm olup hemen çözüm veriyordu. Hesaplama süresini çok
k saltm t . Laboratuara almay dü ündü!ümüz Canon’lardan hem daha ucuz hem daha geli mi
makinelerdi. Hesaplama i lerimizde art k uzun y llar elimizin alt nda olacak Texas Instruments’lar
istatistik bölüm elemanlar için al nd . Zimmet ile bizlere teslim edildi. lerleyen y llarda ö!rencilerin
kendi hesap makineleri oldu. Laboratuarlar m z masaüstü bilgisayarlara geçene kadar elektrikli
FACIT’ler kald . Ö!renci hesaplamalar için çe itli araçlar kulland . Biz yeni makine ald ! m zda
eskiler üniversitenin idari birimlerine veriliyordu.
Hacettepe Üniversitesi 1968-1974 y llar aras nda çok geni ledi. Merkez kampüsü art k tüm birimleri
ta yam yordu. Bunu önceden bilen Say n Prof.Dr. hsan Do!ramac Beytepe’de yeni bir kampus
olu turmu , t p ve sa!l k bilimleri d nda olan birimleri o kampusa ta may planlam t . Bu plan
içinde biz de vard k. 1974 y l nda henüz in aatlar n tamamlanmad ! Beytepe Kampüsüne ta nd k.
3. 2 Bilgisayar ile tan:#ma ve büyük bilgisayarlar
Hacettepe Üniversitesinde 30 Eylül 1967’de Bilgi lem Merkezi kuruldu[5]. Bu merkezde görevli
arkada lar Hacettepe çal anlar na bu yeni teknolojiyi tan tmak için toplant lar, kurslar, seminerler
düzenliyorlard . lk kez programlama dillerinden FORTRAN ile 1968 y llar nda tan t k. O y llarda bu
yeni teknolojinin hayat m z n içine bu ekilde girece!i hiç akl m za gelmemi ti. Bilgisayar merkezinin
genç ve donan ml elemanlar sistem kurulmadan bu sistemin alt yap s n Hacettepe Üniversitesi
çal anlar na anlatmak için seminerler düzenlediler. Art k statistik Bölümünün ders programlar n n
248
içine FORTRAN ve COBOL gibi programlama dillerinin gösterildi!i yeni dersler girmi ti. O y llarda
yeti tirilen istatistik ö!rencilerimizin bir k sm bu gün bili im dünyas n n tan nm isimleri oldular.
Hacettepe Üniversite’sinde Burroughs 3500 sistemi, üzerinde çevrimiçi uygulamalar n da yap ld ! ,
gösterici uçbirimlerle donat lm bir sistem olarak 1969 y l nda faaliyete geçti.[5]1969 Türkiye’sinde
böyle bir sistem çok büyük yenilikti. O y llarda Türkiye’de Karayollar Genel Müdürlü!ünde, Devlet
Planlama Te kilat nda, Türk statistik Kurumu(T.C. Ba bakanl k Devlet statistik Enstitüsü), Devlet
Su leri, Bankas gibi kurumlarda ve stanbul Teknik Üniversitesi, Orta Do!u Teknik Üniversitesi,
Hacettepe Üniversitesi gibi e!itim kurumlar nda bilgisayar sistemi vard .[9]
Hacettepe Üniversitesine kurulan ilk sistem imdiki Di çilik Fakültesi Dekanl ! ’n n üst kat nda
faaliyete geçti. Makineler ve so!utucular üç büyük oday kapl yordu. Sisteme bilgi delikli kartlar
yard m ile veriliyor, sistemden i lenmi bilgiler büyük yaz c lardan iki yan delikli, iki A4
geni li!inde sürekli ka! tlar ile al n yordu.
Kurulan bu yeni donan m n program yaparak en etkin kullan m merakl ö!rencilerimiz taraf ndan
gerçekle tiriliyordu. Genellikle bitirme projelerinde sistemden yararlan yorlard . Ba ta da belirtti!im
gibi bizim önemli görevlerimizden biri de t p doktorlar n n yapt klar makale ve tez çal malar n n
istatistik de!erlendirmelerinde yard mc olmakt . 1970 y llar nda bu görevi hocam z n yard m
olmadan da yapabiliyorduk. Yapt ! m z bu destek çal malar nda bizim çok vaktimizi alan hesaplama
i leri yeni sistem ile çok kolaylam t . Art k Türkiye’de t p biliminde yap lan tez ve makalelerde
istatistik de!erlendirme olmadan yay n yap lam yordu. O dönemde bizden yard m isteyen yaln z
Hacettepe T p Fakültesi mensuplar de!ildi. Türkiye’nin her kö esinden istatistik destek için Hacettepe
statistik Bölüm’üne geliyorlard . Ara t r c lara verilerini veri kodlama ka! tlar na yazmalar n önce
gösterir, sonra yaz p gelmelerini isterdik. Biz de yap lacak de!erlendirmenin tan mlanmas n program
ka! tlar na yazar sisteme verirdik. Ç kt lar e!er bir hata yok ise, delinmi kartlar ve yaz c dan ç kan
sonuçlar ile belli bir süre sonra al n rd . E!er delgide ya da bizim delgi haz rl klar m zda bir hata
yap lm ise, sonuç alamaz bu hatay delikli kartlarda bulmaya çal rd k. T p mensuplar na ve di!er
bran larda çal anlara yapt ! m istatistik destekler benim çok vaktimi almas na ra!men hiç ikayetçi
olmam md r. Her çal ma bana yeni bir bilgi katm t r diyebilirim. Bu i ler çok art nca Hacettepe
Bilgi lem Merkezi (Bilgi lem Merkezi daha sonra Bilgi lem Daire Ba kanl ! olarak de!i tirildi.)
bünyesinde ara t rma destek birimi kuruldu. Bu birimde Hacettepe statistik Bölümü mezunu
ö!rencilerimiz çal t , çok da ba ar l oldular. lerleyen y llarda, bu merkezde çal an mezunlar m z,
ihtiyaç duyduklar istatistiksel bilgiler yönünden desteklenmi tir.
statistik Bölümü Beytepe’ye 1974 tarihinde ta nd ! nda, bu her bak mdan yeni bir ortamd . Ayn y l
Bilgisayar Mühendisli!i Bölümü kuruldu. Bu bölüm ile Bilgi lem Merkezi, Beytepe Kampüsünde
ayn binay payla yorlard . Bilgi lem Merkezi alt katta olup, tüm üniversite elemanlar na aç kt . lk
al nan bilgisayarlar merkez kampüste kald . Beytepe’ye daha yeni teknoloji ürünü makineler geldi. Bu
makineler daha az yer kapl yordu.
Uygulamal statistik derslerimizde, ö!rencilerden problemlerin çözümlerini bilgisayardan almalar n
ve yorumlar n n yap lmas n istiyorduk. 1980 ve 1981 y llar nda yapt rd ! m z iki çoklu regresyon
çözümlemesi ödevi hala elimizdedir. Hüseyin Kayacan ve Nevcan Özkan’a ait ödevlerde, çoklu
regresyon çözümlemesinin Bilgi lem Merkezindeki sistemde var olan programdan yararlanarak
çözmek için verilerin kodlama ka! d na yaz l , al nan sonuçlar ve yap lan ayr nt l yorumlara yer
verilmi ti.
Akademik çal malar m z art k üniversitenin bilgisayarlar nda FORTRAN ya da COBOL dillerini
kullanarak yapabiliyorduk. Baz arkada lar m z program yazma konusunda çok ba ar l idiler. Bu
arkada lar m z di!er programlama dillerini de rahat kullanabiliyorlard . Art k bölümümüzde verilen
bilgisayar dilleri ile ilgili dersler bölümümüz elemanlar taraf ndan veriliyordu.
Bilgisayar n etkin kullan m çal malar m zda benze im tekni!i, yöneylem ara t rmas gibi i lem yükü
isteyen çal malar yapma olana! m z sa!lam t .
249
1970-1980 y llar aras nda di!er çal malar m zda durum nas ld ? Bu y llarda ispirtolu ka! t ve onu
basan bir makinemiz oldu. spirtolu ka! d düz ka! d n alt na koyup üzerine yaz m z , formülümüzü
elimiz ile yaz yor sonra yaz yazd ! m z ka! d bask makinesinde tak p alttaki mürekkep ile ço!altma
i ini gerçekle tiriyorduk. Bu bask türünün baz dezavantajlar vard . Fazla say da ço!altma ba ar l
sonuç vermiyordu. Bas lan notlar zaman içinde rengini kaybediyordu. Bu y llar aras nda tez yazan
arkada lar m za teknoloji art k baz kolayl klar sa!lam t . Örne!in elektronik daktilo makinelerinde
formül yazan toplar, tezlerini ço!altmak için üniversite d nda da olsa fotokopi yapt rma olanaklar ,
mumlu ka! t ile bu i leri yaparken ya ad ! m z zorluklar ve i in kalitesini dü ündü!ümüzde, bizler
için müthi bir geli me idi. Ders notlar m zda ve s nav sorusu yazarken mumlu ka! da formül yazma
bizi çok zorluyordu. Fotokopi makinesine sahip olunca birçok i imiz hem kolay hem kaliteli
gerçekle ti.
Kitaplar m z dizgi tekni!i ile çal an matbaalarda bast r yorduk. Bu teknik kabaca kur undan
dökülmü her harfin tek tek dizilerek sayfa tasar mlar n n yap ld ! bir uygulama idi. rimdi siz
gençlerin çok do!al kulland ! n z Internet, hayal edemeyece!imiz bir olanakt . Bilimsel
çal malar m zda taramalar , y ll k yay mlanan abstraklardan makale özetlerini inceleyerek yapard k.
Bu incelemeler sonunda belirlenen makalenin pe ine dü erdik. E!er o dergi üniversitemize geliyor ise
çok ansl say l rd k. Üniversitemizde olmayan dergilerin hangi kütüphanede olabilece!ini gösteren
kataloglar sayesinde izini bulmaya çal rd k. E!er yurt içinde o dergi yok ise yurt d ndan
getirtebilmek için hem maddi, hem zaman kayb m z olurdu. Buraya kadar anlat lan a amalar üç ila
dört ay aras nda bir zaman al rd . Günümüzde ayn sürecin en fazla yar m saat ald ! n dü ünürsek,
Internet’in bilgisayarlar n yayg n kullan m n n ard ndan gelen en önemli ikinci geli me oldu!u aç kt r.
3.3 Masaüstü bilgisayarlar dönemi
Bilgisayar 1970 y l ndan sonra bizlerin de ayr lmaz bir parças oldu. Henüz o y llarda masaüstü
bilgisayarlar ile tan mam t k. Dünyada 1970 li y llar n sonunda bir çok bilgisayar firmas kendi
sistemlerini piyasaya sürdü. Örne!in, 1977 y l nda ilk masaüstü bilgisayarlardan biri olan Apple iki
arkada taraf ndan üretildi. 1981 y l nda da IBM PC’ leri piyasaya sürdü.[9]
Bu y llar dünyada bilgisayar teknolojisinin h zla geli ti!i, masaüstü ki isel bilgisayarlar n ve yaz l m
teknolojisinin özellikle bilimsel çevrelerde etkin kullan lmaya ba land ! y llar olarak görmekteyiz.
Ülkemizin bili im teknolojisine girmesi, ODTÜ ve HÜ gibi e!itim kurumlar nda çal an de!erli
akademisyenler ve bu konuda yeti mi genç bilgisayar mühendislerinin katk lar , Bili im Derne!i’nin
düzenli çal malar ve ileti im teknolojisinde olan h zl geli me ile çok geç olmam t r. Bu teknolojinin
h zl yay lmas ve dü ük maliyette olmas bizlerin ve yeti tirdi!imiz ö!rencilerin bilgisayar dünyas na
kolayca girmesini sa!lad . 1980’li y llarda yurt d ülke üniversitelerinde kullan lan teknoloji art k e
zamanl olarak ülkemizde de kullan lmaya ba land .
Bölümümüzde ilk masaüstü bilgisayar denilebilecek Hewlett Packard’ n geli tarihi konusunda kesin
bir bilgi veremeyece!im ama;1976 ile 1978 y llar aras nda olabilir. Bu geli mi bir hesap makinesi
ile bilgisayar aras nda bir yap ya sahip olan HP-9830A modeli idi. Bu serinin en geli mi türü olan
HP- 9830A, bir hesap makinesi özelli!inden ç k p, programlanabilir bilgisayar özelliklerine sahipti. En
önemli özelli!i BASIC programlama dili ile program yaz labilmesi, hard disk, yaz c ba!lant s na izin
vermesi idi. Bu makinenin kasetlere kaydedilmi istatistik paket programlar bizi paket program
kavram ile kar la t rd . Kasetlerde hem ö!retti!imiz istatistik tekniklerin tümü, hem ara t rmalarda
kullanabilece!imiz özel programlardan baz lar bulunuyordu. Bu makineye BAS C programlama dili
ile kendi programlar m z yazma olana! m z da oluyordu. Ö!rencilerimize HP-9830A’y tan tmak için
gruplar olarak uygulamaya al yor ve o hafta i ledi!imiz konuyu haz r program kasetlerini kullanarak
yapt r yorduk. Baz derslerin ödevlerinde ve seminer dersi alan ö!rencilerin projelerinde HP-9830A
kullan l yordu. Bölüme uzman olarak al nan bir arkada m z, di!er bölümlerde çal an
akademisyenlere verdi!imiz destek için bu makineyi kullan yordu. HP-9830A ilk geldi!inde üçüncü
katta bir odaya koyuldu. Bu oda ara t rmalar n yap ld ! ö!renci uygulamalar n n da gerçekle tirildi!i
yerdi.
250
1980’lerin ortalar , masaüstü bilgisayarlar n Türkiye’de yayg nla maya ba lad ! y llard . Bu geli me
bize de yans d . Yeni bir ara t rma ve bilgisayar odas olu turuldu. Bu odada Bilgi lem Merkezinin
ba!lad ! uç için bir ekran, Zenith Heathkit H89, büyük bir yaz c s ve HP-9830A bulunuyordu.
Bilgi lem Merkezinin 1974 y l ndan önce ba layan bir projesi, sisteme d ar dan uçlar ile
ba!lanmakt . lk zamanlar bu proje ba ar l olamad . statistik Bölümü’ne 1984 ve izleyen y llarda
ba!lanan uç bu projenin sonucu idi. Bölümde bulunan bu uç sayesinde Bilgi lem Merkezinde olan
i lerimizi oraya gitmeden gerçekle tirebiliyorduk. Bu uç daha sonra nternet ile tan mam z
sa!layacak bir araç oldu.
Ayn y llarda ö!renci laboratuarlar m za masaüstü ki isel bilgisayarlar al nmas planland . O zaman
için en uygun oldu!u dü ünülen AMSTRAD CPC-6128 al nd . Bu bilgisayarlardan alt tane al nm t
daha sonra ö!renci say s kadar art rmay dü ünüyorduk ancak; IBM uyumlu PC’lerin daha hesapl ,
daha kullan l olmas nedeni ile bu dü ünce eyleme koyulmad . AMSTRAD CPC-6128 için
Uygulamal statistik derslerinde kulland ! m z yöntemlerin programlar n ö!rencilerimizden lker
Yalç n ve Sabri nan yapt lar. Disketlere bu programlar kaydettik ilerleyen y llarda bu disketlerdeki
programlar Uygulamal statistik dersinin uygulamalar için kullan ld .
1984 y l n izleyen y llar hesap makinelerinde de önemli geli melerin oldu!u y llard . Geli meler o
kadar h zl oluyordu ki, takip etmekte zorlan yorduk. Kulland ! m z Texas Instruments hesap
makinelerinin geli tirilmi biçimi olan, program kartlar ile birçok i i çok kolayla t ran Texas
Instruments Programmable 58C modelinin al nmas n istedik. San r m iki tane al nd . Bir tanesi bana
verilmi ti. Bu makineyi çok uzun zaman kullanamad k.
1984 y l nda ki isel bilgisayarlardan SINCLAIR ZX SPECTRUM 48K ile tan t m. Bu ilk sahip
oldu!um ta nabilir ki isel bilgisayard . Görüntü için televizyon ekran n kullan yorduk. Daha öncede
belirtti!im gibi mezuniyet a amas nda seminer dersi alan ö!rencilerimize baz projeler veriyorduk. Bu
çal may haz rlarken eski mezunlar m zdan derslerimizle ilgili an lar var ise bizimle payla malar n
istedim. Gelen desteklerden biri Cebrail Kurt’a ait idi. Bu deste!i oldu!u gibi aktarmak istiyorum:
“Hocam günayd:n,
Geçen gün kar#:la#t:G:m:zda size anlatt:G:m gibi, 1985 y:l:nda mezun aday: iken benden seminer
almam: istemi#tiniz.‘Seminer konusu Kovaryans analizi’ ile ilgili program yapmakt:.Yanl:#
hat:rlam:yorsan tar:m ve hayvanc:l:kta en çok kullan:lan söz konusu tekniGi geni# bir #ekilde anlatan
ye#il kapl: bir kitab: da vermi#tiniz.Sayenizde lisans program: döneminde ba#l:k olarak görmü#
olduGum Kovaryans analizini program geli#tirirken oldukça da ayr:nt:l: olarak öGrenmi#tim. DoGal
olarak o dönemde ki#isel mikro bilgisayarlar:n yeni yeni konu#ulduGu dönemde (ekte resmini size
gönderiyorum) koskoca konuyu (nerede ise o kal:n bir kitab:n tüm tekniklerini içeren) bir tür paket
program: yazm:#t:m ve bölüme ar#ivlenmek üzere b:rakm:#t:m.
Bilgisayar derleyicisi (Compiler) interpreter ve 8 K ek bellekli SINCLAIR ZX81 marka ve model olan
bu güne göre oldukça basit bir sistemdi. Benzer #ekilde bu program: bölümün HP marka (16 K
bellekli) bilgisayar:nda da denemi# ve çal:#t:rm:#t:m. Seminer ba#ar:yla geçmi#, hatta rahmetli bölüm
kurucusu ve ba#kan: Prof.Dr. Alaettin Kutsal Hocam da eskiden hesap makinesi ile 6 basamakl:
ondal:kl: hesaplama yaparken #imdi bilgisayarlar sayesinde 12 basamakl: olanaG:n:n güzelliGini
anlatm:#t:. Bende konunun diGer k:sm: yani paket program:n ba#ar:s:na odaklanm:#t:m. Hocam:n çok
önemsediGi konu benim amac:ma göre çok çok küçük gelmi#ti.Benim hiç unutamad:G:m an: da budur.
Sayg:lar:mla bilgilerinize sunuyorum.
Cebrail KURT”[11]
Bilgisayar Mühendisli!i Bölümünde yap lan bir çal madan söz etmek istiyorum. Bu çal may o
y llarda bir ki inin kendi çabas ile uzman bir paket program haz rlama giri imi olarak dü ünebiliriz.
251
Bilim Uzmanl ! çal mas yapan Erol ranl türk’ün konusu “Multiple Comparison for Single Factor
Experiment” idi[12]. Bu çal maya ben istatistik konusunda dan manl k yapm t m. Tez 1986 y l nda
tamamland . Çal ma veri analizi ile ba l yor, verisini tan yan ara t r c için sorgulamalar ile yöntemini
seçmeye yönlendiriyordu. Program geli meye müsait alt yap ya sahipti ve COBOL programlama dili
ile PC’ler için haz rlanm t . Bu süreç ABD’de ve Avrupa’da 1970 y llar nda ba lam ve yaz l m
irketleri olarak bilgisayar piyasas nda yerlerini alm lard . Bu yaz l mlar n serüvenlerini
inceledi!imizde bilim ile i dünyas i birli!inin getirdiklerini görmek mümkün. Ülkemizde ilerleyen
y llarda istatistik konular n içeren uzman programlar haz rlanm t r. Bunlardan birinin Selçuk
Üniversitesi statistik Bölüm’ünde gerçekle tirildi!ini biliyorum, ancak; a a! da verece!im baz
yaz l mlar n geli imlerinden görece!imiz gibi bu konuda geç kal nm oldu!unu dü ünüyorum.
Ö!renci laboratuarlar m z n PC’ler ile olu turulmas 1988-89 y llar na rastlar. Bu olu um ile dünyada
yayg n kullan lan yaz l m programlar n da derslerimizin uygulamalar nda kullanmaya ba lad k. lk
kulland ! m z yaz l m SYSTAT idi. SYSTAT 1970 y l n n ortalar nda Illinois Üniversitesi Psikoloji
Bölümü Ass. Profesörlerinden Lelond Wilkinson taraf ndan istatistik i lemleri için olu turuluyor.
SYSTAT 1983 y l nda irketle ip 50 den fazla çal an oluyor. SYSTAT paket program n n merkezi
halen Chicago Illinois’de bulunmaktad r. Bu paket program geli tirerek tüm dünyaya
pazarlamaktad r.[3]
statistik paket programlar ndan söz ederken SAS program na de!inmek gerekti!ini
dü ünüyorum.Çizelge 1’de de de!indi!imiz gibi Anthony J.Bar 1962-1966 y llar aras nda Kuzey
Carolina State Univ.’de lisans üstü e!itimini sürdürürken M.Kendall’ n notasyonlar ndan ilham alarak
bir varyans analizi modelleme dili yarat yor. Bunun hemen ard ndan çoklu regresyon program
olu turuyor. Bu deneyimleri ile SAS dilinin temelleri at l yor. J.Bar’ n James Goodnight ile çal maya
ba lamas bu program paketini güçlendiriyor. 1971 y llar nda SAS akademik çevrelerde çok tutulan
bir program oluyor. 1972’de endüstride de kullan lmaya ba l yor. Biz 1990’l y llarda yapt rd ! m z
bir çok tez çal mas nda bu program kulland k. lk kulland ! m z SAS program bir proje ile 1990
y l nda Üniversitemizin Bilgisayar Merkezine kiralad ! m z programd r. Bu program alt y l kullan ld .
1996 y l nda yeni bir proje ile bölümümüzde olan PC lerde kullan lmak üzere Windows üzerinden
çal an SAS program kiraland . O y llarda asistan olan Aytekin Dönmez SAS 6.12’ nin kullan m
yönergesi için Türkçe bir kaynak olu turdu. Baz örnekler ekleyip yay nlanmas dü ünülmü tü ancak
gerçekle tirilemedi.
Masaüstü bilgisayarlar n evlerimize girmesi 1990’l y llarda h zland . Bu a amadan sonra art k
bilgisayarlar de!il, yaz l mlar ön plana ç kt . Bu y llardan sonra istatistik ile u!ra an bizler her konu
için özel yaz lm uzman programlar n d nda bünyesinde tüm yenilikleri toplam sorular m za cevap
veren program aray na girdik. 12 Nisan 1993 tarihinde Türkiye’de bilgisayar alan nda çok önemli bir
sayfa aç ld . Ankara Washington aras nda kurulan kiral k hat ile Türkiye Internet ile tan t . ODTÜ
den yap lan bu ba!lant üzerinden, Bilkent ve Hacettepe Üniversitelerine de Internet eri imi sa!land .
Takip eden y llarda bu e!itim kurumlar kendi ba! ms z Internet hatlar na kavu acaklard .Hacettepe
Üniversitesinde lk zamanlar Internet ba!lant s Bilgi i lem Daire Ba kanl ! n n bölümlere ba!lad !
uçlar ile gerçekle iyordu. Ö!renci laboratuarlar nda bulunan PC’lerin Internet’e ba!lanmas daha
sonraki y llarda gerçekle mi tir.
3.4 2001 ve sonras:
2001 y l nda Hacettepe Üniversitesinden emekli olup, çal ma hayat ma Ba kent Üniversite’sinde
devam etmeye ba lad m. Yeni i yerimin artlar bizim bilgisayar her gün kullanmam z
gerektiriyordu. Art k. derslerimizi verirken mutlaka üniversitemizde lisansl olan istatistik paket
programlar ndan birinin kullan m gerekiyor. Üniversitemizde Lisansl olan SPSS paket program
temel istatistik konular n içeren servis derslerimizde, M N TAB paket program n da deney tasar m
ders uygulamalar nda kullan yoruz.
Derslerimizde yaln z tahta de!il haz rlad ! m z görsel materyallerimizi kullan yoruz. Bu amaçla tüm
ders konular m z için PowerPoint ile haz rlanm notlar m z bulunmaktad r. Ça! m z n en büyük
252
kolayl klar ndan biri olan Internet, ara t rmalar m zda, ö!renci ile haberle mede, ders ile ilgili
bilgilerimizi ö!rencilerimizle payla mada kullanmaktay z. Genç arkada lar m z teknolojiye bizden
daha hakim ve getirdi!i kolayl klar rahatl kla kullanmaktalar. Bir zamanlar bizim hayal bile
edemeyece!imiz, çal t klar konunun tan nm isimleri ile Internet arac l ! ile an nda haberle mekte
bilgi al veri i yapabilmekteler. Genç arkada lar n bu de!erlerin k ymetini bileceklerine ve her zaman
bir ad m daha iyi olmak için çal acaklar na inan yorum.
Yukar da kurulu undan 2001 y l na kadar bünyesinde ya ad klar m aktard ! m Hacettepe Üniversitesi
statistik Bölümü'nü son ziyaretimde bilgisayar çal ma odalar n n düzeni, uygulama laboratuarlar ve
bilgisayarlar n ça!da l ! na hayran kald m. Ba ta anlat lanlardan bu noktaya gelinmesi bence övgüye
de!er.
4. Sonuç ve öneriler
Akademik ya ant m zda hedefimiz, yeti tirdi!imiz ö!rencilerimiz ve kendi çal malar m z ile geli mi
ülkelerin düzeyini yakalamak olmu tur. Dünyada ilk istatistik bölümünün 1911 y l nda kuruldu!u
dikkate al n r ise, istatistik e!itiminde yar a ba lama noktam z n ne kadar geride oldu!u aç kt r. Bu
yar ta lehimize olan durum, istatistik e!itimi ile s k bir ili kisi olan bili im teknolojisinin akademik
çal malardaki önem ve yerini erken benimsemi ve aktif kullan yor olmam zd r. Bu yar içindeki
k rk üç y ll k akademik ya ant ma s !d rd ! m an lar m , kendi görü aç mdan bu sunu ile payla mak
istedim. Ça! m z n teknik donan m n çok iyi kulland ! na inand ! m genç arkada m ile de bu an lar
görselle tirdik.
Ülkemizde istatistik bilim düzeyinde tüm dünya ülkeleri ile ayn düzeye gelindi!ini söylemek yanl
olmaz. Genç bilim insan arkada lar m z bu yar ta geri kalmayacaklard r. Bizim eksik yan m z n
istatisti!in bilim çevreleri d nda özellikle sanayide etkin kullan lmamas oldu!unu dü ünüyorum.
statistik biliminin getirece!i kazançlar ilgili çevrelere anlatmak için daha çok çal lmas ve sab rla
ortak çal malar yap lmas gere!ine inan yorum.
Kaynaklar
[1] University College London. Department of Statistical Science "Karl Pearson (1857-1936)
http://www.ucl.ac.uk/
[2] http://en.wikipedia.org/wiki/Founders_of_statistics#Founders_of_Departments_of_Statistics
[3] http://en.wikipedia.org/wiki/Statistical_package
[4] Kutsal A. Y ll k Yaz s , statistik Bölüm Y ll ! 1982-1983 Zümrüt Matbaas , Ankara
[5] Köksal A., Yabanc Dille E!itim
http://www.cs.hacettepe.edu.tr/index.php?option=com_content&task=view&id=15&Itemid=39
[6] http://sci.ege.edu.tr/~istatistik/dosyalar/stat_departments.htm
[7] Yüceulu! Ratip. Türkiyede istatistik Ö!retimi
http://auhf.ankara.edu.tr/dergiler/auhfd-arsiv/AUHF-1949-06-02-03-04/AUHF-1949-06-02-03-04Yuceulug.pdf
[8] http://www.vcalc.net/ti-hist.htm
[9] http://www.forumasi.net/forum/bilgisayarin_turkiye_deki_tarihsel_gelisimi-t3336.0.html;wap=
[10] http://www.google.com.tr/search?hl=tr&q=%22years+of+computing+at%22&meta=
[11] Kurt Cebrail, özel mesaj, 1985 H.Ü.Fen Fakültesi statistik Bölüm Mezunu
[12] ranl türk E., 1986, Multiple Comparison for Single Factor Experiment,
Hacettepe Üniversitesi Fen Bilimleri Enstitüsü Bilim Uzmanl ! Tezi
253
Uyarlamal düzenler ve hazard oran n n testi üzerine bir
uygulama
Yaprak PARLAK DEM RHAN
Sevil BACANLI
MSB Savunma Sanayii Müste#arl:G:, Kalite-Test ve
Sertifikasyon Daire B#k.l:G:, Endüstriyel Kalite Grup
LiderliGi, Balgat/ANKARA, Türkiye.
[email protected]
Hacettepe Üniiversitesi, Fen Fakültesi,
statistik Bölümü,
Beytepe/ANKARA, Türkiye.
[email protected]
Özet
Ya#am daG:l:mlar:n:n kar#:la#t:r:lmas:nda; etik ,ekonomik ve idare edili# gibi nedenlerden dolay: en az
say:da ba#ar:s:zl:k say:s: ile test sürecinin sonland:r:lmas: amaçlanmaktad:r. Bu amaçla, grup ard:#:k
düzenler ve esnek uygulama ko#ullar:na sahip uyarlamal: düzenler önerilmi#tir. Çal:#mada , uyarlamal:
düzenler hakk:nda genel bilgi verilmi# ve hazard oranlar:n:n parametrik olmayan istatistikler ile
uyarlamal: düzenlerde testi incelenmi#ti.Gerçek bir veri kümesi üzerinden uygulama yap:lm:#, incelenen
yöntemler elde edilen sonuçlar üzerinden deGerlendirilmi#itr.
Anahtar sözcükler: Hazard oran, Uyarlamal: düzenler, p-deGerleri, log-rank testi, klinik denemeler.
Abstract
Adaptive designs and an application on the test of hazard ratio
It is aimed to stop testing procedure with the minimum number of failure in the comparison of survival
distributions, because of the ethical, economical and administrative reasons. To fulfil this aim, group
sequential test and adaptive designs, which have flexible application rules, were proposed. In this study, a
general review of adaptive designs are given; they also harmonized to test of hazard ratios via
nonparametric statistics, and lastly an application over a real data set is done. Mentioned methods are
evaluated over the results.
Keywords: Hazard ratio, adaptive designs, p-value, log-rank test, clinical trials.
1. Giri!
Klinik denemelerde, dü ük etkiye sahip tedavi ile çal maya devam edecek hasta say s n en aza
indirmek amaçlanmaktad r. Dolay s yla, çal ma boyunca biriken verinin periyodik olarak izlenmesi
gerekmektedir. Bu amaçla ilk olarak sabit örneklem büyüklü!üne sahip düzenler kullan lm olsa da,
etik, idare edili ve maliyet aç s ndan ard k yöntemlerin kullan lmas önerilmi tir. Klasik ard k
düzenlerin uygulanamad ! durumlar için, ard k olarak gelen veriyi gruplar halinde incelemeye izin
veren grup ard k düzenler geli tirilmi ve ya am çözümlemesinde yayg n olarak kullan lmaya
ba lanm t r. Ancak son y llarda, ara t rmac n n çal may herhangi bir ara zamanda yeniden
de!erlendirebilece!i ve istenildi!inde çal man n geri kalan k sm nda gerekli de!i ikliklerin
yap labilece!i, uyarlamal düzenler (adaptive designs) olarak adland r lan birçok yöntem önerilmi tir.
2. Uyarlamal düzenler ve hazard oran n n testinde kullan m
Klinik denemelerde planlama yap l rken ara t rmac düzen hakk nda hatal kararlar verebilir. Hatalar
ancak veri toplanmaya ba lad ktan sonra ortaya ç kmaktad r. Dolay s yla, ara t rmac bir yandan
denemeyi ve testleri devam ettirirken bir yandan da süreci iyile tirmek ve hatalar yok etmek için
düzende de!i iklikler yapmak isteyebilir. Sabit örneklem büyüklü!üne sahip düzenler ve grup ard k
254
test düzeni bu tür de!i ikliklere izin vermezken, uyarlamal düzenler I Tür hatay kontrol ederek bu
de!i ikliklerin yap lmas na izin verir. Süreç için gerçekle tirilecek uyarlama türlerine örnek olarak:
Örneklem büyüklü!ünü de!i tirmek; ikiden çok tedavinin kar la t r ld ! durumlarda bir ya da daha
çok tedaviyi çal madan ç kartmak; tedavi sonunda ölçülen de!i ken türünde de!i iklik yapmak ve test
istatisti!ini de!i tirmek verilebilir. Bir klinik deneme için a a! da verilen hipotezin testi dü ünülsün:
H 0 : = 0 (D = 1) ya da h A (t ) = h B (t ) (S A (t ) = S B (t ))
(
H 1 : : 0 (D : 1) ya da h A (t ) = Dh B (t ) S A (t ) = S B (t )D
)
(1)
Klinik ara t rmalarda her geçen gün daha büyük önem kazanan uyarlamal düzenlerin temelini
olu turan baz çal malar ve E . 1’de verilen hipotezlerin testinde kullan mlar ilerleyen bölümlerde
verilmi tir.
2.1. Bauer&Köhne yöntemi
Bauer&Köhne (1994) ayr ad mlardan elde edilen p-de!erlerinin birle tirilmesine dayanan bir yöntem
(BK) önermi lerdir. Yöntem ayr alt örneklemden gelen p-de!erlerinin, I. Tür hata’n n sabit kalmas n
sa!layan Fisher'in çarp m kriteri (Fisher’s product criterion) ile birle tirilmesine dayanan bir iki
a amal düzendir. Düzen ya bilinen sabit örneklem büyüklü!üne sahip düzenler gibi ya da grup ard k
test düzenlerindeki gibi planlanabilir. Ancak Posch&Bauer (1999) BK yönteminde her ad m için
örneklem büyüklü!ünü formüle etmi lerdir. Testin i leyi i a a! da verildi!i gibidir:
BK yöntemi için, ( c ) ve 0 sabitleri belirlenir. Bu de!erlere kar l k 1 de!eri SAS makrosu
kullan larak hesaplanmaktad r. i = 1, 2 için pi, i. ad mda hesaplanan test istatisti!ine kar l k gelen pde!eri olmak üzere testin durdurma kurallar a a! daki gibidir:
1. p1 8 0 ise H0’ n kabulü ile süreç sonland r l r.
2. p1 ! 1 ( 1 > c 2 ) ise, H0 reddedilir ve süreç sonland r l r.
< p1 <
ise, ikinci ad ma geçilebilir. p1-de!eri ikinci ad m planlamak ve yeniden
düzenlemek için kullan labilir (örne!in ikinci ad mda gözlenecek hasta say s n2’nin
belirlenmesinde kullan l r).
4. kinci ad mda, p1 p 2 ! c 2 ise H0 reddedilir. Aksi halde H0 kabul edilerek süreç sonland r l r.
3.
1
0
E . 1’de verilen hipotez testi için, ara ad m ve son ad mda ilgili parametrik olmayan istatistik (örn:
log-rank, Tarone-Ware, Gehan Wilcoxon vb.) ve p-de!eri hesaplanarak karar verilir.
2.2. Proschan&Hunsberger yöntemi
Proschan&Hunsberger (1995) denemenin farkl ad mlar nda elde edilen ba! ms z test istatistiklerini
do!rudan birle tirilmesine dayanan bir yöntem (PH) önermi lerdir. PH yöntemi için
ve bunlara kar l k z
O1 =
n1
n1 + n 2
0
ve O 2 =
ve z
1
n2
n1 + n 2
ve
0
sabitleri
de!erleri SAS makrosu ile hesaplan r. kinci ad mda test istatisti!i,
olmak üzere Z = O1z1 + O 2 z 2 biçiminde hesaplanmaktad r. Testin
i leyi i a a! da verildi!i gibidir.
1.
z1 ! z
2.
z < z1 < z ise sonraki ad ma geçilir,
1
0
ise, H0 kabul, z 1 8 z
1
ise H0 reddedilerek süreç durdurulur,
0
3. Son ad mda, Z > c(n 2 , z 1 ) =
n 1 z1 + n 2 z 2
1
z 12
ya da z 2 8 z 2
z 12 ise H0 reddedilir.
n1 + n 2
E . 1’de verilen hipotez testi BK yöntemine paralel olarak, yukar daki durdurma kurallar kullan larak
gerçekle tirilir.
255
1
2.3.Lehmacher&Wassmer yöntemi
Lehmacher&Wassmer (1999), devam eden deneme için uyarlama yapmay sa!larken, klasik grup
ard k test s n rlar n n kullan labilece!i bir yöntem (LW) önermi lerdir. Dengeli olmayan düzenlerde
ise Wassmer (2006) a a! da verildi!i gibi bir a! rl kland rma yap larak inverse normal yöntem
kullan lmas n önermi tir. Bu durumda i ad m say s , L i i. ad mdaki ba ar s zl k say s ve Si i. ad mda
elde edilen grup ard k test istatisti!ini göstersin. Test için karar, z i = 3 1 (1 p i ) =
olmak üzere, Z (i =
1
i
"
i
" O 3 (1
1
i
i =1
O i2
pi
L i Si
L i 1 Si
Li
Li
1
1
)
i =1
de!erine göre verilir. Burada i = 1, K , N için O 1 = L1 ve O i = L 2 L1 biçiminde al n r.
2.4.Test istatistiGi birle#tirme yöntemi
Yeni bir tedavi yöntemi uygulanan grubun, kontrol grubu ile kar la t r ld ! denemelerde
kullan labilecek birçok test istatisti!i vard r. Ara t rmac ara çözümlemenin ard ndan gücü art racak
farkl bir test istatisti!i kullanmaya, daha çok gözlem almaya ya da çal ma süresini uzatmaya karar
verebilir. Lawrence (2002) bu tür de!i ikliklerin yap labilece!i bir yöntem önermi tir. Lawrence
(2002), Fleming-Harrington G ailesine ait istatistikler kullanm , ayr ad mlarda ’nun farkl
de!erleri için elde edilen istatistiklerin birle tirilmesi için bir yöntem (T B) önermi tir ve test için
klasik grup ard k test yöntemlerinden birine ait durdurma kurallar kullan labilmektedir. Bu
birle tirme yöntemi ayr ad mlardan elde edilen, farkl istatistiklerin ba! ms zla t r lmas n temel
almaktad r. T B yöntemi için w ad mlara ili kin sonuçlar birle tirilirken kullan lacak a! rl k ve
Cov(Z , Z (1) ) Cov(Z , Z (1) )Cov(Z (1) , Z (1) )
w Z (1) + 1 w Z (2 )
ˆ 12 =
olmak üzere, Z 2 =
e itli!i
(1) 2
ˆ
1 + 2 w (1 w ) 12
1 (Cov(Z , Z ))
2
1
2
2
2
1
2
1
2
2
kullan lmaktad r.
2.5.Varyans uyarlamas: yakla#:m:
Parlak Demirhan v.d. (2008) klinik denemelerde elde edilen verinin yap s n dikkate alarak
sansürlenme oranlar n n süreç için elde edilen güçler üzerindeki etkilerini incelemi tir. Bu
incelemelerden yola ç k larak, ortaya ç kabilecek durumlar n olumsuz etkilerini ortadan kald rabilmek
amac yla, hazard oran n n uyarlamal testinde hesaplanacak parametrik olmayan istatisti!e ait varyans
için bir uyarlama önerilmi tir. Ara çözümlemede sansürlenme oranlar farkl oldu!unda a! rl kl ; ayn
oldu!u durumlarda ise skor testlerinin kullan lmas uygundur (Leton&Zuluaga, 2001; 2005). Farkl
ad mlardan elde edilen, varyans uyarlamas uygulanm istatistikler yukar da verilen yöntemler ile
birle tirilerek hipotez hakk nda karar verilebilir.
3. Gerçek veri üzerine bir uygulama
Bu bölümde Kalbfleisch&Prentice (1980) taraf ndan verilmi olan: Orofarinks karsinomu tedavisi için
yap lan bir klinik denemeye ait veri kümesi kullan lm t r. E . 1’de verilen yokluk hipotezinin
H 1 : > 0 (D > 1, ln D > 0 ) ) alternatifine kar testi gerçekle tirilmi tir.
256
3.1. BK yöntemi ile çözümleme
N=2,
= 0.05 , 1
= 0.80 için, alternatif hipotez de!eri D = 1.67 ve ln D =
ad mda beklenecek ba ar s zl k say s 60 al nm t r.
Çizelge 1. Ara çözümleme sonras test sonuçlar
= 0.513 ve her
2. ad mdaki
test ist.
(p2-de!eri)
p 2 > c p1
ise H0 kabul
1. ad mdaki
test ist. (p1-de!eri)
Testler
1
< p1 <
ise 2. ad ma
geçilir
0
0.9431 (0.8272)
Log rank
P-P Wilcoxon
1.0098 (0.8437)
Wilcoxon
1.0957 (0.8634)
Tarone-Ware
1.0291 (0.8483)
0
1
= 0.95
= 0.0117983
c = 0.0087049
(SAS kodu ile hesaplan r)
0.2562 (0.6011)
0.010523
0.6504 (0.7423)
0.010318
0.8789 (0.8102)
0.010082
0.7098 (0.7611)
0.010262
Ara çözümlemede H0 hipotezi hakk nda karar verilemeyerek ikinci ad ma geçilir. kinci ad m sonunda
H0 kabul edilerek sürece son verilir. Burada örneklem büyüklü!ü, O’Brien&Fleming (1979) test
düzeni dü ünülerek hesaplanm t r. Ancak ara t rmac , ikinci ad mda sa!lanmas istenen ko ullu güç
de!erine ba!l kalarak Newton Rapson yöntemi ile birinci ad m örneklem büyüklü!ünü hesaplayabilir.
Genel olarak kar la t rma yap ld ! nda: O’Brien&Fleming yöntemine göre toplam 120 ba ar s zl k
gerçekle tikten sonra (çal man n 1701. günü) tedaviler aras nda fark olmad ! na karar verilirken, BK
yöntemine göre sadece 70 ba ar s zl ! n ard ndan (çal man n 359. günü) bu karara ula labilmi tir.
Dolay s yla daha az hasta kayb ve zaman aç s ndan, BK yönteminin kullan lmas daha avantajl d r.
3.2. PH yöntemi ile çözümleme
Ara çözümlemeye kadar BK yöntemindeki gibi 60 ba ar s zl k beklenmi tir. PH yöntemine göre 1.
ad m bilgisi kullan larak ikinci ad m örneklem büyükl!ü 30 olarak hesaplanm t r. 1. ad m sonuçlar ,
O1 = 0.8165 ve O 2 = 0.5774 olmak üzere sonuçlar Çizelge 2.’de verildi!i gibidir.
Çizelge 2. PH yöntemi için son ad mda elde edilen sonuçlar
c(n 2 , z 1 )
Testler
z1
z2
Z
Log rank
P-P Wilcoxon
Wilcoxon
Tarone-Ware
-0.94313
1.6110
-0.4470
-1.0282
-1.00981
1.6053
-0.4551
-1.0873
-1.09568
1.5971
-0.5539
-1.2144
-1.09568
1.5971
-0.5532
-1.1600
Tüm parametrik olmayan istatistikler için Z < c(n 2 , z1 ) oldu!undan H0 yokluk hipotezi kabul edilerek
süreç sonland r l r. Hipotez hakk nda z 2 > z A (z ) ise ya da Z > c(n 2 , z1 ) ise ret karar verilmektedir.
1
Ancak z
1
>z
oldu!undan z
1
yerine z
koyuldu!undan, z A (z ) de!eri olmas gerekenden daha
1
küçük ç km olabilece!inden Z > c(n 2 , z1 ) kar la t rmas na göre karar vermek daha uygun olmu tur.
3.3. LW yöntemi ile çözümleme
LW yöntemi kullan ld ! nda elde edilen sonuçlar Çizelge 3.’te verilmi tir. Test için Pocock (1977)
s n r de!eri (1.876) kullan lm t r. Dolay s yla 1.ad mda H0 hakk nda karar verilemeyerek ikinci ad ma
geçilmi tir.
Çizelge 3. LW yöntemi için n 1 = 60 için ara çözümleme sonuçlar
1. Ad m
2. Ad m
(
Z 2 ( p-de!eri)
Testler
z1 (p1-de!eri)
0.9431 (0.8272)
-0.1093 (0.5435)
Log rank
1.0098 (0.8437)
-0.1531 (0.5608)
P-P Wilcoxon
1.0957 (0.8634)
-0.1610 (0.5640)
Wilcoxon
1.0291 (0.8483)
-0.1583 (0.5629)
Tarone-Ware
257
kinci ad mda Alt bölüm 2.3’e göre hesaplanan de!erlere göre de yokluk hipotezi reddedilemez.
Standart tedavi ile alternatif tedavi aras nda fark olmad ! karar ile süreç durdurulur.
3.3. Veri için varyans uyarlamas:
O’Brien&Fleming düzenine göre elde edilen sonuçlar incelendi!inde, sansürlenme oranlar standart ve
alternatif tedaviler için s ras yla, ara ad mda %58.33-%46.43, son ad mda ise %38.00-%38.30 olarak
elde edilmi tir. Sansürlenme oranlar n n birinci ad m sonunda farkl , ikinci ad m sonunda ise ayn
oldu!u görülmektedir. Bu durumda, birinci ad m sonunda hipergeometrik varyans hesaplan r ve
a! rl kl testler elde edilir. kinci ad mdaysa permütasyonel varyans hesaplanarak skor testleri elde
edilir. ki ad mda elde edilen test istatistikleri 2. Bölümde verilen yöntemler kullan larak birle tirilip
hipotez testi yap labilir. Testlere ili kin sonuçlar Çizelge 4’te verildi!i gibidir. Burada sadece T B için
sonuçlar verilmi itr.
Çizelge 4. Ara çözümleme sonras nda varyans uyarlamas sonuçlar
1. Ad m
Skor statistikleri
A! rl k statistikleri
2. Ad m
Skor statistikleri
A! rl k statistikleri
ˆ 12 # 0 olmak üzere Genel - Z
LR
-0.965
-0.94313
-0.85258
-0.8579
-1.26976
PPW
-1.0278
-1.00981
-1.16888
-1.17955
-1.54056
GW
-0.98892
-1.09568
-1.27088
-1.2738
-1.67341
TW
-1.03358
-1.02909
-1.13876
-1.14317
-1.5329
Çizelge 4’te verilen sonuçlar klasik grup ard k test s n r de!erleri ile kar la t r larak hipotez testi
yap lmaktad r. Di!er yöntemlerde elde edilen sonuçlara burada da ula lmaktad r.
4. Sonuç
Bu çal mada, uyarlamal düzenler hakk nda genel bilgi verilmi tir. Ya am da! l mlar n n
kar la t rmas nda hazard oranlar n n parametrik olmayan istatistikler ile uyarlamal düzenlerdeki testi
verilmi ve yeni bir varyans uyarlamas yakla m önerilmi tir. Son olarak, uyarlamal düzenlerin
uygulamas n göstermek amac yla, gerçek veri üzerinde bir uygulama yap lm t r. Grup ard k testler
ara ad mlarda düzende uyarlama yapmaya izin vermedi!inden, ara t rmac lara uyarlamal düzenleri
kullanmalar ve uyarlamal düzende yap lacak hazard oran testi için, ara ad mda ve son ad mda
de!i en sansürlenme oranlar na göre varyans uyarlamas yapmas önerilebilir.
Kaynaklar
[1] P., Bauer, K., Köhne, (1994), Evaluation of experiments with adaptive interim analyses, Biometrics, 50,
1029-1041.
[2] M., Posch, P., Bauer, (1999), Adaptive two stage designs and the conditional error function, Biometrical
Journal, 41 (6), 689-696.
[3] M. A., Proschan, S.A., Hunsberger, (1995), Designed extension of studies based on conditional power,
Biometrics, 51, 1315-1324.
[4] W., Lehmacher, G., Wassmer, (1999), Adaptive sample size calculations in group sequential trials ,
Biometrics, 55, 1286-1290.
[5] G., Wassmer, (2006), Planning and analyzing adaptive group sequential survival trials, Biometrical
Journal, 48, 4, 714-729.
[6] J., Lawrence, (2002), Strategies for changing the test statistic during a clinical trial, Journal of
Biopharmaceutical Statistics, 12 (2), 193-205.
[7] Y., Parlak Demirhan, H., Demirhan, S., Bacanl , (2008), A simulation study on power comparisons for
group sequential tests of non-parametric statistics, Journal of Statistical Computation and Simulation,
Kabul edildi.
[8] E., Leton, P., Zuluaga, (2001), Equivalence between score and weighted tests for survival curves,
Commun. Statist., Theory Meth., 30 (4), 591-608.
[9] E., Leton, P., Zuluaga, (2005), Relationships among tests for censored data, Biometrical Journal, 47 (3),
377-387.
[10] J.D., Kalbfleisch, RL., Prentice, (1980), The Statistical Analysis of Failure Time Data, Wiley, New York.
258
[11] P.C., O'Brien, T.R., Fleming, (1979), A multiple testing procedure for clinical trials, Biometrics, 35, 549556.
[12] S.J., Pocock, (1977), Group sequential methods in the design and analysis of clinical trials, Biometrika,
64, 2, 191-199.
259
Maksimum entropi ilkesi ve üç de!i ik veri
kümesine uygulamas
rem De!irmenci
Süleyman Günay
Hacettepe Üniversitesi
Fen Fakültesi, statistik Bölümü
06532-Beytepe, Ankara, Türkiye
[email protected]
Hacettepe Üniversitesi
Fen Fakültesi, statistik Bölümü
06532-Beytepe, Ankara, Türkiye
[email protected]
Özet
Entropi, günümüzde birçok bilim dal:nda kar#:la#:lan olas:l:ksal sistemlerin formulasyonunda önemli
derecede yer almaktad:r. Entropi kavram:na dayanan entropi optimizasyon ilkeleri ve bu ilkelerin
birbirleriyle olan ili#kileri ile ilgili çok say:da özgün çal:#ma yap:lm:#t:r. Bu ilkelerden “Jaynes’in
maksimum entropi ilkesi” ve “Kullback’in minimum çapraz entropi ilkesi” en önemli iki optimizasyon
ilkesidir. Maksimum entropi ilkesi, bir belirsizlik ölçütü olan Shannon entropi ölçütünün maksimize
edilmesi temeline dayanmaktad:r. Maksimum entropi ilkesinin uyguland:G: en önemli alanlardan biri,
rastlant: deGi#kenlerinin yoGunluk fonksiyonunun bulunmas:d:r. Bu yöntem yard:m:yla elde edilen
daG:l:ma “MaxEnt daG:l:m:” denir. Bu çal:#mada, maksimum entropi ilkesi ve analitik çözüm yakla#:m:
ele al:nm:# ve üç ayr: veri kümesi için MaxEnt daG:l:m: elde edilerek, bu daG:l:mlar:n veriye uyumu
çe#itli kriterler yard:m:yla gösterilmi#tir.
Anahtar sözcükler: Shannon entropi ölçütü; Maksimum entropi; MaxEnt daG:l:m:
Abstract
Maximum entropy principle and application to three different data set
Entropy has very important role in the formulation of probabilistic systems which are encountered in a lot
of disciplines. Numerous original workings have been made about entropy optimization principles which
based on the concept of entropy and relationships between these principles. Jaynes’s maximum entropy
principle and Kullback’s minimum cross entropy principle are the most important optimization principles.
Maximum entropy principle is based on maximizing the Shannon entropy measure which is a measure of
uncertainty. One of the most important regions which the maximum entropy principle is applied is finding
the probability density functions of the random variables. The distribution which is obtained from this
method is called “MaxEnt distribution”. In this study, maximum entropy principle and analytical solution
approach was discussed and for three different data set, the MaxEnt distribution was found and discussed
the performance of this distributions.
Keywords: Shannon entropy measure; Maximum entropy; MaxEnt distribution
1. Giri!
Modern bilgi kuram , büyük ölçüde olas l k teorisi üzerinde temellenen bilgi kavram n n say sal bir
yakla m d r. Matematiksel ifadesiyle, E1 , E 2 ,..., E n gibi n tane farkl durum alabilen bir E rastgele
olay belirlensin. Her bir duruma ait olas l klar ise s ras yla p1 , p 2 ,..., p n olarak ifade edilsin. Bu
olas l k de!erlerinin
pk > 0
ve
260
"p
k
=1
do!al k s tlar n sa!lad ! biliniyor. Bir E k rastgele olay na ait öz bilgi miktar a a! daki gibi
tan mlan r:
S ( E k ) = ln(
1
) = ln( p k )
pk
(1)
1948 y l nda, Claude Shannon taraf ndan, termodinamik ve istatistiksel mekanikteki kullan mlar na
benzer ekilde, entropi olarak adland r lan bir belirsizlik ölçütü tan mlanm t r. (1) e itli!i ile
gösterilen öz bilgi tan m dikkate al narak, rastgele bir olay için Shannon entropisi, öz bilginin
matematiksel beklentisi olarak a a! daki gibi ifade edilebilir:
H ( p) =
n
"p
k =1
k
ln p k
(2)
Entropi, pozitif ve permutasyonel olarak simetrik bir de!erdir. Bu de!er, ortaya ç kmas kesin olarak
belli olan olaylar için 0 iken, bütün olas l klar n birbirine e it oldu!u durumda maksimum de!erini
al r.
Shannon’a göre, bir olay hakk nda bilgi edinilmesi, o olay n belirsizlik içermesi halinde söz konusu
olabilmektedir. Buna göre, ortaya ç kma olas l ! yüksek olaylar n meydana gelmesi fazla bilgi
getirmemekte, aksine olas l ! dü ük olaylar n olu mas daha fazla bilgi ta maktad r. Dolay s yla,
belli bir durumun olu ma olas l ! , o durumu olu turan say n n belirsizlik derecesini temsil etmektedir.
Bu nedenle, kazan lan bilgi, giderilen belirsizlik miktar n n dolayl bir ölçütüdür. Shannon, bu
yakla mla, entropi kavram n , bir olay n alabilece!i çe itli alternatif durumlar n beklenen de!eri
olarak bir matematiksel ba! nt yla tan mlam t r. Shannon taraf ndan ortaya konan bu ili ki sebebiyle,
entropi kavram ve entropi optimizasyon ilkeleri, fizik, elektronik, matematik, istatistik, ekonomi ve
t p gibi birçok alanda kullan lmaya ba lanm t r. Jaynes taraf ndan ortaya konan maksimum entropi
ilkesi ve Kullback’in minimum çapraz entropi ilkesi, en önemli iki optimizasyon ilkesidir. MinxEnt
yönteminin en önemli özelli!i, bir rastlant de!i kenine ait moment de!erleri ve önsel bir da! l m
verildi!inde, uygun sonsuz say da da! l m aras ndan Kullback-Leibler ölçütünü minimum yapan
da! l m bulmaya olanak sa!lamas d r. Jaynes taraf ndan ortaya at lan maksimum entropi ilkesi ise,
sadece ortalama de!erler verildi!inde, olas tüm da! l mlar aras ndan, verilen k s tlarla tutarl olacak
biçimde maksimum entropiye sahip olan da! l m n seçilmesi gerekti!ini öneren bir yakla md r.
Burada, verilen k s tlar n d nda bir bilgi kullanmamak amac yla maksimum belirsizli!e sahip olan
da! l m seçilmektedir.
MaxEnt yöntemi ile elde edilen da! l m, bilinen da! l mlardan hiçbirine uyum göstermeyen bir
rastlant de!i keni için uygun bir model olabilmektedir. Ayr ca, bilinen da! l mlara uyan bir rastlant
de!i keni için de, di!er da! l mlara benzer sonuçlar vermekte, uygun moment k s tlar n n seçilmesiyle
Normal da! l mla çak k sonuçlar vermektedir. Bu çal mada, üç ayr veri kümesi için MaxEnt
da! l m elde edilmi ve bulunan da! l mlar n veriye uyumu çe itli kriterler yard m yla gösterilmi tir.
2. Maksimum entropi ilkesi
X ; x1 , x 2 ,..., x n de!erlerini p1 , p 2 ,..., p n olas l klar ile alan bir rastlant de!i keni olsun. Bu
de!i kene ba!l olan g1 ( X ), g 2 ( X ),..., g m ( X ) fonksiyonlar n n beklenen de!erleri, µ1 , µ 2 ,..., µ m ile
gösterilirse,
261
n
"p g
i =1
i
r
( xi ) = µ r , r = 1,..., m
(3)
ifadesi yaz labilir. Ayr ca olas l k de!erleri aras nda,
n
"p
i =1
i
=1
(4)
ili kisi olmas gerekti!i de biliniyor. Verilen bu (3) ve (4) k s tlar ile tutarl olan sonsuz say da olas l k
da! l m vard r. MaxEnt yönteminde yap lmak istenen, bu da! l mlar aras ndan maksimum entropiye
sahip olan da! l m n seçilmesidir. Bu amaçla,
H ( p) =
n
"p
i =1
i
ln pi
(5)
eklinde tan mlanan entropi fonksiyonu maksimize edilerek uygun p i olas l k de!erleri elde edilir. Bu
yolla elde edilen da! l ma “MaxEnt da! l m ” denir.
3. Yöntemin analitik çözümü
Matematiksel olarak maksimum entropi ilkesinde yap lmak istenen (5) e itli!i ile verilen entropi
fonksiyonunu maksimize etmek oldu!undan, ko ullu ekstremum çözümüne göre verilmi (3) ve (4)
ko ullar D0 , D1 ,..., D m Lagrange çarpanlar ile çarp larak yard mc L fonksiyonu
LP
n
"p
i =1
i
ln pi
(D0 1)
n
"p
i =1
m
n
"D " p g
1
i
r =1
r
i =1
i
ri
µr
(6)
olarak elde edilir. Burada, D0 , D1 ,..., D m , (3) ve (4) e itlikleri ile verilen m + 1 k s ta ait m + 1 tane
Lagrange çarpan d r. lemde kolayl k olmas aç s ndan D0 yerine D0
1 de!eri kullan lm t r.
L yard mc fonksiyonunun p i ’lere göre k smi türevleri al n r ve s f ra e itlenirse (7) ile gösterilen
denklem sistemi elde edilir:
L
=0 >
pi
ln pi
D0
m
"D g
r =1
r
ri
= 0 , i = 1,2,..., n
(7)
Buradan
pi = exp( D0
D1 g1i
D2 g 2i L Dm g mi ) , i = 1,2,..., n
ifadesine ula l r. Böylelikle
(8)
p1 , p 2 ,..., p n de!i kenleri D0 , D1 ,..., D m cinsinden yaz lm
olur.
Bilinmeyen D0 , D1 ,..., D m de!erleri ise, (8) ifadesinin, (3) ve (4) k s tlar nda yerine konmas yla
bulunur. Böylelikle elde edilen denklemler,
262
n
" exp
i =1
D0
m
"D
i =1
j
g ji = 1
(9)
ve
n
" g ri exp
D0
i =1
m
"D
j =1
j
g ji = µ r ,
r = 1,2,..., m
(10)
eklindedir.
(9) ve (10)’da elde edilen e itlikler (11) ve (12)’de gösterildi!i gibi yaz labilir:
n
exp(D0 ) = " exp
i =1
m
"D
j =1
j
g ji
(11)
ve
n
µ r exp(D0 ) = " g ri exp
i =1
m
"D
j =1
j
g ji ,
r = 1,2,..., m
(12)
Böylelikle
n
µ r = " g ri exp
i =1
m
" D j g ji
j =1
n
" exp
i =1
m
"D
j =1
j
g ji ,
r = 1,2,..., m
(13)
ifadesine ula labilir. Burada (11) denklemi, D0 ’ , D1 , D 2 ,..., D m çarpanlar n n bir fonksiyonu olarak
ifade ederken, en son elde edilen (13) denklemi, µ1 , µ 2 ,..., µ m de!erlerinin D1 , D 2 ,..., D m cinsinden
ifadesini verir. D0 , D1 ,..., D m Lagrange çarpanlar n elde ettikten sonra (8) e itli!i sayesinde p i
olas l k de!erlerine ula labilir. Burada, Matlab’ta yaz lm bir program yard m yla çarpanlar,
dolay s yla MaxEnt da! l m elde edilebilir.
4. Uygulama
Bu bölümde MaxEnt yöntemi kullan larak üç ayr uygulama yap lm t r. Her bir veri kümesi Türkiye
statistik Kurumu’ndan elde edilmi tir. Üç veri kümesi için de MaxEnt da! l mlar elde edilmi ve bu
da! l m n veriye olan uyumu baz kriterler yard m yla incelenmi tir.
lk veri kümesi, 2000-2006 y llar aras n kapsayan dönemde, 3 y l ve daha fazla süredir i arayan i siz
say s n içermektedir. Belirtilen say lar bin ki iyi göstermekte olup, 15 ya ve üstünü kapsamaktad r.
lk olarak, bir paket program yard m yla veri kümesinin bilinen herhangi bir da! l ma uyum gösterip
göstermedi!i ara t r lm ve bilinen da! l mlardan uniform, geometrik ve negatif binom da! l m na
uydu!u görülmü tür. 3 y l ve daha fazla süredir i arayan ki i say na ait MaxEnt da! l m , moment
k s tlar n n g1 ( x) = x ve g 2 ( x) = x 2 olarak seçilmesiyle elde edilmi tir. Bulunan MaxEnt
da! l m n n veriye uyumu Q 2 Ki-Kare, R 2 korelasyon katsay s ve K-L Kullback-Leibler ölçütü
kullan larak gösterilmi tir. Bu de!i ken için elde edilen da! l m ve uygunlu!u a a! daki Çizelge.1’de
gösterilmi tir:
263
Çizelge 1. 3 y l ve daha fazla süredir i arayan ki i say s için gerçek olas l klar ve MaxEnt olas l klar
Y llar
2000
2001
2002
2003
2004
2005
2006
Q2:
K-L :
2
R :
3 y l ve daha fazla
süredir i! arayan Gerçek
MaxEnt
ki!i say s
olas l klar olas l klar
(Bin ki!i, 15+ ya!)
44
54
94
104
220
259
206
0.0449
0.0550
0.0958
0.1060
0.2243
0.2640
0.2100
0.0492
0.0562
0.0905
0.1006
0.2298
0.2575
0.2162
1.460623582
0.000740164
0.996
Çizelge 1.’den, 3 y l ve daha fazla süredir i arayan ki i say s na göre belirlenen MaxEnt da! l m n n
2
veriyi modellemede Q 2 , Kullback-Leibler ölçütü ve R kriterleri aç s ndan çok iyi sonuçlar verdi!i
görülmektedir. Bu kriterlerin yan nda MaxEnt da! l m n n veriye uyumu görsel olarak a a! daki grafik
yard m yla da görülmektedir:
MAXENT DAGILIMI
300
MaxEnt deðerleri
Gerçek deðerler
Is arayan kisi sayisi (Bin kisi)
250
200
150
100
50
0
2000
2001
2002
2003
Yillar
2004
2005
2006
Bekil 1. 3 y l ve daha fazla süredir i arayan ki i say s n n MaxEnt da! l m na uyumu
264
Grafik incelendi!inde, bulunan Maxent da! l m n n i arayan ki i say s na yüksek oranda uyum
gösterdi!i görülmektedir. Dolay s yla, hem birtak m istatistiksel kriterler yard m yla hem de görsel
olarak de!erlendirildi!inde, maksimum entropi yöntemi ile bulunan MaxEnt da! l m n n, 3 y l ve daha
fazla süredir i arayan ki i say s için uyumlu sonuçlar verdi!i söylenebilmektedir.
Bir di!er veri kümesi ise, 1998-2007 y llar n kapsayan dönemde, 15-24 ya aral ! nda görülen
intiharlard r. Bir önceki uygulamaya benzer olarak yine ilk ad mda bir paket program yard m yla veri
kümesinin bilinen herhangi bir da! l ma uyum gösterip göstermedi!i ara t r lm ve bilinen
da! l mlardan yaln zca negatif binom da! l m na uyum gösterdi!i görülmü tür. Burada intihar
say lar na ait MaxEnt da! l m , moment k s tlar n n g1 ( x) = x , g 2 ( x) = x 2 ve g 3 ( x) = x 3 olarak
seçilmesiyle elde edilmi tir. Bulunan MaxEnt da! l m n n veriye uyumu Q 2 Ki-Kare, R 2 korelasyon
katsay s ve K-L Kullback-Leibler ölçütü kullan larak gösterilmi tir. Bu de!i ken için elde edilen
da! l m ve uygunlu!u a a! daki Çizelge.2’de gösterilmi tir:
Çizelge 2. Y llara göre 15-24 ya aral ! nda görülen intihar say s için gerçek olas l klar ve MaxEnt
olas l klar
Y llar
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
Q2:
K-L :
2
R :
15-24 ya!
aras nda
görülen
intiharlar
661
604
621
841
746
922
850
759
778
690
Gerçek
MaxEnt
olas l klar olas l klar
0.0885
0.0808
0.0831
0.1126
0.0998
0.1234
0.1138
0.1016
0.1041
0.0923
0.0893
0.0798
0.0829
0.1114
0.1003
0.1245
0.1126
0.1018
0.104
0.0934
0.524036
0.000036
0.996
Çizelge 2.’den, 15-24 ya aral ! nda görülen intihar say s na göre belirlenen MaxEnt da! l m n n
2
veriyi modellemede Q 2 , Kullback-Leibler ölçütü ve R kriterleri aç s ndan çok iyi sonuçlar verdi!i
görülmektedir. Bu kriterlerin yan nda MaxEnt da! l m n n veriye uyumu görsel olarak rekil. 2’de
görülmektedir:
265
MAXENT DAGILIMI
1000
MaxEnt deðerleri
Gerçek deðerler
900
800
Intiharlar
700
600
500
400
300
200
100
0
1998
1999
2000
2001
2002
2003
Yillar
2004
2005
2006
2007
Bekil 2. 15-24 ya aral ! nda görülen intihar say s n n MaxEnt da! l m na uyumu
Grafik incelendi!inde, bulunan Maxent da! l m n n intihar say lar na yüksek oranda uyum gösterdi!i
görülmektedir. Dolay s yla, hem çe itli istatistiksel kriterler yard m yla hem de görsel olarak
yorumland ! nda, maksimum entropi yöntemi ile bulunan MaxEnt da! l m n n, 15-24 ya aral ! nda
görülen intihar say lar için uyumlu sonuçlar verdi!i söylenebilmektedir.
Son olarak, 2002-2006 y llar n kapsayan dönemdeki yoksul (G da yoksullu!u) fert say s ele al ns n.
Yoksul fert say s na ili kin MaxEnt da! l m , moment k s tlar n n g1 ( x) = x ve g 2 ( x) = ln( x)
olarak seçilmesiyle elde edilmi tir. Bulunan MaxEnt da! l m n n veriye uyumu önceki iki uygulamaya
benzer olarak, Q 2 Ki-Kare, R 2 korelasyon katsay s ve K-L Kullback-Leibler ölçütü kullan larak
gösterilmi tir. Bu de!i ken için elde edilen da! l m ve uygunlu!u a a! daki Çizelge.3’de
gösterilmi tir:
Çizelge 3. Y llara göre yoksul fert say s (G da yoksullu!u) için gerçek olas l klar ve MaxEnt
olas l klar
Y llar
2002
2003
2004
2005
2006
Q2:
K-L :
2
R :
Yoksul fert
MaxEnt
Gerçek
say s
olas l klar olas l klar
(Bin ki!i)
926
894
909
623
539
0.2380
0.2298
0.2336
0.1601
0.1385
0.099479029
0.000112917
1.000
266
0.2387
0.2293
0.2337
0.1587
0.1397
Çizelge 3.’ten, 2002-2006 y llar aras ndaki yoksul fert say s na göre belirlenen MaxEnt da! l m n n
2
veriyi modellemede Q 2 , Kullback-Leibler ölçütü ve R kriterleri aç s ndan çok iyi sonuçlar verdi!i
görülmektedir. Bu kriterlerin yan nda MaxEnt da! l m n n veriye uyumu görsel olarak rekil. 3’te
görülmektedir:
MAXENT DAGILIMI
1000
MaxEnt deðerleri
Gerçek deðerler
900
800
Yoksul fert sayisi
700
600
500
400
300
200
100
0
2002
2003
2004
Yillar
2005
2006
Bekil 3. Yoksul fert say s n n (G da yoksullu!u) MaxEnt da! l m na uyumu
Grafik incelendi!inde, bulunan Maxent da! l m n n yoksul fert say s na çok iyi bir uyum gösterdi!i
görülmektedir. Dolay s yla, hem çe itli istatistiksel kriterler yard m yla hem de görsel olarak
bak ld ! nda, maksimum entropi yöntemi ile bulunan MaxEnt da! l m n n, yoksul fert say s için de
uyumlu sonuçlar verdi!i söylenebilmektedir.
5. Sonuç
Bu çal mada, maksimum entropi ilkesi, analitik çözüm yakla m ve bu ilke yard m yla elde edilen
MaxEnt da! l m n n veriye uyumu incelenmi tir. Yöntem yard m yla üç farkl veri kümesi için
MaxEnt da! l m elde edilmi ve bulunan da! l m n veriye uyumu de!erlendirilmi tir. Hem birtak m
kriterler yard m yla hem de grafik ile görsel olarak incelendi!inde, Maxent da! l m n n veriye
uyumunun üç veri kümesi için de oldukça iyi oldu!u görülmü tür. Dolay s yla maksimum entropi
yönteminin veriyi modellemede etkili ve kullan l bir yöntem oldu!u söylenebilmektedir.
Kaynaklar
[1] A. M. Djafari, (1991), A Matlab Program to Calculate the Maximum Entropy Distributions, Maximum
Entropy and Bayesian Methods, s. 221-233, Kluwer Academic Publishers.
[2] A. ramilov, Y. M. Kantar, . Usta, Ç. Giriftino!lu, Verinin ki Modlu Olmas Durumunda MaxEnt
Da! l mlar n n Performans n n ncelenmesi, 5. statistik Kongresi ve Risk Ölçümleri ve Yükümlülük
Toplant s , s. 246, 20-24 May s, 2007.
267
[3]
[4]
[5]
[6]
[7]
A. ramilov, . Usta, Y. M. Kantar, Ç. Giriftino!lu, Minimum Çapraz Entropi Metodunun statistiksel
Bir Uygulamas , 5. statistik Kongresi ve Risk Ölçümleri ve Yükümlülük Toplant s , s. 144, 20-24
May s, 2007.
Ç. Giriftino!lu, (2005), Yüksek Lisans Tezi, Kesikli rassal de!i kenler için entropi optimizasyon
prensipleri ve uygulamalar , Anadolu Üniversitesi.
J. N. Kapur, H. N. Kesevan, (1992), Entropy Optimization Principles with Applications, Academic
Press.
M. D. Pandey, (2000), Direct estimation of quantile functions using the maximum entropy principle,
Structural Safety, 22, s. 61-79.
http://www.tuik.gov.tr
268
Kalite Kontrol Grafiklerine Bulan k Yakla m
Ay en Apayd n
Nilüfer Pekin Alakoç
Ankara Üniversitesi
Fen Fakültesi, statistik Bölümü
06100-TandoGan, Ankara, Türkiye
Ba#kent Üniversitesi
Mühendislik Fakültesi, Endüstri MühendisliGi Bölümü
06530-Etimesgut, Ankara, Türkiye
[email protected]
[email protected]
Özet
Kalite kontrol grafikleri bir sürecin de!i kenli!ini izlemek ve gerekirse süreci kontrol alt na almak için
kullan l r. Bu grafikler bulan k teori ile geli tirildi!inde gerçe!i daha iyi yans tan sonuçlar elde edilir.
Bunun nedeni bulan k say larla sürecin daha esnek tan mlanabilmesidir. Bu çal mada, bulan k kalite
kontrol grafiklerinin tarihsel geli imi anlat lmakt r. Niteliksel ve niceliksel veri grafikleri olarak
s n fland r lan klasik grafiklerin bulan k durumlar ayr ayr anlat lm ve çal ma bulan k kontrol
grafikleri yöntemleri ile s n rland r lm t r. Bulan k kalite kontrol grafiklerinin avantajlar iki uygulama
ile gösterilmi tir.
Anahtar sözcükler: Kalite kontrol grafikleri; Bulan:k mant:k.
Abstract
Fuzzy Approach of Quality Control Charts
Quality control charts are used to monitor variation of a process and control the process if required.
More realistic results are obtained when these charts are developped with fuzzy theory. This is due to the
fact that the process can be defined more flexible with fuzzy numbers. In this study literature review of
fuzzy control charts will be presented. The fuzzy States of the classical charts that are classified as
qualitative and quantitative data charts are reviewed seperately and the study is limited to fuzzy control
charts methods. The advantages of fuzzy quality control charts will be illustrated with two applications.
Keywords: Quality control charts; Fuzzy logic.
1. Giri!
Kalite kontrol grafikleri bir sürecin önceden belirlenen kalite standartlar na uygun olup olmad !
denetlemek için kullan lan istatistiksel araçlard r. Sürecin zamana göre de!i imini özetlemek için
geli tirilmi lerdir. Grafik üzerindeki de!erler sürecin zaman içinde ald ! de!erleri veya
istatistikleridir.
Temel olarak istatistik kullan larak olu turulmu alt s n r, üst s n r ve orta çizgiden olu urlar. Al nan
örne!e dayanarak hesaplanan bu de!erler rasgele de!i kenli!in alabilece!i en küçük ve en büyük
de!erleri vermektedir.
Kontrol grafi!inde alt ve üst s n rlar n d nda nokta olmas sürecin kontrol d nda oldu!unu gösterir.
Fakat grafikte alt ve üst s n rlar n d nda nokta olmamas üretimin kontrol alt nda oldu!unu söylemez.
De!erlerin kontrol s n rlar içinde olmas na ra!men sürekli azalmas ya da artmas görülebilir. K sacas
grafikte rasgele olmayan de!erlerin olmas kontrol d durum olarak tan mlan r.
269
Süreçteki bir sorunun mümkün oldu!unca erken görülmesi önemlidir. E!er kontrol d bir durum
görülürse nedenleri ara t r lmal ve süreci kontrol alt na almak için gerekli tedbirlerin ve önlemlerin
al narak sürecin tekrar istenilen kaliteye döndürülmesi gerekir.
Bu çal mada 1990’lardan günümüze kadar olan bulan k kalite kontrol grafiklerinin geli melerinin
özetlenmesi amaçlanm t r. Bundan sonraki bölümde bulan k kontrol grafiklerinin tan m na ve klasik
grafiklere göre kullan m avantajlar na de!inilmi tir. S ras yla niteliksel ve niceliksel veri kontrol
grafiklerine literatürdeki bulan k yakla mlar ele al nm t r. Üçüncü bölümde ise bulan k kalite kontrol
grafiklerinin klasik grafiklere göre kullan m avantajlar iki uygulama ile özetlenmi tir.
2. Bulan k kontrol grafikleri
Bir sürecin ortalamas ndaki küçük dalgalanmalar , kaymalar yakalamak süreci daha erken kontrol
alt na almak ve maliyet aç s ndan önemlidir. Bu nedenle bulan k kalite kontrol grafikleri
geli tirilmi tir.
Klasik grafikler kontrol içinde veya kontrol d nda eklinde sonuca var r. Fakat bulan k yakla m ile
çizilen grafikler bir çok ara karar da içerebilir. Bu da gerçe!e daha yak n ve daha esnek sonuçlara
var lmas na sebep olur.
Bulan k kontrol grafiklerinin kullan lmas n n ve geli tirilmesinin önemli bir nedeni geleneksel kontrol
grafiklerinin geçmi veriye dayanmas fakat bulan k kontrol grafikleri uzmanlar n tecrübelerine
dayanmas d r. Geçmi verilerin tutulmas na gerek yoktur ve hatta bu grafikler bulan k say lar
üretilerek çizildi!i için verilerin kesin olarak bilinmesine de gerek yoktur. Ayr ca klasik grafiklerde
alt ve üst s n r n de!eri örneklemdeki alt gruplar n eleman say s ndan etkilenmesine ra!men bulan k
grafiklerde bu görülmez.
Literatürde kontrol grafikleri ve bulan k mant k çok çal lm olsa da bulan k kalite kontrol grafikleri
1990’lardan sonra incelenmeye ba lanm t r.
2.1. Niteliksek veri kontrol grafikleri
Bulan k kalite kontrol grafikleri çal malar ilk olarak 1990’da T. Raz ve J.H. Wang’ n yapt klar iki
çal ma ile ba lar. Bu iki makalede de niteliksel veriler ile çal m lar ve p ve c grafiklerine
alternatifler üretmi lerdir. Kalite karakteristi!i uygun / uygun de!il olarak de!il ara seviyeleri de
belirterek incelemi lerdir. Olas l ksal yakla m ve üyelik yakla m olarak tan mlanan iki yöntem
geli tirmi lerdir.
Bu konuda yap lm daha sonraki ilk çal ma Kanagawa, F. Tamaki ve H. Ohta (1993)’ya aittir. J.H.
Wang ve T. Raz’ n çal malar temel al nm t r. Linguistik terimler bulan k say olarak ele al nm ve
bu terimler için olas l k yo!unluk fonksiyonlar tan mlanm t r. Zadeh’in olas l k fonksiyonu
kullan larak linguistik terimlerin ortaya ç kma olas l klar bulunmu tur. Grafi!in s n rlar , süreç
kontrol alt nda iken noktalar n s n rlar n d na ç kma olas l klar na göre belirlenmi tir. Sürecin
durumunu aç klamak için linguistik terimler kullan lm t r.
Yukar da içerikleri k saca anlat lan çal malar n varsay mlar n n gerçekçi olmad ! kullan lan üyelik
fonksiyonlar n n problemli oldu!unu A. Kanagawa, F. Tamaki ve H. Ohta (1993) taraf ndan ve daha
sonraki çal malarda vurgulanm t r. Bu nedenle süreci daha iyi yans tabilmek için yap lan ilk çal ma
H. Taleb ve M. Limam (2002) aittir. Bu makalede linguistik veri için farkl kontrol grafikleri üretme
prosedürleri anlat lm t r. Literatürdeki Raz ve Wang taraf ndan geli tirilen iki yöntem ve Marcucci
yöntemi bir örnek üzerinde kar la t r lm t r. ki sonuca var lm t r: linguistik say lar n üyelik
fonksiyonlar n n bulan kl ! kontrol grafiklerini kurmada önemli bir de!i kendir ve multinominal
süreçlerde bulan k kontrol grafikleri olas l k grafiklerinden daha iyi ve daha hassas sonuçlar
vermektedir.
270
M. Gülbay, C. Kahraman ve D. Ruan, 2004 y l na ait çal malar nda bulan k kontrol grafiklerine farkl
bir bak aç s ile yakla m lard r. Bu çal ma Shewhart’ n niteliksel kontrol grafiklerinden p ve c
grafikleri temel al narak geli tirilmi tir. Süreçteki hatal ya da uygun olmayan ürün say s ile
ilgilenildi!i ve verinin linguistik oldu!u varsay lm t r. Geli tirilen alfa kesme kontrol grafi!i
gözlemin s k l ! n kontrol etmektedir. Alfan n ald ! de!er artt kça sonucun s k l ! da artaca!
gösterilmi tir.
Chi-Bin Cheng (2005) kontrol grafiklerinde kullan lan verinin önemine de!inmi ve güvenilir olmas
gerekti!ini savunmu tur. Bunun için hem ölçümlere hem de uzmanlar n görü lerine dayanan bir
kontrol grafi!inin gerçe!e daha yak n sonuçlar verece!ini göstermi tir. lk olarak bir grup uzman
ürünlere puan vermi ve bu puanlar toplanarak bulan k say lar yaz lm t r. Olu turulan bu bulan k
say lar ve ölçümler aras nda sinir a!lar yla uygulanan bulan k regresyon analizi yap lm t r. Bulan k
kalite oranlar bulan k grafikler üzerinde gösterilmi ve bu sayede verilerin belirsizli!i kontrol
grafiklerinde da korunmu tur. Olas l k teorisi ile kontrol d durumlar n artlar belirlenmi tir. Sadece
kontrol içinde veya d nda olarak de!il bulan kl ! n ölçüsü de sonuç olarak verilmi tir.
Bulan k say lar gerçek say lara çevirmek için baz dönü üm yöntemleri kullan l r. Bu yöntemlerin
veri kayb na sebep olmas bulan k say lar veri olarak kullanan farkl yakla mlar n üretilmesine sebep
olmu tur. Bu amaçla yap lan ilk çal mada Chi-Bin Cheng (2005) gibi M. Gülbay ve C. Kahraman
(2006)’da kullan lan verinin kontrol grafi!i üzerindeki etkisinde durmu tur. M. Gülbay ve C.
Kahraman (2006), bulan k dönü üm tekniklerine do!rudan bulan k yakla m (DBY) olarak
adland r lan farkl bir yöntem geli tirmi tir. Bulan k c grafi!ine bir alternatif olarak üretilmi tir. Ayn
ekil üzerinde bulan k s n rlar, örneklem ve alfa kesmesi çizilmi ve sonuca örneklemin alt s n r ve üst
s n r aras nda kalan alan na dayan larak var lm t r. Önceden belirlenen kabul edilebilirlik yüzdesi
sonucun hangi kategoride olaca! n belirtmi tir.
M. Gülbay ve C. Kahraman’in 2006 y l nda geli tirdikleri dönü üm tekniklerine do!rudan bulan k
yakla m yöntemine bu çal mada do!al olmayan örüntülerin analizlerini inceleyerek yakla lm t r.
Alt ve üst kontrol s n rlar n n d nda bir nokta olmamas sürecin kontrol d nda olmad ! n
göstermez. Bunu incelemek için literatürde baz kontrol d durumlar n kurallar tan mlanm t r. Bu
makalede önemli kurallar bulan kla t r larak bulan k grafiklerin kontrol d durumlar tan mlanm t r.
Literatürde bu kurallar ilk defa bu çal ma ile incelenmi tir.
V. Amirzadeh, M. Mashinchi ve A. Parchami (2009) çal malar nda ortalama uygunsuzluk derecesine
dayanan bir bulan k p grafi!i geli tirilmi tir. Bu grafik daha önce literatürde görülen grafiklerden
tamamen farkl bir yakla m ile olu turulmu tur. Bu fark klasik p grafi!ine alternatif olarak geli tirilen
grafi!in Shewhart’ n X S grafi!ine benzemesidir. Veri uygun ya da uygun de!il olarak
s n fland r lmam , yamuksal üyelik fonksiyonlarla uygunsuzlu!un ya da uygunlu!un dereceleri
belirlenmi tir. Normal da! ld ! varsay lan verinin üyelik fonksiyonun beklenen de!er ve varyans na
dayanan kontrol grafi!in alt s n r, üst s n r ve orta çizgisi bulunmu tur. Bulan k grafik ile X S grafi!i
benzer ekiller vererek kontrol d durumlar vermesine ra!men p grafi!i sürecin kontrol alt nda
oldu!unu vermi tir. Geli tirilen grafi!in ortalaman n ve varyans n de!i imlerine daha iyi yan t verdi!i
görülmü tür.
2.2. Niceliksel veri kontrol grafikleri
Literatürde bulan k kontrol grafikleri çal l rken genellikle niteliksel veriler tercih edilmi tir. Bunun
çe itli sebepleri vard r. En önemlisi linguistik ya da niteliksel verilerin bulan k say larla daha kolay
ifade edilebilmesidir. Niceliksel veri için geli tirilmi kontrol grafiklerinden ilki A. Faraz ve M.B.
Moghadam’n n (2007) çal mas d r. Bu çal mada Shewhart’ n X kontrol grafi!ine daha iyi bir
alternatif geli tirilmi tir. Kalite karakteristi!i linguistik olarak tan mland ! için sapma ve genel kalite
seviyesi de bir bulan k terimler kümesi ile aç klanm t r. Klasik sürekli verinin süreç ortalamas grafi!i
yerine çizilen bu grafi!in en önemli özelli!i üst s n r n yan nda bir uyar çizgisi olmas d r. Bu uyar
çizgisine göre geli tirilen kurallar ile süreç hakk nda daha detayl bilgi verilmi tir. Ayr ca kurallar n
271
sonucunda yanl karar verme olas l klar n veren yanl alarm oran da hesaplanm t r. Verinin alt
gruplar n n yay kl ! n n kontrol grafi!inde Pearson uyum iyili!i istatisti!i kullan lm t r. Yeni yöntem
klasik X grafi!ine göre daha iyi bir görsel grafiktir ve ortalamadaki kaymalar daha belirgin olarak
belirtmektedir.
Bulan k X R ve X S grafiklerinin geli tirildi!i di!er bir çal mada S. rentürk ve N. Erginel
(2008) taraf ndan yap lm t r. Klasik X R ve X S kontrol grafikleri alfa-seviye bulan k midranges
dönü üm tekni!i kullan larak bulan k kalite kontrol grafiklerine dönü türülmü tür. X R ve X S
grafiklerininin bulan k alt s n r , üst s n r ve orta çizgisi hesaplanm t r. Bunu yaparken üçgensel
bulan k say lar kullan ld ! için bulunan de!erler de üçgensel bulan k say lard r. Benzer ekilde alfa
~
~
kesme yöntemiyle X R~ ve X S~ grafikleri geli tirilmi tir. Son olarak alfa seviye bulan k midranges
~
~
~
dönü üm tekni!i ile X R~ ve X S~ grafikleri aç klanm t r. Ayr ca X R~ kontrol grafi!inin
hesaplanmas bir uygulama ile gösterilmi tir. Bu uygulamada bulan k grafiklerin geleneksel
grafiklerden daha iyi sonuçlar verdi!i kan tlanm t r.
3. Uygulamalar
Bu bölümde bulan k kalite kontrol grafikleri iki uygulama ile incelenmi tir. Literatürdeki iki önemli
çal man n uygulamas yap larak bulan k kalite kontrol grafiklerinin kullan m avantajlar ,
uygulanabilirlikleri ve yöntemler aras ndaki farklar gösterilmeye çal lm t r. Niteliksel ve niceliksel
verilerin çal ld ! iki yöntem seçilmi tir. Bunlar s ras yla niteliksel veri için dönü üm tekniklerine
do!rudan bulan k yakla m yöntemi (M. Gülbay ve C. Kahraman (2006)) ve niceliksel veri için
bulan k X R ve X S grafikleri yöntemidir (S. rentürk ve N. Erginel (2008) ). Bu yöntemler
uygulamalar yap larak incelenmi tir.
Bu bölümde genel sonuçlar ç karabilmek ve yöntemler hakk nda sa!l kl yorumlar yapabilmek için
birden çok veri seti üzerinde çal lm t r. Bulan k say lar n simetrisi ve yay kl ! de!i tirilerek veri
setleri elde edilmi ve farkl yöntemlerin bu veri setleri üzerindeki sonuçlar incelenmi tir.
3.1 Niteliksel veri için geli#tirilmi# yöntem uygulamas:
Niteliksel veri için geli tirilmi bulan k kalite kontrol grafiklerinden en önemlilerinden biri M. Gülbay
ve C. Kahraman’a aittir (2006). Bu çal mada geli tirilen ve klasik c grafi!ine alternatif olan do!rudan
bulan k yakla m (DBY) yöntemi dönü üm kullan larak olu turulan tepe de!eri, midrange ve ortanca
bulan k grafikleri ile kar la t r lm t r. Bu uygulamada 40 birimlik yamuksal veri seti ile çal lm t r.
Yöntemler C++ programlama dilinde yaz lm t r ve farkl veri setleri için yöntemlerin sonuçlar
kar la t r lm t r. Tepe de!eri, midrange ve ortanca dönü üm tekniklerinin yan nda, “a! rl k merkezi”
dönü üm yöntemi (AMD) de geli tirilerek (DBY) ile kar la t r lm t r.
Literatürde en çok kullan lan bulan k dönü üm tekniklerinden biri AMD yöntemidir. Beklenen de!er
hesaplar n temel al narak bulunur ve
x* =
. xµ (x )dx ,
. µ (x )dx
X
(1)
X
biçiminde tan mlan r.
X bulan k say lar n tan ml oldu!u küme ve µ ( x ) üyelik fonksiyonudur.
Bu çal mas nda alfa kesme kullan larak her bir yamuksal bulan k say AMD yöntemi ile tek bir
say ya dönü türülmü tür.
272
x =
*
i
di
2
+ ci2 + ci d i
3 ci + d i
ai
ai
(
2
bi2 + bi ai
bi
i = 1,2,...,40.
)
(2)
Formülüyle her bir bulan k say n n AMD yönteminden elde edilen de!eri bulunmu tur.
2
2
CL4 + CL23 + CL3CL4 CL1
=
3 CL3 + CL4 CL1
CL AMD
CL22 + CL2 CL1
CL2
(
UCL AMD = CL AMD
(3)
)
3 CL AMD
(4)
LCL AMD = CL AMD + 3 CL AMD
(5)
Kontrol alt nda, LCL AMD ! x *i ! UCL AMD
Süreç=
(6)
Kontrol d nda, d.d.
E itlikleriyle kontrol s n rlar hesaplanm ve karar artlar belirlenmi tir.
Yap lan denemelerde yöntemlerin farkl veri setlerinde farkl sonuçlar verebildi!i görülmü tür.
Öncelikle simetrisi dü ük ve yay kl ! büyük bir veri seti ile çal lm ve bulan k say lar be yöntem
ile incelenmi tir. Yöntemler ayn sonucu vererek sürecin kontrol alt nda olu!unu göstermi tir. Bu
veri setinde bulan k say lar n birbirlerine yak n ve benzer olmas yöntemlerin farklar n ortadan
kalkmas na neden olmu tur. Çizelge 1’de verilen bulan k say lar simetrisi dü ük, yay kl ! büyük bir
veri setine aittir.
Çizelge 1. Yamuksal bulan k say lar
No:
a
b
c
d
No:
a
b
c
d
No:
a
b
c
d
No:
a
b
c
d
1
11
12
31
35
11
31
39
55
56
21
15
18
19
21
31
11
2
22
23
33
47
12
12
13
24
25
22
2
3
4
7
32
2
22
45
56
23
36
47
3
0
1
12
13
13
12
13
23
64
23
66
87
118
149
33
2
4
0
1
2
5
14
8
14
25
29
24
20
31
44
55
34
3
13
25
36
14
24
35
5
0
20
23
34
15
0
31
33
44
25
0
1
2
4
35
2
13
34
44
6
1
22
33
53
16
2
23
61
77
26
51
62
70
80
36
2
13
24
29
7
20
21
36
49
17
1
22
39
44
27
74
78
80
98
37
1
2
3
3
8
20
21
24
26
18
0
41
72
93
28
0
1
1
2
38
0
11
11
23
9
10
12
22
32
19
0
11
25
46
29
1
2
3
3
39
50
68
81
123
10
8
10
21
31
20
2
13
24
25
30
27
38
49
55
40
12
81
91
104
Çizelge 1’deki veri setinde bulan k say lar n aral ! ve yay kl ! geni tir. Veri setinin sonuçlar Çizelge
2’de özetlenmi tir.
273
Çizelge 2. Yamuksal bulan k say lar üzerine incelenen be yöntemin sonuçlar
No:
1
Tepe de<eri Midrange Ortanca
ka
ka
ka
DBY
AMD
No:
ka
ka
21
Tepe de<eri Midrange Ortanca
ka
ka
DBY
AMD
ka
ka
ka
2
ka
ka
ka
ka
ka
22
kd
kd
kd
kkd
kd
3
kkd
kd
kd
kka
kd
23
kd
kd
kd
kd
kd
4
kd
kd
kd
kka
kd
24
ka
ka
ka
ka
ka
5
ka
ka
ka
ka
ka
25
kd
kd
kd
kkd
kd
6
ka
ka
ka
ka
ka
26
kd
kd
kd
kkd
Kd
7
ka
ka
ka
ka
ka
27
kd
kd
kd
kd
Kd
8
ka
ka
ka
ka
ka
28
kd
kd
kd
kkd
Kd
9
ka
ka
ka
ka
ka
29
kd
kd
kd
kkd
kd
10
ka
ka
kd
ka
kd
30
ka
ka
ka
ka
ka
11
ka
kd
kd
kka
kd
31
ka
ka
ka
ka
ka
12
ka
ka
ka
ka
ka
32
ka
ka
ka
ka
ka
13
ka
ka
ka
ka
ka
33
ka
ka
ka
ka
ka
14
ka
ka
ka
ka
ka
34
ka
ka
ka
ka
ka
15
ka
ka
ka
ka
ka
35
ka
ka
ka
ka
ka
16
ka
ka
ka
ka
ka
36
ka
ka
ka
ka
ka
17
ka
ka
ka
ka
ka
37
kd
kd
kd
kkd
kd
18
kkd
kd
kd
kkd
kd
38
ka
kd
kd
ka
kd
19
ka
ka
ka
ka
ka
39
kd
kd
kd
kkd
kd
20
ka
ka
ka
ka
ka
40
kd
kd
kd
kkd
kd
ka : kontrol alt nda
kka : k smen kontrol alt nda
kkd : k smen kontrol d nda
kd : kontrol d nda
Yöntemlerin hesaplamalar ndaki farklara dayal olarak bulan k say lardaki de!i kenlik artt kça
yöntemlerin süreç hakk ndaki sonuçlar da de!i mektedir. Örne!in Çizelge 2’de 11 numaral bulan k
say n n tepe de!eri dönü ümü kullan ld ! nda kontrol içinde, DBY ile k smen kontrol içinde ve
midrange, ortanca ve AMD dönü üm tekni!i kullan ld ! nda kontrol d
oldu!u sonucuna
var lmaktad r.
Bu uygulama çal mas nda yap lan denemeler ile u sonuçlara var lm t r: Tepe de!eri, midrange ve
ortanca dönü üm teknikleri di!er yöntemlere göre k smen daha yak n sonuçlar vermektedir. DBY
yöntemi herhangi bir dönü üm tekni!i kullanmadan süreci tan mlad ! için daha gerçekçidir. AMD
yöntemi ise tepe de!eri, midrange ve ortanca ile DBY aras nda sonuçlar vermektedir. Ayr ca, AMD
ve DBY yöntemleri daha güvenilir sonuçlar vermelerine kar n hesaplanmalar daha zordur. Bu
uygulamada veri setleri do!rusal üyelik fonksiyonlar olan yamuksal bulan k say lar ile k s tlanm t r.
Bulan k say lar n do!rusal olmayan üyelik fonksiyonlar oldu!unda bu yöntemleri kullanmak daha da
zor olacakt r. Bu durumda veri kayb n n olmas göz önüne al narak AMD yöntemi ile daha kolay
süreci tan mlamak mümkün olacakt r.
3.2 Niceliksel veri için geli#tirilmi# yöntem uygulamas:
Niceliksel veri için geli tirilmi bulan k kalite kontrol grafiklerinin uygulamas nda örneklem
büyüklü!ü 4 olan 20 örnek ile çal ld (4x20=80). Üçgensel bulan k say elde edebilmek için
öncelikle normal da! lan veriler temel al nd . Bunlara dayanarak bulan k say lar n alt ve üst s n rlar
hesapland . Farkl veriler için bulan k X R ve X S grafikleri çizildi ve bulan k kontrol grafikleri
klasik grafikler ile kar la t r ld .
Çizelge 3’de 20 günlük 80 gözlemi içeren üçgensel bulan k say lar verilmi tir.
274
Çizelge 3. X R ve X S grafikleri için 20 günlük üretilmi üçgensel bulan k say lar
No
a
b
c
No
a
b
c
No
A
b
c
No
a
b
c
1
502,0
506,7
511,3
21
515,7
520,4
525,0
41
529,9
534,5
539,2
61
479,8
484,4
489,1
2
480,9
485,5
490,2
22
513,1
517,8
522,4
42
474,8
479,5
484,1
62
517,6
522,3
527,0
3
515,1
519,8
524,4
23
502,4
507,1
511,8
43
534,1
538,8
543,5
63
520,7
525,3
530,0
4
511,6
516,2
520,9
24
474,5
479,2
483,8
44
513,8
518,5
523,2
64
537,8
542,5
547,1
5
489,6
494,3
499,0
25
544,8
549,5
554,1
45
478,6
483,2
487,9
65
479,7
484,4
489,0
6
524,8
529,5
534,2
26
515,6
520,3
524,9
46
475,0
479,7
484,3
66
458,2
462,8
467,5
7
477,9
482,6
487,2
27
499,3
504,0
508,7
47
481,6
486,2
490,9
67
473,2
477,8
482,5
8
524,7
529,4
534,0
28
474,0
478,7
483,3
48
463,1
467,8
472,4
68
495,4
500,1
504,7
9
497,0
501,7
506,3
29
482,2
486,9
491,6
49
502,0
506,7
511,3
69
523,9
528,5
533,2
10
480,6
485,3
489,9
30
492,3
496,9
501,6
50
489,3
494,0
498,6
70
499,5
504,1
508,8
11
461,2
465,8
470,5
31
509,0
513,6
518,3
51
501,2
505,9
510,5
71
521,7
526,4
531,0
12
495,0
499,7
504,4
32
507,3
512,0
516,6
52
507,9
512,6
517,2
72
548,3
553,0
557,7
13
490,3
494,9
499,6
33
479,9
484,6
489,3
53
493,4
498,1
502,7
73
486,0
490,6
495,3
14
499,4
504,0
508,7
34
499,2
503,9
508,5
54
481,0
485,6
490,3
74
474,7
479,4
484,0
15
484,0
488,7
493,3
35
489,2
493,9
498,5
55
550,7
555,3
560,0
75
501,1
505,8
510,5
16
538,1
542,7
547,4
36
498,1
502,8
507,5
56
516,7
521,4
526,1
76
519,8
524,5
529,1
17
504,8
509,5
514,1
37
517,4
522,0
526,7
57
500,4
505,1
509,8
77
517,7
522,3
527,0
18
524,1
528,8
533,4
38
489,7
494,4
499,0
58
490,1
494,8
499,4
78
477,5
482,1
486,8
19
486,5
491,1
495,8
39
505,6
510,3
515,0
59
506,9
511,6
516,2
79
535,9
540,6
545,3
20
482,2
486,8
491,5
40
501,1
505,8
510,5
60
485,8
490,4
495,1
80
513,3
517,9
522,6
Çizelge 3’deki verinin bulan k X R grafikleri için alt s n r ve üst s n r de!erleri hesaplanm t r.
Çizelge 4 bu s n rlar , sürecin kontrol alt nda olup olmad ! belirlemek için bulunmu istatistikleri ve
her günün karar n göstermektedir. (Alfa de!eri 0,6 olarak kabul edildi).
Çizelge 4. Bulan k X - R grafi!inin s n rlar (20 günlük)
AKL
474,38
Bulan k X grafi!i
OÇ
ÜKL
505,14
535,90
Bulan k
AKL
0,00
R grafi!i
OÇ
42,19
ÜKL
96,28
Çizelge 5. Bulan k X -R grafi!i sonuçlar (20 günlük)
Gün
1
2
3
4
5
6
7
8
9
10
S (X)
507,06
508,94
488,12
507,60
504,04
506,10
513,09
502,35
496,28
508,12
S(R)
Gün
34,24
46,91
35,84
54,09
41,95
41,19
70,82
26,71
19,25
27,66
11
12
13
14
15
16
17
18
19
20
S (X)
517,83
479,22
504,77
515,11
500,47
518,63
481,28
528,00
500,07
515,75
S (R)
59,35
18,46
28,80
69,71
21,14
58,07
37,25
48,87
45,06
58,45
Bulan k X R grafiklerine göre süreç kontrol alt ndad r. Bu uygulaman n ikinci k sm nda yeni
veriler ile sürecin durumu tan mlanm t r. 20 örneklem kullan larak alt s n r ve üst s n r hesaplanm
ve sürecin kontrol alt nda oldu!u durum baz al narak hesaplanan s n rlar yeni üçgensel say lar n
275
yorumlanmas nda kullan lm t r. Bunun için yeni 10 örnek (4x10=40) üzerinde çal lm t r. Çizelge 6
yeni üçgensel bulan k say lar göstermektedir.
Çizelge 6. 10 günlük üretilmi üçgensel bulan k say lar
No
A
b
C
No
a
b
C
No
a
b
C
No
a
b
c
1
502,9
517,4
468,3
494,6
423,3
482,2
476,9
483,0
509,2
479,9
510,4
524,9
475,9
502,1
430,8
489,7
484,4
490,5
516,7
487,5
517,9
532,4
483,4
509,6
438,3
497,2
491,9
498,0
524,2
495,0
11
509,1
478,1
497,7
484,3
452,9
494,0
531,0
513,1
551,6
536,8
516,6
485,6
505,2
491,8
460,4
501,5
538,5
520,6
559,1
544,3
524,1
493,1
512,7
499,3
467,9
509,0
546,0
528,1
566,6
551,8
21
492,8
503,2
528,4
498,5
506,9
492,0
477,8
487,7
481,0
494,9
500,3
510,7
535,9
506,0
514,4
499,5
485,3
495,2
488,5
502,4
507,8
518,2
543,4
513,5
521,9
507,0
492,8
502,7
496,0
509,9
31
474,6
464,6
491,6
509,8
486,2
466,3
508,5
468,9
497,8
491,9
482,1
472,1
499,1
517,3
493,7
473,8
516,0
476,4
505,3
499,4
489,6
479,6
506,6
524,8
501,2
481,3
523,5
483,9
512,8
506,9
2
3
4
5
6
7
8
9
10
12
13
14
15
16
17
18
19
20
22
23
24
25
26
27
28
29
30
32
33
34
35
36
37
38
39
40
Çizelge 7. Bulan k X -R grafi!i sonuçlar (10 günlük)
Gün
S (X)
1
503,29
2
473,86
3
501,58
4
489,72
5
540,65
S (R)
Karar
Kontrol
alt nda
49,034
Kontrol
d nda
Kontrol
alt nda
Kontrol
alt nda
Karar
Kontrol
alt nda
Kontrol
alt nda
Kontrol
alt nda
Kontrol
alt nda
Kontrol
alt nda
66,577
39,1406
38,8314
Kontrol
d nda
33,757
Gün
S (X)
6
513,22
7
498,63
8
486,27
9
496,00
10
499,27
Karar
Kontrol
alt nda
Kontrol
alt nda
Kontrol
alt nda
Kontrol
alt nda
Kontrol
alt nda
S (R)
34,9984
29,7384
30,1208
41,049
39,568
Karar
Kontrol
alt nda
Kontrol
alt nda
Kontrol
alt nda
Kontrol
alt nda
Kontrol
alt nda
Sample Mean
Xbar/R Grafigi
550
540
530
520
510
500
490
480
470
Subgroup
1
UCL=533,5
Mean=503,5
LCL=473,5
0
10
20
30
Sample Range
100
UCL=93,91
50
R=41,16
LCL=0
0
Bekil 1: Klasik X R grafikleri
Kar la t rma yapabilmek için ayn verinin klasik grafi!i de çizilmi tir. ki yöntem de tek bir gün
d nda ayn sonuçlar vermi tir. Yirmikinici güne ait veri klasik grafi!e göre kontrol içi fakat bulan k
grafikte kontrol d olarak gösterilmi tir. Bunun nedeni s n rlara yak n de!erlere bulan k grafi!in daha
hassas yakla mas d r. Sonuç olarak çe itli veri setlerinin incelendi!i bu uygulamada s n rlara yak n
276
de!erleri klasik grafikler genel olarak kontrol içi olarak tan mlarken geli tirilen bulan k yöntemin
kontrol d olarak tan mlad ! görülmü tür.
4. Sonuç
Bu çal mada bulan k kontrol grafiklerinin tarihsel geli imi incelenmi ve çe itli bulan k grafik
çal malar na detaylar yla de!inilmi tir. Bulan k mant ! n kalite kontrol grafiklerine uygulanmas n n
sebebi süreci daha iyi yans tan kontrol grafiklerinin geli tirilmek istenmesidir. Bu sayede gerçe!e daha
yak n sonuçlar elde edilmi olunur. Bulan k grafikler, klasik kontrol grafiklerinde oldu!u gibi sadece
“süreç kontrol alt ndad r” ya da “süreç kontrol alt nda de!ildir” sonucunu de!il ayn zamanda
bulan kl ! n derecesini ve ya ara seviyeleri de söyleyebilir. Bu sayede sürecin durumu hakk nda daha
çok ve esnek bilgi verilmi olunur. Klasik grafikler sadece geçmi veriye dayanmakta iken
geli tirilmi olan bir çok bulan k grafik ise uzmanlar n bilgilerine dayan r. Süreci en do!ru ekilde
gösteren bilgilere dayanan ve bilgi kayb olmaks z n hesaplanm grafikler gerçe!e en yak n sonuçlar
verir. Çal mada ayr ca bulan k grafikler iki uygulama ile irdelenmi tir.
Kaynaklar
[1] Y. K. Chen, H.C. Liao, (2004), Multi-criteria design of an _X control chart, Computers & Industrial
Engineering, 46 (4), 877 - 891.
[2] V. Amirzadeh, M. Mashinchi, A. Parchami, (2009), Construction of p-charts using degree of
nonconformity, Information Sciences, 179 (1-2), 1501 - 60.
[3] A. Faraz, M. B. Moghadam, (2007), Fuzzy Control Chart A Better Alternative for Shewhart Average
Chart, Quality and Quantity, 41, 3 (11), 375 - 385.
[4] C. B. Cheng, (2005), Fuzzy process control: construction of control charts with fuzzy numbers, Fuzzy
Sets and Systems, 154, 2, 287 - 303.
[5] A. J. Duncan, (1956), The economic design of x charts used to maintain current control of a process,
Journal of the American Statistical Association, 51 (274), 228 - 242.
[6] M. Gülbay, C. Kahraman, D. Ruan, (2004), a-Cuts fuzzy control charts for linguistic data, International
Journal of Intelligent Systems, 19, 1173 - 1196.
[7] M. Gülbay, C. Kahraman, (2006), Development of fuzzy process control charts and fuzzy unnatural
pattern analyses, Computational Statistics and Data Analysis, 51, 434 - 451.
[8] M. Gülbay, C. Kahraman, (2006), An alternative approach to fuzzy control charts: direct fuzzy
approach, Information Sciences, 77 (6), 1463 - 1480.
[9] T. Raz, J. H. Wang, (1990), Probabilistic and memberships approaches in the construction of control
charts for linguistic data, Production Planning and Control, 1, 147 - 157.
[10] S. Senturk, N. Erginel, (2008), Development of fuzzy X _ R and X _ S control charts using a-cuts,
Information Sciences, doi:10.1016/j.ins.2008.09.022.
[11] J. H. Wang, T. Raz, (1990), On the construction of control charts using linguistic variables, Intelligent
Journal of Production Research, 28, 477 - 487.
[12] O. Hryniewicz, (2007), Statistics with fuzzy data in statistical quality control, Soft Computing - A
Fusion of Foundations, Methodologies and Applications, 12 , 3, 229 - 234.
[13] A. Kanagawa, F. Tamaki, H. Ohta, (1993), Control charts for process average and variability based on
linguistic data, Intelligent Journal of Production Research, 31 (4), 913 - 922.
[14] H. Taleb, M. Limam, (2002), On fuzzy and probabilistic control charts, International Journal of
Production Research, 40, 12 (15), 2849 - 2863.
[15] D. C. Montgomery, (1996), Introduction to Statistical Quality Control, John Wiley & Sons, Inc., USA.
277
Hayat Sigortas Birketleri çin Güvenilir Ölüm Verileri
Elde Etmeye Yönelik Alternatif Bir Uygulama
Erdem K rkbe o!lu
Serpil Cula
Sigortac:l:k ve Risk Yönetimi Bölümü
Ba#kent Üniversitesi
Ticari Bilimler Fakültesi
Eski#ehir Yolu 20.KM BaGl:ca/Etimesgut Ankara
[email protected]
Sigortac:l:k ve Risk Yönetimi Bölümü
Ba#kent Üniversitesi
Ticari Bilimler Fakültesi
Eski#ehir Yolu 20.KM BaGl:ca/Etimesgut Ankara
scula@ baskent.edu.tr
Özet
Bu çal man n temel amac Türkiye’de hayat sigorta sektöründe kullan lmak üzere güvenilir ölüm
verileri elde edilebilece!ini göstermektir. Türkiye’de sigorta sektöründe kullan lmakta olan yabanc
ülkelere ait ölüm verilerinin sigortal lar veya sigortac lar aç s ndan ne denli bir maddi kayba yol açaca!
önemlidir. Bu noktadan hareketle çal mada dolayl bir yöntemden (yetimlik yöntemi) elde edilmi ölüm
say lar çekirdek kestirim de!erleriyle yeniden düzenlenmi ve CSO 1980 mortalite tablosuyla prim
kar la t rmas yap lm t r.
Anahtar sözcükler: Hayat sigortas:; mortalite tablosu; çekirdek kestiricisi
Abstract
An Alternative Practice to Obtain Reliable Mortality Data for Life Insurance Firms
Exhibiting of the usability of a mortality data which reflects real mortality level is the main
purpose of the study. Therefore, an age related death data will be composed via orphanhood
method, which is an indirect one, first. Then, premium paid for insurance will be calculated
by finding core estimate values. Finally, American CSO 1980 lifetime table used by Turkish
insurance firms will be compared with premium paid for insurance.
Keywords: Life insurance; Mortality table; Kernel estimator
1. Giri!
Türkiye’de güvenilir ölüm verilerinin bulunmay , sadece demografik ara t rmalar anlam nda de!il,
farkl çal ma alanlar bak m ndan da önemlidir. Zira ölüm verileri, aktüeryal dengelerin hesap edildi!i
sigorta sektörü, sosyal güvenlik sistemi ve çe itli kurumlar n yard m sand klar içinde büyük önem arz
etmektedir. Bunun yan s ra, ölüm olas l klar (mortalite) ve komütasyon (sigorta prim-rant)
tablolar n n sigorta irketlerince kullan lmas n zora sokmaktad r. Türkiye’de hiçbir sigorta irketi,
Türk ölüm verisinden olu turulmu bir tabloyu kullanmamaktad r. Bunun yerine yurt d ndan ve
farkl ülkelerin ölüm oranlar n yans tan ölüm olas l klar tablolar n tercih etmektedirler. Dolay s yla
bu noktada iki yönlü bir sorun ortaya ç kmaktad r. Birincisi, Türkiye’de güvenilir ölüm verilerine
ihtiyaç duyuldu!u ve bunun için alternatif çal malara gereksinim duyuldu!u, ikincisi ise özellikle
sigorta irketlerince kullan lmakta olan yabanc ülkelere ait ölüm oranlar n n Türkiye’nin gerçek ölüm
profilini yans tmayaca! ndan hareketle, sigortal lardan eksik veya fazla prim tahsilat na neden
olaca! d r. Bu nedenle, alternatif ölüm verisi sa!layacak güvenilir çal malara ve bunlar sayesinde
olu turulmu ölüm oranlar tablolar na ihtiyaç duyulmaktad r. Haz rlanan bu tablolar sigortal lardan
al nacak primlerin ve sigortal lara ödenecek tazminatlar n hesaplanmas nda önemli bir kolayl k
sa!lamaktad r. Dolay s yla sigorta irketleri için kritik öneme sahip bu tablolar n gerçe!e en yak n
278
ölüm verilerini içermesi, aktüeryal dengenin (al nan primlerin ödenecek tazminatlara denk gelmesinin)
sa!lanmas aç s ndan önemlidir. Bu sebeple hayat sigortas irketlerinde kullan lacak olan ölüm
verilerinin o ülkenin demografik özelliklerini yans tan ve güvenilir ölüm verileri olmas
gerekmektedir.
Bu çal mada, ilk olarak K rkbe o!lu’nun (2006) Hacettepe Üniversitesi Türkiye Nüfus ve Sa!l k
Ara t rma verilerini (1998; 2003) kullanarak olu turmu oldu!u ölüm say lar referans al nacakt r. Bu
çal mada ortaya konulan ölüm say lar n n referans al nmas ndaki temel neden, Türkiye’ye ili kin
dolayl bir yöntemle (Yetimlik Yöntemi-Orphanhood Method [2]) ya lara ili kin ölüm verisi olu turan
birkaç çal madan biri olmas d r. Çal mada amaç, referans al nan bu ölüm say lar n n çekirdek
kestirim de!erlerinin hesaplanmas ve Türkiye’de hayat sigortas
irketlerince ço!unlukla
kullan lmakta olan Amerikan CSO 1980 mortalite (hayat) tablosu ile sigorta primi kar la t rmas
yap lmaktad r. Dolay s yla çal man n temel katk s Türkiye’de sigorta sektöründe hesaplanan prim ve
tazminatlar n, Türkiye ölüm verisinden hesaplanan prim ve tazminatlara göre ne denli farkl la aca! n
ortaya koyacakt r.
2. Hayat Sigortalar nda Güvenilir Ölüm Verisini Gerekli K lan Nedenler
Mortalite tablolar ; bir nüfus toplulu!unun gözlem alt nda tutularak olu turulan ya ama ve ölüm
istatistiklerine göre elde edilen sonuçlar ndan her bir ya ta bir y l içerisinde kaç ki inin hayatta
kalaca! n n, kaç ki inin ölece!inin öngörüldü!ü tablolar olarak tan mlan r [1]. Mortalite tablolar
özellikle aktüerler, demograflar veya halk sa!l ! ile u!ra an kesimler taraf ndan, göç, do!urganl k,
nüfus tahminleri, yetimlik veya dul kalma, hayat beklentisi, evlilik ve çal ma ya am ile ilgili
konularda çe itli çal malar yapmak amac yla kullan lmaktad r. Mortalite tablolar n n büyük önem arz
etti!i sigorta sektöründe (özellikle hayat sigortalar nda) prim ve tazminatlar n hesaplanmas nda bu
tablolar n ne denli güvenilir olduklar büyük önem te kil etmektedir. Bunun yan s ra sigorta
i letmelerinin ay racaklar matematiksel kar l klar ve kar paylar da yine bu tablolar n güvenilirli!iyle
yak ndan ili kilidir.
Mortalite tablolar n n olu turulmas nda kullan lan ölüm olas l klar n n, o ülkenin ölüm düzeyini ne
denli temsil edece!i önemli bir sorundur. Zira bir ülkenin demografik verilerini yans tmayan
tablolardan hesaplanacak prim ve tazminatlar n, olmas gerekenden fark de!erleri içermesi muhtemel
olacakt r. Bu durum ise sigorta i letmesinin veya sigortal lar n haks z yere zarara u!rayabilecekleri
sonucunu do!uracakt r. Dolay s yla sigorta i letmesinin mevcut mali durumunu netle tirmesi ve
sigorta prim ve tazminatlar n n gerçe!e en yak n de!erlerle hesaplanabilmesi için, ülke nüfusunun
ölüm olas l klar n temsil eden uygun mortalite tablolar n n kullan lmas önemlidir.
Mortalite tablolar n n sigorta prim ve tazminatlar üzerinde yaratt ! bu etki ayn zamanda o ülkenin
sigorta sektörünün geli imi aç s ndan da önemlidir. Sigortal lar n ödedikleri primlerin olmas
gerekenden yüksek olmas , o ülke içerisinde sigorta sektörüne olan güveni ve talebi de süreç içerisinde
azaltacakt r.
Mortalite tablolar her ne kadar hayat sigortalar nda bu denli önemli olsa da, bugün Türk sigorta
sektöründe Türkiye’ye ait ölüm verilerinden haz rlanm bir mortalite tablosu kullan lmamaktad r.
Oysa ülkemizde s n rl say da da olsa, 1950’li y llar takiben Türk ölüm verisinden mortalite
tablolar n n olu turuldu!u çal malara rastlanmaktad r. Ancak bu tablolar n hiç birisi T.C. Hazine
Müste arl ! Sigortac l k Genel Müdürlü!ü’nce sigorta sektöründe kullan lmas aç s ndan dikkate
al nmam t r.
Geli mi ülkelerde yüzy llard r belirli aral klarla olu turulan mortalite tablolar hem bu ülkelerde hem
de geli mekte olan veya az geli mi ülkelerde çe itli alanlarda kullan lmaktad r. Ülkemizde geçmi ten
bugüne sigorta sektöründe Türkiye’ye ait demografik verilerden olu turulmu bir tablonun olmay da
bu durumun ülkemizde de farkl olmad ! n n göstergesidir. Amerika, Almanya, Fransa, sviçre ve
ngiltere gibi geli mi ülkeler sigorta sektöründe kendi vatanda lar n n ölüm oranlar ndan olu an
mortalite tablolar n kullanmaktad rlar. Bu tür tablolar Türk toplumunun ölüm oranlar n yans tmaktan
279
uzakt r. Bu ülkelerin mevcut ölüm oranlar Türkiye’ye benzerlik göstermedi!i gibi geçmi y llardaki
ölüm oranlar n n da Türkiye’nin u an ki ölüm oranlar na benzerlik gösterdi!i de söylenemez.
Özellikle t bb n ilerlemesi, ekonomik geli meler sayesinde hayat standard ndaki iyile me ortalama
ya am süresinin Türkiye’de de uzamas na neden olmu tur.
Özellikle 1950’li y llara ait mortalite tablolar yla emeklilik sigortalar n n sat lmas irketleri ilerde
önemli mortalite riski ile kar kar ya b rakacakt r. Eski tablolar yüksek ölüm oranlar içerdi!inden
emeklilik gelirini daha k sa sürede ödeyece!ini varsayarak hesaplama yapmakta, sigortal n n
beklenenden uzun ya ayaca! n dikkate almamaktad r. Bu sebeple irketlerin mali yönden sorunlarla
kar la abilme riskleri mevcuttur [2].
Bunun yan s ra yüksek ölüm oranlar özellikle vefat teminat içeren sigortalarda sigortal lardan olmas
gerekenden yüksek primlerin al nmas na neden olmaktad r. Zira yabanc tablolar yüksek ölüm oranlar
içermesi sebebiyle sigortal lar daha erken ya larda ölece!i varsay m nda bulunmaktad r.
Dolay s yla, bir ülkede sigorta sektöründe kullan lan mortalite tablolar n n olmas gereken prim ve
tazminatlar ortaya koymas iki unsura ba!l d r. Bunlardan birincisi mortalite tablosunun haz rland !
ölüm verisinin o ülkenin ölüm verisinden haz rlanm olmas gereklili!i ve ikincisi, ölüm verisinin
güvenilir olmas d r. Dolay s yla ortak noktada ölüm verilerinin güvenilirli!i önemli görülmektedir.
Türkiye’de ölüm ve do!um verilerinin yeterli güvenilirli!e sahip olmamas önemli bir problemdir. Bu
sebeple güvenilir do!um ve ölüm verilerinin yan s ra ölüm düzeylerine ili kin güvenilir bilgiler de
üretilememektedir [3]. Türkiye’de ölümlülük verisi çe itli kaynaklardan elde edilir. Bu kaynaklar
hayati kay t sistemleri (MERNIS), Türkiye statistik Kurumu ölüm istatistikleri, defin kay tlar , T.C.
Sa!l k Bakanl ! kay tlar ve say mlard r. Ancak ölüm verisinin elde edildi!i bu kaynaklar n yeterli
güvenilirli!e sahip olmad ! birçok çal mada nedenleriyle ortaya konmu tur. Dolay s yla alternatif
güvenilir bir ölüm verisine ihtiyaç duyulmaktad r. Ülkemizdeki bu bo lu!un ara t rmalar ile
giderilmeye çal ld ! söylenebilir. Özellikle Hacettepe Üniversitesi’nin be y lda bir düzenlemi
oldu!u Türkiye Nüfus ve Sa!l k Ara t rmas ya lara göre ölüm verisini dolayl yöntemlerle ortaya
koymas bak m ndan güvenilir bir kaynak sa!lad ! söylenebilir.
Çal man n bundan sonraki bölümünde, do!rudan ölüm verisini temin etmenin mümkün olmad !
ülkelerde s kl kla tercih edilen bir yöntemden (Yetimlik Yöntemi) elde edilmi ya lara göre ölüm
say lar na çekirdek kestirim yöntemiyle düzenleme yap lm t r. Dolay s yla ilk olarak çekirdek
kestirim yönteminin ölüm verilerini düzenlemedeki fonksiyonuna de!inmek yararl olacakt r.
3. Çekirdek Kestirim Yöntemi
Çekirdek kestirim yöntemi parametrik olmayan bir kestirim yöntemi olup bu çal mada, NadarayaWatson çekirdek kestirimine benzer olarak geli tirilen E itlik (1)’de verilen kestiricisi kullan lm t r
[4].
j/ K
pj
h
p̂ i =
K
i / K j/ K
"W
h
j=1
K
"W
i/K
(1)
j=1
E itlik (1)’de, W çekirdek fonksiyonu ve h bant geni li!idir. Grup say s K (i=1,2,...,K) ve i. gruba
dü en gözlem say s , ni, toplam gözlem say s n ve her bir grup için göreli frekans, p i =
ni
’d r.
n
+
Burada W, . W ( x )dx = 1 ko ulunu sa!layan, çekirdek fonksiyonu, h ise pencere geni li!i, düzle tirme
+
parametresi ya da bant geni li!i olarak adland r l r. W çekirdek fonksiyonu, olas l k fonksiyonu
özelliklerini ta yan herhangi bir fonksiyon olarak al nabilir. W çekirdek fonksiyonu sürekli bir
280
fonksiyon olarak al nd ! nda, bu özelli!ini çekirdek kestirimine de ta r. Hangi W çekirdek
fonksiyonunun seçilmesi gerekti!ine zaman, hesaplama etkinli!i ve türevlenebilirlik özelliklerine göre
karar verilmelidir [5]. Çekirdek kestirimlerinde, W çekirdek fonksiyonlar n n kestirim üzerinde büyük
de!i iklik yaratmad ! , bant geni li!i seçiminin çekirdek kestiriminin performans n önemli ölçüde
etkiledi!i bilinmektedir. Çekirdek kestiriminde h bant geni li!inin seçimi çok önemlidir. Rosenblatt
(1956), olas l k yo!unluk fonksiyonunun çekirdek kestiricisinin do!ruluk ölçütü için, yayg n olarak
kullan lan ve en kolay izlenebilen genel ölçüt olan toplanm hata kareler ortalamas n kullanman n
matematiksel kolayl ! nedeniyle tercih edildi!ini belirtmi tir [6]. Bu ölçütleri en küçük yapan h bant
geni li!i, en uygun bant geni li!i olarak al nmaktad r. Toplanm hata kareler ortalamas n en küçük
yapan en uygun bant geni li!i de!eri, bilinmeyen f fonksiyonunun ikinci mertebeden türevine ba!l d r.
Bu nedenle h bant geni li!ini elde etmek için birçok yöntem önerilmi tir [7]. Ancak tüm çal malara
ra!men herkes taraf ndan benimsenen bir yöntem halen mevcut de!ildir. Önerilen yöntemlerden
baz lar bilinmeyen yo!unluk f’ye ba!l olduklar ndan çok fazla tercih edilmemekte ancak baz
yöntemler için, ba lang ç de!erleri elde etmek aç s ndan önemli say lmaktad r. Geli tirilen
yöntemlerin her birinin di!erine göre avantajlar ve dezavantajlar vard r [8].
4. Uygulama
Çal mada K rkbe o!lu’nun (2006) “yetimlik yöntemi” yard m yla olu turmu oldu!u ya lara göre
ölüm say lar n n, çekirdek kestirim de!erleri elde edilmi tir. Çal mada ayr ca, sigorta sektöründe
sigortal lar n veya sigortac lar n maddi kay plar n önlemek amac yla sigorta sektöründe kullan lan
CSO 1980 mortalite tablosu ile bir kar la t rma da yap lm t r. Bu kar la t rma karma hayat sigortas
net tek primleri üzerinden gerçekle tirilmi tir.
Çekirdek kestirim de!erleri elde edilirken, kestirim e itli!inde önemli olan W çekirdek fonksiyonu
için normal çekirdek fonksiyonu; h bant geni li!inin seçimi için de yans z en küçük kareler çapraz
geçerlilik yöntemi kullan lm t r. Yans z en küçük kareler çapraz geçerlilik yönteminden elde edilen h
bant geni li!i 0,02 olarak bulunmu , bu de!er E itlik (1)’de yaz larak çekirdek kestirim de!erleri elde
edilmi tir. Çizelge 1’de; K rkbe o!lu (2006) taraf ndan Yetimlik yönteminden elde edilmi ölüm
olas l klar , çekirdek kestirim yöntemiyle düzeltilmi ölüm olas l klar ve CSO 1980 ölüm olas l klar
tablosu verilmi tir.
Çizelge 1. Ya! Gruplar na Göre Ölüm Olas l klar Kar! la!t rmas
Ya!
Türkiye
*
Türkiye
**
CSO 1980
q(x)
q(x)
q(x)
0-1
0,0295
0,0291
0,0042
1-4
0,0084
0,0088
0,0040
5-9
0,0023
0,0024
0,0041
10-14
0,0018
0,0018
0,0045
15-19
0,0034
0,0034
0,0081
20-24
0,0047
0,0047
0,0093
25-29
0,0050
0,0050
0,0086
30-34
0,0055
0,0055
0,0092
35-39
0,0074
0,0074
0,0121
40-44
0,0114
0,0115
0,0178
45-49
0,0186
0,0187
0,0265
50-54
0,0308
0,0310
0,0396
55-59
0,0511
0,0513
0,0612
60-64
0,0842
0,0845
0,0933
65-69
0,1374
0,1377
0,1440
281
70-74
0,2199
0,2198
0,2192
75-79
0,3405
0,3462
0,3316
1
1
1
80+
* Yetimlik yönteminden elde edilmi ölüm olas l klar (K rkbe o!lu, 2006)
** Çekirdek Kestirim Yöntemiyle Düzeltilmi De!erler
Çizelge 1 ve rekil 1’den görüldü!ü gibi, gerek yetimlik yönteminden elde edilen ölüm olas l klar
gerekse bu de!erlerin çekirdek kestirim yöntemiyle düzenlenmi ölüm olas l klar , CSO 1980 ölüm
olas l klar na göre kar la t r ld ! nda, genç ve orta ya gruplar nda ölüm olas l klar nda belirgin bir
farkl la ma görülmektedir .
1,0000
0
1
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
0,1000
Ölüm
Olas l %
0,0100
0,0010
YaTürkiye Yetimlik
qx
Türkiye Çekirdek
qx
CSO 80
qx
Bekil 1. Ya! Gruplar na Göre Ölüm Oranlar n n Logaritmik Grafi<i
Çekirdek kestirim yönteminden elde edilen ölüm olas l klar de!erleri ile CSO 1980 ölüm
oranlar de!erlerine ili kin ya lara göre ya am ümidi de!erleri Çizelge 2’de verilmi tir. Ölüm
olas l klar nda oldu!u gibi orta ya gruplar nda, çekirdek kestirim yöntemi yard m yla
olu turulmu mortalite (hayat) tablosunun “ortalama ya am ümidi (ex)” de!erlerinin, CSO
1980 mortalite tablosu ile farkl l k gösterdi!i söylenebilir.
Çizelge 2. Çekirdek Kestirim (h=0,02) Ve CSO 1980 Ölüm Olas l klar n n Ya!lara Göre Ya!am Ümidi
De<erleri (Y l)
Ya!
0
1
5
10
15
20
25
Türkiye
e(x)
70,73
71,90
68,48
63,62
58,73
53,92
49,16
CSO 1980
e(x)
70,83
70,13
66,40
61,66
56,93
52,37
47,84
282
30
35
40
45
50
55
60
65
70
75
44,40
39,62
34,90
30,27
25,79
21,52
17,53
13,89
10,68
7,96
43,24
38,61
34,05
29,62
25,36
21,29
17,51
14,04
10,96
8,31
Hayat sigortalar nda primlerin hesaplanmas na imkan sa!layan unsur, ya gruplar na göre ya am ve
ölüm olas l klar d r. Dolay s yla bu çal ma kapsam nda hayat sigorta primlerine yönelik bir
kar la t rman n yap lmas Türkiye için güvenilir ölüm verisine duyulan ihtiyac n anla lmas
aç s ndan önemli olacakt r.
Türkiye’de hayat sigorta irketlerinin en s k kulland ! sigorta türü “karma hayat sigortas ”d r.
Dolay s yla bu çal mada karma hayat sigortas primleri üzerinden bir kar la t rma yap lm t r.
Ax:n =
M x + n + Dx + n
x 1 TL
Dx
Mx
(2)
E itlik (2)’de karma hayat sigortas yapt ran x ya ndaki bir sigortal n n n y l sonra 1 TL’lik
tazminat alabilmesi için ödemek zorunda oldu!u net tek prim e itli!i gösterilmi tir. Çizelge
3’de, 15 y ll k karma hayat sigortas yapt ran bir sigortal n n 10.000 TL tazminat alabilmesi
için ödemesi gereken net tek prim kar la t rmas ya lara göre ortaya konmu tur. lgili grafik
de rekil 2’de verilmi tir. Çekirdek kestiriminden elde edilen net tek prim de!erleri, CSO 1980
tablosuna göre daha dü ük ç km t r. Daha aç k bir ifadeyle, Türkiye’de sigortal lar
ödemeleri gereken prim tutar n n üzerinde prim ödemesi yapmak durumunda
b rak lmaktad rlar.
Çizelge 3. Çekirdek Kestirim (H=0,02) ve CSO 1980 Ölüm Olas l klar çin Karma Hayat Sigortas Primi
Karma Hayat Sigortas Primi (TL)
(15 Y ll k Poliçe)
Türkiye (Çekirdek
Ya- Kestirim Yöntemi)
CSO 1980
30
2.795
2.827
31
2.798
2.831
32
2.801
2.837
33
2.805
2.843
34
2.810
2.850
35
2.816
2.857
36
2.822
2.866
37
2.830
2.876
38
2.838
2.886
39
2.847
2.898
40
2.857
2.910
41
2.868
2.924
42
2.881
2.939
283
43
2.895
2.955
44
2.911
2.972
45
2.928
2.991
46
2.947
3.011
47
2.968
3.034
48
2.991
3.058
49
3.017
3.085
50
3.045
3.115
3.200
3.050
Prim (TL)
2.900
2.750
30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
YaCSO 80
Türkiye
Rekil 2. 10000 TL Tazminat Ödemeli 15 Y-ll-k Karma Hayat Sigortas- Net Tek Prim Kar"-la"t-rmas-
5. Sonuç ve Öneriler
Türkiye’de hayat sigorta irketlerinin yabanc ülkelere ait geçmi tarihli mortalite tablolar n
kullanmalar özellikle sigortal lar aç s ndan haks z prim ödemelerini beraberinde getirmektedir [9].
Türkiye’ye ili kin güvenilir ölüm verilerinin olmay , Türkiye için bir mortalite tablosu
olu turulmas nda demografik ara t rmalar n gereklili!ini art rm t r. Bu çal ma kapsam nda ise
Türkiye Nüfus ve Sa!l k Ara t rmas verilerinden dolayl bir yöntemle olu turulmu ölüm olas l klar ,
çekirdek kestirim yöntemi yard m yla yeniden düzenlenmi ve Türkiye’de hayat sigorta irketlerince
en s k kullan lan CSO 1980 tablosuyla kar la t rmas yap lm t r. Ortaya konan sonuçlar sigortal lar n
haks z prim ödemeleri yapmak durumunda oldu!unu göstermektedir. Özellikle t bb n ilerlemesiyle
birlikte ortalama ya am ümidinin hemen her ülkede yükselmesi ve ölüm olas l klar n n azalmas
güncel ölüm verilerinden haz rlanm tablolar gerekli k lmaktad r. Türkiye için de, geli mekte olan
birçok ülkede oldu!u gibi kendi ölüm verisinden haz rlanm güncel ve güvenilir bir mortalite
tablosunun olu turulmas gereklili!i aç kt r. Bu sebeple üniversitelerin aktüerya, sigortac l k ve
demografi bölümleri ile sektörden uzmanlar n bir araya gelerek geni çapl bir ara t rma ile Türkiye
mortalite tablosu olu turmalar hayat sigortalar na olan talebi ve güveni art raca! söylenebilir.
284
Kaynaklar
[1] Hayat Sigortalar Yönetmeli!i, (1996)
[2] Osmançavu o!lu, Ö. (1999), Hayat Sigortalar nda Aktüerya, Ankara 1999, s. 26
[2] Scott, D.W.& Terrell, G.R. Biased and Unbiased Cross-validation in Density estimation, Journal
of the American Statistical Association 82, 400, 1131-1146. 1987.
[3] Ayd n, H.(2003), Do!um ve Ölüm Verilerinin Sistemli Olarak Derlenebilmesi çin Model
Geli tirme, Yay nlanmam Doktora Tezi, Hacettepe Üniversitesi, Ankara, s. 14.
[4] Simonoff J. S., (1996), Smoothing Methods in Statistics, Verlag, New York.
[5] Silverman, B. W. (1986), Density Estimation for Statistics and Data Analysis. London: Chapman
and Hall.
[6] Rosenblatt, M. (1956), Remarks on some nonparametric estimates of a density function, Annals
Math.Statistics, 27, 832-837.
[7] Wand M.P. and Jones M.C. (1995), Kernel Smoothing, Chapman & Hall, London.
[8] Cula S.C. (1998), Çok De!i kenli Olas l k Yo!unluk Fonksiyonunun Çekirdek Fonksiyonlar yla Kestirimi,
Doktora Tezi.
[9] K rkbe o!lu, E. (2006), Construction Of Mortality Tables For Life Insurance Sector From The
2003 Turkey Demographic And Health Survey, Yay nlanmam Yüksek Lisans Tezi, Hacettepe
Üniversitesi. Ankara
285
Karma emeklilik planlar nda stokastik modelleme ve
Türkiye uygulamas
Yasemin GENÇTÜRK
Hacettepe Üniversitesi
06800-Beytepe, Ankara, Türkiye
[email protected]
Funda KARAMAN
Hacettepe Üniversitesi
06800-Beytepe, Ankara, Türkiye
[email protected]
Ba ak BULUT
Hacettepe Üniversitesi
06800-Beytepe, Ankara, Türkiye
[email protected]
Sema TÜZEL
Hacettepe Üniversitesi
06800-Beytepe, Ankara, Türkiye
[email protected]
Özet
Bu çal mada, karma plan türlerinden olan Desteklemeli ve Bile ik Karma Planlar için ücret art oran , tahvil
getiri oran ve hazine bonosu getiri oran na ili kin Sayan ve Teksöz (2002)’ ün olu turdu!u stokastik modeller
kullan larak simülasyon yap lm , farkl yat r m stratejileri için her bir plan üyesine ba!lanacak emekli ayl klar
hesaplanarak hangi yat r m stratejisi için hangi tür karma emeklilik plan n n üye lehine olaca! ara t r lm t r.
Anahtar sözcükler : Karma Planlar; Katk s Belli Karma Planlar; Faydas Belli Karma Planlar; Bile ik Karma planlar ;
Desteklemeli Karma Planlar; Stokastik Model
1. Giri!
OECD ülkelerinin ilerleyen y llarda kar kar ya bulunmas muhtemel en önemli zorluklardan
birisi, emeklilik sistemleri ile ilgili sorunlar n çözümlenmesidir. Nüfusun h zla ya lanmas na ba!l
olarak emeklilik sistemlerindeki dengelerin yeniden kurulmas ve sistemin mali olarak
sürdürülebilirli!inin sa!lanmas gereklidir. Genel anlamda ,emeklilik programlar n n iki temel amac
bulunmaktad r:
1. Ya l l kta yoksullu!un önlenmesi
2. Çal anlar n ya am standartlar n emeklilik döneminde de korumalar na yard mc olunmas
Emeklilik planlamas , k saca emeklilik geliri belirleme ve potansiyel emeklilik geliri kaynaklar
hakk nda bilgi toplama i lemidir [13].
Emeklilik planlar , insanlar ; hastal k, i sizlik, ya l l k, ölüm sebebiyle geçici veya sürekli olarak
kazançtan yoksun kalma gibi durumlarda yoksullu!a kar koruyan ve gelirin nesiller aras ve/veya
ayn nesil içinde yeniden da! l m n sa!layan düzenlemelerdir [11].
Emeklilik planlar fonksiyonel olarak faydas belli, katk s belli ve karma emeklilik planlar olmak
üzere üç grupta incelenebilir [14].
286
1.1.
KATKISI BELL EMEKL L K PLANLARI
Emeklilik fonuna her y l i çi (plan üyesi) ve/veya i verenin (plan sponsoru) yapaca! katk n n belli
oldu!u planlard r. Her bir plan üyesine ba!lanacak emekli ayl ! , emeklilik fonuna yap lan katk lar n
büyüklü!ü ile birikimli de!erine ba!l d r [2].
Katk paylar ve oranlar genellikle belli ve sabittir. Katk s belli emeklilik planlar n n uygulamas nda
i çi ve i veren aç s ndan birtak m avantajlar söz konusudur. Plan üyesi aç s ndan bu tür plan n
avantajlar ndan ilki , vergi kesintisinin birikim sürecinde de!il emekli maa lar n n ödenme sürecinde
yap lmas d r. Yani emeklilik fonuna yap lan katk lar vergiden muaft r. Plan üyesi aç s ndan bir di!er
avantaj ise plan üyesinin belirli bir dereceye kadar ne kadar katk yapaca! n belirleme hakk na sahip
olmas d r. Bu tür planlarda kat l mc lar belirledikleri belli bir miktar üzerinden katk yapabilecekleri
gibi, önceden belirlenmi bir oran n maa lar ndan kesilmesi yoluyla da fon olu turabilirler. Yüksek
miktarlarda katk ödeyen üyelere, emeklilikte ba!lanacak ayl klar da yüksek olacakt r. Plan sponsoru
aç s ndan avantaj ise yat r m riskininin plan üyeleri taraf ndan üstlenilmesidir.
Belirlenmi katk emeklilik planlar n n yukar da say lan avantajlar n n yan s ra baz dezavantajlar da
söz konusudur. Plan üyesi aç s ndan dezavantajlar , yat r m riskinin üyeler taraf ndan üstlenilmesi ve
plan üyelerinin emekliliklerine çok az bir süre kal ncaya kadar emekli ayl klar n n miktar n
bilememeleridir. Plan sponsoru aç s ndan önemli bir dezavantaj söz konusu de!ildir [9].
1.2.
FAYDASI BELL EMEKL L K PLANLARI
Faydas belli emeklilik planlar , üyelere emekli olduklar nda ba!lanacak emekli ayl ! n n ve
ikramiyenin önceden kesin olarak bilinmese de bir formül yard m yla hesapland ! planlard r[2].
Üyeye ba!lanacak emekli ayl ! , genellikle, üyenin çal ma ya am n n son y l nda eline geçen maa a
ba!l olmakla birlikte, çal ma ya am n n son birkaç y l ndaki ortalama maa na ya da çal ma ya am
boyunca eline geçecek ortalama maa na ba!l oldu!u planlarda söz konusudur. Emeklilik fonuna
genellikle üyeler maa lar n n önceden belirlenmi bir oran nda katk da bulunurlarken, plan
sponsorunun fona yapaca! katk yat r m getirisine ba!l d r ve düzenli olarak yap lacak aktüeryal
de!erlendirme ile belirlenir [9].
Katk s belli emeklilik planlar nda oldu!u gibi faydas belli emeklilik planlar nda da birtak m avantaj
ve dezavantajlar ndan söz edilebilir.
Bu plana dahil olan çal anlar, emekli ayl ! ve ikramiye miktar n n belli olmas ve söz konusu
miktarlar n ödenmesinin kesin olmas nedeniyle kendilerini garanti alt na al rlar.
Bir di!er avantaj ise, yat r m riskinin kat l mc lara ait olmamas yani yat r m riskinin i veren
taraf ndan üstlenilmesidir.
287
Belirlenmi fayda emeklilik planlar n n en önemli dezavantaj ise kat l mc n n emekli olmadan önce
i ten ayr lmas durumunda tazminat alma hakk na sahip olamamas d r [9].
1.3.
KARMA EMEKL L K PLANLARI
Karma emeklilik planlar , hem faydas belli hem de katk s belli emeklilik planlar n n özelliklerini
içerir. Bu planlar sadece faydas belli emeklilik plan veya sadece katk s belli emeklilik plan n n
kullan lmas n n verimli olmad ! durumlar için uygundur [1].
Karma planlarda, yat r m riski i çi ile i veren aras nda payla lmas na ra!men büyük ölçüde i veren
taraf ndan üstlenilir [14].
Katk s ve faydas belli planlar n çe itli kombinasyonuyla olu turulabilecek pek çok karma plan türü
bulunmaktad r.
Dünyada kullan lmakta olan belli ba l karma plan türleri; “Bile ik Karma Planlar”, “Self
Annuitising DC Scheme”, “Career Average Schemes”, “Cash Balance Schemes”, “Final Salary Lump
Sum Schemes”, “Desteklemeli Karma Planlar” ve “Sabit/birim Tazminat Planlar ” d r [14].
Bu çal mada, karma plan türlerinden Desteklemeli Karma Planlar ve Bile ik Karma Planlar
incelenecektir.
1.3.1.
B LE^ K KARMA EMEKL L K PLANLARI
Bu planlarda plan üyesi ayn anda iki farkl tür tazminat biriktirebilir. Bireye ba!lanacak emekli ayl !
sadece faydas belli esasl , sadece katk s belli esasl veya ikisinin bile imi olarak hesaplanabilir.
Ba!lanacak emekli ayl ! , ki ilerin gelir seviyelerine göre de!i ir. Üyelerin çal ma hayat boyunca
eline geçen maa , belirli bir seviyeyi a mad ! nda ki iye sadece faydas belli esasl emekli ayl !
ba!lan r. Bu durumda dü ük gelirli üyelere ba!lanacak emekli ayl ! önceden bellidir ve üye yat r m
riskini üstlenmez.
Yüksek maa l üyeler için emeklilikte ba!lanacak ayl k, katk s belli esasl ya göre belirlenir yani
emekli ayl ! miktar , daha az tahmin edilebilirdir ve üye yat r m riskini üstlenir. Yüksek maa l
üyelerin yat r m riskine kat lmalar n n bir sonucu olarak i verenin daha az risk üstlendi!i söylenebilir.
Bu durum, mali durumunu kontrol alt nda tutmak isteyen i verenin lehinedir.
Ayl k gelir miktar belirlenmi s n rlar içerisinde olan plan üyelerinin emekli ayl klar ise faydas belli
ve katk s belli esasl n n bile imi olarak belirlenir [14].
1.3.2. DESTEKLEMEL
KARMA EMEKL L K PLANLARI
Karma planlar n bu türünde, bile ik karma planlardan farkl olarak üyelere ba!lanacak emekli ayl !
288
hesaplan rken ki ilerin çal ma hayat boyunca ald klar maa n seviyesine bak lmamaktad r.
Bu plan türüne göre üyeye ba!lanacak emekli ayl ! , katk s belli esasl hesaplanan emekli ayl ! ile
faydas belli esasl hesaplanan emekli ayl ! ndan büyük olan d r [14].
2. STOKAST K MODEL
Emeklilik planlar na ili kin hesaplamalar deterministik ve/veya stokastik modeller kullan larak
yap labilir. Deterministik modelleme de girdi parametreleri sabit oldu!u için her denemede,
parametreler de!i medi!i sürece, ayn sonuçlar elde edilir. Stokastik modelleme de ise parametreler
fonksiyonel olarak belirlenir bu yüzden ayn parametrelerin kullan lmas durumunda bile farkl
sonuçlar elde edilir [4].
Bu çal mada, karma plan türlerinden Bile ik Karma Emeklilik Plan ve Desteklemeli Karma
Emeklilik Plan için stokastik modeller (gerçe!i daha iyi yans taca! n dü ündü!ümüzden dolay )
kullan larak farkl yat r m stratejileri için ba!lanacak emekli ayl klar kar la t r lm t r [3,5,6,7].
Y ll k ücret art oran , hazine bonosu ve tahvil getiri oran Sayan ve Teksöz (2002) taraf ndan
olu turulan stokastik modellerden elde edilmi tir.
2.1.
YILLIK MAA^ ARTI^ ORANININ MODELLENMES
Y ll k maa art oran , hem katk s belli hem de faydas belli esasl emeklilik planlar nda emekli
ayl ! n etkileyen en önemli unsurlardan birisidir.
verenler, hayat ko ullar n n de!i mesine ya da bireyin i indeki performans na göre çal anlar n
maa lar na ilave ödemeler yapmaktad rlar. Bu ödemelerin oranlar , bas n ve yay nda ,genel olarak,
brüt maa art oranlar olarak yer almaktad r. Fakat aktüeryal hesaplamalarda brüt maa art
oranlar n n enflasyondan ar t lm hali olan reel maa art oranlar kullan lmaktad r.
Biz bu çal mada reel maa art oranlar n modelleyece!iz.
Y ll k maa art oran , promosyon ödemelerinden kaynaklanan art oran ile ulusal verimlilikten
kaynaklanan art oran ndan olu maktad r. Sayan ve Teksöz (2002) ulusal verimlilik oran n ,
g(t) = exp( Q * Z(t) + P ) - 1
(1)
biçiminde modellemi lerdir.
Burada Q , ulusal verimlilik oranlar n n standart sapmas n , P, ulusal verimlilik oranlar n n beklenen
de!erini ve Z(t) standart normal da! l ma sahip ba! ms z raslant de!i kenini göstermektedir.
Model parametreleri olan beklenen de!er ve standart sapmaya ili kin tahmin ediciler s ras yla, 0,045
289
ve 0,075 olarak belirlenmi tir. 2000-2008 y lllar aras ndaki brüt memur maa art oranlar
enflasyondan ar nd r larak reel memur maa art oranlar elde edilmi ve bu reel memur maa art
oranlar n n ortalamas 0,045 olarak hesaplanm t r.
Promosyon ödemelerinden kaynaklanan maa art
ç karak reel maa art oran :
S(t)
(2)
=
oran (p) 0,01 olarak al nm t r. Buradan yola
+
g(t-1)
p
biçiminde modellenmektedir [ 12].
Bu modelden de anla laca! üzere reel maa art oran , bir y l önceki ulusal verimlilik oran na ve o
dönem içerisinde promosyon ödemelerinden kaynaklanan maa art oran na ba!l d r.
2.2.
YATIRIM GET R ORANLARININ MODELLENMES
Üyelere, aktif olduklar durumda yapt klar katk kar l ! nda pasif olduklar dönemde emekli maa
verilmektedir. Bu katk lar n do!ru yat r m arac na yönlendirilmesi emeklilik irketinin varl ! n
sürdürebilmesi aç s ndan çok önemli bir yere sahiptir.
Finansal yat r m araçlar n n birçok çe idi bulunmaktad r. Bu çal mada herhangi bir irketin portföy
yönetiminde s kl kla kulland ! devlet tahvili ile hazine bonosu yat r m araçlar olarak seçilmi ve
bunlara ili kin getiri oranlar stokastik olarak modellenmi tir.
2.2.1. TAHV L GET R
ORANLARININ MODELLENMES
Ortalama temettü getiri ve bile ik tahvil endeks oranlar kullan larak hesaplanan Türkiye tahvilleri
gerçek getiri oran ,
ln(1+t(t))
(3)
=
P
+
j
*
[ln(1+t(t-1)-
P]+
biçiminde modellenmi tir.
(3) e itli!inde,
t(t) : t y l için tahvil getiri oran n ,
j
: ln(1+t(t)) ve ln(1+t(t-1)) aras nda korelasyon katsay s n ,
P
: ln(1+t(t))’ nin beklenen de!erini,
Q
: ln(1+t(t))’ nin standart sapmas n ve
290
Q
*(1-
j)*
Z(t)
Z(t) : Standart Normal da! l ma sahip rastlant de!i kenini
göstermektedir.
Bu e itlikten t y l için tahvil getiri oran n n, bir önceki y la ili kin tahvil getiri oran na, hata raslant
de!i keni Z(t)’ ye, serinin beklenen de!eri, varyans ve bir gecikmeli seri ile olan korelasyon
katsay s na ba!l oldu!u görülmektedir.
1986-2006 IMKB verileri [16] ile kullan ld ! nda Türkiye tahvilleri gerçek getiri oran na ili kin
serinin beklenen de!er ve standart sapmas ,s ras yla, 0,079 ve 0,772 olarak hesaplanm t r. 2008 y l
için ortalama tahvil getiri oran n n reel olarak 0,04 oldu!u da yap lan incelemelerden elde edilmi tir.
Bu durumda tahvil getiri oran na ili kin model,
ln(1+t(t))
(4)
=0.079
–
0.66*[
ln(1+0,04)-0.079]+0.772*0.9340*Z(t)
biçimindedir [ 12 ].
2.2.2.
HAZ NE BONOSU GET R ORANLARININ MODELLENMES
Sayan and Teksöz (2002) taraf ndan yap lan çal mada Türkiye hazine bonolar n n gerçek getiri
oranlar bir y ll k yurtiçi borçlanma faiz oranlar kullan larak,
ln(1+h(t)) = P + j* [ln(1+h(t-1)- P ]+ Q *(1- j)* Z(t)
(5)
biçiminde modellenmi tir.
(5) e itli!inde:
h(t)
: t y l için tahvil getiri oran n
j
: ln(1+h(t)) ve ln(1+h(t-1)) aras nda korelasyon katsay s n
P
: ln(1+h(t)) için beklenen de!erini
Q
: ln(1+h(t)) için standart sapmas n
Z(t)
: Normal da! l ma sahip birim raslant de!i kenini
göstermektedir.
Gerçek hazine bonosu getiri oranlar n n beklenen de!er, varyans ve korelasyon katsay lar tahmin
edicileri 1984 - 2006 y llar aras ndaki verilerden s ras yla 0,027, 0,075 ve 0,465 olarak
hesaplanm t r. 2008 y l için ortalama hazine bonosu getiri oran n n reel olarak 0,01 oldu!u da
yap lan incelemelerden elde edilmi tir.
291
Bu durumda tahvil getiri oranlar na ili kin model,
ln(1+h(t)) =0.027 +0.465*[ ln(1+0,01)-0.027]+ 00075*(1-0.465)*Z(t)
(6)
biçimindedir [12].
3. EMEKL AYLIIININ HESABI
Bu bölümde Bile ik Karma ve Desteklemeli Karma Emeklilik Planlar ’nda emekli ayl ! n n hesab ile
bu hesaplamalarda kullan lacak varsay mlar verilmi tir.
3.1.
HESABI
DESTEKLEMEL
KARMA EMEKL L K PLANLARINDA EMEKL
AYLIoININ
Desteklemeli Karma Emeklilik Planlar ’nda, herbir plan üyesi için faydas belli esasl emekli ayl ! ve
katk s belli esasl emekli ayl ! ayr ayr hesaplan r ve hangisi büyük ise emekli ayl ! olarak o
ba!lan r.
Bu durumda ba!lanacak emekli ayl ! ,
EA = Max ( DB , DC )
(7)
biçiminde modellenir.
(7) e itli!inde :
EA : Plan üyesine ba!lanacak emekli ayl ! n
DB : Faydas belli esasl emeklilik plan na göre ba!lanacak emekli ayl ! n
DC : Katk s belli esasl emeklilik plan na göre ba!lanacak emekli ayl ! n
r
: Plan üyesinin emekli oldu!u ya
göstermektedir.
292
Faydas belli esasl emeklilik plan na göre ba!lanacak emekli ayl ! ,
DB = DRb * SALr-1
(8)
olarak hesaplan r.
(8) e itli!inde :
DRb
: Plan üyesinin faydas belli esasl plan için son maa ndan kesilecek olan katk oran n ve
SALr-1 : Plan üyesinin emekli olmadan önce ald ! son maa n
göstermektedir.
Katk s belli esasl emeklilik plan na göre ba!lanacak emekli ayl ! ,
r
DC = CCR * DRc *{SALr +
"
t =1
r
(1+ rt )] * SALt}
[
r t +1
(9)
biçiminde modellenir.
(9) e itli!inde :
SALt
: Plan üyesinin t. y l n n sonunda ald ! maa miktar n
rt
: t. y l için y ll k yat r m getiri oran n
DRc
: Plan üyesinin katk s belli esasl plan için maa ndan kesilecek olan katk oran n
CCR
: Y ll k ücrete dayal katk oranlar n n birikime uygulanacak emekli ayl ! ba!lama oran n
göstermektedir .
Bu çal mada faydas belli esasl emekli ayl ! n hesaplayabilmek için üyenin maa ndan kesilecek
olan katk oran ( DRb ) %11, plan üyesinin katk s belli esasl plan için maa ndan kesilecek olan katk
oran (DRc) % 5 ve y ll k ücrete dayal katk oranlar n n birikime uygulanacak emekli ayl ! ba!lama
oran (CCR) %1 olarak belirlenmi tir.
3.2. B LE^ K KARMA EMEKL L K PLANLARINDA EMEKL AYLIoININ HESABI
293
Bile ik Karma Emeklilik Planlar ’nda üç a amada emekli ayl ! hesab yap l r. Bu çal mada
hesaplama yapabilmek için alt s n r olarak TÜ K [15] taraf ndan aç klanm 2007 y l açl k s n r olan
853 TL, üst s n r olarak ise yoksulluk s n r olan 2240 TL baz olarak al nm t r.
Birinci gruptaki plan üyeleri için ,yani ayl k maa 853 TL ’ye e it veya az olanlar için, emekli ayl !
sadece fayda esasl plana göre belirlenir.
Bu durumda ilk gruptakiler için emekli ayl ! ,
EA1 = DRb1 * SALr-1
(10)
biçimindedir.
(10) e itli!inde :
EA1
: Birinci gruptaki plan üyesi için faydas belli esasl plana göre ba!lanacak emekli ayl ! n
DRb1 : Birinci gruptaki plan üyesinin faydas belli esasl plan için maa ndan kesilecek olan katk
oran n
SALr-1 : Plan üyesinin emekli olmadan önce ald ! son maa miktar n
göstermektedir.
Birinci gruptaki plan üyelerinin emekli ayl ! n hesaplayabilmek için plan üyesinin faydas belli esasl
plan için maa ndan kesilecek olan katk oran (DRb1 ) % 11 olarak belirlenmi tir.
kinci gruptaki , yani ayl k maa 853 TL ve 2240 TL aras nda olan plan üyeleri için emekli ayl !
katk s belli plan esasl ve faydas belli plan esasl emekli ayl klar n n belirli oranlarda bile iminden
olu maktad r. Bu çal mada bu gruptaki üyelere ba!lanacak emekli ayl ! faydas belli ve katk s belli
esasl hesaplanm emekli ayl klar n n % 50’si al narak hesaplanm t r.
Bu durumda ikinci gruptakiler için emekli ayl ! miktar ,
=
EA2
(11)
0.50
*DBb2
+
0.50*
olarak modellenmi tir.
(11) e itli!inde :
EA2
: kinci gruptaki plan üyesi için ba!lanacak emekli ayl ! n
DBb2 : kinci gruptaki plan üyesi için faydas belli esasl olarak belirlenmi emekli ayl ! n
294
DCc2
DCc2 : kinci gruptaki plan üyesi için katk s belli esasl olarak belirlenmi emekli ayl ! n
göstermektedir.
kinci gruptaki plan üyesi için (8) ve (9) e itliklerinden yola ç k larak ikinci gruptaki plan üyesi için
ba!lanacak emekli ayl ! :
r
EA2 = 0.50 * DRb2 * SALr-1 + 0.50 * CCR * DRc2 *{SALr +
"
r
(1+ rt )] * SALt}
[
t =1
r t +1
(12)
biçiminde modellenir.
(12) e itli!inde :
DRb2
oran n
:
kinci gruptaki plan üyesinin faydas belli esasl plan için maa ndan kesilecek olan katk
SALr-1 : Plan üyesinin emekli olmadan önce ald ! son maa miktar n
CCR : Y ll k ücrete dayal katk oranlar n n birikime uygulanacak emekli ayl ! ba!lama oran n
DRc2
oran n
: kinci gruptaki plan üyesinin katk s belli esasl plan için maa ndan kesilecek olan katk
SALt : Plan üyesinin t. y l n sonunda ald ! maa miktar n
rt
: t. y l için y ll k yat r m getiri oran n
göstermektedir.
kinci gruptaki plan üyelerinin emekli maa lar n hesaplayabilmek için plan üyesinin faydas belli
esasl plan için maa ndan kesilecek olan katk oran (DRb2 ) % 11, plan üyesinin katk s belli esasl
plan için maa ndan kesilecek olan katk oran (DRc2) %5 ve y ll k ücrete dayal katk oranlar n n
birikime uygulanacak emekli ayl ! ba!lama oran ( CCR) %1 olarak belirlenmi tir.
Üçüncü gruptaki plan üyeleri, yani ayl k maa 2240 TL ‘ nin üzerinde olan ki iler için emekli
ayl ! sadece katk s belli emeklilik plan esasl olarak belirlenir.
Bu durumda (9) e itli!inden yola ç k larak üçüncü gruptaki plan üyeleri için emekli ayl ! :
r
EA3 = CCR * DRc3 *{SALr +
"
t =1
r
(1+ rt )] * SALt}
[
r t +1
(13)
biçiminde modellenir.
(13) e itli!inde :
EA3
: Üçüncü gruptaki plan üyesi için ba!lanacak emekli ayl ! n
295
CCR : Y ll k ücrete dayal katk oranlar n n birikime uygulanacak emekli ayl ! ba!lama oran n
DRc3 : Üçüncü gruptaki plan üyesinin katk s belli esasl plan için maa ndan kesilecek olan katk
oran n
SALt : Plan üyesinin t. y l n sonunda ald ! maa miktar n
rt
: t. y l için y ll k yat r m getiri oran n
göstermektedir.
Üçüncü gruptaki plan üyelerinin emekli maa lar n hesaplayabilmek için plan üyesinin, katk s belli
esasl plan için maa ndan kesilecek olan katk oran (DRc3 ) % 5 ve y ll k ücrete dayal katk
oranlar n n birikime uygulanacak emekli ayl ! ba!lama oran (CCR) %1 olarak belirlenmi tir.
3.3. D oER VARSAYIMLAR
Emeklilik planlar nda aktüeryal denge aç s ndan emekli ayl ! hesab n n yap labilmesi yani
yükümlülük ve fona yap lacak katk lar n bugünkü de!erlerinin e it oldu!u varsay m alt nda karma
emeklilik planlar na ili kin emeklilik maa n hesaplarken kulland ! m z parametrelerin yan s ra i e
giri ya , emeklilik ya , mortalite, kariyer ekli gibi parametrelerin de belirlenmesi gerekmektedir.
Bu parametreler :
e giri ya
: 20
Emeklilik ya
: 65,
Mortalite
: 1980 CSO hayat tablosu
Kariyer ekli
: Emeklilikten önce hep çal m
olarak belirlenmi tir.
4. UYGULAMA
STRATEJ A : 45 y l boyunca fonu sadece tahvile yönlendirmek
STRATEJ B : 45 y l boyunca fonu sadece hazine bonosuna yönlendirmek
STRATEJ C : 45 y l boyunca fonun %50’sini hazine bonosuna ve % 50’sini tahvile yönlendirmek
Bu çal mada Türkiye’deki farkl sosyal ve ekonomik yap lar yans tmas aç s ndan dü ük, orta ve
yüksek düzey olmak üzere üç farkl maa için incelemeler yap lm t r. Burada incelenen maa
miktarlar , s ras yla, TÜ K 2007 verilerine göre asgari ücret olarak 575 TL, açl k s n r olan 853 TL ve
yoksulluk s n r olan 2240 TL’nin aras nda olan 1000 TL ve yoksulluk s n r n n üstünde olan 3000
TL’dir. Her bir maa düzeyindeki ki iler için emekli olmalar durumunda ba!lanacak emekli ayl klar
296
, üç farkl yat r m stratejisi kullan larak, bireyin Desteklemeli Karma veya Bile ik Karma Emeklilik
Planlar ’ndan birine üye olmas durumu için, simulasyon çal mas yap larak bulunmu ve sonuçlar
kar la t r lm t r.
Bu çal mada kullan lan hayat tablosunda son ya 110 oldu!u için bugün 20 ya nda olan bireylerin 90
y l ya ayaca! varsay lm buna ba!l olarak emeklilik planlar nda aktif üye olarak 45 y l, pasif üye
olarak 45 y l sistemde bulunacaklar dikkate al nm t r.
Her bir ayl k maa miktar için 10000 adet simulasyon yap lm t r.
5. SONUÇ ve YORUMLAR
Yap lan simulasyon çal mas n n sonucunda her bir ayl k maa miktar için a a! daki sonuçlar elde
edilmi tir.
Ayl k maa miktar 575 TL ve u an 20 ya nda olan birey için yap lan simulasyon çal mas nda
Desteklemeli Karma ve Bile ik Karma Emeklilik Planlar ’na esas emekli ayl klar Strateji A, Strateji
B, Strateji C için, s ras yla Grafik 1, Grafik 2 ve Grafik 3’de gösterilmi tir :
Grafik 1 : Strateji A ve 575 TL’lik maa! için simulasyon grafi<i
Bu bireyin yapt ! katk lar sadece tahvile yönlendirildi!i durumlarda Desteklemeli ve Bile ik Karma
Emeklilik Planlar ’nda ayl k emekli maa lar genel olarak ayn seyirde izlemektedir. Bunun sebebi
ikisinde de emekli ayl klar belirlenirken faydas belli yöntemin dikkate al nmas d r.
297
Grafik 2 : Strateji B ve 575 TL’lik maa! için simulasyon grafi<i
Bu bireyin yapt ! katk lar sadece hazine bonosuna yönlendirildi!i durumlarda Desteklemeli ve
Bile ik Karma Emeklilik Planlar ’nda ayl k emekli maa lar genel olarak ayn seyirde izlemektedir.
Bunun sebebi ikisinde de emekli ayl klar belirlenirken faydas belli yöntemin dikkate al nmas d r.
Grafik 3 : Strateji C ve 575 TL’lik maa! için simulasyon grafi<i
Bu bireyin yapt ! katk lar n yar s hazine bonosuna di!er yar s tahvile yönlendirildi!i durumlarda
Desteklemeli ve Bile ik Karma Emeklilik Planlar ’nda ayl k emekli maa lar genel olarak ayn seyirde
izlemektedir.
Üç strateji içinde belirleyici istatistik de!erleri a a! daki Tablo 1’de verilmi tir :
Tablo 1 : 20 ya! nda ayl k 575 TL alan ki!i için simulasyon çal !mas sonucunda elde
edilen belirleyici istatistikler
STRATEJ= A
Belirleyici
istatistikler Desteklemeli
Karma E.P.
Ortalama
Varyans
Std.Sapma
Max
Min
Medyan
5027,13
6684584,70
2585,46
20362,50
1040,67
4392,96
Bile-ik
Karma E.P.
5027,13
6684584,70
2585,46
20362,50
1040,67
4392,96
STRATEJ= B
STRATEJ= C
Desteklemeli
Bile-ik
Desteklemeli
Bile-ik
Karma E.P. Karma E.P. Karma E.P. Karma E.P.
5027,13
6684584,70
2585,46
20362,50
1040,67
4392,96
298
5027,13
6684584,70
2585,46
20362,50
1040,67
4392,96
5027,13
6684584,70
2585,46
20362,50
1040,67
4392,96
5027,13
6684584,70
2585,46
20362,50
1040,67
4392,96
Yap lan 10000 simulasyon çal mas sonucunda, de!i ik yat r m stratejileri için, ba!lanacak ortalama
emekli ayl ! 5027,13 TL olarak bulunmu tur.
Ayl k 575 TL maa alan 20 ya ndaki birey için Desteklemeli Karma Emeklilik Plan ile Bile ik
Karma Emeklilik Plan için belirlenen ayl k emekli maa miktar farkl de!ildir.
Bu maa miktar için ba!lanacak emekli ayl ! son maa n belli bir oran olarak, yani faydas belli
esasl yönteme göre, belirlenmi tir. Bu yüzden yat r m getirisi , bu maa seviyesi için, ba!lanacak
emekli ayl ! n hesaplamada etkili de!ildir.
Ayl k maa miktar 1000 TL ve u an 20 ya nda olan birey için yap lan simulasyon çal mas nda
Desteklemeli karma ve bile ik karma emeklilik planlar na esas emekli ayl klar Strateji A, Strateji B,
Strateji C için, s ras yla Grafik 4, Grafik 5 ve Grafik 6’da gösterilmi tir :
Grafik 4 : Strateji A ve 1000 TL’lik maa! için simulasyon grafi<i
Bu bireyin yapt ! katk lar sadece tahvile yönlendirildi!i durumlarda Desteklemeli Karma Emeklilik
Plan için ayl k emekli maa Bile ik Karma Emeklilik Plan için ayl k emekli maa ndan daha
fazlad r. Bunun sebebi ise Desteklemeli Karma Emeklilik Plan ’nda emekli maa , katk s belli
yönteme göre hesapland ! için ki i emeklilik dönemine kadar yapt ! birikim üzerinden emekli maa
alacak ve tahvil getiri oranlar yüksek oldu!u için bu birikim büyük de!ere ula acakt r. Di!er taraftan
Bile ik Karma Emeklilik Plan ’nda ki inin emekli maa katk s belli ve faydas belli yöntemlerin e it
oranda uygulanmas yla hesaplanaca! çin Desteklemeli Karma Emeklilik Plan ’ndan daha az emekli
ayl ! ba!lanacakt r.
Grafik 5 : Strateji B ve 1000 TL’lik maa! için simulasyon grafi<i
299
Bu bireyin yapt ! katk lar sadece hazine bonosuna yönlendirildi!i durumlarda Desteklemeli Karma
Emeklilik Plan için ayl k emekli maa , Bile ik Karma Emeklilik Plan için ayl k emekli maa ndan
daha fazlad r.
Grafik 6 : Strateji C ve 1000 TL’lik maa! için simulasyon grafi<i
Bu bireyin yapt ! katk lar n yar s hazine bonosuna di!er yar s tahvile yönlendirildi!i durumlarda
Desteklemeli Karma Emeklilik Plan için ayl k emekli maa , Bile ik Karma Emeklilik Plan için ayl k
emekli maa ndan daha fazlad r.
Üç strateji içinde belirleyici istatistik de!erleri a a! daki Tablo 2’de verilmi tir :
Tablo 1 : 20 ya! nda ayl k 1000 TL alan ki!i için simulasyon çal !mas sonucunda
elde edilen belirleyici istatistikler
STRATEJ= A
Belirleyici
istatistikler
Ortalama
Varyans
Std.Sapma
Max
Min
Medyan
Desteklemeli
Karma E.P.
Bile-ik
Karma E.P.
11174,47
2153090174,16
46401,40
1363583,33
1809,83
7639,88
6629,25
587516715,18
24238,74
699500,00
923,58
4148,71
STRATEJ= B
Desteklemeli
Bile-ik
Karma E.P. Karma E.P.
5984,41
87800156,41
9370,17
204583,33
1040,67
4415,88
4454,09
5314361,61
2305,29
18348,33
916,83
3881,33
STRATEJ= C
Desteklemeli
Karma E.P.
8742,85
20218212,28
4496,47
35413,33
1809,83
7639,88
Bile-ik
Karma E.P.
5027,13
6684584,70
2585,46
20362,50
1040,67
4392,96
Bu tabloya bak ld ! nda her üç yat r m stratejisi içinde Desteklemeli Karma Emeklilik
Plan ’nda ba!lanan emekli ayl ! n n yüksek oldu!u sonucuna ula lm t r.
Yat r m stratejileri aç s ndan bak ld ! nda ise A yat r m stratejisi için ba!lanacak emekli
ayl ! en yüksektir. B yat r m stratejisi için ise getiri miktar çok dü ük oldu!u için
ba!lanacak emekli ayl ! en dü üktür.
300
Ayl k maa miktar 3000 TL ve u an 20 ya nda olan birey için yap lan simulasyon çal mas nda
desteklemeli karma ve bile ik karma emeklilik planlar na esas emekli ayl klar Strateji A, Strateji B,
Strateji C için, s ras yla Grafik 7, Grafik 8 ve Grafik 9’da gösterilmi tir :
Grafik 7 : Strateji A ve 3000 TL’lik maa! için simulasyon grafi<i
Bu bireyin yapt ! katk lar sadece tahvile yönlendirildi!i durumlarda Desteklemeli ve Bile ik Karma
Emeklilik Planlar ’nda ayl k emekli maa lar genel olarak ayn seyirde izlemektedir. Bunun sebebi
ikisinde de emekli ayl klar belirlenirken katk s belli esasl yöntemin dikkate al nmas d r.
Grafik 8 : Strateji B ve 3000 TL’lik maa! için simulasyon grafi<i
Bu bireyin yapt ! katk lar sadece hazine bonosuna yönlendirildi!i durumlarda Desteklemeli ve
Bile ik Karma Emeklilik Planlar ’nda ayl k emekli maa lar genel olarak ayn seyirde izlemektedir.
Bunun sebebi ikisinde de emekli ayl klar belirlenirken katk s belli yöntemin dikkate al nmas d r.
301
Grafik 9 : Strateji C ve 3000 TL’lik maa! için simulasyon grafi<i
Bu bireyin yapt ! katk lar n yar s hazine bonosuna di!er yar s tahvile yönlendirildi!i durumlarda
Desteklemeli ve Bile ik Karma emeklilik planlar nda ayl k emekli maa lar genel olarak ayn seyirde
izlemektedir.
Üç strateji içinde belirleyici istatistik de!erleri a a! daki Tablo 3’de verilmi tir :
Tablo 3 : 20 ya! nda ayl k 3000 TL alan ki!i için simulasyon çal !mas sonucunda
elde edilen belirleyici istatistikler
Belirleyici
=statistikler
Ortalama
Varyans
Std. Sapma
Max
Min
Medyan
STRATEJ= A
Desteklemeli
Bile-ik Karma
Karma E.P.
E.P.
11,174.47
11,174.47
2,153,090,174.16 2,153,090,174.16
46,401.40
46,401.40
1,363,583.33
1,363,583.33
1,809.83
1,809.83
7,639.88
7,639.88
STRATEJ= B
Desteklemeli
Bile-ik
Karma E.P.
Karma E.P.
5,027.13
5,027.13
6,684,584.70 6,684,584.70
2,585.46
2,585.46
20,362.50
20,362.50
1,040.67
1,040.67
4,392.96
4,392.96
STRATEJ= C
Desteklemeli
Bile-ik Karma
Karma E.P.
E.P.
6,629.25
6,629.25
587,516,715.18 587,516,715.18
24,238.74
24,238.74
699,500.00
699,500.00
923.58
923.58
4,148.71
4,148.71
Bu tabloya bak ld ! nda her üç yat r m stratejisi içinde Desteklemeli Karma Emeklilik Plan ve Bile ik
Karma Emeklilik Plan için ba!lanacak emekli ayl klar ayn d r.
Genel olarak sonuçlar yorumland ! nda A yat r m stratejisi için hesaplanan emekli ayl klar di!er
yöntemlere göre ba!lanan emekli ayl klar ndan daha yüksektir. Fakat A yat r m stratejisinde katk lar
sadece tahvile yönlendirilecektir ve bu oldukça risklidir.
B yat r m stratejisinde katk lar sadece hazine bonolar na yönlendirilece!inden getiri oranlar ,
di!erlerine göre daha dü üktür.
C yat r m stratejisinde ise getiri oranlar , A yat r m stratejisi ve B yat r m stratejisi için elde edilen
getiri oranlar n n aras nda yer almaktad r.
Türkiye ekonomisi, farkl etkenlere aç k olan ve varolan durumlardan kolayca etkilenen bir ülke
olmas nedeniyle, A yat r m stratejisinin uygulamaya konulmas ileriye yönelik öngörülerde belirsizlik
ve tutars zl klar n ya anmas na neden olacakt r. B yat r m stratejisi, A yat r m stratejisine göre daha
302
az risk içermesine ra!men beklentilerin alt nda sonuçlar verecektir.
Bu nedenle, A ve B yat r m stratejilerinin birer kombinasyonu eklinde hesaplanan ayn zamanda A ve
B stratejilerinin özelliklerini içinde bar nd ran C yat r m stratejisini kullanmak uygun bulunmu tur.
Çal mada kulland ! m z karma emeklilik planlar ndan Desteklemeli ve Bile ik Karma Emeklilik
Planlar aras nda bir kar la t rma yap l rsa Desteklemeli Karma Emeklilik Plan ’na göre hesaplanan
emekli ayl ! n n daha yüksek ç kt ! görülecektir.
6. ÖNER LER
Türkiye’de emeklilik sistemi genel olarak üç basamaktan olu maktad r.
Birinci basamak emeklilik sistemi, zorunlu, kamu taraf ndan yürütülen, herkes için asgari bir emeklilik
gelirinin sa!lanmas na yönelik sistemdir. Fayda esasl yöntem kullan l r. Sistemin finansman nda
da! t m esasl emeklilik sistemi kullan lmaktad r. Söz konusu sistemde ku aklar aras bir gelir da! l m
söz konusu oldu!undan sisteme katk yapacak olan genç nüfusun azalmas ya da sistemden emekli
ayl ! alan ya l nüfusun artmas , sistemin finansman n güçle tirmektedir. Ya am beklentisinin
artmas , do!um oran n n azalmas , e!itim süresinin artmas ve erken emeklilik gibi durumlar sistemin
finansman n güçle tiren etkenlere örnek olarak verilebilir.
kinci basamak emeklilik sistemi, birinci basamak emeklilik sistemini tamamlay c , zorunlu veya
gönüllü olarak olu turulmu , daha çok i yeri bazl emeklilik sistemleridir. Bu sistemde çal rken
al nan ücretle orant l bir emeklilik gelirinin sa!lanmas hedeflenir.
Üçüncü basamak emeklilik sistemi ise gönüllülük esas na dayal , ya l l kta kamu sosyal güvenlik
sistemine ek tasarruf imkan sa!layan bir sistemdir.Sistemin finansman nda fonlu sistem
kullan lmaktad r. Fonlu sistemde ki ilerin çal rken ödedi!i primler, çe itli yat r m araçlar nda
emekliliklerine kadar fonlanmaktad r. Katk s belli esasa dayanan sistemlerde yat r m araçlar n n
getirisne ba!l olarak, emekli ayl ! de!i kenlik gösterebilmektedir. Risk birey taraf ndan üstlenilir.
Ki iler emekli olduktan sonra ya am standartlar n ayn ekilde devam ettirebilmek için de!i ik
vak flara üye olmakta veya 2003 y l nda çal maya ba layan emeklilik sisteminin üçüncü basama! n
olu turan Bireysel Emeklilik Sistemi’ne üye olmaktad rlar. Bireysel Emeklilik Sistemi (BES)’ nde
emekli ayl klar ve ikramiye ödemeleri 2013 y l ndan itibaren ba layacakt r. Yani bu sistem için u an
girdiler mevcuttur. Buna ba!l olarak fon büyüklükleri de artmaktad r. Bu gayet do!ald r çünkü henüz
ç kt ödeme yapmam lard r. Bize göre emeklilik sistemleri için yeni ürünler ç kart lmas
gerekmektedir.
Bir sistemin ba ar l olup olmad ! n görmeden önce o sistemin ba ar s z olmas durumunda daha iyi
bir sisteme çevrilmesi veya ba ar l oldu!u durumda sistem için ba ar n n artt r lmas için önceden
çal malara ihtiyaç duyulmaktad r. Bu nedenle, bu çal mada dünyada uygulama alan h zla yay lan
karma emeklilik planlar ndan ikisi için de!i ik maa miktarlar ve farkl yat r m stratejileri için emekli
ayl klar n n ne kadar olaca! tahmin edilmeye çal lm t r. Yukar da da bahsedildi!i gibi emeklilik
sisteminin geli tirilmesi için yeni ürünlere ihtiyaç duyulmaktad r. Bu çal mam zda karma emeklilik
planlar n n emekli olan ki i için daha uygun oldu!unu ,Türkiye için, göstermek istedik.
Ülkeler kendi geçmi verilerini kullanarak kendilerine has yeni bir karma emeklilik sistemi
olu turabilirler. Böylece ülkelerin emeklilik sistemlerindeki yükümlülük art
azalt labilir hatta
303
ortadan kald r labilir. Hem sistemin hem de üyelerin memnun oldu!u bir emeklilik sistemine sahip bir
ülke kalk nabilir ve geli ebilir.
Kaynaklar
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
[15]
[16]
M. Cohen and M. Bilodeau, (1996), Assessing the Option Premium in Hybrid Pension Plans
M. Cohen,1991,The Financial Structure of Pension Plans,Proceedings,1st AFIR international
colloquium
A. J. W se and M. J. Annable,( 1991), The current state of asset /liability modelling in the U.K,
Proceddings, 1st AFIR international colloquium
S. Haberman,(1991), Stochastic approach to pension funding methods, Proceeding ,1st AFIR
international colloquium
C.Dayk n; D.Ballant ne ; D.Anderson , (1993) ,Modelling the assets and liabilities of pension plan,
Proceedings, 3rd AFIR nternat onal colloquium
J. F. Boulier, D. Florens, E. Trussant,(1995), A dynamic Model for Pension Funds Management,
Proceedings, 5th AFIR nternat onal colloquium
W.H. A tken , (1996),-A Problem–Solving Approach to Pension Funding and Valuation
Jr. Bowers ; N.L. Gerber; H.U Hickman ; J.C. Jones and C.J Nesbitt , 1986 , Actuarial Mathematics,
itasca, IL, The Society of Actuaries
Dr.Ç. Ergenekon ,(2001),Emeklili!in Finansman –Global Uygulamalar I ! nda Türkiye çin
Bir Özel Emeklilik Önerisi
ILO, (1995),Turkish Government Social Security and Health Insurance ReformProject,Supplementary
Modelling Report ,Ankara :Undersecretarist of Treasure ,
Hazine uzman Yard mc lar na Yönelik Hizmet içi E!itim Seminer Notlar ,(2005),T.C Ba bakanl k
Hazine Müste arl ! Sigortac l k Genel Müdürlü!ü Sigortac l k Genel Müdürlü!ü, Eylül
S. Sayan ve A. T. Teksöz ,(2002), Simulation of Risks and Benfits from Money
Purchase Pension Scheme for Turkey
www.hazine.gov.tr
www.pensionsboard.ie
www.tuik.gov.tr
www.imkb.gov.tr
Abstract
Stochastic Modelling of Hybrid Pension Scheme and An Application in Turkey
In this study, stochastic models were constituted for underpin arrangement and combination hybrid plan, which are
varities of hybrid plans, and is made their simulation works under differerent investment strategies, also is tred to forage
which is the hybrid pension scheme should be applied in Turkey.
Keywords: Hybrid scheme ; Defined Contribution Plan ; Defined Benefit Plan ; Underpin Arrangement Hybrid Plan ;
Combination Hybrid Plan ; Stochastic Model
304
Çoklu azalan ya am tablosu ve emeklilik sistemine bir
uygulamas
Hatice Tuzgöl
Ömer Esensoy
Sosyal Güvenlik Kurumu, Aktüerya ve Fon Yönetimi
Daire Ba#k., Balgat, 06520, Ankara
[email protected]
Hacettepe Üniversitesi, Fen Fakültesi, Aktüerya
Bilimleri Bölümü, Beytepe, 06800, Ankara
[email protected]
Özet
Bu çal:#man:n amac:, çoklu azalan modelleri incelemek ve emeklilik sistemine bir uygulamas:n:
yapmakt:r. Standart ya#am tablosu ölüm olas:l:G:n: göstermektedir. Ancak ölümlülük örüntüsü ölüm
nedenlerine göre de analiz edilebilmektedir. Çe#itli nedenlerle nüfustan azal:#lar:n incelendiGi modellere
çoklu azalan modeller denilmektedir. Ölüm nedenlerini gösteren ya#am modeli, hastal:k düzeyi
(morbidite) modeli ve emeklilik sitemi modeli çoklu azalan modeller olarak incelenebilir. Bu çal:#ma
sonucunda, Türkiye emeklilik sistemi verileri ile çoklu azalan ya#am tablosu haz:rlanm:#, ula#:lan
sonuçlar tart:#:lm:# ve yorumlanm:#t:r.
Anahtar Sözcükler: Çoklu azalan ya#am tablosu; Demografi; Ölüm oran:
Abstract
Multiple decrement life table and an application to pension data
Multiple Decrement Life Table is an extension of the standard mortality table. Standard mortality tables
are also called single decrement life table. A standard mortality table shows only one transition from
alive to dead. Multiple decrement life table can allow various states of decrement from population. Such
a model can be improved for the pension model. In these model, there is simultaneous operation of
several causes of decrement. A life fails because of one of these decrements. The aim of this study is to
discuss the multiple decrement life models and make an application to Turkish pension model data. The
application results reached are discussed and interpreted.
Key Words: Multiple decrement life table; Demography; Mortality rate
1. Giri!
Aktüeryal hesaplamalarda, demografik ve ekonomik olmak üzere iki temel varsay m bulunmaktad r.
Ya am tablosu temel bir demografik varsay m olu tururken, teknik faiz ekonomik bir varsay m
olu turmaktad r. Bu nedenle de aktüerya literatüründe, detayland r lm ya am tablosu çal malar
büyük ölçüde yer almaktad r. Bu çal man n amac , çoklu azalan modelleri incelemek ve Türkiye
emeklilik sistemi verileri ile bir uygulamas n yapmakt r.
Standard ya am tablosu sadece ölümlülük yap s n göstermektedir. Bu tablolar sadece ya amdan ölüm
durumuna geçi olas l ! n içermektedir. Ancak ölümlülük yap s ölümün nedenlerine göre de analiz
edilebilmektedir. Ölüm nedenlerine göre ölüm olas l klar n n incelendi!i ya am modeli, benzer ekilde
hastal k düzeyi (morbidite) modeli ve emeklilik sistemi modeli çoklu azalan modeller olarak
incelenebilir.
305
Son zamanlarda çoklu azalan ya am tablosu ile ilgili birçok çal ma yap lm t r. Keyfitz (1985) ve
Schoen (1975, 1988) çoklu azalan modeller üzerine birçok çal malar yapm lar ve i gücü de!i ikli!i
konusunda uygulama yapm lard r (Shavelle and Strauss, 1999). Shavelle ve Strauss (1999)
çal mas nda çoklu azalan ya am tablosunun uzun dönemli mikro veriler üzerinde çal mada
bulunmu lar, çoklu azalan ya am tablolar nda nüfustan ayr lan ki ilerin tahmininin nas l hesaplanaca!
konusunu tart m lar ve bu durumda Kaplan-Meier tahmin edicisinin kullan lmas n önermi lerdir.
Haberman (1983, 1984) çal malar nda çoklu azalan modelleri incelemi ve hastal k düzeylerinin
ölçümü üzerine bir model geli tirmi tir. Yine Waters (1984) ve Waters, Phil ile Wilkie (1987)
çal malar nda çoklu azalan modelleri incelemi ler ve bir yöntem geli tirmi lerdir.
2. Tek azalanl ya!am tablosu
Tek azalanl ya am tablosu, ki ilerin hayattan sadece ölüm nedeniyle azalmalar sonucu ortaya ç kan
ölümlülük yap s na dair x ve x+1 ya lar aras nda ölme olas l klar n göstermektedir.
Ya ayan
Ölüm
Bekil 1. Tek azalanl ya!am modeli
Ya gruplar na göre haz rlanan ya am tablolar nda n m x = n M x varsay ld ! nda ya a özel ölüm oran
ile ya a özel ölme olas l ! formülasyonlar s ras yla a a! daki gibidir (Preston, Heuveline ve Guillot,
2001);
Ya a özel ölüm oran ile ya a özel ölme olas l ! formülasyonlar s ras yla a a! daki gibidir;
n
mx #n Mx =
n qx
=
n qx
n dx
=
lx
=
n
D x x ve x + n ya lar aras nda nüfusta ölen ki ilerin say s
=
x ve x + n ya lar aras ndaki ki i y llar n say s
n Lx
(1)
Nüfusta x ve x + n ya lar aras nda ölen ki i say s
x Ya nda nüfusta ya ayan ki i say s
(2)
n× n m x
1 + (n n a x )F n m x
(3)
Burada;
x
= Ya
n m x = x ve x+n ya lar aras nda ya a özel ölüm oran n
= x ya nda hayatta kalan ki i say s n
n d x = x ve x+n ya lar aras nda ölen ki i say s n
n L x = x ve x+n ya lar aras nda ki i y l say s n
n a x = x ve x+n ya lar aras nda ölen ki iler için ortalama ki i y l say s n göstermektedir.
lx
n qx
nax
= x ve x+n ya aras nda ölme olas l ! n göstermektedir.
de!eri, ölümlerin Uniform (Tekdüze) da! l m göstermesi durumunda,
306
nax
=
n
Lx
n F l x + n n / 2( l x + l x + n ) n F l x + n n
=
= ’dir (Land, 2004).
l x l x+n
2
n dx
3. Çoklu azalan modeller ve çoklu azalan ya!am tablosu
Ya am tablosu fonksiyonlar olan t q xj , t p x , µ x , s x fonksiyonlar n n yan nda çoklu azalan ya am
tablosunda yer alan nüfustan azalma olas l ! n n ç kar mlar Daniel (1993) ve Scott (1990) taraf ndan
gösterilmi tir. Çoklu azalan ya am tablosu ile ilgili süreçlere ili kin formülasyonlar ve dayand !
bilimsel temeller öyledir (Preston, Heuveline ve Guillot, 2001);
x ve x+n ya lar aras nda j nedenine göre nüfustan azalmalar n/ayr lmalar n oran ,
( j)
( j)
n dx
Burada,
n mx =
n Lx
n
(4)
L x : x ve x+n ya lar aras nda ki i y l say s n göstermektedir.
x ve x+n ya lar aras nda ki inin bir y l içerisinde nüfustan j nedenine göre ayr lmas olas l ! ,
( j)
n qx
=
d (xj)
lx
=
( j)
n qx
nF n m (xj)
=
1 + (n n a x ) n m x
x = 1,2,..., n ,
l x : x ya nda nüfusta ya ayan ki i say s n göstermektedir, l x =
j = 1,2,..., m ,
(5)
"l
(6)
j
x
,
j
d (xj) : Nüfustan x ve x+1 ya lar aras nda j nedeni ile azalan ki i say s n göstermektedir ve
Çoklu azalan süreçte n q (xj) ’nin temel matematiksel formülasyonu
.
x +n
x
a
µ ( y ) dy ( j)
e .x
µ (a )da ile de
gösterilebilir.
x ve x+1 ya
aras ndaki nüfustan m nedene göre azalmalar n toplam say s ,
dx =
m
"d
j=1
x ve x+n ya lar aras nda ki inin nüfustan ayr lmas olas l ! ise öyledir;
n qx =
n dx
lx
=
m
"
( j)
n qx
(7)
j=1
A a! daki ekillerde çoklu azalan ya am modellerine örnekler verilmi tir.
Ya ayan
Ölüm
Neden 1
Ölüm
Neden 2
Ölüm
Neden 3
Bekil 2. Ölüm nedenlerine göre çoklu azalan model
307
Ölüm
Neden 4
( j)
x
Ölüm
Çal an
Hastal k
Ya ayan
Ayr lma
Bekil 3. kili azalan model
Ölüm
Bekil 4. Hastal k düzeyi (morbidite) - ya!am
modeli
Maluliyet
Ölüm
Çal an
Emeklilik
Ayr lma
Bekil 5. Emeklilik sistemi modeli
Çoklu azalan modeller, ölüm nedenlerine göre azalan model, sa!l k- hastal k modeli ve emeklilik
sistemi modeli yan nda kaza-ölüm modeli, uzun dönemli bak m modeli, maluliyet, ayr lma ve ölüm
modelleri içinde geli tirilebilir
(http://www.math.uconn.edu/~valdez/math288s08/Math288-Weeks5to6annot.pdf, 2009).
Di!er yandan geli mi ülkeler ile geli mekte olan ya da az geli mi ülkelerdeki belirli hastal k
türünden ölümlerin oranlar , kanserden ölenlerin oran gibi, ülkelerin geli mi lik düzeylerini
kar la t rmaya yönelik çal malar yap lmaktad r (Gjonca, 2006).
Çoklu azalan ya am tablosunda her bir azal nedeni, di!er nedenlerden ba! ms z i leyen bir süreç gibi
tekli azalan ya am modeli olarak tan mlanabilir. Bu tablolara ba!lant l tek azalanl ya am tablosu
denilmektedir (www.math.uconn.edu/~valdez/math288s08/Math288-Weeks3to5.pdf, 2009).
4. Uygulama
Çoklu azalan ya am tablosunun Türkiye için emeklilik sistemine uygulamas için Sosyal Güvenlik
Kurumu verileri dikkate al nm t r. 2008 y l Ocak ve Temmuz (y l ortas ) ay nda ya ve cinsiyet
baz nda hizmet akdi ile çal makta olan zorunlu sigortal lar, bu sigortal lardan 2008 y l içinde emekli
olanlar, 2008 y l içinde maluliyet ayl ! ba!lananlar, 2008 y l nda hizmet akdi ile çal makta iken
herhangi bir nedenden dolay ayr lanlar ve 2008 y l içinde ölen ki i say lar dikkate al nm t r. Bu
çoklu azalan emeklilik modelinde, aktif durumundan, emekli olma, malul olma, i ten ayr lma ya da
ölme durumlar ndan dolay aktif nüfustan azalma söz konusudur. Ayn durumlar dikkate al narak,
Skoog ve Ciecka (2007) bir çal ma yapm lar ve aktif olarak çal makta olan ki ilerin ortalama
çal ma hayat beklentilerine ili kin yöntem geli tirmi lerdir. Yine, i gücü ve göç konular nda çoklu
azalan ya am tablosu olu turmaya yönelik bir uygulama Smith (1992) taraf ndan incelenmi tir. Bu
çal mada, aktif olma durumu orijindeki durum olup, i ten sözle menin feshi gibi bir nedenden dolay
ayr lma, emekli olma, malul olma ve ölüm durumlar da geçi durumlar n göstermektedir.
Aktif olarak çal makta olan sigortal , mevzuat gere!i gerekli ko ullar sa!lamas durumunda emekli
olabilir, çal ma gücünün ya da i kazas ya da meslek hastal ! sonucu meslekte kazanma gücünün en
az %60’ n kaybetmesi durumunda sigortal malul olabilir, herhangi bir nedenden dolay hizmet akdi
sona erebilir, i ten ayr labilir, sigortal aktif olarak çal makta iken, emekli ya da malul iken ölebilir.
308
Sosyal güvenlik kurumunun verileri ile emeklilik sistemi için çoklu azalan ya am tablosunun
olu turulmas sonucu çal makta olan, i ten ayr lan, malul olan, emekli olan ve ölüm durumlar aras
geçi olas l klar elde edilmi tir. Bu geçi olas l klar emeklilik sistemine yönelik yap lacak tüm
çal malarda faydal olacakt r. Böylece yap lacak çal malarda kendi demografik yap m z yans tan
tablolar dikkate al narak daha sa!l kl ve güvenilir sonuçlar elde edilebilecektir.
Belirli bir nedene göre ya a özel ölüm oranlar na ili kin, genel formülasyonlar öyledir (Gjonca,
2006);
Belirli Bir Nedene Göre Ölüm Oran =
Belirli Bir Nedene Göre Ölümler
× 100,000
Y l Ortas Nüfus
(8)
Belirli Bir Nedene Göre x Ya Grubundaki Ölümler
x Ya Grubundaki Y l Ortas Nüfus
(9)
Çoklu azalan ya am tablosu olu turulurken ilk a ama, belirli bir nedene göre nüfustan ayr l lar n ya
da azal lar n oran n n ve olas l klar n n hesaplanmas d r. Bölüm 3’te çoklu azalan modellere yönelik
uygulamalarda yayg n olarak ba vurulan formülasyonlar olan E itlik (4), (5), (6) ve (7)’e göre
hesaplamalar yap lm t r. Veriler ya gurubu 5’erli olacak ekilde düzenlenmi tir. x ve x+n ya
grubundaki hesaplama a amalar u ekildedir;
Ölüm Nedenine Göre Ya a Özel Ölüm Oran =
I. Ya a özel nedene göre ayr lma oranlar n gösteren n m x ’lerin hesaplanmas ,
II.
nax
’in belirlenmesi,
ve n q xj olas l klar n n hesaplanmas ve
III.
n qx
IV.
Belirli bir nedene göre ayr lmalar n/azal lar n say lar n n n d xj = n q xj F l x ile l xj =
+
"
a =x
n
d aj , x ve
x+n ya grubundan sonra j nedeni ile nüfustan ayr lan ki i say lar n n bulunmas d r.
j
n mx =
j
n dx
Lx
j
n qx =
j
n dx
lx
= q xj F
m xj
Dj
=n qx F n x
n mx
n Dx
n
j
n qx =
n× n m xj
1 + (n n a x )F n m x
Yöntemin uygulanmas sonucunda, baz ya lara ili kin özellikle ileri ya larda çal makta olan
sigortal lar n davran lar ndan ve verilerden kaynakl baz sonuçlara düzeltme yap lm t r. Herhangi
bir nedenle sistemden ç k yapanlar n sisteme tekrar geri dönmeyece!i varsay m yap lm t r.
Çal makta olanlar n ölüm verileri derlenirken, cenaze yard m talep edilmemesi durumunda ölüm
kay tlar n n yetersiz olabilece!i ve sigortal l ktan ç k nedeninin ölüm oldu!u belirtilen ki i say lar na
ili kin sonuçlar dikkate al narak de!erlendirme yap lm t r. Ancak ç k nedenleri aras nda di!er
seçene!i de bulunmaktad r, Kuruma ölüm nedeni için bildirimde bulunulurken di!er seçene!inin de
i aretleniyor olma ihtimali vard r. Bu gibi nedenlerden dolay çal makta olanlar n ölüm say lar n n
belenenden az oldu!u sonucuna ula lm t r. Emeklilik sistemi modeli için çoklu azalan ya am tablosu
olu turulurken, çal makta olan ki ilere ili kin ölüm say lar CSO 1980 ya am tablosu ile
hesaplanm t r. Formülasyonda yer alan n a x de!erleri Türkiye için daha önce uygulanm
çal malardan al nm t r.
2008 y l verileri ile çal makta olan sigortal lara dair olu turulan emeklilik sistemi çoklu azalan
ya am tablo sonuçlar Çizelge 1. ve Çizelge 2’de sunulmu tur;
309
Çizelge 1. 2008 – Kad n emeklilik modeli çoklu azalan ya!am tablosu
Ya!
qx
qa
qe
qm
0-4
5-9
10-14
15-19
20-24
25-29
30-34
35-39
40-44
45-49
50-54
55-59
60-64
65-69
70-74
75-79
80-84
85+
0,0000
0,0177
0,1350
0,3993
0,4601
0,4033
0,3710
0,3980
0,6180
0,7443
0,7869
0,8224
0,8520
0,8767
0,8972
0,9144
0,9286
1,0000
0,0000
0,0176
0,1346
0,3970
0,4562
0,3981
0,3639
0,3861
0,3662
0,3439
0,1893
0,1155
0,0836
0,0895
0,0612
0,1055
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0007
0,0032
0,2396
0,3822
0,5818
0,6912
0,7493
0,7588
0,7959
0,7176
0,5735
0,2739
0,0000
0,0000
0,0000
0,0000
0,0000
0,0001
0,0006
0,0012
0,0022
0,0049
0,0048
0,0059
0,0090
0,0137
0,0122
0,0422
0,2294
0,2739
qö
lx
dx
da
de
dm
dö
la
le
lm
lö
0,0000 100.000,000
3,5876
0,0000
0,0000 0,0000
3,5876 96.170,9164 2.908,1113 58,2237 862,7486
0,0001 99.996,412 1.769,5190 1.762,1357
0,0000 0,0000
7,3833 96.170,9164 2.908,1113 58,2237 859,1611
0,0004 98.226,893 13.265,2215 13.223,4834
0,0000 0,0000 41,7381 94.408,7808 2.908,1113 58,2237 851,7777
0,0023 84.961,672 33.924,3033 33.727,3654
0,0000 0,0000 196,9379 81.185,2974 2.908,1113 58,2237 810,0396
0,0039 51.037,369 23.483,4954 23.281,0573
0,0000 1,8256 200,6125 47.457,9320 2.908,1113 58,2237 613,1017
0,0050 27.553,873 11.112,0956 10.970,4546
0,0000 4,0210 137,6199 24.176,8747 2.908,1113 56,3981 412,4892
0,0058 16.441,778 6.100,3481 5.983,4613
10,7085 10,1546 96,0237 13.206,4201 2.908,1113 52,3770 274,8693
0,0074 10.341,430 4.115,9094 3.993,0504
33,0296 12,8270 77,0024 7.222,9588 2.897,4028 42,2224 178,8456
0,0100
6.225,520 3.847,5812 2.279,7566 1.491,7844 13,8309 62,2093 3.229,9084 2.864,3732 29,3954 101,8432
0,0132
2.377,939 1.769,7856
817,8324 908,9584 11,5978 31,3970
950,1518 1.372,5888 15,5645 39,6339
0,0110
608,153
478,5416
115,0954 353,8404 2,9449
6,6610
132,3194 463,6304 3,9666
8,2369
0,0099
129,612
106,5923
14,9654
89,5883 0,7603
1,2783
17,2240 109,7901 1,0217
1,5759
0,0101
23,019
19,6125
1,9233
17,2492 0,2070
0,2330
2,2586
20,2018 0,2614
0,2976
0,0147
3,407
2,9867
0,3050
2,5850 0,0465
0,0502
0,3353
2,9526 0,0544
0,0646
0,0278
0,420
0,3770
0,0257
0,3344 0,0051
0,0117
0,0303
0,3676 0,0079
0,0144
0,0490
0,043
0,0395
0,0046
0,0310 0,0018
0,0021
0,0046
0,0332 0,0027
0,0027
0,1258
0,004
0,0034
0,0000
0,0021 0,0008
0,0005
0,0000
0,0022 0,0009
0,0006
0,4522
0,000
0,0003
0,0000
0,0001 0,0001
0,0001
0,0000
0,0001 0,0001
0,0001
Not: Burada a: nüfustan ayr lmay , e: emeklili!i, m: maluliyeti ve ö: ölümü ifade etmektedir. Bu durumda, qe emeklilik nedeniyle nüfustan ayr lma olas l ! n göstermektedir.
Yuvarlamadan dolay baz say lar s f r olarak gözükmektedir.
Çizelge 1. incelendi!inde çal makta olan kad n sigortal lar n bir y l içerisinden sistemden ayr lma olas l klar emekli olma, malul olma ve ölme
olas l klar ndan yüksektir. 40-44 ya grubundaki ki ilerin çal an nüfusundan ayr lma olas l klar %62’dir. 50-54 ya grubundaki çal makta olan ki iler için
emeklilik nedeniyle nüfustan ayr lma olas l ! %58’dir. 45-49 ya grubundaki çal makta olan kad nlardan, %39,96 s bu ya grubundan sonra sistemden
ayr lmakta, %57,52 si emekli olmakta, %0,65 i malul ayl ! almakta ve % 1,67 si ölüm nedeni ile nüfustan azalmaktad r.
Çizelge 2. 2008 – Erkek emeklilik modeli çoklu azalan ya!am tablosu
Ya!
qx
qa
qe
qm
0-4
5-9
10-14
15-19
20-24
25-29
30-34
35-39
40-44
45-49
50-54
55-59
60-64
65-69
70-74
75-79
80-84
85+
0,0001
0,0001
0,0915
0,4765
0,5861
0,5196
0,4746
0,4656
0,4823
0,8764
0,9309
0,9447
0,9558
0,9646
0,9717
0,9774
0,9819
1,0000
0,0000
0,0000
0,0911
0,4729
0,5806
0,5133
0,4661
0,4492
0,4273
0,3619
0,3802
0,2490
0,2143
0,0628
0,0808
0,1188
0,2158
0,3043
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0009
0,0057
0,0387
0,4954
0,5212
0,6672
0,7014
0,8454
0,7939
0,6544
0,2988
0,1304
0,0000
0,0000
0,0000
0,0000
0,0000
0,0003
0,0009
0,0018
0,0029
0,0035
0,0074
0,0079
0,0158
0,0279
0,0498
0,0982
0,2324
0,2174
qö
lx
dx
da
de
dm
dö
la
le
lm
lö
0,0001 100.000,000
8,2616
0,0000
0,0000 0,0000
8,2616 98.117,0400 916,8922 37,7589 928,3089
0,0001 99.991,738
8,8338
0,0000
0,0000 0,0000
8,8338 98.117,0400 916,8922 37,7589 920,0474
0,0004 99.982,905 9.149,7358 9.108,5414
0,0000 0,0000 41,1944 98.117,0400 916,8922 37,7589 911,2136
0,0036 90.833,169 43.281,3672 42.956,6407
0,0000 0,0000 324,7264 89.008,4986 916,8922 37,7589 870,0192
0,0054 47.551,802 27.867,8423 27.608,5085
0,0000 1,4874 257,8464 46.051,8578 916,8922 37,7589 545,2928
0,0060 19.683,959 10.226,9498 10.104,0723
0,0000 5,4043 117,4731 18.443,3493 916,8922 36,2715 287,4464
0,0068
9.457,010 4.488,2234 4.407,4584
8,2294 8,1772 64,3584 8.339,2770 916,8922 30,8672 169,9732
0,0090
4.968,786 2.313,5482 2.231,9974 28,1533 8,7534 44,6441 3.931,8186 908,6628 22,6901 105,6148
0,0134
2.655,238 1.280,6296 1.134,6559 102,7206 7,7672 35,4859 1.699,8212 880,5095 13,9367 60,9707
0,0156
1.374,608 1.204,7342
497,5151 680,9486 4,8036 21,4668
565,1653 777,7889 6,1694 25,4848
0,0221
169,874
158,1390
64,5871 88,5307 1,2619
3,7593
67,6501 96,8403 1,3658
4,0179
0,0206
11,735
11,0866
2,9222
7,8297 0,0927
0,2420
3,0630
8,3096 0,1038
0,2586
0,0243
0,649
0,6199
0,1390
0,4549 0,0103
0,0158
0,1408
0,4799 0,0111
0,0166
0,0286
0,029
0,0277
0,0018
0,0242 0,0008
0,0008
0,0019
0,0251 0,0009
0,0009
0,0471
0,001
0,0010
0,0001
0,0008 0,0001
0,0000
0,0001
0,0008 0,0001
0,0001
0,1060
0,000
0,0000
0,0000
0,0000 0,0000
0,0000
0,0000
0,0000 0,0000
0,0000
0,2349
0,000
0,0000
0,0000
0,0000 0,0000
0,0000
0,0000
0,0000 0,0000
0,0000
0,3479
0,000
0,0000
0,0000
0,0000 0,0000
0,0000
0,0000
0,0000 0,0000
0,0000
Not: Burada a: nüfustan ayr lmay , e: emeklili!i, m: maluliyeti ve ö: ölümü ifade etmektedir. Bu durumda qe emeklilik nedeniyle nüfustan ayr lma olas l ! n göstermektedir.
Yuvarlamadan dolay baz say lar s f r olarak gözükmektedir.
Çizelge 2. incelendi!inde, erkek çal makta olanlar n y l içerisinden sistemden ayr lma olas l klar ,
kad n çal anlar n sonuçlar gibi di!er nedenlere göre yüksektir. 40-44 ya grubundaki ki ilerin çal an
nüfusundan ayr lma olas l klar %48’dir. 50-54 ya grubundaki çal makta olan ki iler için emeklilik
nedeniyle nüfustan ayr lma olas l ! %52’dir. 45-49 ya grubundaki erkek çal makta olan ki ilerden,
%41,11 i bu ya grubundan sonra sistemden ayr lmakta, %56,58 i emekli olmakta, %0,45 i malullük
ayl ! almakta ve % 1,85 i ölüm nedeni ile nüfustan azalmaktad
A a! daki ekillerde i ten ayr lmalar n say s n n göreceli olarak di!er nedenlerden daha yüksek olmas
nedeniyle ayr lma d nda emeklilik, malullük ve ölüm nedenleri ile çal makta olan nüfustan
azal lar n say lar na ili kin da! l mlar rekil 5. ve rekil 6.’da kar la t r lm t r.
Emekli, Malul ve Ölen Ki!i S ay lar
- 2008 Erkek
Emekli, Malul ve Ölen Ki!i S ay lar
- 2008 Kad n
3500
3000
2500
2000
1000
1500
1000
500
0
400
800
600
200
Ya" Grubu
Ya" Grubu
Emeklilik
Maluliyet
9
15
-1
9
25
-2
9
35
-3
9
45
-4
9
55
-5
9
65
-6
9
75
-7
9
85
+
5-
59
15
-1
9
25
-2
9
35
-3
9
45
-4
9
55
-5
9
65
-6
9
75
-7
9
85
+
0
0
0
Emeklilik
Ölüm
Maluliyet
Ölüm
Bekil 5. l x (Emekli, Malul, Ölüm) Say lar - Kad n Bekil 6. l x (Emekli, Malul, Ölüm) Say lar - Erkek
5. Sonuç ve Öneriler
Hizmet akdine ba!l olarak çal makta olan zorunlu sigortal lar n davran lar dinamik bir yap
göstermektedir. Bu nedenle kurulacak bir çoklu azalan emeklilik modeline yönelik sa!l kl sonuçlara
ula abilmek için baz durumlar n verilerden etkisinin yok edilmesi gerekmektedir. Ölüm ya da
maluliyet gibi durumlarda bildirim de bulunulmamas gibi durumlar, sigortal lar n kay tlar n n ve
bildirimlerinin güvenilirli!i, sigortal n n ilgili y lda durum de!i ikli!inin gerçekle mesi ancak ayl k
ba!lama i inin bir sonraki y la devredilmesi gibi durumlar incelenmelidir. Bu gibi kay t yetersizlikleri
hesaplama sonuçlar n do!rudan etkileyecektir. Bu nedenle, belirli bir dönemde i e ba lam olan
sigortal lar n, uzun bir dönemde hangi nedenlerle çal an nüfustan azald klar na dair sa!l kl veriler
derlenmelidir.
Çal ma sonucunda, çoklu azalan emeklilik modeli için çoklu azalan ya am tablosu olu turulmu tur.
Çal makta olan sigortal lar n ya ve cinsiyete göre,
5 q x - Çal makta olanlar n herhangi bir nedenden dolay sistemden
(1)
5 q x - Çal makta olan ki ilerin nüfustan ç kma olas l klar ,
( 2)
- Emekli olma nedeni ile sistemden ç kma olas l klar ,
5qx
( 3)
5 q x - Malul olma nedeni ile sistemden ç kma olas l klar ve
( 4)
- Ölüm nedeni ile sistemden ç kma olas l klar bulunmu tur.
5qx
312
ayr lma/ç kma olas l klar ,
Ayr ca ya ve cinsiyet baz nda 2008 y l çal makta olan sigortal lar n beklenen aktif çal ma
sürelerine, 5 e (x0 ) , ili kin tahminler elde edilmi tir. Bu sonuçlar Çizelge 3.’te sunulmu tur. Çizelge 3.
incelendi!inde 0-4 ya lar ndaki bir erkek sigortal için beklenen aktif çal ma süresinin 21 y l oldu!u,
0-4 ya lar n ndaki bir kad n sigortal için beklenen aktif çal ma süresinin 23 y l oldu!u görülmektedir.
Yine 45-49 ya grubundaki çal makta olan erkek sigortal lar n ortalama 3 y l aktif olarak, kad n
sigortal lar n ortalama 4 y l aktif olarak çal maya devam ettikten sonra, çal an nüfustan, i ten
ayr lma, emekli olma, malul olma ya da ölüm gibi nedenlerden dolay azalmas beklenmektedir.
Çizelge 3. Çal !makta olan sigortal lar n beklenen aktif olarak çal !ma süreleri - 2008
Çal !makta Olan Sigortal lar n
Beklenen Aktif Çal !ma Süreleri
(ex)
Ya!
0-4
5-9
10-14
15-19
20-24
25-29
30-34
35-39
40-44
45-49
50-54
55-59
60-64
65-69
70-74
75-79
80-84
85+
Kad n
22,53
17,53
12,81
9,36
8,82
9,17
8,65
7,21
5,20
4,28
3,94
3,68
3,49
3,32
3,19
3,10
3,21
6,54
Erkek
21,47
16,47
11,47
7,34
6,60
7,33
7,50
6,92
5,61
3,34
3,02
2,94
2,87
2,81
2,77
2,73
2,73
6,54
Kaynaklar
[1] Daniel, J. W., (1993), Multiple-Decrement Models and Corresponding Conditional Single-Decrement
Models, Actuarial Research Clearing House, Vol. 1, 229-237.
[2] Gjonca, A., (2006), Training on Preparing a Life Table for Turkey, Project Completion Report,
Etortop/PMT/ACP-2/FWC/20.
[3] Haberman, S., (1983), Decrement Tables and The Measurement of Morbidity: I, JIA 110, 361-381.
[4] Haberman, S., (1984), Decrement Tables and The Measurement of Morbidity: II, JIA 110, 361-381.
[5] Land, C., Yang Y. and Yi, Z., (2004), Mathematical Demography.
[6] Lecture Notes on Multiple Decrement Models, www.math.uconn.edu/~valdez/math288s08/Math288Weeks3to5.pdf, 2009
[7] Lecture Notes on Multiple State Models, http://www.math.uconn.edu/~valdez/math288s08/Math288Weeks5to6annot.pdf, 2009
[8] Shavelle, R. And Strauss, D., (1999), A Long Period Multistate Life Table Using Micro Data,
Mathematical Population Studies, Vol, 7(2), pp. 161-177.
[9] Scott, A., (1990), A Note On Life Table and Multiple - Decrement Life Table Functions, JIA 117, 671675.
[10] Schoen, R., (1975), Constructing Increment-Decrement Life Tables. Demography, 12(2):313–324.
[11] Schoen, R., (1988), Practical uses of multistate population models, Annual Review of Sociology,
14:341-361.
313
[12] Skoog, G. R. And Ciecka J. E., (2007), Worklife Expectancy Via Competing Risks/Multiple Decrement
Theory With an Application to Railroad Workers, Journal of Forensic Economics, 19 (3), 243-260.
[13] Smith, D. P., (1992), Formal Demography, Plenum, 139-183.
[14] Preston, S. Heuveline, P., Guillot, M., (2001), Demography, Measuring and Modelling Population
Processes, Blackwell, p. 71-91
[15] Waters H. R. (1984), An approach to the Study of Multiple State Models, SSA III, 363-374.
[16] Waters, H. R., Phil D. And Wilkie, A. D., (1987), A Short on the Construction of Life Tables and
Multiple Decrement Tables, JIA, 114, 569-580.
314
ki De!i kenli Ba! ml Birle ik Poisson Sürecinin
Olas l k Fonksiyonu
Gamze ÖZEL
Ceyhan NAL
Hacettepe Üniversitesi
statistik Bölümü
06800-Beytepe, Ankara, Türkiye
[email protected]
Hacettepe Üniversitesi
statistik Bölümü
06800-Beytepe, Ankara, Türkiye
[email protected]
1. Giri!
{N t , t 8 0} , homojen ya da homojen olmayan Poisson süreci olsun. t zaman do!rusu boyunca ortaya
ç kan her olaya X1 , X 2 , X 3 ,... ile gösterilen ayn da! l ml , ba! ms z (kesikli ya da sürekli) raslant
de!i kenleri ba!lans n ve bu raslant de!i kenleri {N t , t 8 0} sürecinden de ba! ms z olsunlar. Buna
göre,
St =
Nt
"X
(1)
i
i =1
biçiminde tan mlanan {S t , t 8 0} sürecine birle ik Poisson süreci ad verilir.
Birle ik Poisson süreci hem olas l k kuram nda hem de biyoloji, sismoloji, risk kuram , meteoroloji
gibi birçok uygulama alan nda önem ta maktad r. S t ’nin olas l k fonksiyonu olan p St (s) ’yi elde
etmek güçtür. Ancak, p St (s) ’nin yinelemeli e itliklere dayanmayan kapal biçimi, {N t , t 8 0} ’nin D
parametresi ile homojen Poisson süreci oldu!u ve X i , i = 1, 2, 3,..., raslant de!i kenlerinin kesikli
oldu!u durum için Özel ve nal [3] taraf ndan elde edilmi tir.
{N t , t 8 0} , D parametresi ile homojen Poisson süreci; X i , i = 1, 2,..., N t , ayn da! l ml , ba! ms z ve
kesikli raslant de!i kenleri; Yi , i = 1, 2,..., N t , ayn da! l ml , ba! ms z ve kesikli raslant de!i kenleri
olsun. X i ve Yi , i = 1, 2,..., N t , raslant de!i kenleri {N t , t 8 0} sürecinden de ba! ms z olmak üzere
S(t1)
=
Nt
"X
i
,
S(t 2)
=
i =1
Nt
"Y .
(2)
i
i =1
biçiminde tan mlanan {S(t1) , t 8 0} ve {S(t1) , t 8 0} birle ik Poisson süreçleri iki de!i kenli ba! ml
birle ik Poisson sürecini olu tururlar. E itlik (2)’de ba! ml l k {N t , t 8 0} sürecinden
kaynaklanmaktad r.
Ba! ml birle ik Poisson süreçleri özellikle aktüeryal çal malarda portföydeki poliçelerin birbirine
ba! ml olmas durumunda ele al nmaktad r [2, 6, 7]. Ancak, bu çal malarda S(t1) ve S(t 2 ) ’nin bile ik
olas l k fonksiyonu olan p S(1) , S( 2 ) (s1 , s 2 ) ’nin kapal biçimine ula lamam t r. Bu çal mada, iki
t
de!i kenli ba! ml
t
birle ik Poisson sürecinin bile ik olas l k fonksiyonunun elde edilmesi
315
amaçlanm t r. Bu amaçla kinci Bölüm’de S t ’nin olas l k fonksiyonu üzerinde durulmu ; Üçüncü
Bölüm’de S(t1) ve S(t 2 ) ’nin bile ik olas l k fonksiyonuna ula lm ve bu fonksiyona ili kin say sal
örnekler verilmi tir. Dördüncü Bölüm, tart ma ve sonuca ayr lm t r.
2. S t ’nin Olas l k Fonksiyonu
{N t , t 8 0} , D parametresi ile homojen Poisson süreci oldu!u ve X i , i = 1, 2, 3,..., kesikli raslant
de!i kenleri için P(X i = k ) = p k , k = 0, 1, 2, ..., olmak üzere St ’nin olas l k fonksiyonu,
pS t (s) = e
Dt
+
(D t ) n
P(X1 + X 2 + ... + X n = s / N t = n ) ,
n = 0 n!
"
= 0,
s = 0, 1, 2, ...
(3)
ö.d.
biçiminde yaz labilir. Ancak E itlik (3)’ten olas l klara ula mak güç oldu!undan Panjer [4] a a! daki
yinelemeli e itlikler önerilmi tir:
p St (0) = e
Dt [1 P ( X =0 ) ]
pS t (s) = Dt
s
k
"sp
k =1
,
X ( k ) pS t
(s k ) , s 8 1 .
(4)
E itlik (4)’teki yinelemeli e itlikler s’nin büyük de!erleri için uzun hesaplamalar gerektirmektedir.
Özel ve nal [3], {N t , t 8 0} , D parametresi ile homojen Poisson süreci ve X i , i = 1, 2, 3, ..., raslant
de!i kenlerinin P(X i = k ) = p k , k = 0, 1, 2, ..., olas l klar ile kesikli oldu!u durum için P(S t = s) ,
s = 0, 1, 2,..., olas l klar n için a a! daki gibi elde etmi lerdir:
p S t ( 0) = e
Dt (1 p 0 )
pS t (1) = e
Dt (1 p 0 )
p S t ( 2) = e
Dt (1 p 0 )
p St (3) = e
Dt (1 p 0 )
p S t ( 4) = e
Dt (1 p 0 )
pS t (5) = e
Dt (1 p 0 )
+
,
(D1t )
,
1!
(D1t ) 2 (D 2 t )
+
,
2!
1!
(D1 t ) 3 (D1 t )(D 2 t ) (D 3 t )
+
+
,
3!
1!1!
1!
(D1t ) 4 (D1t ) 2 (D 2 t ) (D1t )(D 3 t ) (D 2 t ) 2 (D 4 t )
+
+
+
+
,
4!
2!1!
1!1!
2!
1!
(5)
(D1t )5 (D1t )3 (D 2 t ) (D1t ) 2 (D 3 t ) (D1t )(D 2 t ) 2 (D1t )(D 4 t ) (D 2 t )(D 3 t )
+
+
+
+
+
5!
3!1!
2!1!
1! 2!
1!1!
1!1!
(D 5 t )
,
1!
M
Burada k = 0, 1, 2,... için, D k = Dp k ’d r.
316
E itlik (5)’te verilen olas l klar incelendi!inde, kö eli parantez içindeki terimlerin tamsay
parçalanmalar na ba!l oldu!u görülmü tür. Örne!in, s = 5 , {1,1,1,1,1}, {1,1,1,2}, {1,2,2}, {1,1,3},
{2,3}, {1,4}, {5} olmak üzere yedi farkl biçimde parçalanmaktad r. Bu parçalanmalardan
yararlanarak Oracle program nda P (St = s) , s = 0, 1, 2,..., olas l klar n hesaplayan bir program
yaz lm t r.
3. S (t1) ve S (t 2 ) ’nin Bile!ik Olas l k Fonksiyonu
Baz durumlarda birden çok birle ik Poisson sürecinin birlikte incelenmesi gerekebilir. Örne!in sigorta
irketleri, hem konut hem de ta t sigortal bireylerin bir deprem sonucundaki zararlar n hesaplarken
her iki poliçeyi birlikte incelemelidir. Bu bölümde, E itlik (2)’de verilen S(t1) ve S(t 2 ) ’nin bile ik
olas l k fonksiyonunun elde edilmesi amaçlanm t r. Bu nedenle öncelikle Ambagaspitiya [1] ve Sundt
[5] taraf ndan yap lan pS , S (s1 , s 2 ) ile ilgili önceki çal malar incelenmi ve p S , S (s1 , s 2 ) ’nin kapal
1
1
2
2
biçimine ula lamad ! ancak yinelemeli baz e itliklerin verildi!i görülmü tür. Ambagaspitiya [1]
taraf ndan yap lan çal mada, Xi ve Yi , i = 1, 2,..., N ’nin bile ik olas l k fonksiyonunun p X , Y (k , j) ve
N raslant de!i keninin D parametresi ile Poisson da! l ml olmas durumunda pS
1
, S2
(s1 , s 2 ) ’nin
a a! daki e itlikleri sa!lad ! gösterilmi tir:
pS1 ,S 2 (0,0) = exp[D(p 0 q 0 1)] ,
pS1 ,S 2 (s1 , s 2 ) = D
pS1 ,S 2 (s1 , s 2 ) = D
s1
s2
k
"" s
k =1 j =1
s1
s2
1
j
"" s
k =1 j =1
2
pS1 ,S 2 (s1 k , s 2
j)p X , Y ( k, j) ,
s1 8 1
pS1 ,S 2 (s1 k , s 2
j)p X , Y (k , j) ,
s2 8 1 .
(6)
Burada, P( X = 0) = p 0 ve P( Y = 0) = q 0 olarak tan mlanm t r. Sundt [5] taraf ndan E itlik (6)’ya
seçenek olarak a a! daki e itlik önerilmi tir:
pS1 ,S 2 (s1 , s 2 ) = D
s1
s2
""
k =1 j =1
k+j
pS1 ,S 2 (s1 k , s 2
s1 + s 2
j)p X , Y (k , j) .
(7)
E itlik (6) ve E itlik (7)’den iki de!i kenli ba! ml birle ik Poisson da! l m na ait olas l klara ula mak
s1 ve s 2 ’nin büyük de!erleri için güç oldu!undan E itlik (2)’de verilen iki de!i kenli birle ik Poisson
sürecine ili kin olas l klara ula mak da güçle mektedir [8].
Bu çal mada, S(t1) ve S(t 2 ) ’nin bile ik olas l k fonksiyonuna ula abilmek için P( X i = k ) = p k ,
k = 1, 2,..., m ve P (Yi = j) = q j , j = 1, 2,..., r, olarak al nm ve
p S(1) ,S( 2 ) (s1 , s 2 ) = P(S (t1) = s1 , S (t 2 ) = s 2 )
t
t
=P
Nt
"
i =1
X i = s1 ,
Nt
"Y = s
i
2
i =1
317
=
"
P( N t = n )P
n
"
X i = s1 ,
i =1
n
n
"Y = s
i
2
i =1
= P( N t = 0) + P( N t = 1) P(X1 = s1 , Y1 = s 2 )
+ P ( N t = 2)P(X1 + X 2 = s1 , Y1 + Y2 = s 2 )
+ P ( N t = 3)P( X1 + X 2 + X 3 = s1 , Y1 + Y2 + Y3 = s 2 ) + ...
= P( N t = 0) + P( N t = 1)P(X1 = s1 )P(Y1 = s 2 )
+ P( N t = 2) P(X1 + X 2 = s1 ) P(Y1 + Y2 = s 2 )
(8)
+ P( N t = 3)P(X1 + X 2 + X 3 = s1 )P(Y1 + Y2 + Y3 = s 2 ) + ...
elde edilmi tir. Buradan, S(t1) ve S(t 2 ) ’nin bile ik olas l k yarat c fonksiyonu,
gS(1) ,S( 2 ) (z1 , z 2 ) =
t
t
+
+
+
"""
s2 n =0
s1
=
+
=
P(N t = n )P
+
"" P( N
s1
s2
+
+
"""
s1
s2 n =1
+
+
+
+
"Y = s
i
z1s1 zs22
i=1
n
"
X i = s1 ,
i =1
t
2
n
"Y = s
i
2
z1s1 z s22
i =1
= 0)[P(S(t1) = 0, S(t 2 ) = 0) / P(N t = 0)] z10 z 02
s2
+
+
"""
s1
n
= 0)[P(S(t1) = s1 , S(t 2 ) = s 2 ) / P(N t = 0)]z1s1 z s22
t
P(N t = n )P
"" P( N
s1
"
X i = s1 ,
i=1
+
+
n
P(N t = n )P
s2 n =1
n
"
i =1
= P( N t = 0) + P( N t = 1)
+
+
+
"" P(X
s1
1
n
"Y = s
i
2
z1s1 z s22
i =1
+
"" P(X
s1
+ P ( N t = 2)
X i = s1 ,
1
= s1 )P(Y1 = s 2 )z1s1 z s22
s2
+ X 2 = s1 ) P(Y1 + Y2 = s 2 )z1s1 z s22 + ...
s2
= P( N t = 0) + P( N t = 1)g X (z1 )g Y (z 2 ) + P( N t = 2)[g X (z1 )] [g Y (z 2 )] + ... (9)
2
2
biçiminde yaz lm t r. N t raslant de!i keninin olas l k yarat c fonksiyonunun,
g N t (z) =
+
" P( N
t
= i ) z i = e Dt ( z
1)
(10)
i =0
oldu!u dü ünüldü!ünde,
g S(1) ,S( 2 ) (z1 , z 2 ) = g N t [g X (z1 )g Y ( z 2 )]
t
(11)
t
318
yaz labilece!i görülmü tür. Buna göre, E itlik (11)’den,
g S(1) ,S( 2 ) (z1 , z 2 ) = e Dt[ g X ( z1 ) g Y ( z 2 )
t
1]
t
=e
Dt Dt [ g X ( z1 ) g Y ( z 2 )]
=e
Dt Dt ( p0 + p1z1 +...+ p m z1m )( q 0 +q1z 2 +...+q r z r2 )
=e
Dt Dt ( p0q 0 + p0q1z 2 +...+ p 0q r z r2 + p1q 0z1 + p1q1z1z 2 +...+ p1q r z1z r2 + p mq 0z1m +...+ p mq r z1mz r2 )
e
e
e
(12)
bulunmu tur ve p s(1) ,s( 2 ) (s1 , s 2 ) bile ik olas l k fonksiyonuna ula mak için a a! da verilen e itlikten
t
t
yararlan lm t r:
s1 +s 2
g S(1) ,S( 2 ) (z1 , z 2 )
t
P (S(t1)
=
s1 , S(t 2 )
t
z1s1 z s22
s1! s 2 !
= s2 ) =
z1 = z 2 = 0
.
(13)
Buna göre, P(S(t1) = 0, S(t 2 ) = 0) olas l ! a a! daki gibi yaz labilir:
P (S (t1) = 0, S(t 2) = 0) = g S(1) ,S( 2 ) (0, 0) = e
t
t
Dt Dtp o q 0
e
= e Dt ( p o q 0
1)
.
(14)
E itlik (13)’ten elde edilen baz olas l klar,
P (S(t1) = 0, S(t 2 ) = 1) = e Dt ( poq0
1)
P(S(t1) = 0, S(t 2) = 2) = e Dt ( poq0
1)
P (S(t1) = 0, S(t 2) = 3) = e Dt ( poq0
1)
P (S(t1) = 1, S(t 2) = 0) = e Dt ( poq0
1)
P(S(t1) = 2, S(t 2 ) = 0) = e Dt ( poq0
1)
P (S(t1) = 3, S(t 2) = 0) = e Dt ( poq0
1)
P (S(t1) = 1, S(t 2 ) = 1) = e Dt ( poq0
1)
(Dtp 0 q1 )
,
1!
(Dtp 0 q1 ) 2 (Dtp 0 q 2 )
,
+
2!
1!
(Dtp 0 q1 ) 3 (Dtp 0 q 2 )(Dtp 0 q1 ) (Dtp 0q 3 )
,
+
+
3!
1!1!
1!
(Dtp1q 0 )
,
1!
(Dtp1q 0 ) 2 (Dtp 2 q 0 )
,
+
2!
1!
(Dtp1q 0 ) 3 (Dtp 2 q 0 )(Dtp1q 0 ) (Dtp 3q 0 )
,
+
+
3!
1!1!
1!
(Dtp1q 0 )(Dtp 0 q1 ) (Dtp1q1 )
+
,
1!1!
1!
319
(15)
P (S(t1) = 1, S(t 2) = 2) = e Dt ( poq0
1)
P(S(t1) = 1, S(t 2 ) = 3) = e Dt ( poq0
1)
+
(Dtp1q 0 )(Dtp 0 q1 ) 2 (Dtp1q1 )(Dtp 0 q1 ) (Dtp1q 0 )(Dtp 0 q 2 ) (Dtp1q 2 )
+
+
+
,
2!1!
1!1!
1!1!
1!
(Dtp1q 0 )(Dtp 0 q1 ) 3 (Dtp1q1 )(Dtp 0 q1 ) 2 (Dtp1q 0 )(Dtp 0 q 2 )(Dtp 0 q1 )
+
+
1!3!
1!2!
1!1!1!
(Dtp1q 2 )(Dtp 0 q1 ) (Dtp 0 q 3 )(Dtp1q 0 ) (Dtp1q1 )(Dtp 0 q 2 ) (Dtp1q 3 )
,
+
+
+
1!1!
1!1!
1!1!
1!
P (S(t1) = 2, S(t 2) = 1) = e Dt ( poq 0
1)
(Dtp1q 0 ) 2 (Dtp 0 q1 ) (Dtp 2 q 0 )(Dtp 0 q1 ) (Dtp1q1 )(Dtp1q 0 ) (Dtp 2 q1 )
+
+
+
2!1!
1!1!
1!1!
1!
biçiminde elde edilmi tir.
4. Say sal Örnekler
Bu bölümde, iki de!i kenli ba! ml birle ik Poisson süreci ile ilgili say sal örnekler verilecektir.
{N t , t 8 0} , D = 0.5 parametresi ile homojen Poisson süreci ve X i , k = 1, 2,..., m, raslant
de!i kenlerinin µ = 0.75 ve Yi , j = 1, 2,..., r, raslant de!i kenlerinin = 0.5 ile Poisson da! l ml
oldu!u durumda t = 2 için E itlik (15)’ten elde edilen olas l klar rekil 1’de gösterilmi tir.
0,5
0,4
P(S(t1) = s1 , S(t 2) = s 2 )
0,3
0,2
0,1
0,0
0
1
2
s1
3
0
4
Bekil 1. D = 0.5 , µ = 0.75 ,
1
2
3
4
s2
= 0.5 , t = 2 için olas l klar
{N t , t 8 0} , D = 0.75 parametresi ile homojen Poisson süreci ve X i , k = 1, 2,..., m, raslant
de!i kenlerinin = 0.85 ve Yi , j = 1, 2,..., r, raslant de!i kenlerinin G = 0.95 ile geometrik da! l ml
oldu!u durumda t = 4 için E itlik (15)’ten elde edilen olas l klar rekil 2’de gösterilmi tir.
P(S(t1) = s1 , S(t 2) = s 2 )
0,6
0,5
0,4
0,3
0,2
0,1
0,0
0
Bekil 2. D = 0.75 ,
1
2
s1
3
4
0
1
2
3
4
s2
= 0.85 , G = 0.95 , t = 4 için olas l klar
320
{N t , t 8 0} , D = 0.25 parametresi ile homojen Poisson süreci ve X i , k = 1, 2,..., m, raslant
de!i kenlerinin µ = 0.25 ile Poisson da! l ml ve Yi , j = 1, 2,..., r, raslant de!i kenlerinin = 0.70 ile
geometrik da! l ml oldu!u durumda t = 5 için E itlik (15)’ten elde edilen olas l klar rekil 3’te
gösterilmi tir.
0,4
P(S(t1) = s1 , S(t 2) = s 2 )
0,3
0,2
0,1
0,0
0
1
2
3
s1
Bekil 3. D = 0.25 , µ = 0.25 ,
4
0
1
2
3
4
s2
= 0.70 , t = 5 için olas l klar
{N t , t 8 0} , D = 0.25 parametresi ile homojen Poisson süreci oldu!u, X i , k = 1, 2,..., m, raslant
de!i kenlerinin (m = 5, p = 0.3) ile ikiterimli (binom) da! l ma ve Yi , j = 1, 2,..., r, raslant
de!i kenlerinin (l = 10, q = 0.6) ile ikiterimli da! l ma sahip oldu!u durumda t = 3 için E itlik
(15)’ten elde edilen olas l klar rekil 4’te gösterilmi tir.
P(S(t1) = s1 , S(t 2) = s 2 )
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
0
1
2
s1
3
4
0
1
2
3
4
s2
Bekil 4. D = 0.25 , (m = 5, p = 0.3) , (l = 10, q = 0.6) , t = 3 için olas l klar
{N t , t 8 0} , D = 0.10 parametresi ile homojen Poisson süreci ve X i , k = 1, 2,..., m, raslant
de!i kenlerinin (m = 5, p = 0.8) ile ikiterimli (binom) da! l ml ve Yi , j = 1, 2,..., r, raslant
de!i kenlerinin µ = 0.5 ile Poisson da! l ml oldu!u durumda t = 3 için E itlik (15)’ten elde edilen
olas l klar rekil 5’te gösterilmi tir.
P(S(t1) = s1 , S(t 2) = s 2 )
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,0
0
1
2
3
s1
4
0
1
2
3
4
s2
Bekil 5. D = 0.10 , (m = 5, p = 0.8) , µ = 0.5 , t = 3 için olas l klar
321
Son olarak, {N t , t 8 0} , D = 0.75 parametresi ile homojen Poisson süreci ve X i , k = 1, 2,..., m,
raslant de!i kenlerinin (m = 10, p = 0.2) ile binom da! l ml ve Yi , j = 1, 2,..., r, raslant
de!i kenlerinin = 0.85 ile geometrik da! l ml oldu!u durumda t = 3 için E itlik (15)’ten elde
edilen olas l klar rekil 6’da gösterilmi tir.
P(S(t1) = s1 , S(t 2) = s 2 )
0,10
0,05
0,00
0
1
s12
3
Bekil 6. D = 0.75 , (m = 10, p = 0.2) ,
4
0
1
2
3
4
s2
= 0.85 , t = 3 için olas l klar
5. Sonuç ve tart !ma
E itlik (2)’de verilen S(t1) ve S(t 2) ’nin bile ik olas l k fonksiyonu için genel bir formüle ula lm ve
böylece bu sürecin çevrebilimi, sismoloji, risk kuram , biyoloji vb. birçok alanda etkin biçimde
kullan labilece!i gösterilmi tir. Ayr ca, bu çal mada elde edilen sonuçlar yard m yla farkl ba! ml l k
yap lar na sahip iki de!i kenli birle ik Poisson süreçlerine ili kin bile ik olas l k fonksiyonlar n n da
bulunabilece!i görülmü tür.
Anahtar sözcükler: Birle ik Poisson süreci; ki de!i kenli ba! ml birle ik Poisson süreci, Oracle
veritaban .
Kaynaklar
[1]
R. S. Ambagaspitiya, (1999), On the distributions of two classes of correlated aggregate claims,
Insurance: Mathematics and Economics, 24, 301-308.
[2] D. Homer, (2006), Aggregating bivariate claim severities with numerical Fourier Inversion, Casualty
Actuarial Society Forum.
[3] G. Özel, C. nal, (2008), The probability function of the compound Poisson process and an application to
aftershock sequence in Turkey, Environmetrics, 19, 1, 79-85.
[4] H. Panjer, (1981), Recursive evaluation of a family of compound distributions, ASTIN Bulletin 12 (1):
22–26.
[5] B. Sundt, (1999), On multivariate Panjer recursions, ASTIN Bulletin, 29, 29-45.
[6] R. Vernic, (2001), Evaluating the bivariate compound generalized poisson distribution, Annals of ^tiinp.
University of Constanta, 9, 2, 181-192.
[7] G. Wang, K. C. Yuen, (2005), On a correlated aggregate claims model with thinning-dependence
structure, Insurance: Mathematics and Economics, 36, 456-468.
[8] X. Wu, K. C. Yuen, (2003), A discrete-time risk model with interaction between classes of business,
Insurance: Mathematics and Economics, 33, 117-133.
322
Abstract
The probability function of bivariate dependent compound Poisson process
Compound Poisson process plays very important roles both in probability theory itself and its applications in biology,
seismology, risk theory, meteorology, etc. Bivariate dependent compound Poisson process can also be useful especially for
actuarial science. However, the explicit probability of the bivariate dependent compound Poisson processes has not been
derived yet. In this study, the probability function of the bivariate dependent compound Poisson proces is obtained and
numerical examples are given.
Keywords: Compound Poisson process; Bivariate dependent compound Poisson process; Oracle database.
323
Gamma müdahaleli ödüllü yenile sürecinin ergodik
da< l m için zay f yak nsakl k üzerine
Rovshan AL YEV
KTÜ Fen Edebiyat Fakültesi
statistik ve Bilgisayar Bilimleri
Bölümü 61080, Trabzon
[email protected]
Tahir KHAN YEV
TOBB Ekonomi ve Teknoloji
Üniversitesi Endüstri
Mühendisli!i Bölümü, 06560,
Sö!ütözü, Ankara,
[email protected]
Nurgül OKUR BEKAR
KTÜ Fen Edebiyat Fakültesi
Matematik Bölümü
61080, Trabzon
[email protected]
Özet
Bu çal mada, kesikli ans kar ml bir ödüllü yenileme süreci ( X ( t ) ) incelenmi tir. Bu sürecin ergodik
da! l m fonksiyonu bir yenileme fonksiyonu yard m yla ifade edilmi tir. Daha sonra, kesikli ans kar m n
ifade eden O1 rasgele de!i keni ( , D ) ,
> 0 , D > 0 parametreli gamma da! l m na sahip olarak kabul
edilmi tir. Bu varsay m alt nda WD ( t ) = D ( X ( t ) s ) stokastik sürecinin ergodik da! l m fonksiyonunun
a * 0 iken bir asimptotik ifadesi elde edilmi tir. Ayr ca, WD ( t ) süreci için zay f yak nsama teoremi
ispatlanm ve limit da! l m n n kesin ifadesi elde edilmi tir. Son olarak, yakla k formüllerin do!rulu!u
Monte-Carlo simülasyon metodu ile test edilmi tir.
Anahtar Kelimeler: Ödüllü yenileme süreci; kesikli #ans kar:#:m:; Laplace dönü#ümü; asimptotik aç:l:m;
zay:f yak:nsakl:k; Monte-Carlo metodu.
Abstract
In this study, a renewal-reward process with a discrete interference of chance ( X ( t ) ) is investigated. The
ergodic distribution of this process is expressed by a renewal function. Furthermore, we assume that the
random variable O1 which describes the discrete interference of chance has a gamma distribution with
parameters
(
,D) ,
> 0 , D > 0 . Under this assumption, an asymptotic expansion for the ergodic
distribution of the stochastic process
WD ( t ) = D ( X ( t ) s ) is obtained, as a * 0 . Moreover, the weak
convergence theorem for the process WD ( t )
is proved and exact expression of the limit distribution is
derived. Finally, the accuracy of the approximation formula is tested by Monte-Carlo simulation method.
Keywords: Renewal-reward process; discrete interference of chance; Laplace transform; asymptotic
expansion; weak convergence; Monte-Carlo method.
1. Giri!
Ödüllü yenileme süreçleri klasik yenileme süreçlerinin bir genelle tirilmesidir. Bu nedenle
yenileme süreçleri için elde edilmi büyük say lar kanunu ve merkezi limit teoremi, Blackwell ve
anahtar yenileme teoremleri gibi klasik sonuçlar n benzerleri ödüllü yenileme süreçleri için de elde
edilmi tir. Bunun yan s ra, bu alanda yap lm birçok çal mada ödüllü yenileme süreçlerinin
karakteristikleri için asimptotik aç l mlar elde edilmi tir. Bunlardan k saca bahsedilecektir:
324
Brown ve Solomon [3], ödüllü yenileme sürecini a a! daki gibi ifade etmi lerdir:
, t < X0
/ 0
5 N( t) 1
C(t) = 0
, t80,
5 " Yi , t 8 X 0
1 i =0
burada
{( X , Y ) , i = 0,1, 2,K}
i
i
sahip rasgele de!i kenler,
ba! ms z rasgele vektörlerin bir dizisi, ( Xi , Yi ) , i 8 1 ayn da! l ma
{Xi , i = 0,1, 2,K}
N(t) = min { j: S j > t} ’d r. Bu çal mada,
j
bir
yenileme dizisi, S j = " X i , j = 0,1, 2,K ve
{C(t), t 8 0}
i =0
ödüllü yenileme sürecinin birinci ve ikinci
momentleri için iki terimli asimptotik aç l m elde etmi lerdir. Ayr ca, {C(t), t 8 0} sürecinin
varyans n n Var C(t) = ct + d + o(1) eklinde oldu!unu göstermi , burada c ve d’yi aç k olarak
belirlemi lerdir.
Bu alanda di!er önemli bir çal ma Alsmeyer [2] taraf ndan yap lm t r:
n
n
i=0
i =0
Sn = " X i , U n = " Yi için
{(S , U )}
n
n
n 80
ortak toplam süreçtir ve burada ( X1 , Y1 ) , ( X 2 , Y2 ) , … birbirinden ba! ms z ve ayn da! l ma sahip
olmak üzere, ( X 0 , Y0 ) , ( X1 , Y1 ) , … , birbirinden ba! ms z iki boyutlu rasgele vektörlerin bir dizisidir.
Bu çal mas nda ( X 0 , Y0 ) ve ( X1 , Y1 ) üzerindeki uygun ko ullar alt nda, t * + iken
T(t) = inf {n 8 0 : Sn > t} , t 8 0
olmak üzere,
EU T( t ) , Var U T( t)
ve
Cov ( U T( t ) ,T(t) ) için asimptotik aç l m elde etmi tir. Ayn
zamanda, benzer sonuçlar
N(t) = sup {n 8 0 : Sn ! t}
ve X 0 , X1 non-negatif olmak üzere, EU N( t) , Var U N( t) ve Cov ( U N( t ) , N(t) ) için de elde etmi tir.
Ödüllü yenileme süreçlerinin en çok uyguland ! alanlardan biri de risk teorisidir. Alsmeyer’in
çal mas ndaki X1 , X 2 ,… ve Y1 , Y2 , … kolektif risk teorisinde s ras yla sigorta ödemeleri
aras ndaki zamanlar , sigorta ödemelerinin miktar n göstermektedir. Literatürde {N(t)}t 8 0 , “sigorta
ödemelerinin say s ” ve {U N( t ) }
t 80
, “toplam sigorta ödemelerinin süreci” veya “risk süreci” olarak yer
almaktad r. (bak, örne!in, Ross [7]).
Csenki [1], retrospektif ödül yap l ödüllü yenileme sürecinin beklenen de!erinin
asimptotikli!ini incelemi tir.
Levy ve Taqqu [6], a! r kuyruklu da! l ma sahip bile enleri olan ödüllü yenileme sürecini
incelemi lerdir. Jewell [13], yenileme sürecine gömülü ödüllü yenileme sürecinin de!i imlerini
(fluctation) incelemi tir.
Khaniyev [8], t * + iken TN( t ) genelle tirilmi yenileme sürecinin ilk üç momentini
analitik ve asimptotik yöntemlerle incelemi tir
Yukar da sözü edilen çal malar n ço!unda, bir ödüllü yenileme sürecinin karakteristikleri
t * + iken baz ko ullar alt nda asimptotikli!i incelenmi tir. Biz ise, onlardan farkl olarak kesikli
ans kar ml müdahaleli ödüllü yenileme sürecini inceleyece!iz.
Model. Burada, a a! daki kurallarla çal an bir stok kontrol modeli ele al nacakt r:
Varsayal m ki, bir depodaki stokun miktar
( X ( t ) ) t = 0 ba lang ç
an nda
X(0) P X 0 P s + v ’d r. Burada 0 < s < + olup, s’ ye stokun kontrol seviyesi denir.
Ayr ca, varsayal m ki, depodaki stokun miktar ( X ( t ) ), önceden belirlenmi
s kontrol
seviyesinin alt na ininceye dek geçen rasgele anlar T1 ,T2 ,,...,Tn ,... ile ve bu rasgele anlardaki rasgele
325
miktardaki azalmalar ise •1 , • 2 , , ..., • n , ... ile gösterilirse, k saca depodaki stokun miktar ( X ( t ) )
a a! daki gibi de!i mektedir:
X ( T1 ) P X1 = s+v •1 , X ( T2 ) P X 2 = s+v
( •1 + •2 ) ,...,
X ( Tn ) P X n = s+v
n
"•
i =1
i
, n 81.
Sürecin bu biçimde de!i mesine “do!al de!i im” denilebilir. X n < s oldu!u ilk anda ( &1 ),
sistemin “do!al de!i imine” müdahale ederek, depodan stokun seviyesini ani olarak, s + Ž1
pozisyonuna getirilsin ve böylece sistemin çal mas n n birinci periyodu tamamlanm olsun.
Daha sonra, sistemin yeni ba lang ç durumu olan Ž1 noktas ndan ba layarak “do!al
de!i imini” birinci devredekine benzer biçimde sürdürsün. Stok miktar s kontrol seviyesinin alt na
indi!i takdirde, sisteme birinci devredeki gibi müdahale edilerek, stokun seviyesi ani olarak s + Ž 2
pozisyonuna getirilsin ve süreç benzer ekilde devam etsin. Bu modeli ifade eden stokastik sürece
diskret müdahaleli süreç denir.
Not edilmelidir ki, O1 rasgele de!i keninin da! l m fonksiyonu uygun ekilde de!i tirilerek
onlarca özel bariyerli yar -Markov süreç elde etmek mümkündür. Bu çal mada Ž1 , Ž 2 , K
pozisyonlar n [ 0, + ) aral ! nda, gamma da! l ma sahip ba! ms z rasgele de!i kenler olarak kabul
edilmektedir.
Burada amaç, bu modeli ifade eden X ( t ) sürecini matematiksel olarak in a etmek ve sürecinin
olas l k karakteristiklerini incelemektir.
2. Sürecin Matematiksel Kurulu!u
{( 9
n
, @n , O n )} , n 8 1 dizisi
( R, S, P )
olas l k uzay nda tan mlanm
birbirinden ba! ms z ve ayn
da! l ma sahip rasgele de!i kenlerin üçlüler dizisi olsun. 9i , @i ve O i rasgele de!i kenleri yaln z
pozitif de!erler als n, ayr ca O i rasgele de!i keni ( , D) , > 0 , D > 0 parametreli gamma da! l m na
sahip olsun. Buna ilaveten 9i , @i ve O i rasgele de!i kenlerinin kendi aralar nda ba! ms z olduklar
varsay ls n. rasgele de!i kenler dizinden yaralanarak
tan mlans n:
n
{ Tn }
ve
{ Sn }
yenileme dizileri a a! daki gibi
n
Tn = " 9i ,
Sn = " @i , T0 = S0 = 0 , n = 1, 2,... .
i =1
i =1
Ayr ca, tam de!erler alan { N n } , n 8 0 rasgele de!i kenler dizisi a a! daki gibi tan mlans n:
N 0 = 0 , N 1 = N ( v ) = inf {k 8 1 : S k > v} , v > 0 ;
{
N n +1 = inf k 8 N n + 1: Sk
}
SN n > O n , n 8 1 ,
ve & n = TNn , n 8 0 , &0 = 0 ; C ( t ) = max{n 8 0 : Tn ! t}, t > 0
burada inf{T} = ++ art kabul edilmi tir.
Bu notasyonlar göz önünde bulundurularak, a a! daki stokastik süreç in a edilsin:
{
X ( t ) = max s, s+Ž n
}
S• ( t ) + SN n , e!er z n ! t<z n +1 , n 8 0 ,
burada O 0 = s + v ve SC ( &n + 0 ) = SNn .
Literatürde X ( t ) sürecine “Gamma Müdahaleli Ödüllü Yenileme Süreci” denilmektedir.
326
3. Sürecin Ergodikli<i
Önerme 3.1 (Ergodiklik teoremi). Ba lang ç rasgele de!i kenler dizisi
için ek olarak a a! daki ko ullar sa!las n:
{(9 n , @ n , O n )}, n 8 1 ,
1) E9 1< + , 2) E@ 1< + , 3) @1 rasgele de!i keni aritmetik olmayan bir rasgele de!i ken olsun.
Bu takdirde, X(t ) süreci ergodiktir.
Not: Genel ergodik teorem’in 2. k sm na göre (bak örne!in, Gihman, Skorohod [4], s.243), Önerme
3.1’in artlar sa!land ! nda, zaman ortalamalar t * + iken 1 olas l ! ile mekan ortalamas na (Sf )
yak nsayacakt r. Bu art a a! da önerme eklinde verilecektir.
Önerme 3.2. Önerme 3.1’in ko ullar sa!land ! nda, her ölçülebilir s n rl
f (x) fonksiyonu
( f : [ 0, ++ ) * R ) için a a! daki ba! nt 1 olas l ! ile do!rudur:
++
t
1
1
lim J f (t) P lim . f (X(u))du = Sf =
t *+ t
t *+ t
0
. . f (x)
U @ (v) U @ (s + v x) d'(v)dx
s 0
,
+
.U
@
(3.1)
(v)d'(v)
0
+
burada U @ (x) = " Fn (x) ’d r.
n =0
Not. Önerme 3.2’de f (x)
fonksiyonunun yerine indikatör fonksiyonu yaz l r ve gereken
sadele tirmeler yap l rsa, X ( t ) sürecinin ergodik da! l m fonksiyonu a a! daki gibi yaz labilir:
EU @ (O1 + s x)
Q X (x) = 1
, x 7 [s, + ) .
(3.2)•
EU @ (O1 )
rimdi X ( t ) := X ( t ) s olsun. Bu durumda, X ( t ) sürecinin ergodik da! l m fonksiyonu a a! daki gibi
yaz labilir:
EU @ (O1 x)
Q X (x) = 1
.
(3.3)
EU @ (O1 )
rimdi, teorik ve baz durumlarda pratik yönden önemini göz önünde bulundurularak, X ( t )
sürecinin ergodik da! l m fonksiyonu için özel hallerde kesin formüller elde edilecektir.
Örnek 3.1. Önerme 3.1’in ko ullar sa!land ! nda, X ( t ) sürecinin ergodik da! l m fonksiyonu
mevcuttur. Bu durumda @1 rasgele de!i keni µ > 0 parametreli üstel da! l ma sahip, O1 rasgele
de!i keni ( , D) parametreli gamma da! l m na sahip iken, her x 8 0 ,
sürecinin ergodik da! l m fonksiyonu a a! daki ekilde yaz labilir:
327
> 0 , D > 0 için X ( t )
µx
g
D+ µ
Q X% (x) = 1
burada g
,D
(x) =
D
x
U( )
1
e
,D
(x) + 1
Dx
, G
,D
Dµx
(1 G
D+ µ
(x) =
x
D
v
U( ) .0
1
e
,D
( x )) ,
Dv
(3.4)
dv ,
+
U( ) = . x
1
e x dx Euler’in gamma fonksiyonudur.
0
Örnek 3.2. Önerme 3.1’in ko ullar sa!land ! nda, X ( t ) sürecinin ergodik da! l m fonksiyonu
mevcuttur. Bu durumda @1 rasgele de!i keni µ > 0 parametreli Erlang da! l ma sahip, O1 rasgele
de!i keni ( , D ) parametreli gamma da! l m na sahip iken, her x 8 0 ,
sürecinin ergodik da! l m fonksiyonu a a! daki ekilde yaz labilir:
Q X (x) = 1 c
µx
g
2D
D
burada g ,D (x) =
x
U( )
c=
, D (x) +
1
e
Dx
µ
3
+
2D 4
µx
(1 G
2
(D + 2µ)
, G ,D+ 2µ (x) =
U( )
4D (D + 2µ)
(D + 2µ) (3D + 2µ ) + D
+1
, D (x) ) +
x
.v
1
e
D
e2µx
4 D + 2µ
( D+ 2 µ )v
> 0 , D > 0 için X ( t )
(1
G
, D+ 2 µ
(x) ) , (3.5)
dv ,
0
’d r.
Not. Örneklerden de görüldü!ü gibi, X(t) sürecinin da! l m fonksiyonu için kesin formüller elde
edilmi tir. Fakat bu formüllerin karma k matematiksel yap lar ndan dolay , pratik problemlerin
çözümlenmesinde kullan lmas zordur. Bu nedenle, pratikte daha kolay uygulanabilir formüllerin elde
edilmesi gereksinimi vard r. Bu amaçla, a a! da @1 daha genel s n ftan al narak WD (t) = D (X(t) s)
sürecinin ergodik da! l m fonksiyonu için D * 0 iken iki terimli asimptotik aç l m elde edilecektir.
4. Sürecin ergodik da< l m fonksiyonu için asimptotik aç l m
rimdi, WD (t) = D (X(t) s) sürecinin ergodik da! l m fonksiyonunun D * 0 iken asimptotik
davran incelenecektir. Bunun için öncelikle a a! daki yard mc teorem verilecektir:
Yard mc Teorem. E!er g(x) ( g : R + * R ) fonksiyonu s n rl ve lim g(x) = 0 ise bu takdirde, her
x *+
> 0 için a a! daki ba! nt do!rudur:
+
t
lim . t 1e t g( )dt = 0 .
D* 0
D
0
(4.1)
Teorem 4.1. Önerme 3.1’in ko ullar alt nda D * 0 iken WD (t) sürecinin ergodik da! l m
fonksiyonunun asimptotik aç l m , her x 8 0 için a a! daki gibi yaz labilir:
m2
Q WD (x) = R (x) +
(4.2)
( G (x) R (x) ) D + o(D) ,
2m1
burada m k = E(@1k ) , k = 1, 2 ; R (x) =
1
x
. (1
G (t) ) dt ; G (x) =
0
x
1
t
U ( ) .0
1
e t dt ’d r.
rimdi, WD ( x ) sürecinin ergodik da! l m fonksiyonu ( Q WD (x) ) için D * 0 iken zay f
yak nsama teoremi verilecektir:
328
Teorem 4.2 (Zay f yak nsama teoremi). Teorem 4.1’in ko ullar alt nda her x 8 0 ve
a a! daki sonuç do!rudur:
x
1
lim Q WD (x) = R (x) P . (1 G (t) ) dt ,
D*0
> 0 için
(4.3)
0
x
burada G (x) =
1
t
U ( ) .0
1
e t dt ’d r.
5. Simülasyon sonuçlar
Bu k s mda, somut modeller için, Monte Carlo simülasyon yöntemini uygulayarak olas l k
karakteristiklerinin hesaplanmas ve elde edilen sonuçlar n asimptotik sonuçlarla kar la t r lmas
aç s ndan önemi olan simülasyon sonuçlar verilecektir.
Bu nedenle, Ž1 ragele de!i keni ( 5,1) ve ( 5,0.5 ) parametreli gamma da! l m na ve @1 rasgele
de!i keni ise ( 2,10 ) parametreli gamma da! l m na sahip rasgele de!i kenler olsun. Bunun yan s ra,
WD ( t ) sürecinin ergodik da! l m fonksiyonunun Monte Carlo simülasyon yöntemi ile elde edilen
de!erleri ise Q̂ WD ( x ) ile gösterilsin. Ayr ca, Teorem 4.1’de elde edilen asimptotik aç l m n ilk iki
teriminin kesin de!erleri ise Q WD ( x ) ile i aret edilsin. S ras yla, ‘ k , ‚ k ve APk notasyonlar ise
a a! daki gibi, WD ( t ) sürecinin ergodik da! l m fonksiyonunun asimptotik ifadesi ile simülasyon
sonuçlar aras ndaki mutlak hatay , ba! l hatay ve do!ruluk yüzdelerini göstersin:
ˆ ( x ) Q ( x ) ; ‚ = ‘ k 100% ve AP = 100 ‚ , k = 1, 2 .
‘k = Q
WD
WD
k
k
k
Q̂ WD ( x )
Bu durumda, baz hesaplamalar sonucunda a a! daki simülasyon sonuçlar n elde edilir:
Tablo 1: D = 1 için simülasyon sonuçlar
x
Q̂ WD ( x )
Q WD ( x )
‘1
‚1 (%)
AP1 (%)
0,2
0,4
0,6
0,8
1,0
1,2
1,4
1,6
1,8
2,0
0,03890
0,07770
0,11650
0,15530
0,19410
0,23280
0,27140
0,30975
0,34780
0,38535
0,038800063
0,077601225
0,116404990
0,155206876
0,193988040
0,232708602
0,271304393
0,309687006
0,347746650
0,385356902
0,0000999370
0,0000987749
0,0000950100
0,0000931239
0,0001119600
0,0000913983
0,0000956067
0,0000629945
0,0000533505
0,0000690164
0,256907457
0,127123456
0,081553624
0,059963884
0,057681748
0,039260430
0,035227236
0,020337200
0,015339410
0,001791006
99,74309254
99,87287654
99,91844638
99,94003612
99,94231825
99,96073957
99,96477276
99,97966280
99,98466059
99,99820899
Tablo 2: D = 0.5 için simülasyon sonuçlar
x
Q̂ WD ( x )
Q WD ( x )
‘2
‚ 2 (%)
AP2 (%)
0,2
0,4
0,6
0,03936000
0,07874000
0,11815000
0,039400029
0,078800294
0,118198945
0,0000400289
0,0000602936
0,0000489455
0,10169942600
0,07657299600
0,04142657200
99,89830057
99,92342700
99,95857343
329
0,8
1,0
1,2
1,4
1,6
1,8
2,0
0,15754000
0,19692000
0,23618000
0,27528000
0,31411000
0,35255960
0,39049964
0,157585084
0,196931075
0,236187033
0,275278747
0,314108700
0,352559624
0,390499642
0,0000450844
0,0000110752
0,0000703335
0,0000125294
0,0000129951
0,0000237329
0,0000166158
0,02861776100
0,00562422100
0,00297796300
0,00045515200
0,00041371100
0,00000673161
0,00000425500
99,97138224
99,99437578
99,99702204
99,99954485
99,99958629
99,99999327
99,99999957
Sonuç olarak, tablolarda, sürecin 108 say da trajektoryas için Q̂ WD ( x ) ’ n asimptotik aç l mlar n
do!rulu!u, Monte Carlo simülasyon metodu ile test edilerek elde edilmi tir. Tablolardan görüldü!ü
gibi, D parametresinin çok küçük de!erleri için bile oldukça yüksek do!ruluk seviyesinde yakla k
formüller elde edilmi tir. Örne!in, D = 1 parametresi için do!ruluk yüzdeleri ( APk ) %99’dan fazlad r.
Kaynaklar
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
A.Csenki, (2000), Asymptotics for renewal-reward processes with retrospective reward structure.
Oper. Res. Lett. 26, 201–209.
G. Alsmeyer, (1988), Second-order approximations for certain stopped sums in extended renewal
theory, Advances in Applied Probability, 20, 391–410.
M. Brown, H. Solomon, (1975), A second-order approximation for the variance of a renewal reward
process, Stochastic Proces. Appl. 3, 301–314.
M.V. Federyuk, (1984), Asymptotics for Integrals and Series. Nauka, Moscow.
I.I. Gihman and A.V.Skorohod (1975), Theory of stochastic processes II, Springer, Berlin.
J.B. Levy, M.S. Taqqu, (2000), Renewal reward processes with heavy-tailed inter-renewal times and
heavy-tailed rewards, Bernoulli 6(1), pp. 23–44.
S.M. Ross, (1983), Stochastic Processes. New York: John Wiley & Sons.
T.A. Khaniyev, (2005), About moments of Generalized renewal process, Transactions of NAS of
Azerbaijan, Series of Phy. Tech. And Mth. Sciences, 25, 1, 95-100.
T.A. Khaniyev and Z. Kucuk (2004), Asymptotic expansions for the moments of the Gaussian
random walk with two barriers, Statistics & Probab. Letters, 69, 1, 91-103.
T.A. Khaniyev and Z. Mammadova, (2006), On the stationary characteristics of the extended model
of type (s,S) with Gaussian distribution of summands, Journal of Statistical Computation and
Simulation, 76, 10, 861-874.
T.A. Khaniyev, T. Kesemen, R.T. Aliyev and A. Kokangul, (2008), Asymptotic expansions for the
moments of a semi-Markovian random walk with exponential distributed interference of chance,
Statistics & Probability Letters, 78, 6, 785–793.
W. Feller, (1971), Introduction to Probability Theory and Its Appl. II, J. Wiley, N.Y.
W.S. Jewell, (1967), Fluctuation of a Renewal- Reward Process, Journal of Mathematical Analysis
and Applications, 19, 309-329.
330
statistiksel Basit Do!um Sürecine Teorik Bir Yakla m
Ahmet Kaya
Seçil Yalaz
Rojan Arcak
Dicle Üniversitesi
Fen-Edebiyat Fakültesi
Matematik Bölümü
21280, Diyarbak:r, Türkiye
[email protected]
Dicle Üniversitesi
Fen-Edebiyat Fakültesi
Matematik Bölümü
21280, Diyarbak:r, Türkiye
[email protected]
Dicle Üniversitesi
Atatürk SaGl:k Hizmetleri
Meslek Yüksek Okulu
21280, Diyarbak:r, Türkiye
[email protected]
Özet
Bu çal:#mada; ekonomik planlamalarda s:kl:kla kullan:lan basit doGum süreçleri, stokastik prosesin bir
konusu ve ara#t:rma alan: olarak incelenmektedir. Basit doGum süreci, genelde poisson daG:l:#:na
yakla#:m gösterilerek aç:klanmaya çal:#:l:r. Bu çal:#mada, doGum süreçlerinde sisteme yeni kat:l:mlar:n
olmas: durumunda poisson daG:l:#:n:n geometrik daG:l:#a yak:nsad:G:n: gösteren teorik bir çal:#ma
yap:lm:#t:r.
Anahtar sözcükler: Basit doGum süreci, Poisson daG:l:#:, Geometrik DaG:l:#
Abstract
An Theoretical Approach to Statistical Basic Birth Process
In this study, using in economical planning basic birth process is examined as a subject and
investigation area of stocastic processes. Basic birth process, is generally defined as approaching to
poisson distribution. A theoretical investigation has been constructed that poisson distribution approach
to geometric distribution, in case of new participation to system of birth process.
Keywords: Basic birth process, Poisson distribution, Geometric distribution.
1. Giri!
Günümüzün ekonomik ko ullar , ülkeleri etkili nüfus planlamas na, güçlü bir o kadarda zorla t r lm
sosyal güvenlik kanunlar n hayata geçirmeye zorlamaktad r. Bu sorun geli mekte olan ülkeler kadar,
geli mi ülkelerin de sorunu haline gelmi güncel bir problemdir. Bu durumda bilimsel yöntem ve
modellemelerden yoksun öngörüler, problemleri a! rla t rmaktan ba ka bir i e yaramamaktad r.
Geli mi bat l ülkelerden biri olan Almanya’n n ve daha birçok zengin Avrupa ülkesinin bir numaral
gündemi, nüfusu gerekti!i kadar ço!altmak, zenginlikle paralel yükselen ortalama ya am seviyesini,
emeklilik ya ile uyumlu hale getirmektir. Bunu gerçekle tirmek için etkin bilimsel çal malara ve
alternatifleri bulunan yöntemlere ihtiyaç duyulmaktad r.
Nüfus planlamalar ve emeklilik sistemlerinin simüle edilmesinde kullan lan istatistiksel da! l lar n
çok az ve adeta alternatifsiz olmalar nedeniyle, daha etkin öngörülerde bulunmak çok zor olmaktad r.
Bu amaçla, çok s k biçimde kullan lan ve basit do!um süreçleri için adeta alternatifsiz bir durumda
bulunan poisson da! l na teorik bir yakla m yaparak, yeni türevler elde etme yoluyla etkin
çözümlere katk sa!layacak alternatiflerin bulunmas n n faydal olaca! dü ünülmü tür.
331
2. Poisson Süreci
statistikte basit do!um süreçleri poisson da! l ndan faydalan larak aç klan r. Kesikli bir süreç olan
poisson da! l binom ile birlikte birçok kesikli de!i ken için ana da! l özelli!i ta r. Bu durum;
poisson sürecinin ayn zamanda sürekli da! l lara mesela normale yak nsamas n n bir sonucudur.
Ancak üstel bir da! l olan poisson da! l n n di!er üstel da! l larda oldu!u gibi, üstel olmas ndan
kaynaklanan olumsuzluklar ortadan kald rmak ve sa!lam temellere oturmas n sa!lamak amac yla,
yeni türevler elde etmek alternatif yakla mlar için faydal olabilir.
3. Poisson Modeli
Vt uzunluk ifadesi küçük bir zaman aral ! n , DVt , bir olay n gerçeklenme ya da gözlenme olas l ! n
ifade etmi olsun. Bu durumda bir’den fazla gerçeklenmelerin ihmal edildi!i varsay lm t r. Bununla
beraber, iki zaman aral ! nda meydana gelen gerçeklenmelerin bir birinden ba! ms z oldu!u kabul
edilmektedir.
Böylece;
P (0, Vt ) = 1 DVt ve
P (0, t + Vt ) = P (0, t ) P (0, Vt ) = P (0, t )(1 DVt )
gerçeklenmi olur.
Bu e itlik yeniden düzenlenirse,
P(0, t + Vt ) P(0, t )
= DP(0, t ) elde edilir.
Vt
dP (0, t )
ise, P (0, t ) birinci dereceden diferansiyel e itlik için P (0, t ) = e Dt elde
dt
edilmi olur. Bu durumda ba lang ç de!erleri kullan larak P (0,0) = 1 elde edilir. P (1, t ) için benzer
Vt * 0 >
diferansiyel e itlik çözülüp gerekli i lemler yap ld ! nda;
P(1, t + Vt ) = P(1, t ) P(0, Vt ) + P(0, t ) P(1, Vt )
= P(1, t ) P(1 DVt ) + e
Dt
DVt
Buradan,
P(1, t + Vt ) P(1, t ) dP(1, t )
=
= DP(1, t ) + De
dt
Vt
Dt
bulunur.
Benzer ekilde devam edilirse; P (1, t ) = e Dt Dt bulunur. Böylece, P ( 2, t ), P (3, t ),..., P ( r , t ) elde
edilebilir. Olas l k ifadeleri için genelleme yap l rsa, formül a a! daki formda elde edilir:
P(r , t ) =
e
Dt
(D t ) r
r!
(r = 0,1,2,...).
W Böylece, sürecin poisson oldu!u do!rulanm bulunmaktad r.
332
4. Geometrik Da< l !
Arka arkaya n kez tekrarlanan bir bernoulli deneyi verilmi olsun. lk istenen sonucun elde edilmesi
için yap lan deney say s x olsun. x ’e geometrik rassal de!i ken denir. Binom da! l m nda deney
say s sabit, istenen sonuçlar n say s bir rassal de!i ken iken, geometrik da! l mdan istenen sonucun
say s bire e it olmak üzere bir say , deneylerin say s ise bir rassal de!i kendir.(Aytaç, 1994: 317319).
lk x 1 deneyin istenen sonucu vermemesi ve x ’inci deneyin istenen sonucu vermesi durumunda
geometrik da! l m öyle tan mlan r.
/(1 p) x 1 p
P( x) = 0
10
x = 1,2,3,...
Aksi halde
Geometrik da! l n moment ç karan fonksiyonu;
M (t ) =
pe t
biçiminde elde edilir.
(1 e t (1 p))
5.Basit Do<um Süreci
Basit do!um süreçleri; nüfus art tahminlerinde, hayat sigortas modellemelerinde, sigortac l kta ve
daha benzer birçok süreçte kullan lan bir istatistiksel modelleme ve tahmin yöntemidir. Bu sayede;
nüfus art oranlar , sigorta sektöründe risk hesaplamalar , ekonomik planlama i lemleri, hayat
sigortas stratejileri ve daha birçok planlama i lemi yap lmaktad r.
statistiksel süreçlerde basit do!um süreçleri varsay mlar a a! daki gibidir:
1. [0, t ] aral ! içinde n ki ilik yerin bulundu!u kitlede, [t , t + Vt ] ’ye bir bireyin kat lma
olas l ! ; DnVt + 0Vt ’dir.
2. [t , t + Vt ] ’de kitleye bir bireyin kat lma olas l ! 0Vt ’dir.
3. [t , t + Vt ] ’de kitleye s f r ki inin kat lma olas l ! 1- DnVt + nDVt + 0Vt biçimindedir.
Bu durumda; t an nda, sistemde n ki inin bulunma olas l ! :
Pn (t + Vt ) = {(n 1)DVt }Pn 1 (t ) + Pn (t ){1 nDVt + 0Vt}
(2.1)
Bu durumda, (2.1) e itli!i;
Pn (t + Vt ) = Pn 1 (t )(n 1)DVt + Pn (t ) Pn (t )nD (Vt ) + 0Vt biçiminde elde edilir.
333
Pn (t + Vt ) Pn (t )
= (n 1)DPn 1 (t ) nDPn (t ) = D[(n 1) Pn 1 (t ) nPn (t )]
Vt
> P' n (t ) = D[(n 1) Pn 1 (t ) nPn (t ) olur.
+
P( , t ) = " Pn (t )
n
(2.2)
olas l k türeten fonksiyondan faydalanarak, (2.2) e itli!i,
n =0
P' n (t )
n
= D (n 1) P( n 1) (t )
nDPn (t )
n
n
olur.
lemlere devam edilirse;
>
+
" P' n (t ) =
n
n=0
>
+
" P' n (t )
n
+
= D " (n 1) Pn 1 (t )
n=0
= D
n=0
>
+
" nPn (t )
n 1
+
" nPn (t )
n 1
n =0
2
+
" (n
2
P( , t )
/ P( , t ) ;
= D 0
<+D
t
=
1
>
P( , t )
/ P( , t ) ;
= D 0
<
t
=
1
>
P( , t )
=D (
t
2
1) Pn 1 (t )
+
" (n
n =0
>
A
+D
n =0
+D
n
n =0
n =0
P( , t )
= D
t
P( , t )
+D (
t
+
D " nPn (t )
n
1) Pn 1 (t )
n 2
n 2
/ P( , t ) ;
<
0
=
1
/ P( , t ) ;
<
0
=
1
/ P( , t ) ;
1)0
<
=
1
/ P( , t ) ;
1)0
< = 0 k smi denklem çözümünden
=
1
P( , t )
P( , t )
+B
= C genel formun çözüm e itli!i,
t
t
t
t
P( , t )
+
=
yakla m ndan,
=
A B
C
1 D (1
334
)
=
P( , t )
bulunur.
0
>
t
P( , t )
P( , t )
=
>
= 0 > p bir sabittir.
1
0
t
>
t
=
1 D (1
> D. t = .
> D t=
)
+.
(1
)
d
> ln
(1 )
> Dt + int sb. = ln
1
ln(
1)
> e Dt .e int sb. =
1
e itli!i bulunur.
(2.3)
(2.3) e itli!inden hareketle,
/
P = f 0e
1
/
P = f 0e
1
;
< ba lang ç de!eri verilerek çözüm yap l rsa,
1 =
Dt
+
;
>
P
(
,
t
)
=
Pn (t )
<
"
1 =
n =0
Dt
nx
elde edilir.
t = 0 Zamanda kitlede n0 ki i olsun. Bu durumda;
P( ,0) =
1
n0
/
1
olur. t = 0 varsay ld ! nda, P = f 0
= u olsun. (u 1) = u >
> P ( ,0 ) =
P( , t ) =
n0
n0
u
n0
u 1
u
u 1
n0
=
u
u 1
;
< elde edilir.
1=
bulunur.
t = 0 an yerine herhangi bir t zaman için;
/
55 e
=0
5e
51
n0
;
n0
/ P( ) ;
1 55
< > P( , t ) = 0
<
11 (1 P) =
5
1 5=
Dt
Dt
’y e Dt olarak dü ünürsek, fonksiyon geometrik da! l n moment türeten fonksiyonuna
yak nsayan bir formda elde edilmi olmaktad r.
W
335
Sonuç ve öneriler
Basit do!um süreçlerinde poisson da! l kullanarak modelleme yapmak neredeyse geleneksel bir
durumdur. Halbuki, özel baz durumlar için alternatif yakla mlar kullanmak ço!u durumlarda faydal
sonuçlar n elde edilmesine yol açabilir. Kesikli bir da! l olan poisson sürecinden, yine bir kesikli
da! l m süreci olan geometrik da! l a ula mak, do!um süreçlerine alternatif yakla mlar yap lmas n
kolayla t r r. Bu anlamda basit do!um süreçlerinde sisteme bir kat l m olmas yerine, birden çok
kat l m n ayn anda gerçeklenmesi durumunda poisson da! l nda olu mas muhtemel olumsuzluklar
ortadan kalkabilir.
Basit do!rum süreçlerine alternatif yakla mlar n sa!lad ! avantajlar a a! da ba l klar halinde
s ralanm t r.
•
Poisson sürecine ba! ml l k ortadan kalkar,
•
Poisson d
•
Tek da! l a ba! ml l k ortadan kalkm olur,
•
Birden fazla da! l la model kurma ans ortaya ç kar,
•
Poisson da! l n n alternatifsizli!ine bir çözüm elde edilmi olur,
•
Daha az kat l mla sistemi modelleme ans do!ar,
•
Bire-bir kat l m d nda bire-çok kat l m olanakl olur,
•
Simülatif yakla mlar n daha basit bir moda indirgenmesi sa!lanm olur,
•
Yöntemleri kar la t rma ve performans analizi yapma olana! sa!lanm olur,
•
Yeni kesikli da! l lar n elde edilmesi mümkün olabilir,
•
Yöntemler aras geçi ler olanakl hale gelir.
yakla mlarla sürece zenginlik kat lm olur,
Kaynaklar
[1] M. Aytaç, (1994), Matematiksel statistik, Uluda! Üniversitesi Bas mevi, Bursa.
[2] E. J. Freud, Mathematical Statistical, Fifth edition, Prentice Hall, International Edition.
336
Üçgensel müdahaleli rastgele yürüyü! sürecinin
momentleri üzerine
Rovshan ALIYEV
Zafer KUCUK
Tahir KHANIYEV
KTÜ, FEF, statistik ve
KTÜ, FEF, statistik ve
TOBB Ekonomi ve Teknoloji Üniversitesi
Bilgisayar Bilimleri Bölümü
Bilgisayar Bilimleri Bölümü
Endüstri Mühendisli!i Bölümü, 06560,
61080, Trabzon
61080, Trabzon
Sö!ütözü, Ankara,
[email protected]
[email protected]
[email protected]
1. Giri!
Stok kontrol, güvenilirlik, kuyruk teorisi, matematiksel biyoloji, stokastik finans, matematiksel
sigortan n pek çok ilginç problemi rastgele yürüyü süreçleri veya bu süreçlerin uyarlanmas
yard m yla çözülebilir. Bu süreçlerle ilgili literatürde yay nlanm pek çok de!erli çal ma
bulunmaktad r (örne!in, [1–4], [8–12]).
Bu çal mada a a! daki gibi ifade edilen (s, S) modelini ele alaca! z:
Farzedelim ki, herhangi bir sistem t=0 ba lang ç an nda z = s + x durumunda bulunsun. Burada
n
s>0 bir kontrol seviyesi ve x 8 0 d r. Ayr ca, Tn = " 9 i , n 8 1 rastgele anlar nda sistem ( X ( t ) )
i =1
durumunu de!i tirir ve bu de!i melerin miktar
{@n } , n 8 1 rastgele de!i kenleri ile ifade edilir:
X (T1 ) P X 1 = z @1 , X (T2 ) P X 2 = z @1
@ 2 ,..., X (Tn ) P X n = z @1
@2
... @ n ,....
Sistemin bu de!i imi rastgele & 1 zaman na kadar devam eder ki bu sürecin ilk kez kontrol seviyesi
olan s > 0 de!erine ilk kez ula mas an d r. Sistem kontrol seviyesi olan s > 0 ‘ geçti!inde derhal O 1
pozisyonunu al r, burada O 1 rastgele de!i keni [s, S] aral ! nda bilinen bir da! l ma sahiptir. Bu
tan ma ba!l olarak birinci periyot & 1 da, ikinci periyot z 2 sona erer ve böylece sistem hareketine
devam eder. Buradan,
X(z n +0) = Ž n , n=1, 2, 3, ....
yaz l r. Burada Ž n ler Ž1 rastgele de!i kenleri ile ayn da! l ma sahip olmal d rlar.
X(t)
Bu çal madaki amac m z yukar da matematiksel olarak tan mlanan ve fiziksel modeli verilen
stokastik sürecini tan mlayarak sürecin ilk dört ergodik momenti için üç terimli asimptotik
aç l mlar elde etmektir. Bu amaç için çal mada O1 rastgele de!i keni [s, S] aral ! nda üçgensel
da! l ma sahip oldu!u durumda sürecin ergodik da! l m n n ilk dört momenti için üç terimli
asimptotik aç l mlar elde edilmi tir.
Son olarak, hesaplanm asimptotik formüllerin test edilmesi için Monte Carlo simülasyon
metodu kullan lm t r. rimdi X ( t ) sürecini matematiksel olarak a a! daki gibi kural m.
337
2. Sürecin matematiksel kurulu!u
{( ’
n
,•n ,Ž n )} , n=1,2,3,..., ba! ms z ve ayn da! l ma sahip rastgele de!i ken üçlüleri ayn
(R, S, P)
olas l k uzay nda tan mlanm olsunlar. Burada 9 n ler pozitif, @n ler negatif ve pozitif de!erli, O n ler
ise [s,S] aral ! nda üçgensel da! l ma sahip rastgele de!i kenler olup kendi aralar nda da
ba! ms zd rlar. {Tn }, n 8 1 yenileme sürecini ve {S n }, n 8 1 rastgele yürüyü sürecini
n
n
Tn = " 9 i ,
S n = " @ i , T0 = S0 = 0 , n = 1,2,...
i =1
i =1
eklinde tan mlayal m ve tam de!erli rastgele de!i ken dizisi {N n } a a! daki gibi ifade edelim:
N 0 = 0; N n +1 = inf {k 8 N n + 1 : O n
}
S k + S N n < s , n 8 0 , inf{T} = ++.
Ayr ca,
& n = TN n , n 8 0 ve C(t ) = max{n 8 0 : Tn ! t}
olsun. Bu çal mada incelenen stokastik sürecin analitik ifadesini matematiksel olarak a a! daki gibi
tan mlayal m:
X (t ) = max{s, O n S v (t ) + S N n } , e!er & n ! t < & n+1 , n = 0,1,2,...; O0 = z 7[s,S].
X(t) sürecine üçgensel müdahaleye sahip yar Markov rastgele yürüyü süreci denir. Bu
çal man n temel amac X(t) sürecinin ergodik momentlerinin asimptotik davran lar n
a P (S s)/ 2 *+ iken incelemektir. Bu amaçla a a! daki gösterimleri yapal m:
m k = E(@1k );
k = 1,5 , m k1 = m k / m1 ; µ k = E(Q1+ ) k , µ k1 = µk / µ1 , k = 2,3 ,
X(t) = X(t) s , E( X k ) = lim E(( X ( t )) k ) , k = 1,4 ,
t*+
+
1
burada Q rastgele de!i keni {S n }, n 8 1 rastgele yürüyü sürecinin birinci basamak yüksekli!idir.
{
}
a n ( x , z ) = P z S k 8 s, k = 1, n ; z S n ! x , n 8 1 ;
a 0 ( x, z) = )( x z);
burada )( t ) =1 iken t 8 0 ve )( t ) =0 iken t<0 ;
+
S
n =0
s
A(x, z) = " a n (x, z); A( x,•) = . A( x, z )d'( z ) .
3. Sürecin Ergodikli<i
Ele al nan sürecin karakteristiklerini hesaplamak için X ( t ) sürecinin baz ko ullar alt nda ergodik
oldu!unun ispatlanmas gerekir. Bunun için a a! daki önermeyi ifade edelim.
Önerme 3.1. ( 9 n , @n , O n ) , n 8 1 ba lang ç rastgele de!i kenler dizisi a a! daki ek ko ullar
{
}
da sa!las n:
i) 0 < E91 < + ,
ii) 0 < E@1 < + ,
iii) @1 aritmetik olmayan rastgele de!i ken
Bu takdirde X ( t ) süreci ergodiktir ve a a! daki ifade her s n rl ölçülebilir f (x) ( f : [s, S] * R )
fonksiyonu için 1 olas l ! ile do!rudur:
t
S
1
1
lim . f ( X( u ))du =
f ( x )d x A( x,•) , burada A ( +,•) P lim A( x ,•) .
t *+ t
x *+
A( +,•) .s
0
338
(3.1)
spat. X ( t ) süreci literatürde kesikli ans kar ml yar -Markov süreci olarak bilinir. Bu s n f
için Smith’in “anahtar yenileme teoremi” olarak bilinen ergodik teorem literatürde mevcuttur (bak,
Gihman ve Skorohod [7, s.243]). Önerme 3.1 ko ullar sa!land ! nda bu ergodik teoremin ko ullar da
sa!lan r, böylece X ( t ) süreci ergodiktir ve (3.1) e itli!i de 1 olas l ! ile do!ru olur. a
X
( ) P lim E{exp(i X ( t ))},
7 R olarak alal m. Rastgele yürüyü süreçleri için temel
t *+
e itli!i (bak, [6], s.514) ve Önerme 3.1’i kullanarak a a! daki Önerme 3.2’yi elde edebiliriz.
Önerme 3.2. Önerme 3.1’in ko ullar sa!land ! nda X ( t ) sürecinin ergodik da! l m n n
karakteristik fonksiyonu @1 rastgele de!i keni ve ( N ( x ), S N ( x ) ) çiftinin karakteristik fonksiyonlar
yard m yla a a! daki ekilde ifade edilir:
X
( ) P lim
E{e
t *+
i X(t )
}
S
1
=
ei
.
EN s
z
SN ( z s )
@
(
(
)
)
1
1
d'(z ) ,
7 R \{0} ,
(3.2)
burada
S
EN = . EN 1 ( z s)d'(z ) ;
SN
( ) = E exp(i S N1 ) ;
@
( ) = E exp(i @1 ) .
s
4. Ergodik da< l m n ilk dört momenti için kesin formüller
Bu bölümün esas amac X ( t ) sürecinin ergodik da! l m n n ilk dört momentini @1 rastgele de!i keni
ve S N (z s ) s n r fonksiyonelinin yard m yla ifade etmektir. Bunun için a a! daki gösterimleri yapal m:
m k = E(@1k ); M k ( x ) = E(S kN ( x ) ), k = 1,5 , x > 0
m k1 =
mk
M (x)
, M k1 ( x ) = k
,
m1
M1 ( x)
k = 2,5 ;
E( X k ) = lim E(( X ( t )) k ) , k = 1,4 ,
t*+
burada X ( t ) = X( t ) s .
M ( x ) ölçülebilir ve s n rl fonksiyon için
x
c * M ( x ) = c . M ( u )du, x > 0 , burada c bir sabittir.
0
Bu bölümün esas sonucunu a a! daki gibi ifade edebiliriz.
3
Teorem 4.1. Özellik 3.2 nin ko ullar sa!lans n ve ayn zamanda E @1 < + olsun. Bu
durumda X ( t ) sürecinin ergodik da! l m n n 1. ve 2. momentleri vard r ve @1 rastgele de!i keni ve
SN
(X )
s n r fonksiyonelinin karakteristikleri yard m yla a a! daki gibi yaz labilirler.
J 11 (a ) 12 J 20 (a )
+ A1 ;
J 10 (a )
1
E( X 2 ) =
[J 12 (a ) J 21 (a ) + m 21 (J 11 (a )
J 10 (a )
E( X ) =
(4.1)
1
1
J 20 (a )) + J 30 (a )] + A 2 ;
2
3
burada
2a
J kn (a ) =
.x
n
M k ( x )g a ( x )dx , k = 1,5; n = 0, 4 ;
0
339
(4.2)
x
2a x
, e!er 0 ! x < a ve g a ( x ) =
e!er a ! x ! 2a ;
2
a
a2
m
m 2 m 31
M k ( x ) P E(S kN ( x ) ) , k = 1,3 ; A 1 = 21 , A 2 = 21
.
2
2
3
g a (x ) =
Teorem 4.2. Özellik 3.2’nin ko ullar sa!lans n ve ayn zamanda E @1
5
< + olsun. Bu
takdirde X ( t ) sürecinin ergodik da! l m n n 3. ve 4. momentleri vard r ve @1 rastgele de!i keni ve
SN
(X )
s n r fonksiyonelinin karakteristikleri yard m yla a a! daki gibi yaz labilirler.
3
E(X ) =
1
J 13 (a )
J 10 (a )
3
J 22 (a ) + J 31 (a )
2
1
J 40 (a ) +
4
1
1
+ 3A1 (J12 (a) J 21 (a ) + J 30 (a)) + 3A 2 (J11 (a)
J 20 (a)) + 3A 3 ;
3
2
1
1
J 14 (a ) 2J 23 (a ) + 2J 32 (a ) J 41 (a ) + J 50 (a ) +
J 10 (a )
5
3
1
J 22 (a ) + J 31 (a )
+ 4A 1 (J 13 (a )
J 40 (a )) +
2
4
1
1
+ 6A 2 (J 12 (a ) J 21 (a ) + J 30 (a )) + 12A 3 (J 11 (a )
J 20 (a )) + 3A 4 .
3
2
Teorem 4.1 ve Teorem 4.2 in ispat . Not edelim ki, Teorem 4.1 ve Teorem 4.2’nin ko ullar
s n r fonksiyonelinin ilk be momentinin varl ! n ve sonlu olmas n temin eder. (bak, Feller W.
4
E(X ) =
SN( x )
[6], s.514). Böylece, @1 rastgele de!i keni ve S N ( x ) ‘nin karakteristik fonksiyonunun Taylor aç l m
* 0 iken hesaplanabilir. Bu aç l mlar kullan larak Teorem 4.1–4.2’nin ifadeleri hesaplanabilir.a
5. Ergodik da< l m n ilk dört momenti için üç terimli asimptotik aç l mlar
Bu bölümde X ( t ) sürecinin ergodik da! l m n n ilk dört momenti için üç terimli asimptotik aç l mlar
elde edilmi tir. Bu amaç için rastgele de!i kenlerin basamak de!i kenlerini kullanaca! z.
n
S n = " @ i , n 8 1 , rasgele de!i kenlerini ele alal m, ba lang ç durumunda S0 = 0 olsun ve
i =1
C1+
= min{n 8 1 : S n > 0} , Q1+ = S C + olarak tan mlayal m.
1
C1+
Q1+
Not edelim ki,
ve
rastgele de!i kenleri {S n }, n 8 0 , rastgele de!i kenlerinin basamak
momentleridir (bak, Feller W., [6], s.391).
Q +n , n 8 1 rasgele de!i kenler dizisi ba! ms z ve ayn tür da! l ma sahip rasgele
{ }
de!i kenlerden olu mu rasgele de!i kenler dizi olsunlar. Ayr ca Q1+ rasgele de!i keni ile de ayn
da! l ma sahip olsunlar.
n
;
/
H ( x ) = min 0 n 8 1 : " Q i+ 8 x < , x 8 0 tan mlayal m. Not edelim ki H ( x ) bir yenileme
=
i =1
1
+
sürecidir ve Q n , n 8 1 pozitif rastgele de!i kenleri taraf ndan üretilmi tir. Kolayca gösterilebilir ki,
N(x ) =
H(x)
H(x)
i =1
i =1
" Ci+ ve S N( x ) =
"Q
+
i
d r.
A a! da ifade edilen Yard mc Teorem 5.1 [12] nolu yay nda verilmi tir.
340
3
Yard mc Teorem 5.1 (T.A.Khaniyev ve Z.Mammadova). E @1 < + ve Teorem 4.1’in
ko ullar alt nda x * + iken SN( x) in momentleri için a a! daki asimptotik aç l mlar do!rudur.
µ 21
1
1
+ o( ) ;
2) M 2 (x) = x 2 + µ 21x + µ 31 + o(1) ;
2
x
3
3
4) M 4 (x) = x 4 + 2µ 21x 3 + 2µ 31x 2 + o(x 2 ) ;
3) M 3 (x) = x 3 + µ 21x 2 + µ 31x + o(x);
2
5
10
5) M 5 (x) = x 5 + µ 21x 4 + µ 31 x 3 + o(x 3 );
2
3
+ k
burada µ k = E( Q1 ) , µ k1 = µ k / µ1 , k = 2,3 ; M k ( x ) = E(S kN ( x ) ), k = 1,5 .
1) M1 (x) = x +
Sonuç 5.1. Yard mc Teorem 5.1’in ko ullar alt nda x * + iken SN( x) ‘in momentlerinin
integralleri için asimptotik aç l mlar do!rudur.
1 2 1
1
x + µ 21x + [3µ 221 2µ31 ] + o(1) ;
2
2
12
k +2
k +1
x
x
+
µ 21 + O(x k 1 ) , k 8 1 ;
2) 1*(x k M1 (x)) =
k + 2 2(k + 1)
1) 1* M1 (x) =
x k +3 x k + 2
x k +1
+
µ 21 +
µ31 + O(x k ), k 8 0 ;
3) 1*(x M 2 (x)) =
k +3 k +2
3(k + 1)
k
x k+4
3x k +3
x k +2
+
µ21 +
µ31 + O(x k +1 ), k 8 0 ;
k + 4 2(k + 3)
k+2
1
1
2
5) 1* M 4 (x) = x 5 + µ 21x 4 + µ31x 3 + O(x 2 ) ;
5
2
3
1 6 2
1
6) 1*(xM 4 (x)) = x + µ 21x 5 + µ31x 4 + O(x 3 ) ;
6
5
2
1 6 1
5
7) 1* M 5 (x) = x + µ 21x 5 + µ31x 4 + O(x 3 ) ;
6
2
6
1
5
2
8) 1*(xM 5 (x)) = x 7 + µ 21 x 6 + µ31x 5 + O(x 4 ) .
7
12
3
Yard mc Teorem 5.2. Teorem 4.1’in ko ullar alt nda a * + iken a a! daki asimptotik
k
4) 1*(x M 3 (x)) =
aç l mlar do!rudur.
1
J 10 (a ) = a + µ 21 + o(1 / a );
2
3
7
J 12 (a ) = a 3 + µ 21a 2 + o(a 2 );
2
12
31
J 14 (a ) = 3a 5 + µ 21a 4 + o(a 4 );
30
3 3 7
J 21 (a ) = a + µ 21 a 2 + o(a 2 );
2
6
31
1
J 23 (a ) = 3a 5 + µ 21a 4 + µ 31a 3 + o(a 3 );
15
2
31 4 9
J 31 (a ) = a + µ 21 a 3 + o(a 3 );
15
4
31 4
7
J 40 (a ) = a + 3µ 21a 3 + µ 31 a 2 + o(a 2 );
15
3
341
7 2 1
a + µ 21 a + o(a );
6
2
31
3
J 13 (a ) = a 4 + µ 21 a 3 + o(a 3 );
15
4
7 2
5
J 20 (a ) = a + µ 21a + µ 31 + o(1);
6
3
31 4 3
7
J 22 (a ) = a + µ 21a 3 + µ 31a 2 + o(a 2 );
15
2
18
3
7
J 30 (a ) = a 3 + µ 21a 2 + o(a 2 );
2
4
31
3
J 32 (a ) = 3a 5 + µ 21a 4 + µ 31a 3 + o(a 3 );
10
2
62
J 41 (a ) = 3a 5 + µ 21 a 4 + 3µ 31 a 3 + o(a 3 );
15
J 11 (a ) =
J 50 (a ) = 3a 5 +
31
µ 21a 4 + 5µ 31 a 3 + o(a 3 ).
6
spat. Federyuk’un çal mas ndaki integral metodu kullan larak Yard mc Teorem 5.2.’nin
ispat yap labilir (bak, Federyuk [5]). a
3
Teorem 5.1. Önerme 3.1’ in artlar sa!lanm olsun, E @1 < + ve O1 rastgele de!i keni [s,S]
aral ! nda üçgensel da! l ma sahip olsun burada a P (S s )/2 d r. Buradan X ( t ) sürecinin ergodik
da! l m n n ilk iki momenti için a * + iken a a! daki asimptotik aç l mlar yaz labilir:
7
1
7
1 7
1
1
a + [ m 21
µ 21 ] + [ µ 221 5µ 31 ] + o( ) ;
12
2
12
6 8
a
a
2
m 31
m
1
1
E( X 2 ) = a 2 + (7 m 21 3µ 21 )a + 21
+ o(1) ,
2
12
2
3
burada X = X s .
spat. Yard mc Teorem 5.2’ye göre a * + iken,
1
1
1
1 1
1 1 3 1
1
= [1
µ 21 + µ 221 2
µ 21 3 + o( 3 )].
J 10 (a ) a
2
a 4
8
a
a
a
d r. Di!er bir deyi le a * + iken,
1
7
5
µ 31 + o(1) .
J 11 (a )
J 20 (a ) = a 2
2
12
6
E( X ) =
(5.1)
(5.2)
(5.3)
(5.4)
(5.3) ve (5.4) ü (4.1) formülünde yerine yazarsak (5.1) asimptotik aç l mlar n elde ederiz. Benzer
ekilde J 12 (a ), J 21 (a ), J 11 (a ), J 20 (a ), J 30 (a ), J 10 (a ) asimptotik aç l mlar da elde edilir. Baz
hesaplamalar yap larak sonuçta (5.2) asimptotik aç l m elde edilir. a
Sonuç 5.2. Teorem 5.1’in ko ullar sa!land ! nda a * + iken X(t) sürecinin ergodik
da! l m n n varyans için asimptotik aç l m a a! daki gibidir:
Var (X ) =
23 2 13
a +
µ 21a + o(1) .
144
144
Teorem 5.2. Teorem 5.1’in ko ullar alt nda a * + iken X(t) sürecinin ergodik da! l m n n
üçüncü ve dördüncü momentleri için a a! daki asimptotik aç l mlar yaz labilir:
31 3
31
3
a (
µ 21
A 1 )a 2 +
60
120
2
31 2 7 2
7
7
3
+
µ 21 + m 21
µ 31
m 31
m 21µ 21 a + o(a ) ;
240
8
12
6
8
3
31
3
3
31
E ( X 4 ) = a 4 ( A 1 + µ 21 )a 3 + ( µ 221 + µ 21 m 21 + 3A 2 )a 2 + o(a 2 ),
5
15
10
20
60
E( X 3 ) =
burada
A1 =
m 21
m2
, A 2 = 21
2
2
m 31
.
3
spat. Teorem 5.2’in ispat Teorem 5.1’in ispat na benzer ekilde yap l r. a
Not 5.2. X ( t ) sürecinin ilk dört ergodik momenti için asimptotik aç l mlar elde ettik. Bu
momentleri kullanarak çarp kl k ( G 3 ) ve bas kl k ( G 4 ) katsay lar n hesaplamak mümkündür:
G3 =
E(X a ) 3
3
, G4 =
E(X a ) 4
4
3 , burada a = E(X) ,
2
= Var(X) .
Sonuç 5.4. Teorem 5.3’ün ko ullar alt nda X ( t ) sürecinin ergodik da! l m n n çarp kl k ( G 3 )
ve bas kl ! ( G 4 ) için a * + iken a a! daki asimptotik aç l mlar yaz labilir:
1
1
G 3 = 0.6056 + O( ) ve G 4 = 0.3357 + O( ) .
a
a
342
6. Simülasyon sonuçlar
Bu bölüm çal mam z n temel amac d r. Bu amaç için Monte Carlo yöntemi kullan larak a a! daki
k
~
k
simülasyon sonuçlar n verebiliriz. Öncelikle Ê ( X ), k = 1,4 ve E ( X ) ile X ( t ) sürecinin ergodik
da! l m n n k.momentinin uygun olarak simülasyon ve asimptotik de!erlerini gösterir. A a! daki
tan mlamalar yapal m:
k
~ k
V k = Ê(X ) E(X ) ; L k =
Vk
Ê(X k )
.100% ; Ap k = 100% L k , k=1,2,3.
Di!er bir deyi le V k , L k , Ap k , k = 1,4 , X ( t ) sürecinin karakteristik fonksiyonunun ergodik
momentlerinin asimptotik ve simülasyon de!erlerinin s ras yla mutlak, göreli ve kesin yüzdeleridir.
k
Tablo 1-4 deki Ê ( X ), k = 1,4 , @1 7 N(1,1) için Monte Carlo yöntemi kullan larak
k
hesaplanan de!erlerdir. Bu hesaplamalar için 108 yörünge kullan lm t r. E (X ) için yakla k
~
k
formüller E ( X ) Teorem 5.1 ve 5.2 de kalans z terimdir burada, s=0. X ( t ) sürecinin ergodik
da! l m n n k.momenti için @1 rastgele de!i keni N(1,1) normal da! l ma sahip oldu!u durumda
k
E (X ), k = 1,4 için tablo a a! da sunulmu tur.
a
50
40
30
20
10
9
8
7
6
5
Ê ( X )
29,653119
23,818905
17,993536
12,167070
6,313335
5,711445
5,129110
4,532171
3,972255
3,382124
2
Ê ( X )
a
50 1288,490552
40 830,063400
30 472,465982
20 214,455051
10
57,314823
9
46,998902
8
37,753640
7
29,649688
6
22,311508
5
16,222781
~
E (X )
29,801254400
23,961542390
18,117577920
12,262982320
6,365862175
5,768353995
5,167302104
4,561187768
3,947479764
3,321621892
~ 2
E (X )
1288,4505500
830,6295770
472,8086080
214,9876400
57,1666708
46,8845739
37,6024770
29,3203801
22,0382833
15,7561864
Tablo 1.
V1
0,148135402
0,142637388
0,124041919
0,095912317
0,052527175
0,056908995
0,038192104
0,029016768
0,024775236
0,060502108
L1 (%)
Ap1 (%)
0,4995609
0,5988411
0,6893693
0,7882943
0,8320036
0,9964028
0,7446146
0,6402399
0,6237071
1,7888791
99,50044
99,40116
99,31063
99,21171
99,16800
99,00360
99,25539
99,35976
99,37629
98,21112
L 2 (%)
Ap 2 (%)
0,003105
0,068209
0,072519
0,248345
0,258489
0,243257
0,400393
1,110662
1,224591
2,876169
99,9969
99,93179
99,92748
99,75165
99,74151
99,75674
99,59961
98,88934
98,77541
97,12383
Tablo 2.
V2
0,0400062
0,5661771
0,3426263
0,5325885
0,1481522
0,1143281
0,151163
0,3293079
0,2732247
0,4665946
343
a
50
40
30
20
10
9
8
7
6
5
3
Ê (X )
67325,56881
34837,64027
14932,32594
4555,035026
625,658769
463,308736
332,576351
230,766167
152,170722
92,626459
4
~ 3
E (X )
67499,70306
34920,18329
14980,4531
4580,51249
620,3614558
459,1847792
328,3059984
224,6251134
145,0421241
86,45703063
~ 4
E (X )
Ê ( X )
a
50 3961304,609000 3962737,4000
40 1643938,562000 1644679,0100
30 531992,940500 531678,4200
20 109522,243000 109433,2880
10
7625,999060
7641,2640
9
5114,708570
5126,9421
8
3279,874903
3288,2255
7
2009,204611
1992,4118
6
1149,358449
1121,1986
5
590,531283
570,6837
Tablo 3.
V3
L 3 (%)
174,1342555
82,54302433
48,1271605
25,477464
5,297313167
4,123956775
4,2703526
6,141053642
7,1285979
6,169428375
0,2586451
0,2369363
0,3223018
0,5593253
0,8466777
0,8901099
1,2840217
2,6611586
4,6846054
6,6605465
Ap 3 (%)
99,74135
99,76306
99,6777
99,44067
99,15332
99,10989
98,71598
97,33884
95,31539
93,33945
Tablo 4.
V3
1432,791100
740,445940
314,520500
88,954956
15,264936
12,233571
8,350633
16,792777
28,159761
19,847533
L 4 (%)
Ap 4 (%)
0,03617
0,045041
0,059121
0,081221
0,20017
0,239184
0,254602
0,835792
2,450042
3,360962
99,96383
99,95496
99,94088
99,91878
99,79983
99,76082
99,7454
99,16421
97,54996
96,63904
Not. Yukar daki tablolardan görüldü!ü gibi an’ n küçük de!erleri için bile yakla k formüller
yüksek kesinlik gösterirler. Örne!in Tablo1-Tablo4 de uygunluk yüzdesi %90 dan fazlad r (a>10 için).
Bu gösterir ki hesaplanan yakla k formüller uygulamada güvenli bir biçimde kullan labilirler.
Anahtar Sözcükler: Yar -Markov rastgele yürüyü
süreci, üçgensel da! l m, ergodik da! l m,
asimptotik aç l m, basamak yüksekliyi, Monte Carlo simülasyon yöntemi.
Kaynaklar
[1] G. Alsmeyer (1991), Some relations between harmonic renewal measure and certain first passage
times, Statistics & Probability Letters, 12, 1, 19-27.
[2] G.Aras and M. Woodroofe(1993), Asymptotic expansions for the moments of a randomly stopped
average, Annals of Statistics, 21, 503-519.
[3] A.A. Borovkov (1976), Stochastic Process in Queueing Theory, Spinger, New York.
[4] M.Brown and H.A. Solomon (1975), Second-order approximation for the variance of a renewalreward process, Stochastic Processes and Their Applications, 3, 301-314.
[5] M.V. Federyuk (1984), Asymptotics for Integrals and Series. Nauka, Moscow.
[6] W. Feller (1971), Introduction to Probability Theory and Its Appl. II, J. Wiley, N.Y.
[7] I.I. Gihman and A.V.Skorohod (1975), Theory of stochastic processes II, Springer, Berlin.
[8] J.H.B.Kemperman (1963), A Wiener-Hopf type method for a general random walk with a two-sided
boundary, Ann. Math. Statist., 34, 1168-1193.
344
[9] T.A. Khaniev, I. Unver and S. Maden (2001), On the semi-Markovian random walk with two
reflecting barriers, Stochastic Analysis and Applications, 19, 5, 799-819.
[10] T.A. Khaniev (2003), Some asymptotic results for the semi-Markovian random walk with a special
barrier, Turkish Journal of Mathematics, 27, 2, 1-22.
[11] T.A. Khaniyev and Z. Kucuk (2004), Asymptotic expansions for the moments of the Gaussian
random walk with two barriers, Statistics & Probab. Letters, 69, 1, 91-103.
[12] T.A. Khaniyev and Z. Mammadova (2006), On the stationary characteristics of the extended model
of type (s,S) with Gaussian distribution of summands, Journal of Statistical Computation and
Simulation, 76, 10, 861-874.
[13] T.A. Khaniyev, T. Kesemen, R.T. Aliyev and A. Kokangul (2008), Asymptotic expansions for the
moments of a semi-Markovian random walk with exponential distributed interference of chance,
Statistics & Probability Letters, 78, 6, 785–793.
[14] V.I. Lotov (1996), On some boundary crossing problems for Gaussian random walks, The Annals of
Probability, 24, 4, 2154-2171.
[15] B.A. Rogozin (1964), On the distribution of the first jump, Theory Probability and Its Applications,
9, 3, 498-545.
[16] A.V. Skorohod and N.P. Slobodenyuk (1970), Limit Teorems for the Random Walks, Naukova
Dumka, Kiev.
[17] F. Spitzer (1964), Principles of random walks, Van Nostrand, Princeton, N. J.
Abstract
On the moments of the random walk with triangular distributed interference of chance
In this study, a semi-Markovian random walk with a discrete interference of chance ( X( t ) ) is consedered. The
exact formulas for the first four moments of ergodic distribution of the process are obtained, when the random variable O 1 ,
which is describing a discrete interference of chance, has a triangular distribution in the interval [s, S]. Based on these
results, the asymptotic expansions with three-term are obtained for the first four moments of the ergodic distribution of X( t )
as a P (S s) / 2 * + . Furthermore, by using Monte Carlo experiment it is shown that the given approximating formulas
provide high accuracy even for small values parameter a .
Keywords: Semi-Markovian random walk process, a discrete interference of chance, triangular distribution, ergodic
distribution, asymptotic expansion, ladder height, Monte Carlo simulation method.
345
Tabakal rasgele örneklemede üstel tahmin ediciler
Nursel Koyuncu
Cem Kad lar
Hacettepe Üniversitesi
statistik Bölümü
06800-Beytepe, Ankara, Türkiye
[email protected]
Hacettepe Üniversitesi
statistik Bölümü
06800-Beytepe, Ankara, Türkiye
[email protected]
Özet
Tabakal rasgele örneklemede tahminler, bile ik ve ayr tahmin ediciler kullan larak iki ekilde
yap labilmektedir. Bu çal mada tabakal rasgele örneklemede kitle ortalamas n n tahmini için yard mc
de!i ken bilgisi kullan larak bile ik ve ayr üstel tahmin ediciler önerilmi tir. Tahmin edicilerin yan ve
hata kareler ortalamas hesaplanm ayn zamanda say sal bir örnek verilmi tir.
Anahtar sözcükler: Üstel tahmin edici;yard:mc: bilgi; hata kareler ortalamas:; etkinlik, tabakal: rasgele
örnekleme.
Abstract
Exponential Estimators in Stratified Random Sampling
An exponential family of estimators, which use the information of auxiliary variable in the stratified
random sampling, is proposed to estimate the population mean of the variable under study. Under
stratified random sampling without replacement scheme, the expressions of bias and mean square error
(MSE) up to the first order approximations are derived. The family of estimators in its optimum case is
discussed. Also an empirical study is carried out to show the properties of the proposed estimators.
Keywords: Exponential estimator; auxiliary information; mean square error; efficiency; stratified
random sampling.
1. Giri!
lgilenilen de!i ken Y’nin kitle ortalamas n n tahmininde yard mc de!i ken X’i kullanmak
tahminlerin duyarl l ! n art rmaktad r. Bu amaçla literatürde birçok oransal, çarp msal, regresyon tipi
tahmin ediciler önerilmi tir. Basit rasgele örneklemede üstel tahmin ediciler ise ilk olarak Bahl ve
Tuteja [6] taraf ndan tan mlanm t r. Singh ve di!erleri [5] basit rasgele örneklemede, Singh ve
Vishwakarma [2] iki a amal örneklemede kitle ortalamas n n tahmini için, Shabbir ve Gupta [3] ise
basit rasgele örneklemede kitle varyans n n tahmini için üstel tahmin ediciler önermi lerdir. Bahl ve
Tuteja [6] taraf ndan yard mc de!i ken bilgisi kullan larak önerilen üstel tahmin ediciler
t1 = y exp
X x
X +x
(1)
t2 = y exp
x X
X +x
(2)
biçiminde verilmi tir. Burada t1 tahmin edicisi oransal, t 2 tahmin edicisi ise çarp msal üstel
tahmin edici olarak tan mlanmaktad r.
346
2. Tabakal Rasgele Örneklemede Önerilen Üstel Bile!ik Tahmin Ediciler
N büyüklü!ündeki bir kitle, h (h=1,2,…,L) tabaka say s olmak üzere N h büyüklü!ündeki tabakalara
ayr lm
olsun. Her bir tabakadan basit rasgele örnekleme ile yerine koymadan nh büyüklü!ünde
örneklemler seçilsin. y hi ve xhi s ras yla h. tabaka için ilgilenilen de!i ken ile yard mc de!i kenin
gözlemlenen de!erlerini göstersin. Tabakal rasgele örneklemede önerilen bile ik üstel tahmin ediciler
y p1( st ) = y st exp
X x st
X + x st
(3)
y p 2( st ) = y st exp
x st X
x st + X
(4)
eklindedir. Burada y st =
L
L
h =1
h =1
"Wh y h ve xst = "Wh xh s ras yla ilgilenilen de!i ken ile yard mc
de!i kenin tabakal örneklemede ortalama tahmin edicileridir. Üstel tahmin edicilerin yan ve hata
kareler ortalamas fark yöntemiyle a a! daki e itlikler tan mlanarak bulunabilir:
e0 = ( y st
Y ) Y > y st = Y (1 + e0 ) , e1 = (x st
X ) X > x st = X (1 + e1 )
(5)
Beklenen de!er e itlikleri
L
Vr , s = " W
h =1
[
E (x h
r+s
h
E (e0 e1 ) = V1,1 ,
]
X h ) ( y h Yh )
,
X rY s
E (e12 ) = V2,0 , E (e02 ) = V0, 2
r
s
(6)
(7)
olarak tan mland ! nda üstel tahmin edicilerin yan ve hata kareler ortalamas s ras yla,
Yan( y p1( st ) ) = Y
3
V2 , 0
8
HKO ( y p1(st ) ) = Y 2
Yan( y p 2( st ) ) = Y
1
V1,1
2
(8)
1
V2, 0 + V0, 2 V1,1
4
(9)
1
1
V2, 0 + V1,1
8
2
HKO ( y p 2(st ) ) = Y 2
(10)
1
V2, 0 + V0, 2 + V1,1
4
(11)
eklinde elde edilir. Singh ve di!erleri [5] tahmin edicisi tabakal rasgele örneklemeye uyarland ! nda
y p 3(st ) = y st
st
exp
X x st
+ (1
X + x st
st
) exp
347
x st X
X + x st
(12)
tahmin edicisi elde edilmektedir. Burada st hata kareler ortalamas n minimum yapan bir sabit
olarak tan mlanmaktad r. Tahmin edici e’li ifadelerle
y p 3(st ) Y = Y
e +
st 1
1
4
1
1
e + e1 + e12
2
8
1
e e + e0 + e0 e1
2
2
st 1
(13)
st 0 1
eklinde yaz labilir yan ve hata kareler ortalamas ise s ras yla
Yan( y p 3(st ) ) = Y
1
4
+
st
HKO ( y p 3( st ) ) = Y 2
1
V2, 0
8
2
st
st
1
V1,1
2
st
(14)
1
V2, 0 + V0, 2 + (1 2
4
+
eklinde yaz labilir. Hata kareler ortalamas n minimum yapan
*
st
st
=
)V1,1
V1,1
V2, 0
(15)
+
1
e itli!i (15)’te yerine
2
yaz ld ! nda minimum hata kareler ortalamas
HKOmin
(y
p 3( st
))= Y
2
V12,1
V0 , 2
(16)
V2, 0
biçiminde bulunur.
Üstel tahmin edicilerde yard mc de!i kene ili kin kitle bilgilerinin bilinmesi durumunda önerilen
tahmin edici,
y p 4( st ) = y st exp
(a
(a
X + bst ) (a st x st + bst )
st X + bst ) + (a st x st + bst )
st
(17)
eklinde tan mlanabilir. Burada a st ve bst , X yard mc de!i keninin h. tabaka için de!i im
L
katsay s
L
C x ( st ) = " Wh C xh , çarp kl k
1( x )st
h =1
korelasyon katsay s
= " Wh
h =1
1h
(x ) ,
L
bas kl k
2 ( x )st
= " Wh
h =1
2h
(x )
ve
L
= " Wh
*
( xy )st
h =1
gibi bilinen parametrelerinden olu an bir fonksiyon olarak
( xy )h
tan mlanabilir. Tahmin edici e’li ifadelerle
y p 4( st ) Y = Y
(
e +3
st 1
eklinde yaz labilmektedir. Burada
e + e0
2 2
st 1
st
=
ee
st 0 1
)
(18)
a st X
olarak tan mlanm t r. Tahmin edicinin yan
2(a st X + bst )
ve hata kareler ortalamas ise
(
Yan( y p 4( st ) ) = Y 3 2stV2, 0
HKO ( y p 4(st ) ) = Y
2
(
2
st
V
st 1,1
V 2 , 0 + V0 , 2
)
2
V
st 1,1
)
eklinde elde edilir. Çizelge3’te y p 4 ( st ) tahmin edici ailesinden türetilen baz tahmin ediciler
verilmi tir.
348
(19)
(20)
3. Önerilen ki De<i!kenli Bile!ik Üstel Tahmin Edici Ailesi
Tabakal rasgele örneklemede iki yard mc de!i ken bilinmesi durumunda Koyuncu ve Kad lar [4],
tahmin edici ailesi önermi lerdir. ki yard mc de!i ken bilinmesi durumunda üstel bile ik aile,
/5
X
y N = y st 0 K 1st
x st
51
G1 st
a st (x st X )
Z
+ K 2 st
exp
X + bst (x st X )
z st
G 2 st
exp
c st (z st Z )
Z + d st (z st Z )
;5
<
5=
(21)
eklinde tan mlanabilir. Burada K 1st + K 2 st = 1 olan sabitler; G 1st , G 2 st uygun sabitler, a st , bst
birinci yard mc de!i kene ili kin bilinen kitle parametrelerinden olu an bir fonksiyon ; c st ve d st ise
ikinci yard mc de!i kene ili kin bilinen kitle parametrelerinden olu an bir fonksiyon olarak
tan mlanmaktad r.
(
kinci de!i ken fark yöntemiyle, e2 = z st
kullan larak tahmin edici
yN
Z ) Z eklinde yaz labilmektedir. e’li terimler
/
G 1st (G 1st + 1) 2
a (a
2bst ) 2 ; ;
/
e1 + a st e1 G 1st a st e12 + st st
e1 5 5
5 K 5 G 1st e1 +
2
2
< 5
5 1st 0
5
5 5
5
1+ e0 G 1st e0 e1 + a st e0 e1
=
Y =Y 0
<
G 2 st (G 2 st + 1) 2
c st (c st 2d st ) 2 ;5
/
2
5
G e +
e 2 + c st e 2 G 2 st c st e 2 +
e2 5
5+ K 2 st 50 2 st 2
2
2
<5
5
5+ e 0 G 2 st e 0 e 2 + c st e0 e 2
55
1
==
1
(22)
eklinde yaz labilir. Beklenen de!er e itlikleri
L
Vrst = " Whr + s +t
[
E (y h
h =1
Yh ) (x h X h ) (z h
Y r X sZ t
r
s
Zh )
t
]
E (e02 ) = V200 , E (e12 ) = V020 , E (e22 ) = V002 , E(e0 e1 ) = V110 , E(e1e2 ) = V011 ,
E(e0 e2 ) = V101 eklinde tan mlanabilir, [3]. Tahmin edicinin yanl l !
// G 1st (G 1st + 1)
;
;
2bst )
a (a
G 1st a st + st st
V020 + (a st G 1st )V110 <
50
5
2
2
=
51
5
55
/ G 2 st (G 2 st + 1)
;55
c st (c st 2d st )
Yan( y N ) = Y 0
G
c
+
V
+
(
c
G
)
V
2 st st
002
st
2 st
101 5<
5
2
2
55
5+ K 5
<5
2 st 0
5
G 1st (G 1st + 1)
a st (a st 2bst )
5
5
G 1st a st +
V020 + (G 1st a st )V110 55
5
5=5
2
2
1
15
=
(23)
e itli!i ile verilebilir. (22) e itli!inin karesi al n p ikinci dereceden büyük terimler ihmal edilirse
(y
N
[
Y ) = Y 2 e02 + t12ste12 + t22ste22 2t2ste0e2 2t1ste0e1 + 2t2stt1ste1e2
2
349
]
(24)
e itli!i elde edilir. Burada t1st = K 1st (G 1st
Hata kareler ortalamas ise,
a st ) ve t 2 st = K 2 st (G 2 st
c st ) olarak tan mlanmaktad r.
[
]
HKO( yN ) = Y 2 V200 + t12stV020 + t22stV002 2t2stV101 2t1stV110 + 2t2stt1stV011
(25)
e itli!i ile verilir. (25) e itli!ini minimum yapan de!erler
t1*st =
yx ( st )
1
yz ( st )
V200
,
V020
xz ( st )
2
xz ( st )
L
eklindedir. Burada
ab ( st )
"W
=
yz ( st )
t 2*st =
h =1
L
"W
h =1
2
h
DhS
2
h
yx ( st )
xz ( st )
2
xz ( st )
1
V 200
,
V002
D h S abh
2
ah
tabakal rasgele örneklemede bile ik
L
"W
h =1
2
h
DhS
2
bh
korelasyon katsay s olarak tan mlanmaktad r. Optimum de!erler (25)’te yerine koyuldu!unda
minimum hata kareler ortalamas
2
yx ( st )
HKOmin ( y N ) = Y V200 1
2
+
2
yz ( st )
(1
2
yx ( st )
2
xz ( st )
)
yz ( st )
xz ( st )
(26)
eklinde bulunur.
4. Önerilen Üstel Ayr Tahmin Ediciler
Bahl ve Tuteja [6] tahmin edicileri için üstel oransal ayr tahmin
L
y pa1 = " Wh y h exp
h =1
X h xh
X h + xh
(27)
eklinde tan mlan r. Yan ve hata kareler ortalamas n elde etmek için e’li ifadeler ve beklenen de!er
e itlikleri
e0 h = ( y h
( )
Yh ) Yh
E e12h = Dh C xh2 ,
e1h = (x h
( )
Xh) X h
2
E e02h = D h C yh
,
E (e0 h e1h ) = Dh C xyh , D h =
N h nh
N h nh
eklinde tan mlanmaktad r. (27) e itli!inde verilen tahmin edicinin yan ve hata kareler ortalamas
L
1
;
/3
Yan( y pa1 ) = " WhYh 0 D h C xh2
D h C xyh <
2
=
18
h =1
L
;
/1 2
2
HKO ( y pa1 ) = " Wh2Yh2 D h 0 C xh
C xyh <
+ C yh
=
14
h =1
eklinde elde edilir.
Bahl ve Tuteja [6] tahmin edicileri için üstel çarp msal ayr tahmin ise
350
(28)
(29)
xh X h
xh + X h
L
y pa 2 = " Wh y h exp
h =1
(30)
eklinde verilir. Yan ve hata kareler ortalamas ise
Yan( y pa 2 ) = " WhYh
L
1
1
D h C xh2 + D h C xyh
8
2
h =1
L
1
2
+ C xyh
HKO ( y pa 2 ) = " Wh2Yh2 D h C xh2 + C yh
4
h =1
(31)
(32)
e itlikleri ile elde edilmektedir.
Singh ve di!erleri [5] tahmin edicisi için üstel ayr tahmin edici
L
y pa 3 = " Wh y h
h
h =1
exp
X h xh
+ (1
X h + xh
h
xh X h
X h + xh
) exp
(33)
biçiminde verilebilir. Yan ve hata kareler ortalamas e itlikleri
L
/1
Yan( y pa 3 ) = " WhYh D h 0
14
h =1
h
1
C xh2 + C xh2
8
h
1
;
C xyh + C xyh <
2
=
(34)
L
/
HKO ( y pa 3 ) = " Wh2Yh2 D h 0
h =1
1
;
1 2
2
C xh + C yh
+ (1 2 h )C xyh <
(35)
4
=
1 C xyh
biçimindedir. Hata kareler ortalamas n minimum yapan h* = + 2 de!eri (35) e itli!inde yerine
2 C xh
2
h
h
+
koyuldu!unda minimum hata kareler ortalamas
{
2
HKOmin ( y pa 3 ) = " Wh2Yh2 D h C yh
1
L
h =1
2
yxh
}
(36)
eklinde elde edilir.
Yard mc de!i kene ili kin kitle bilgilerinin bilinmesi durumunda önerilen ayr tahmin edici,
L
y pa 4 = " Wh y h exp
h =1
(a
(a
X h + bh ) (a h x h + bh )
h X h + bh ) + (a h x h + bh )
h
(37)
biçiminde tan mlanabilir. Burada ah ve bh , h. tabaka için yard mc de!i kene ili kin bilinen kitle
bilgileridir. Yan ve hata kareler ortalamas
{
Yan( y pa 4 ) = " WhYh D h 3 h2 C xh2
L
h =1
HKO ( y pa 4 ) = " Wh2Yh2 D h
L
h =1
eklinde elde edilmektedir. Burada
{
h
2
h
h
C xyh
2
C xh2 + C yh
=
}
(38)
2 h C xyh
}
(39)
ah X h
olarak tan mlanm t r. Çizelge3’te y pa 4
2(a h X h + bh )
tahmin edici ailesinden türetilen baz tahmin ediciler verilmi tir.
5. Önerilen ki De<i!kenli Ayr Üstel Tahmin Edici Ailesi
351
ki yard mc de!i ken bilinmesi durumunda önerilen üstel ayr tahmin edici,
y Na
/5
Xh
= " Wh y h 0 K 1h
xh
h =1
51
L
G 1h
a h (x h X h )
Z
exp
+ K 2h h
X h + bh (x h X h )
zh
G 2h
exp
c h (z h Z h )
Z h + d h (z h Z h )
;5
<
5=
(40)
eklinde tan mlan r. Burada K 1h + K 2 h = 1 , G 1h , G 2 h uygun sabitler, a h ve bh , h. tabaka için birinci
yard mc de!i kene ili kin bilinen kitle parametrelerinden olu an bir fonksiyon ; c h ve d h ise h.
tabaka için ikinci yard mc de!i kene ili kin bilinen kitle parametrelerinden olu an bir fonksiyon
olarak tan mlanmaktad r.
kinci de!i ken fark yöntemiyle, e2 h = z h Z h Z h eklinde yaz labilmektedir. e’li terimler
kullan larak tahmin edici
(
y Na
)
/
;
G 1h (G 1h + 1) 2
a (a
2bh ) 2 ;
/
e1h + a h e1h G 1h a h e12h + h h
e1h 5
5 K 5 G 1h e1h +
5
2
2
<
5 1h 0
5
5+ e0 h G 1h e0 h e1h + a h e0 h e1h
5
L
5
5
1
=
Y = " W h Yh 0
<
G 2 h (G 2 h + 1) 2
c h (c h 2d h ) 2 ;5
/
h =1
2
5
G e +
e2h + c h e2h G 2h c h e2h +
e2h 5
5+ K 2 h 50 2 h 2 h
2
2
<5
5
5+ e 0 h G 2 h e 0 h e 2 h + c h e 0 h e 2 h
55
1
==
1
( )
(41)
eklinde yaz labilir. kinci de!i kene ait beklenen de!er E e2 h = Dh C zh , E (e0 h e2 h ) = Dh C zyh
2
2
e itlikleri kullan ld ! nda yan ve hata kareler ortalamas
// G 1h (G 1h + 1)
;
;
a (a 2bh ) 2
G 1h a h + h h
C xh + (a h G 1h )C xyh <
50
5
2
2
=
51
5
55
L
;55 (42
/ G 2 h (G 2 h + 1)
c h (c h 2d h ) 2
Yan( y Na ) = " Wh Yh D h 0
G 2h ch +
C zh + (c h G 2 h )C zyh
5<
5
2
2
h =1
55
5+ K 5
<5
2h 0
5
G 1h (G 1h + 1)
a h (a h 2bh ) 2
5
5
+
+ G 1h a h
C xh + (G 1h a h )C xyh 55
5=5
5
2
2
1
15
=
)
{
L
2
HKO( y Na ) = " Wh2Yh2 D h C yh
+ t12h C xh2 + t 22h C zh2
h =1
eklinde elde edilir. Burada t1h = K 1h (G 1h a h ) ve t 2 h = K 2 h (G 2 h
Hata kareler ortalamas n minimum yapan de!erler
t1*h =
yxh
1
yzh xzh
2
xzh
C yh
C xh
t2*h =
yzh
1
}
2t1h C yxh + 2t1h t 2 h C xzh (43)
2t 2 h C yzh
yxh xzh
2
xzh
c h ) olarak tan mlanmaktad r.
C yh
Czh
(43) e itli!inde yerine koyuldu!unda minimum hata kareler ortalamas ,
352
/5 2
HKOmin ( y Na ) = "W Y D h 0C yh
51
h =1
L
2 2
h h
2
2
C yzh
C xh2 + C yxh
C zh2
(C
2
xh
C zh2
2C yzh C xzh C yxh ;5
<
2
C xzh
5=
)
(44)
eklinde elde edilir.
6. Say sal Örnek
Konu ile ilgili say sal bir örnek vermek amac yla Türkiye’de bulunan 923 ilçedeki ilk ve
ortaö!retimde okuyan ö!renci say s (x) ve derslik say s (z) yard mc de!i ken, ö!retmen say s (y)
ilgilenilen de!i ken olarak al nm t r. Bu veriler 2006-2007 ö!retim y l için Milli E!itim
Bakanl ! ’ndan elde edilmi tir. Türkiye’nin farkl bölgelerinde bulunan ilçelerdeki ö!retmen, derslik
ve ö!renci say lar de!i kenlik gösterece!i dü ünülerek Türkiye’nin co!rafi bölgelerine göre kitle
tabakalara ayr lm t r. Burada Do!u Anadolu ve Güneydo!u Anadolu Bölgeleri’nin benzer özellik
gösterdi!i dü ünülmü ve iki bölge bir tabaka olarak al nm t r. Tabakalara ait kitle bilgileri
Çizelge1’de verilmi tir. Örneklem büyüklü!ünün tahmininde,
2
L
d
V =
t
"W S
2
, n=
h =1
1
V+
N
h
yh
L
"W S
h =1
h
(45)
2
yh
= 0.95 güvenilirlikle, tahmin için ho
e itlikleri kullan lm t r [1]. Bu e itliklerden yararlanarak, 1
görülebilecek hata miktar (d), yakla k olarak 95 al nd ! nda örneklem büyüklü!ü n=180 olarak
tahmin edilmi tir. Örneklem büyüklü!ünün tabakalara da! t m , birimlere ula ma maliyetinin
tabakadan tabakaya de!i medi!i varsay m yap larak Neyman Da! t m na göre yap lm t r.
Çizelge 1. Ö!retmen Say s (y), Ö!renci Say s (x) ve Derslik Say s (z) De!i kenlerine Ait Kitle ve
Tabaka Bilgileri
Tabakalar
1. tabaka
127
2. tabaka
117
3. tabaka
103
4. tabaka
170
5. tabaka
205
6. tabaka
201
nh
31
21
29
38
22
39
S yh
883.835
644.922
1033.467
810.585
403.654
711.723
Yh
703.74
413
573.17
424.66
267.03
393.84
S xh
30486.751
15180.769
27549.697
18218.931
8497.776
23094.141
Xh
20804.59
9211.79
14309.30
9478.85
5569.95
12997.59
0.936
0.996
0.994
0.983
0.989
0.965
4.593
18.543
15.446
10.162
21.947
23.114
2.158
16.392
14.979
12.167
21.088
20.254
0.138
0.127
0.112
0.184
0.222
0.218
2.164
3.867
3.748
3.121
4.084
4.411
S zh
555.58
365.46
612.95
458.03
260.85
397.05
Zh
498.28
318.33
431.36
311.32
227.20
313.71
Nh
xyh
(xh )
2 ( yh )
2
wh
1
(x h )
353
yzh
2
(z h )
0.978914
0.976245
0.983511
0.982958
0.964342
0.982689
2.314926
11.19093
10.78635
8.624111
9.720886
14.40696
Çizelge1 verileri kullan larak Bölüm 2-5’te önerilen tahmin edicilerin hata kareler ortalamas
hesaplanm ve Çizelge2 de bu de!erler verilmi tir. Çizelge2 incelendi!inde bile ik tahmin edicilerden
y N tahmin edici ailesi, ayr tahmin ediciler içinde ise y Na tahmin edici ailesi en küçük hata kareler
ortalamas na sahiptir. y p 2 ( st ) ve y pa 2 tahmin edicileri çarp msal üstel tahmin edicilerdir. Say sal
örne!imizde x ve y aras nda pozitif yönde kuvvetli bir ili ki oldu!undan bu tahmin edicilerin hata
kareler ortalamas çok büyük sonuçlar vermi tir.
Çizelge 2. Önerilen Tahmin Edicilerin Yan ve HKO
Bile ik Tahmin Ediciler
y p1(st )
HKO
602.444
Ayr Tahmin Ediciler
y pa1
HKO
571.189
y p 2( st )
5096.884
y pa 2
5103.045
y p 3(st )
194.283
y pa 3
106.427
y p 4( st )1
602.532
y pa 4(1)
571.29
y p 4( st )2
603.894
y pa 4(2 )
572.929
y p 4( st )3
602.594
y pa 4(3)
571.364
y p 4( st )4
602.530
y pa 4(4 )
571.289
y p 4( st )5
602.453
y pa 4(5 )
571.201
y p 4( st )6
602.495
y pa 4(6 )
571.248
yN
78.0926+
y Na
47.606+
Çizelge 3.
y p 4( st ) ve y pa 4 Tahmin Edici Ailelerine Ait Tahmin Ediciler
y p 4( st ) tahmin edici
ast
bst
y pa 4 tahmin edici ailesine ait
ailesine ait tahmin ediciler
ah
bh
tahmin ediciler
y p 4( st )1
1
y p 4( st )2
1
y p 4( st )3
1
y p 4( st )4
1
1
y pa 4(1)
1
2 ( x )st
y pa 4(2 )
1
C x ( st )
y pa 4(3)
1
( xy )st
y pa 4(4 )
1
y pa 4(5 )
2 ( x )h
C x (h )
y pa 4(6 )
C x (h )
xyh
*
y p 4( st )5
2 ( x )st
C x (st )
y p 4( st )6
C x (st )
( xy )st
*
4. Sonuç ve öneriler
354
1
2 ( x )h
C x (h)
xyh
Bu çal mada, yard mc de!i ken bilgisi kullan larak tabakal rasgele örneklemede bile ik ve ayr üstel
tahmin edici aileleri önerilmi tir. Bu tahmin edicilerin yan ve hata kareler ortalamas hesaplanm ve
kar la t rmalar yap lm t r. Bu kar la t rmalara göre ayr tahminler bile ik tahminlere göre daha
etkindir. En küçük hata kareler ortalamas na sahip tahmin edici ise iki yard mc de!i ken kullan m nda
önerilen tahmin edici olmaktad r.
Kaynaklar
[1] H. Ç ng , (1994), Örnekleme Kuram , H.Ü. Fen Fakültesi Bas mevi, Beytepe.
[2] H.P. Singh, G.K. Vishwakarma, (2007), Modified exponential ratio and product estimators for finite
population mean in double sampling, Austrian Journal of Statistics, 36, 3, 217-225.
[3] J. Shabbir, S. Gupta, (2007), On improvement in variance estimation using auxiliary information,
Communications in Statistics: Theory and Methods, 36, 2177-2185.
[4] N. Koyuncu, C. Kad lar, (2009), Family of estimators of population mean using two auxiliary variables
in stratified random sampling, Communications in Statistics: Theory and Methods, (kabul edildi).
[5] R. Singh, C. Pankaj, N. Sawan, (2008), On linear combination of ratio and product type exponential
estimator for estimating the finite population mean, Statistics in Transition, 9, 1, 105-115.
[6] S. Bahl, R.K. Tuteja, (1991), Ratio and product type exponential estimator, Information and
optimization sciences, XII, I, 159-163.
355
Nadaraya-Watson Çekirdek Kestiricilerinin Yar
Parametrik Model Tahminindeki Performans Üzerine Bir
Benzetim Çal !mas
Özge Akku
Serdar Demir
Hüseyin Tatl dil
MuGla Ünv. Fen Edebiyat Fak.
statistik Bölümü,48000,
Kötekli, MuGla
[email protected]
Pamukkale Ünv. ktisadi ve dari
Bilimler Fak. Ekonometri Bölümü,
20020, K:n:kl:, Denizli
[email protected]
Hacettepe Ünv. Fen Fak.
statistik Bölümü,06532,
Beytepe, Ankara
[email protected]
Özet
BaG:ml: deGi#kenin iki düzeyli olduGu olas:l:k modellerinde parametre tahmini için üç temel yakla#:m vard:r.
Bunlar parametrik, parametrik olmayan ve yar: parametrik yakla#:mlard:r. Bu yakla#:mlardan parametrik
yakla#:mda hata terimi ile ilgili bilinen bir daG:l:m varsay:m: yap:l:rken yar: parametrik alternatifinde böyle bir
varsay:ma gereksinim duyulmamaktad:r. Yap:lan daG:l:m varsay:m:n:n hatal: olmas: durumunda yan:lt:c:
sonuçlar verebilen parametrik yakla#:m:n en önemli avantaj: parametre tahminlerinin kolay elde edilebilir
olmas:d:r. Yar: parametrik yakla#:m ise daha az varsay:m gerektirmekte, varsay:m bozulumlar:nda daha doGru
tahminler vermekte fakat uygulamada kar#:la#:lan baz: problemlerden dolay: yayg:n olarak kullan:lmamaktad:r.
Her iki yakla#:mda ortak yap:lan tek varsay:m, aç:klay:c: deGi#kenler aras:ndaki fonksiyonel yap:n:n
doGrusall:G:d:r ( x T{ ). Parametrik olmayan yakla#:mda hiçbir varsay:m yap:lmamaktad:r. Ancak, aç:klay:c:
deGi#ken say:s:n:n ikiden fazla olmas: durumunda bu yakla#:mda tahmin ve yorum giderek zorla#maktad:r.
Bu çal:#mada yar: parametrik model tahmini üzerine yoGunla#:lm:#t:r. Tahmin süreci üç a#amadan olu#maktad:r.
lk a#amada parametreler belirli yar: parametrik tahmin edicilere gore elde edilmekte, ikinci a#amada x T{ˆ
doGrusal indeks deGerleri hesaplanmakta ve son a#amada baG:ml: deGi#ken Y’nin x T{ˆ üzerine parametrik
olmayan regresyonu uygulanarak gözlemlerin baG:ml: deGi#kende “1” olarak kodlanan düzeye ait olma
olas:l:klar: tahmin edilmektedir. Literatürde yer alan s:n:rl: say:daki çal:#mada bu a#ama için klasik NadarayaWatson (NW) tahmin edicisinin kullan:ld:G: görülmü#tür. Burada, klasik NW tahmin edicisine alternatif
olabilecek uyarlanabilir NW tahmin edicisinin yar: parametrik model tahminideki kullan:m: ve baz: istatistiksel
kriterlere göre performans: yap:lan bir benzetim çal:#mas: ile ara#t:r:lm:#t:r.
Anahtar sözcükler: Uyarlanabilir Nadaraya Watson Çekirdek Kestiricisi, Yar: parametrik yakla#:m, Klein ve
Spady tahmin edicisi, ki düzeyli baG:ml: deGi#ken modeli
Abstract
A Simulation Study on the Performance of the Nadaraya-Watson Kernel Estimators in the
Semiparametric Model Estimation
There are three fundamental approaches for the parameter estimates of the probability models when the
dependent variable is binary. These are the parametric, the nonparametric and the semi-parametric approaches.
Among these approaches, a known distribution assumption is made related to the error term in the parametric
approach whereas this kind of assumption is not required in the semi-parametric alternative. The most important
advantage of the parametric approach that may give misleading results when the distribution assumption is
incorrect is that parameter estimates are easily obtained. The semi-parametric approach requires less
assumption, gives more accurate estimates when the assumptions are violated but has not widely used yet because
of some problems encountered in the application. The unique common assumption made in either model is the
linearity ( x T{ ) of the functional form of the explanatory variables. Any assumption is made in the nonparametric
approach. However, estimation and interpretation become hard when the number of the explanatory variables is
more than two.
356
The semi-parametric model estimation is focused in this study. The estimation process is composed of three parts.
In the first step, parameters are obtained according to the specific semi-parametric estimators; in the second step,
linear index values ( x T{ˆ ) are calculated and in the last step, probabilities of observations belonging to the
category coded as “1” in the dependent variable are estimated by applying the nonparametric regression of Y on
x T{ . It is revealed that the classical Nadaraya-Watson (NW) estimator is used for this step in the limited number
of study in the literature. Here, the use of the adaptive NW estimators that may be alternative to the classical NW
estimator in the semi-parametric model estimation and the performance of them were assessed according to some
statistical criteria based on a simulation study.
Keywords: Adaptive Nadaraya Watson Kernel Estimator; Semiparametric approach; Klein and Spady estimator;
Binary dependent variable model
1. Giri!
Ba! ml de!i kenin iki düzeyli oldu!u olas l k modellerinde parametre tahmini için üç temel yakla m
vard r. Bunlar, parametrik, parametrik olmayan ve yar parametrik yakla mlard r. Parametrik
yakla mda hata terimi ile ilgili bilinen bir da! l m varsay m yap l rken yar parametrik alternatifinde
böyle bir varsay ma gereksinim duyulmamaktad r. Yap lan da! l m varsay m n n hatal olmas
durumunda yan lt c sonuçlar verebilen parametrik yakla m n en önemli avantaj parametre
tahminlerinin kolay elde edilebilir olmas d r. Yar parametrik yakla m ise daha az varsay m
gerektirmekte, varsay m bozulumlar nda daha do!ru tahminler vermekte fakat uygulamada kar la lan
baz problemlerden dolay yayg n olarak kullan lmamaktad r. Her iki yakla mda ortak yap lan tek
varsay m, aç klay c de!i kenler aras ndaki fonksiyonel yap n n do!rusall ! d r ( x T { ). Parametrik
olmayan yakla mda hiçbir varsay m yap lmamaktad r. Ancak, aç klay c de!i ken say s n n ikiden
fazla olmas durumunda bu yakla mda tahmin ve yorum giderek zorla maktad r.
Bu çal mada yar parametrik model tahmini üzerine yo!unla lm t r. Tahmin süreci üç a amadan
olu maktad r. lk a amada parametreler belirli yar parametrik tahmin edicilere gore elde edilmekte,
ikinci a amada x T {ˆ do!rusal indeks de!erleri hesaplanmakta ve üçüncü a amada ba! ml de!i ken
Y’nin x T {ˆ üzerine parametrik olmayan ortalama regresyonu uygulanarak gözlemlerin ba! ml
de!i kende “1” olarak kodlanan düzeye ait olma olas l klar tahmin edilmektedir. Bu a ama için
literatürde sadece sabit bant geni li!ini kullanan klasik NW tahmin yöntemi kullan lmaktad r. Ba! ml
de!i kenin sürekli olmas durumunda regresyon fonksiyonlar n n tahmininde de!i en bant geni li!ini
kullanan NWU tahmin yöntemi Demir (2005) taraf ndan incelenmi tir. Ba! ml de!i kenin iki düzeyli
kategorik bir de!i ken olmas durumunda bu yöntemin yar parametrik model tahminindeki
performans n n ortaya ç kar lmas ise bu çal man n temel amac n olu turmaktad r [1,4,5,8].
2. Yar parametrik model tahmini
Ba! ml de!i kenin iki düzeyli kategorik bir de!i ken olmas durumunda ko ullu ortalama fonksiyonu
E (Y / X = x ) ’in modellendi!i çal malarda a a! da verilen bir olas l k ifadesine ula l r.
E(Y / X = x ) = P [Y = 1 / X = x ] = G ( x T {)
(1)
Burada G, hata terimi için bilinen bir da! l m fonksiyonunu; x T { ise aç klay c de!i kenler aras ndaki
fonksiyonel ili kinin do!rusall ! n göstermektedir. G için bilinen bir da! l m varsay m yap lmadan
daha do!ru tahminler elde edebilmek amac yla geli tirilen yar parametrik yakla mda sadece
aç klay c de!i kenler aras ndaki fonksiyonel yap n n x T { biçiminde do!rusal oldu!u
varsay lmaktad r. Bilinmesi durumunda G ile gösterilen hata teriminin da! l m fonksiyonu bu
yakla mda bilinmemekte ve “g” ile ifade edilmektedir. ki düzeyli ba! ml de!i ken için yar
parametrik model,
357
E(Y / X = x ) = P [Y = 1 / X = x ] = g ( x T {)
(2)
biçiminde tan mlanmaktad r. Burada amaç
ve g’nin en iyi tahminlerini elde edebilmektir. ˆ için
literatürde s kl kla kullan lan yöntem Klein ve Spady (KS) (1993)’nin Yar Parametrik En Çok
Olabilirlik Tahmin Edicisi’dir. Bu yöntem ile ilgili detayl bilgiye [9]’dan ula labilir.
3. Klasik ve uyarlanabilir Nadaraya-Watson çekirdek kestiricileri
Yar parametrik modellemenin son a amas n olu turan olas l k tahminleri için parametrik olmayan
regresyon fonksiyonu tahmin edicileri kullan lmaktad r. Tahminlerin daha kolay elde edilebilir
olmas ndan dolay bu tahmin ediciler aras nda en s k kullan lan çekirdek fonksiyonlar üzerine kurulu
olan NW tahmin edicisidir. Bu yöntemde tüm tahminler için ayn bant geni li!i (h) kullan lmaktad r.
Ancak bu yöntem baz durumlarda ba ar s z olmaktad r. Verilerin s k oldu!u bölgelerde yeterli
düzle tirme yapan bu yöntem, verilerin seyrek oldu!u bölgelerde yeterli düzle tirmeyi
yapamamaktad r. Ayr ca, gere!inden büyük bir bant geni li!i fazla düzle tirme yapmakta ve da! l m n
önemli tepelerini yok edebilmekte, gere!inden küçük bir bant geni li!i ise yeterli düzle tirme
yapmakta ba ar s z olmaktad r.
Bu problemler dikkate al nd ! nda klasik yönteme alternatif yöntemler önerilmi tir. lk olarak olas l k
yo!unluk fonksiyonunun tahmininde kullan lan NWU tahmin edicisi, verilerin s k oldu!u bölgeler için
küçük bir bant geni li!i; seyrek oldu!u bölgeler için ise büyük bir bant geni li!i kullan lmas ilkesine
dayan r. Olas l k yo!unluk fonksiyonlar n n tahmininde kullan lan bu yöntem, Demir (2005)
taraf ndan ba! ml de!i kenin sürekli oldu!u regresyon fonksiyonlar n n tahminine uyarlanm t r.
Bu çal mada ise ba! ml de!i kenin iki düzeyli kategorik bir de!i ken oldu!u durum için NW ve
NWU tahmin edicilerinin yar parametrik model tahminindeki performanslar ara t r lmaktad r.
3.1. Sabit bant geni#liGini kullanan klasik Nadaraya-Watson çekirdek kestiricisi
X ve Y, f ( x , y) bile ik olas l k yo!unluk fonksiyonuna sahip iki rasgele de!i ken olsun. Y’nin
verilen X = x ’e göre ko ullu beklenen de!eri,
E (Y / X = x ) = . y f ( y / x ) dy = . y
f ( x , y)
dy = m ( x )
f X (x )
(3)
biçiminde ifade edilmektedir. Burada f ( y / x ) , Y’nin, verilen X = x ’e göre ko ullu olas l k
yo!unluk fonksiyonu, f X ( x ) ise X’in marjinal olas l k yo!unluk fonksiyonudur.
Veri kümesindeki her bir x i için ko ullu beklenen de!er m ( x i ) elde edilir ve toplam n tane
( i = 1, K , n ) de!erden olu an ko ullu beklenen de!erler kümesi olu turulur. Böylece, Y ve X’in
“ortalama olarak” nas l ili kili oldu!u ortaya ç kmaktad r. Bu nedenle a a! da verilen m (.) ’in tahmini
regresyonda ilgilenilen temel noktad r.
m ( x ) = E (Y / X = x ) = . y
f ( x , y)
. y f ( x, y) dy
dy =
f X (x )
f X (x)
(4)
{X i , Yi },
( i = 1,K, n ) biçiminde verilen gözlemler için, E itlik (4)’de f ( x , y) ve f X ( x )
bilinmemektedir. Tek bir de!i kenin olas l k yo!unluk fonksiyonu olmas ndan dolay f X ( x ) ’in
tahmini kolayd r [2,12]. ki de!i ken X ve Y’nin bile ik olas l k yo!unluk fonksiyonu olan
358
f ( x , y) ’nin tahmini için, “Çarp msal Çekirdekler ile Çekirdek Yo!unluk Fonksiyonu” özelli!i
kullan lmaktad r. h ve g s ras yla X ve Y de!i kenlerinin yo!unluklar n n tahmininde kullan lan bant
geni likleri (düzle tirme parametreleri) olmak üzere, bu özellik kullan larak elde edilen yo!unluk
fonksiyonu tahmini a a! daki biçimde ifade edilmektedir.
f̂ h , g ( x, y) =
x Xi
1 n
Kg
"Kh
n i =1
h
y Yi
g
(5)
Çekirdek fonksiyonlar n n integralinin 1’i verdi!i ve 0 etraf nda simetrik oldu!u bilgisinden
yararlan larak veri kümesindeki herhangi bir x için kar l k gelen Y de!erinin NW tahmini, a a! daki
formül ile yap lmaktad r.
n
m̂ h ( x ) =
n 1 " K h ( x X i ) Yi
i =1
n
(6)
n " K h (x X i )
1
i =1
Burada tüm tahminler için ayn bant geni li!i (h) kullan ld ! ndan dolay yöntem, klasik NW tahmin
yöntemi olarak adland r lmaktad r. Yar parametrik tahminde m̂ h ( x ) de!erleri, gözlemlerin ba! ml
de!i kende “1” olarak kodlanan düzeye ait olma olas l klar n n tahminini vermektedir [6,10,16].
3.2.DeGi#en bant geni#liGini kullanan uyarlanabilir Nadaraya-Watson çekirdek kestiricileri
Daha önce de belirtildi!i gibi parametrik olmayan regresyon fonksiyonlar n n tahmini genel olarak
E itlik (4) ile verilen ko ullu ortalama fonksiyonu üzerine kuruludur. Nadaraya ve Watson (1964), pay
ve paydadaki olas l k yo!unluk fonksiyonlar n n tahmininde çekirdek kestirimlerinin kullan lmas n
önermi tir. ki de!i ken durumunda Epanechnikov (1969) taraf ndan bile ik olas l k yo!unluk
fonksiyonunun çekirdek kestirimi,
f̂ (x, y) =
1 n
1 && x - Xi y - Yi
K
,
"
n i =1 h X h Y
hX
hY
(7)
&& (...) iki de!i kenli çekirdek fonksiyonunu göstermekte ve a a! da
biçiminde verilmi tir. Burada K
verilen “Çarp msal Çekirdek Fonksiyonu” kullan larak elde edilmektedir.
&& x
K
y Yi
x Xi
X i y Yi
= K1
K2
,
hY
hX
hY
hX
(8)
K 1 = K 2 = K olmas durumunda iki de!i kenli olas l k yo!unluk fonksiyonunun çekirdek kestiricisi
a a! daki biçimde elde edilir.
f̂ ( x, y) =
y Yi
x Xi
1 n 1
K
K
"
hY
hX
n i =1 h X h Y
(9)
Bu tahmin edici, sabit bant geni likli NW çekirdek kestiricisinin elde edilmesinde kullan lmaktad r.
n gözlemli T1 , K , Tq (q boyutlu durumda) de!i kenleri için Sain (1994) taraf ndan, sabit bant geni li!i
yerine de!i en bant geni li!i kullan larak çok de!i kenli olas l k yo!unluk fonksiyonunun
uyarlanabilir (örneklem noktas ) çarp msal çekirdek kestiricisi,
359
f̂ u ( t 1 , K , t q ) =
t q Tqi
t T1i
1 n
1
K 1
KK
"
h (Tqi )
n i =1 h (T1i ) K h (Tqi )
h (T1i )
(10)
biçiminde verilmi tir. ki de!i ken (x ve y) için E itik (10), a a! daki biçime dönü ür.
f̂ u ( x, y) =
y Yi
x Xi
1 n
1
K
K
"
h (Yi )
h (X i )
n i =1 h (X i ) h (Yi )
(11)
E itlik (4)’de paydadaki kestirici yerine,
f̂ u ( x ) =
x Xi
1 n 1
K
"
h (X i )
n i =1 h (X i )
(12)
biçiminde tan mlanan yo!unluk fonksiyonunun uyarlanabilir çekirdek kestiricisi ve paydaki kestirici
yerine, E itlik (11) ile verilen kestirici koyuldu!unda a a! da verilen regresyon fonksiyonunun
çekirdek kestiricisi elde edilmektedir [13,14].
Yi
x Xi
K
h (X i )
i =1 nh ( X i )
n
m̂ NWU ( x ) = .
y f̂ u ( x, y)
f̂ u ( x )
dy =
x Xi
1 n 1
K
"
n i =1 h (X i )
h (X i )
Yi
x Xi
K
hia
i =1 a i
n
"
"
=
x Xi
1
" K
hia
i =1 a i
n
(13)
a i ’ler yerel bant geni li!i çarpanlar d r ve elde edilmesinde Silverman (1986) taraf ndan verilen üç
a amal algoritma kullan lmaktad r.
~
~
1. Ad m: Tüm i’ler için f ( x ) > 0 olacak biçimde f ( x i ) > 0 önsel kestirim bulunur. Bu kestirimler
için genellikle sabit bant geni likli çekirdek kestiricisi kullan l r.
~
1
" log f ( x i ) , logaritmas , S , ( 0 ! S ! 1 )
n i
duyarl l k parametresi olmak üzere, yerel bant geni li!i faktörü a i tan mlan r.
~
2. Ad m: g, f ( x i ) ’lerin geometrik ortalamas , log g =
~
f (x i )
ai =
g
S
(14)
Burada, S ne kadar büyük olursa önsel kestirimlere duyarl l k da o kadar artar ve örneklemin farkl
bölgelerinde kullan lan bant geni likleri aras ndaki fark da büyür. a i ’nin bulunmas nda geometrik
ortalaman n kullan lmas n n nedeni, o noktadaki yo!unlu!un geometrik ortalamaya gore daha küçük
oldu!u durum için daha büyük h de!eri seçmek; daha büyük oldu!u durumda ise daha küçük bir h
de!erinin seçilmesini sa!lamakt r.
3. Ad m: h i = h a i bant geni li!i ile E itlik (13) ile verilen uyarlanabilir çekirdek kestiricisi elde
edilir [15].
Bu çal mada, ba! ml de!i kenin iki düzeyli kategorik bir de!i ken olmas durumunda sabit bant
geni li!ini kullanan NW ve geometrik ortalamaya gore yerel bant geni li!i çarpan n hesaplayan
360
uyarlanabilir NWU G ’nin farkl örneklem büyüklüklerinde yar parametrik model tahminindeki
performans ara t r lm t r.
4. Benzetim çal !mas
Bu bölümde, yar parametrik model tahmininin ilk a amas ndaki
parametreler vektörünün tahmini
için KS tahmin edicisi kullan lm t r. kinci a amada ise sabit bant geni li!ini kullanan NW ve de!i en
bant geni li!ini kullanan NWU G ’nin yar parametrik model tahminindeki performans , Ortalama
Hata Kareler Ortalamas (OHKO) ve Ortalama Do!ru S n flama Oran (ODSO) kriterlerine göre
ara t r lm t r.
4.1. Veri
Çal mada, n = 25 , n = 100 , n = 250 ve n = 500 geni liklerinde örneklemler, Proença (2001)
taraf ndan da kullan lan,
Indeks = 1 + X1 + X 2 fonksiyonu ve X 1 XStandart Normal Da! l m; X 2 XBernoulli (0.75)
da! l mlar na göre türetilmi tir. Indeks de!erlerine göre olas l klar a a! daki fonksiyon ile
hesaplanm t r.
Olas l k =
exp (indeks)
1 + exp(indeks)
Ba! ml de!i ken Y ise, Y XBernoulli (Olas l k) da! l m ndan türetilmi tir. Her bir örneklem geni li!i
için 1000 tekrar yap lm t r. lk a amas ndaki parametre tahminleri için kodlar NLogit yaz l m ile
olu turulmu tur [7]. Çal mada, Gaussian ve Epanechnikov çekirdek fonksiyonlar kullan lm ve
sonuçlar n farkl çekirdek fonksiyonlar na göre nas l de!i im gösterdi!i de ara t r lm t r.
Çizelge 1. Farkl çekirdek fonksiyonlar na gore OHKO Sonuçlar
Gaussian
Epanechnikov
NW
NWUG
NW
NWUG
n=25
0.0816*
0.0820
0.0923**
0.0942
n=100
0.0987*
0.1003
0.1040**
0.1062
n=250
0.1147*
0.1161
0.1170**
0.1186
n=500
0.1220*
0.1230
0.1234**
0.1246
* Gaussian çekirde!i için minimum OHKO
** Epanechnikov çekirde!i için minimum OHKO
Çizelge 1 incelendi!inde,
1. Tüm örneklem büyüklükleri ve her iki çekirdek fonksiyonu için yar parametrik tahminin ikinci
a amas nda kullan lan NW’dan elde edilen OHKO’lar n, NWUG’ya oranla daha dü ük oldu!u
görülmektedir. Uygulama kolayl ! da dikkate al nd ! nda, birinci a amas KS ile tahmin edilen yar
parametrik tahminin ikinci a amas nda, NW tahmin edicisinin kullan lmas önerilmektedir.
2. Epanechnikov çekirde!i kullan larak elde edilen tahminlerin OHKO’sunun tüm örneklem
büyüklüklerinde, Gaussian çekirde!ine oranla daha büyük oldu!u gözlenmi tir. Ancak sonuçlar
birbirinden çok az farkl l k göstermektedir. Bu nedenle kolay uygulanabilen herhangi bir çekirdek
fonksiyonunun kullan lmas önerilmektedir.
361
Çizelge 2. Farkl çekirdek fonksiyonlar na gore ODSO Sonuçlar
Epanechnikov
Gaussian
NW
NWU
NW
NWU
n=25
0.8880
0.8885*
0.8753**
0.8727
n=100
0.8664*
0.8643
0.8601**
0.8560
n=250
0.8454*
0.8428
0.8426**
0.8395
n=500
0.8352*
0.8329
0.8333**
0.8305
* Gaussian çekirde!i için maksimum ODSO
** Epanechnikov çekirde!i için maksimum ODSO
Çizelge 2 incelendi!inde,
Tüm örneklem büyüklüklerinde ODSO’lar n yüksek oldu!u, ancak yöntemlerin do!ru s n flama
oranlar n n hem örneklem büyüklüklerine göre hem de kullan lan çekirdek fonksiyonuna göre önemli
derecede farkl l k göstermedi!i görülmektedir. Bu nedenle, burada da göreli olarak daha yüksek
ODSO’ya sahip olmas ve daha kolay uygulanabilir olmas bak m ndan, yar parametrik tahminin
ikinci a amas nda klasik NW tahmin edicisinin kullan lmas önerilmektedir.
Farkl örneklem büyüklükleri ve farkl çekirdek fonksiyonlar na gore NW ve NWUG tahminlerinin
gerçek de!erlerden sapmalar n gösteren grafikler a a! da verilmektedir.
1.2
1.2
1
1
0.8
0.8
Y25
0.6
NW
0.4
NWU
-0.2
0.4
NW
NWU
0
0
-1
Y25
0.2
0.2
-2
0.6
0
1
2
-2
3
-1
-0.2
0
1
Bekil 1. n=25 Gaussian çekirde!i.
2
3
1.2
1
1.2
0.8
1
0.6
Y100
0.8
0.4
NW
NWU
Y100
NW
0.6
0.4
0
-2
-1
-0.2
0
NWU
0.2
-3
0.2
0
1
2
Bekil 3. n=100 Gaussian çekirde!i.
Bekil 2. n=25 Epanechnikov çekirde!i.
362
-3
-2
-1
Bekil
4.
n=100
-0.2
0
1
2
Epanechnikov
çekirde!i.
1.2
1.2
1
1
0.8
0.8
Y250
0.6
0.4
-0.2
0
1
-3
3
Bekil 5. n=250 Gaussian çekirde!i
-1
1.2
1.2
1
1
1
3
0.8
Y500
0.6
Y500
0.6
NW
0.4
NW
0.4
NWU
0.2
0
-0.5
-0.2
-0.2
Bekil 6. n=250 Epanechnikov çekirde!i
0.8
-2.5
NWU
0.2
0
-1
NW
0.4
NWU
0.2
-3
Y250
0.6
NW
NWU
0.2
1.5
3.5
Bekil 7. n=500 Gaussian çekirde!i.
-2.5
0
-0.5
-0.2
1.5
3.5
Bekil 8. n=500 Epanechnikov çekirde!i.
rekiller incelendi!inde de her iki çekirdek fonksiyonu için elde edilen sonuçlar n birbirinden
önemli derecede farkl l k göstermedi!i ve NW sonuçlar n n NWUG‘ya yak n oldu!u görülmektedir.
5. Sonuç ve öneriler
Bu çal mada, iki düzeyli ba! ml de!i ken modelinde yar parametrik tahminin ilk a amadaki
parametreler vektörü Klein ve Spady (KS) tahmin edicisi kullan larak elde edilmi tir. NW ve
NWUG tahmin edicilerinin yar parametrik model tahminindeki performanslar ise farkl örneklem
büyüklükleri için yap lan bir benzetim çal mas ile Ortalama Hata Kareler Ortalamas (OHKO) ve
Ortalama Do!ru S n flama Oranlar (ODSO) kriterlerine göre kar la t r lm t r. Tahminler,
Gaussian ve Epanechnikov çekirdek fonksiyonlar na göre ayr ayr incelenmi tir. Benzetim
çal mas sonuçlar her iki çekirdek fonksiyonuna göre ayr ayr grafiklenmi tir. Tüm örneklem
büyüklükleri ve her iki çekirdek fonksiyonu için NW’dan elde edilen OHKO’lar n, NWUG’ya
oranla daha dü ük oldu!u görülmü tür. Uygulama kolayl ! da dikkate al nd ! nda, birinci a amas
KS ile tahmin edilen yar parametrik modelin ikinci a amas nda, NW tahmin edicisinin
kullan lmas önerilmi tir.
Epanechnikov çekirde!i kullan larak elde edilen tahminlerin OHKO’sunun tüm örneklem
büyüklüklerinde, Gaussian çekirde!ine oranla daha büyük oldu!u gözlenmi tir. Ancak sonuçlar
birbirinden çok az farkl l k gösterdi!inden dolay , kolay uygulanabilen herhangi bir çekirdek
fonksiyonunun kullan lmas önerilmi tir. Ayr ca, tüm örneklem büyüklüklerinde ODSO’lar n
yüksek oldu!u, ancak yöntemlerin do!ru s n flama oranlar n n hem örneklem büyüklüklerine göre
hem de kullan lan çekirdek fonksiyonuna göre önemli derecede farkl l k göstermedi!i görülmü tür.
Bu nedenle, burada da göreli olarak daha yüksek ODSO’ya sahip olmas ve daha kolay
uygulanabilir olmas bak m ndan yar parametrik tahminde sabit bant geni li!ini kullanan klasik
NW tahmin edicisinin kullan lmas önerilmi tir.
363
Kaynaklar
[1] Ö. Akku , (2008), Tek ndeks Modellerinde Yar Parametrik Yakla mlar, Doktora Tezi,
Hacettepe Üniversitesi Fen Bilimleri Enstitüsü, Ankara, 98s.
[2] S. Demir, (2005), Regresyon Fonksiyonlar n n Uyarlanabilir Nadaraya-Watson Çekirdek
Kestirimleri, Doktora Tezi, Hacettepe Üniversitesi Fen Bilimleri Enstitüsü, Ankara, 101s.
[3] V.K. Epanechnikov, (1969), Non-parametric Estimation of a Multivariate Probability Density,
Theory of Probability and its Applications, 14, 153-158.
[4] M. Gerfin, (1996), Parametric and Semiparametric Estimation of the Binary Response Model
of Labour Market Participation, Journal of Applied Econometrics, 11, 321-339.
[5] W. Hardle, M. Müller, S. Sperlich, A. Werwatz, (2004), Nonparametric and Semiparametric
Models, Springer-Verlag, New York., 299p.
[6] M.L. Hazelton, (2007), Bias Reduction in Kernel Binary Regression, Computational Statistics
and Data Analysis, 51, 4393-4402.
[7] J.M. Hilbe, (2006), A Review of LIMDEP 9.0 and NLogit 4.0, The American Statistician, 60,
187-202.
[8] J.L. Horowitz, (1998), Semiparametric Methods in Econometrics, Springer-Verlag, New
York, 204p.
[9] W. Klein, R.H. Spady, (1993), An Efficient Semiparametric Estimator for Binary Response
Models, Econometrica, 61, 387-421.
[10] E.A. Nadaraya, (1964),On Estimating Regression, Theory of Probability and Its Applications,
10, 186-190.
[11] I. Proença, S. Silva, 2001, Parametric and Semiparametric Specification Tests for Binary
Choice Models: A Comparative Simulation Study, Econometrics, Econ WPA, No: 0508008.
[12] M. Rosenblatt, (1956), Remarks on some nonparametric estimates of a density function.
Annals Math. Statistics, 27, 832-837.
[13] S.R. Sain, (1994), Adaptive Kernel Density Estimation. Ph.D. Dissertation, Department of
Statistics, Rice University.
[14] S.R. Sain, D.W. Scott, (1996), On Locally Adaptive Density Estimation, Journal of the
American Statistical Association, 91, 1525-1534.
[15] B.W. Silverman (1986), Density Estimation for Statistics and Data Analysis, London:
Chapman and Hall.
[16] G. S. Watson, (1964), Smooth Regression Analysis, Sankhya, Series A, 26, 359-72.
364
A! rl kl Bilgi Kriteri ile Türkiye Toplam Elektrik
Tüketiminin Öngörüsü
Ça!da Hakan Alada!
Erol E!rio!lu
Süleyman Günay
Hacettepe Üniversitesi
Fen Fak., statistik Bölümü
06532-Beytepe, Ankara, Türkiye
[email protected]
Ondokuz May:s Üniversitesi
Fen Edebiyat Fak., statistik Böl.
55139-Kurupelit, Samsun,
Türkiye
[email protected]
Hacettepe Üniversitesi
Fen Fak., statistik Bölümü
06532-Beytepe, Ankara, Türkiye
[email protected]
Özet
Yapay sinir aGlar: literatürde zaman serilerinin öngörülmesinde ba#ar:yla kullan:lmaktad:r.
Yöntemin kullan:m kolayl:G: ve öngörüdeki ba#ar:l: performans:na kar#:n, halen ara#t:rmac:lar:n
yöntem üzerinde çal:#t:G: baz: noktalar vard:r. ÖrneGin, öngörü performans:n: art:rmak amac:yla,
en iyi mimmarinin belirlenmesi için çe#itli yakla#:mlar önerilmi#tir. Önerilen yakla#:mlardan
baz:lar: mimari seçiminde kullan:lan performans ölçütlerine dayanmaktad:r. Bu çal:#mada, Türkiye
toplam elektrik tüketimi için daha iyi öngörüler elde edbilmek amac:yla, EGrioGlu ve arkada#lar:
taraf:ndan önerilen aG:rl:kl: bilgi kriteri [5] kullan:lm:#t:r. Mimari seçiminde, literatürde en çok
bilinen diGer performans ölçütleri de kullan:larak, elde edilen sonuçlar görsel olarak
kar#:la#t:r:lm:#t:r. AG:rl:kl: bilgi kriteri kullan:m:yla seçilen en iyi mimari kullan:larak 2011 y:l:na
kadar Türkiye toplam elektrik tüketimi tahmin edilmi#tir.
Anahtar sözcükler: AG:rl:kl: bilgi kriteri; mimari seçimi; öngörü; Türkiye elektrik tüketimi; yapay
sinir aGlar:; zaman serileri.
Abstract
Forecasting Electricity consumption of Turkey by using weighted information
criterion
Artificial neural networks have been successfully used to forecast time series in the literature. In
spite of the fact that it’s simple usage and accurate forecasting performance, there are still some
issues, on which some researchers study, about artificial neural networks. For example, in order to
increase forecasting accuracy, various approaches have been proposed to determine best
architecture in the literature. Some of these approaches are based on performance measures using
for selection of architecture. In this study, weighted information criterion introduced by EGrioGlu et
al. [5] and some other performance criteria are used to determine best architecture when Electricity
consumption of Turkey time series is forecasted. Results obtained from different criteria are
compared visually. Weighted information criterion is used as performance measure in order to
forecast the time series until 2011.
Keywords: Weighted information criterion; Architecture selection; Electricity consumption of
Turkey; Keyword Artificial neural networks; Time series.
1. Giri!
Çok de!i ik alanlarda, zaman serilerinin modellenmesinde ve öngörülmesinde yapay sinir
a!lar (YSA) modelleri ba ar yla kullan lmaktad r [5]. YSA kullan m n n di!er alternatif
zaman serisi çözümleme yöntemlerine göre daha iyi öngörü sonuçlar vermesi ile ilgili
literatürde birçok çal ma mevcuttur [2]. YSA modellerinin di!er çözümleme yöntemlerine
göre daha iyi öngörü üretmesinin en önemli nedeni, YSA yönteminin zaman serilerindeki
hem do!rusal, hem e!risel yap y ö!renebilme yetene!ine sahip olmas d r [6]. Di!er
365
yöntemlere göre sa!lad ! daha iyi öngörü sonuçlar na ve kullan m kolayl ! na kar n, daha
güvenilir öngörüler elde etmek amac yla YSA üzerinde çal malar devam etmektedir [3].
YSA modellerinin öngörü performans n art rmak amac yla üzerinde dü ünülen konulardan
biri, en iyi YSA mimarisinin belirlenmesi problemidir.
YSA yönteminin öngörü elde etmede gösterdi!i ba ar ya kar n, YSA yönteminin
kullan m nda halen baz sorunlar bulundu!u literatürde çok say daki çal mada
belirtilmi tir. Bu sorunlar n ba nda, en iyi mimarinin belirlenmesinde genel bir yöntemin
bulunamam olmas gelmektedir [3]. Literatürde en iyi YSA mimarisinin belirlenebilmesi
için çe itli yakla mlar önerilmi tir. Önerilen yakla mlardan baz lar Box-Jenkins
modellerine, budama algoritmalar na, yeni önerilen performans ölçütlerine, polinominal
zaman algoritmalar na, baz sezgisel yöntemlere ya da baz istatistiksel yöntemlere
dayanmaktad r [1,3,5].
YSA mimari seçimi için E!rio!lu ve arkada lar [5], farkl özelliklere sahip performans
ölçütlerini a! rl kland rarak, a! rl kl bilgi kriteri (ABK) ad n verdikleri yeni bir öngörü
performans ölçütü önermi lerdir. Farkl özellikteki kriterlerin a! rl kl toplamlar ndan
olu an ABK ile kullan lan tüm performans ölçütlerinin sunduklar bilgiyi tek bir kriterde
toplamay amaçlam lard r. Çal malar nda, önerdikleri kriterin di!er performans
ölçütlerinden daha tutarl sonuçlar verdi!ini göstermi lerdir [5]. Buna göre, önerilen
performans ölçütüyle YSA mimarisi belirlendi!inde, daha iyi öngörü elde edilebilece!ini
vurgulam lard r [5].
Bu çal mada, Türkiye toplam elektrik tüketimi öngörmek için, mimari seçiminde a! rl kl
bilgi kriteri (ABK) [5] ve literatürde tercih edilen di!er baz performans ölçütleri
kullan lm t r. Uygulama sonucu elde edilen öngörü performanslar görsel olarak
kar la t r lm t r. ABK kullan m yla seçilen yapay sinir a! mimarisi ile Türkiye toplam
elektrik tüketimi 2011 y l na kadar tahnin edilmi tir.
2. Yapay sinir a<lar
Zaman serisi çözümleme yöntemi olarak YSA yöntemi veriye dayal bir yöntemdir.
ncelenen zaman serisinin yap s na göre farkl YSA bile enleri kullanmak daha yararl
olabilir. YSA bile enlerinin do!ru seçilmesi YSA yönteminin performans n önemli
derecede etkiler. YSA bile enleri E!rio!lu ve arkada lar taraf ndan a a! daki gibi
verilmi tir [4].
Mimari Yap:: YSA mimarileri ileri beslemeli ve geri beslemeli mimariler olarak ikiye
ayr lmaktad r. Zaman serisi öngörü problemleri için, ileri beslemeli mimariler yeteri kadar
iyi sonuç verdi!inden, çal mada daha basit yap ya sahip ileri beslemeli sinir a!lar
kullan lm t r. En basit hali ile çok tabakal ileri beslemeli bir yapay sinir a! mimari yap s
rekil 1 de verilmi tir. rekilde de görüldü!ü gibi çok tabakal ileri beslemeli bir yapay sinir
a! mimarisi üç k s mdan olu ur. Bunlar girdi tabakas , gizli tabaka ve ç kt tabakas d r.
Tabakalar, nöron (dü!üm) ad verilen birimlerden olu maktad r. Mimarinin tam olarak
belirlenmesi tabakalardaki nöron say s na karar verilmesi ile gerçekle ir. YSA de nöronlar
birbirlerine a! rl klar ile ba!l d rlar. leri beslemeli a!larda bu ba!lant lar tek yönlü ve ileri
do!rudur. Ayn tabakan n birimleri aras nda ba!lant yoktur.
366
Ç kt tabakas
Gizli tabaka
Girdi tabakas
Bekil 1. Çok tabakal ileri beslemeli yapay sinir a! .
Zaman serilerinin gelecek tahmininde genellikle, 3 tabakal ileri beslemeli sinir a!lar n n
kullan m tercih edilir. Tek de!i kenli zaman serileri için a! n girdileri geçmi veya
gecikmeli de!i kenler, ç kt s ise tahmin de!eridir. Öngörü problemi için yapay sinir a!
e!risel otoregresif modele denktir. Girdi tabakas ndaki nöronlardan gizli tabakay atlayarak
do!rudan ç kt tabakas na ba!lant yap lmas ile elde edilecek yeni yapay sinir a! modeli
ise e!risel ve do!rusal iki otoregresif modelin toplam olur.
ÖGrenme Algoritmas:: YSA de a! rl klar n belirlenmesinde kullan lan bir çok ö!renme
algoritmas vard r. En çok kullan lan ö!renme algoritmalar ndan biri Geri Yay l m (Back
Propagation) Algoritmas d r. Geri yay l m algoritmas eldeki veri ile a! n ç kt s aras ndaki
farka dayal olarak a! l klar n güncellenmesini gerçekle tirir. Geri yay l m algoritmas nda
kullan lan ö!renme parametresi optimal sonuca yeterli derecede yakla lmas nda önemli
rol oynar. Ö!renme parametresi sabit olarak al nabilece!i gibi algoritma içinde dinamik
olarak da güncellenebilir.
Aktivasyon Fonksiyonu: Aktivasyon fonksiyonu girdi ve ç kt birimleri aras ndaki e!risel
e le meyi sa!lar. Aktivasyon fonksiyonunun do!ru seçilmesi a! n performans n önemli
derecede etkiler. Aktivasyon fonksiyonu genelde tek kutuplu, çift kutuplu ya da do!rusal
olarak seçilebilir. Seçilen aktivasyon fonksiyonu do!rusal olmad ! nda e!im
parametresinin belirlenmesi gerekmektedir. E!im parametresi de en iyi sonuca yeterli
derecede yakla lmas nda önemli rol oynayan bir faktördür.
3. A< rl kl bilgi kriteri kullan m ile mimari seçimi
Zaman serileri öngörü probleminde, en iyi YSA mimarisi belirlenirken, test kümesi
üzerinden hesaplanan çe itli performans ölçütleri kullan l r. Literatürde en çok tercih
edilen ölçütler aras nda, AIC, BIC, hata kareler ortalamas karekök (HKOK), ortalama
mutlak hata yüzdesi (OMHY) ve yön sa!laml ! (YS) ölçütleri bulunmaktad r [7]. YSA
modelinden elde edilen öngörüler ile gerçek de!erler aras ndaki farkl l ! , de!i ik
yönlerden ölçen bu ölçütler s ras yla
367
T
"(y
AIC = log
i =1
i
yˆ i ) 2
T
+
2m
T
+
m log(T )
T
(1)
T
"(y
BIC = log
i =1
i
yˆ i ) 2
T
(2)
1/ 2
T
"(y
HKOK =
i =1
i
yˆ i )
2
T
(3)
OMHY =
1 T y i yˆ i
"
T i =1 y i
(4)
/1
1 T
YS = " ai , ai = 0
T i =1
10
if ( y i +1
y i )( yˆ i +1
yi ) > 0
otherwise.
(
5)
eklinde hesaplan r. Burada, yi, gerçek de!erleri, ŷ i , YSA mimarisinden elde edilen
öngörüleri, T, test kümesindeki gözlem say s n ve m, YSA mimarisindeki a! rl k say s n
göstermektedir. Öngörülen zaman serisindeki dönüm noktalar n n ne kadar iyi tahmin
edildi!ini ölçen ve de!i tirilmi yön sa!laml ! (DYS) ad verilen bir di!er ölçüt E!rio!lu
ve arkada lar taraf ndan önerilmi tir [5]. DYS ölçütü
Ai = 1
, y i +1
yi ! 0
Ai = 0
Fi = 1
, y i +1
, yˆ i +1
, yˆ i +1
yi > 0
yˆ i ! 0
yˆ i > 0
Fi = 0
Di = ( Ai
Fi ) 2
T 1
MDA =
"D
i =1
i
T 1
(
6)
368
eklinde hesaplanabilir. (1)-(6) performans ölçütleri elde edilen öngörülerin iyili!ini farkl
yönlerden ölçmektedir. E!rio!lu ve arkada lar tüm bu performans ölçütlerini tek bir
kriterde birle tirerek, hepsinin farkl avantajlar n tek bir performans ölçütünde toplamay
amaçlam lard r. Buna göre, yukar da verilen tüm ölçütlerin a! rl kl toplam ndan olu an
yeni bir ölçüt önermi lerdir [5]. A! rl kl bilgi kriteri ad n verdikleri bu ölçütün
kullan lmas yla, mimari seçiminin yap lmas u ekilde be ad mda özetlenebilir [5]:
Ad:m 1. ncelenecek mimari aral ! belirlenir. Örne!in, girdi ve gizli tabaka birim
say s n n 1 ile 12 aras nda de!i ti!i ve bir ç kt biriminin kullan ld ! bir durumda,
144 mimari incelenecektir.
Ad:m 2. E!itim kümesi üzerinden mimariler için en iyi a! rl k de!erleri belirlendikten
sonra, test kümesi üzerinden AIC, BIC, HKOK, OMHY, YS ve DYS ölçütleri
hesaplan r.
Ad:m 3. Tüm mimariler için hesaplanan AIC, BIC, HKOK, OMHY, YS ve DYS de!erleri
standartla t r l r. Örne!in 144 AIC de!eri
AIC i =
AIC i min( AIC )
,
max( AIC ) min( AIC )
i = 1,...,144
eklinde standartla t r l r.
Ad:m 4. Her bir mimari için ABK de!eri
WIC = 0.1( AIC + BIC ) + 0.2 ( HKOK + OMHY ) + 0.2 ((1 YS ) + DYS )
(
7)
eklindeki formülle hesaplan r.
Ad:m 5. Son ad mda, en küçük ABK de!erine sahip mimari seçilir.
4. Sonuç ve öneriler
Yap lan çal mada, 1970 ile 2006 y llar aras nda Türkiye toplam elektrik tüketimi (106
kw/sa) y ll k zaman serisi YSA ile çözümlenmi tir. Çözümlenen zaman serisinin grafi!i
rekil 2’de verilmi tir.
369
Bekil 2. Türkiye toplam elektrik tüketimi.
37 gözlemden olu an zaman serisinin ilk 32 gözlemi e!itim, son 5 gözlemi test kümesi için
kullan lm t r. Çözümlemede, öngörü problemlerinde ba ar s n kan tlam olan, tek ç k
birimi içeren ileri beslemeli sinir a!lar [6] kullan lm t r. Bir gizli tabaka kullan lm ve
a! n tüm birimlerinde lojistik aktivasyon fonksiyonu kullan m tercih edilmi tir. Girdi
birim say s ve gizli tabaka birim say s 1 ile 14 aras nda de!i tirilerek, toplamda 196 farkl
mimari ile çözümleme yap lm t r. ncelenen 196 mimari için HKOK, OMHY, AIC, BIC,
YS, DYS performans ölçütleri ve bu ölçütlerin a! rl kl toplamlamlar ndan olu an ABK
de!erleri hesaplanm t r. AIC, BIC, YS ve DYS öçütlerini tek ba na mimari seçiminde
kullanmak, ölçütlerin özelliklerinden dolay tercih edilen bir durum de!ildir. ABK, HKOK
ve OMHY ölçütlerine göre seçilen en iyi mimariler ve sahip olduklar performans ölçütü
de!erleri Çizelge 1’de verilmi tir.
Çizelge 1. ABK, HKOK ve OMHY ölçütlerine göre en iyi mimariler.
Di!er ölçütlerin de!erleri
ABK
HKOK
OMHY
Performans
ölçütü
En iyi
mimari
ABK
1-6-1
0,0041
5648,21
0,0075
HKOK
3-5-1
0,0082
5306,87
0,0040
OMHY
2-2-1
0,1282
11331,63
0,0037
Çizelge 1 incelendi!inde, örne!in ABK de!erine göre seçim yap ld ! nda, girdi tabkas nda
1, gizli tabakada 6 birimin bulundu!u ve bir ç kt birimi içeren mimari (1-6-1) seçilmi tir.
HKOKve OHMY ölçütlerine göre seçim yap ld ! nda s ras yla 3-5-1 ve 2-2-1 mimarileri
en iyi mimari olarak belirlenmi tir. Sonuçlar görsel olarak kar la t rabilek için, test
kümesindeki gerçek de!erlerlerle, belirtilen bu üç performans ölçütüne göre seçilen
mimarilerin tahmin de!erlerinin grafikleri rekil 3, rekil 4 ve rekil 5’de verilmi tir.
Grafiklerde, gerçek de!erler düz çizgi ile belirtilirken, kesikli çizgiler tahmin de!erlerini
göstermektedir. Dikey eksenler elektrik tüketim miktar n , yatay eksenler test kümesi
gözlem numaralar n göstermektedir.
370
Bekil 3. 1-6-1 mimarisi tahmin de!erleri ve gerçek de!erlerin birlikte grafi!i.
Bekil 4. 3-5-1 mimarisi tahmin de!erleri ve gerçek de!erlerin birlikte grafi!i.
371
Bekil 5. 2-2-1 mimarisi tahmin de!erleri ve gerçek de!erlerin birlikte grafi!i.
E!rio!lu ve arkada lar yapt klar çal mada, performans ölçütü olarak ABK kullan m n n,
HKOK ve OMHY kullan m na göre daha tutarl sonuçlar verdi!ini göstermi lerdir [5].
Verilen grafikler incelendi!inde, mimari seçiminde ABK kullan m n n oldukça iyi öngörü
de!erlerine götürdü!ünü söylemek mümkündür. Buna göre, ABK kullan m yla en iyi
olarak belirlenen 1-6-1 mimarisinin kullan lmas yla, Türkiye toplam elektrik tüketimi 2011
y l na kadar öngörülmü ve elde edilen de!erler Çizelge 2’de verilmi tir.
Çizelge 2. 2011 y l na kadar Türkiye toplam elektrik tüketimi tahminleri.
Y llar
2007
2008
2009
2010
2011
Tahminler
(106kw/sa)
156582,16
166902,67
177036,56
187734,54
205416,43
ABK ile belirlenen 1-6-1 sinir a! mimarisinden elde edilen ve Çizelge 2’de de!erleri
verilen gelecek öngörü de!erlerinin grafi!i rekil 6’da görülmektedir. rekil 6
incelendi!inde, 2010 y l na kadar Türkiye elektrik tüketimin belli bir art la yükselmesi
beklenirken, 2011 y l nda toplam tüketimde daha büyük bir art n olabilece!i
öngörülmektedir.
372
Bekil 6. 2011 y l na kadar Türkiye toplam elektrik tüketimi tahminleri.
Kaynaklar
[1]
[2]
[3]
[4]
[5]
[6]
[7]
Ç.H. Alada! ve E. E!rio!lu, (2005), ARMA Yap l Zaman Serileri çin Genel Bir Yapay Sinir A!
Modeli Belirlemek Amac yla Bir Simülasyon Çal mas , 4. statistik Kongresi Bildiriler Kitab ,
397–406.
Ç.H. Alada!, E. E!rio!lu, ve S. Günay, (2007), Yapay Sinir A!lar le Türkiye Elektrik Tüketiminin
Tahmini, 16. statistik Ara t rma Sempozyumu Tam Metin Kitab , 181–191.
Ç.H. Alada!, E. E!rio!lu, and S. Günay, (2008), A new architecture selection strategy in solving
seasonal autoregressive time series by artificial neural networks, Hacettepe Journal of Mathematics
and Statistics, 37(2), 185–200.
E. E!rio!lu, Ç.H. Alada!, and S. Günay, (2007), Uzun Dönem Ba! ml Zaman Serilerinin Yapay
Sinir A!lar le Çözümlenmesinde Mimari Seçim Kriterlerinin Kar la t r lmas , 8. Türkiye
Ekonometri ve statistik Sempozyumu, (http://web.inonu.edu.tr/~eisemp8/bkitap.php).
E. E!rio!lu, Ç.H. Alada!, and S. Günay, (2008), A New Model Selection Strategy In Artificial
Neural Network, Applied Mathematics and Computation, 195, 591–597.
S. Günay, E. E!rio!lu ve Ç.H. Alada!, (2007), Tek De!i kenli Zaman Serileri Analizine Giri ,
Hacettepe Üniversitesi yay nlar .
M. Qi, and G. Zhang, (2001) An investigation of model selection criteria for neural network time
series forecasting, European Journal of Operational Research, 132, 666–680.
373
Yapay sinir a<lar ile öngörü kombinasyonu
Erol E!rio!lu
Ça!da Hakan Alada!
Cem Kad lar
Ufuk Yolcu
Ondokuz May:s Üni.
Fen Edb Fak.,
statistik Böl.
55139, Samsun, Türkiye
[email protected]
Hacettepe Üniversitesi
Fen Fak., statistik Böl.
06532-Beytepe,
Ankara, Türkiye
[email protected]
Hacettepe Üniversitesi
Fen Fak., statistik Böl.
06532-Beytepe,
Ankara, Türkiye
[email protected]
Ondokuz May:s Üni.
Fen Edb.Fak.,
statistik Böl.
55139,Samsun,Türkiye
[email protected]
Özet
Öngörü kombinasyonu, daha doGru öngörüleri elde etmek için kullan:lan bir yöntemdir. Öngörü
kombinasyonu yakla#:m: farkl: modellerden elde edilen öngörülerin birle#tirilmesinden ibarettir.
Yapay sinir aGlar: ve bulan:k zaman serileri öngörü alan:nda ba#ar:lar:n: kan:tlam:# iki yöntemdir.
Bu çal:#mada yapay sinir aGlar:na dayal: yeni bir öngörü kombinasyonu tekniGi önerilmi#tir.
Önerilen yeni öngörü kombinasyonu tekniGi ile çe#itli bulan:k zaman serisi yakla#:mlar:ndan elde
edilen öngörüler kombine edilmi#tir. Önerilen yöntem stanbul Menkul K:ymetler Borsas: Bile#ik
Endeksi ( MKB) zaman serisine uygulanarak, literatürdeki diGer öngörü kombinasyonu teknikleri ile
kar#:la#t:r:lm:# ve uygulamadan elde edilen sonuçlar tart:#:lm:#t:r.
Anahtar sözcükler: Öngörü, öngörü kombinasyonu, yapay sinir aGlar:, bulan:k zaman serileri.
Abstract
Forecast combination by using artificial neural
One of the efficient ways for obtaining accurate forecasts is usage of forecast combination method.
This approach consists of combining different forecast values obtain from different models. Also
artificial neural networks and fuzzy time series approaches have prove their success in the field of
forecasting. In this study, a new forecast combination approach based on artificial neural networks is
proposed. The forecasts obtain from different fuzzy time series models are combined by utilizing
artificial neural networks. The proposed method is applied to various time series and the results are
compared to other forecast combination methods available in the literature. Then, obtained results
from the implementation are discussed.
Keywords: Forecasting, forecast combination, artificial neural networks, fuzzy time series.
1.
Giri!
Zaman serilerinde gelece!e yönelik daha iyi tahminler üretebilmek için literatürde birçok
çal ma yap lm ve farkl yakla mlar önerilmi tir. Bu yöntemler aras nda son y llarda en
yayg n kullan lan iki yakla m, öngörü probleminde ba ar s n kan tlam olan yapay sinir
a!lar ve bulan k zaman serisi modelleridir [1,3]. Zaman serilerinde öngörü probleminde
kullan lan etkili bir di!er yakla m, çe itli yöntemlerin öngörülerinin kombinasyonlar n n
elde edilmesiyle gelecek tahmini yap lmas d r. Öngörülerin kombinasyonu fikri ilk olarak
Bates ve Granger taraf ndan ortaya at lm t r [5]. Daha sonra Granger ve Ramanathan,
Newbold ve Granger, Winlkler ve Makridakis çal malar nda, ikiden fazla model için
öngörü kombinasyonlar yapm lard r [4,8,11]. Wong ve arkada lar dört farkl zaman
374
serisi modelinin kombinasyonu
kar la t rm t r [7].
için
üç
ayr
öngörü
kombinasyonu
tekni!ini
Öngörü kombinasyonu ile elde edilen yeni öngörü, çe itli modellerin a! rl klarla kombine
edilmi do!rusal bir fonksiyonudur. Her bir modelin kombinasyon yakla m n n
öngörüsündeki pay farkl d r. Bu pay a! l klar ile belirlenmektedir. Öngörü
kombinasyonundaki a! rl klar belirli varsay mlara ba!l olarak belirlenebilece!i gibi,
çe itli optimizasyon yöntemleri ile de belirlenebilir. Öngörü kombinasyonundaki anahtar
nokta, en iyi öngörüleri verecek a! rl klar n ve kombinasyon fonksiyonunun tipinin
belirlenmesidir. Kombinasyon fonksiyonu öngörülerin do!rusal bir fonksiyonu olabilece!i
gibi, e!risel bir fonksiyon olarak da seçilebilir.
Bu çal mada, çe itli bulan k zaman serisi öngörü modellerinden elde edilen öngörülerin,
ileri beslemeli yapay sinir a! n n girdisi olarak al nd ! ve yapay sinir a! n n ç kt s n n
kombine öngörüler olarak elde edildi!i, yeni bir öngörü kombinasyonu yöntemi
önerilmi tir. Bu ekilde düzenlenmi bir yapay sinir a! optimize edildi!inde, en iyi e!risel
e le meyi sa!layacak optimal a! rl klar belirlenmi olmaktad r. Bu nedenle, öngörü
kombinasyonunda yapay sinir a!lar yöntemi kullan ld ! nda, hem kombinasyon
fonksiyonu, hem de optimal a! rl klar sorunsuzca belirlenebilmektedir. Önerilen yeni
öngörü kombinasyon tekni!i çe itli bulan k zaman serisi öngörü modellerinden elde edilen
öngörüler için uygulanm t r.
Çal man n ikinci bölümünde literatürde var olan öngörü kombinasyonu teknikleri
verilmi tir. Üçüncü bölümde bulan k zaman serisi genel tan mlar verilerek baz bulan k
zaman serisi yöntemleri aç klanm t r. Dördüncü bölümde önerilen yeni öngörü
kombinasyon tekni!i aç klanarak MKB zaman serisi için uygulama yap lm t r. Son
bölümde ise elde edilen sonuçlar tart lm t r.
2.
Öngörü kombinasyonu teknikleri
Literatürde farkl öngörü kombinasyonu teknikleri geli tirilmi tir. Bunlardan iyi bilinen üç tanesi;
basit öngörü kombinasyonu, varyans-kovaryans yöntemi ve öngörü hata kareler ortalamas indirme
(MSFE) yöntemidir. A a! da bu üç yöntem özetlenmi tir.
2.1. Basit öngörü kombinasyonu yöntemi
Basit öngörü kombinasyonu yönteminde iki veya daha fazla modelden elde edilen öngörüler,
a! rl klar ile çarp l p toplanarak kombine öngörüler elde edilmektedir. Kombine öngörüler
a a! daki formül ile elde edilir.
(1)
Burada
modelden elde edilen öngörü,
olmak üzere , i. model için
a! rl k, ve n ise kombine edilecek model say s n göstermektedir. Bu yöntemde modellere
verilecek a! rl klar n e it al nmas art de!ildir. E!er a! rl klar,
(2)
375
eklinde e it al n rsa yönteme basit ortalama kombinasyonu ad verilmektedir. Sonuç
olarak elde edilen kombine öngörüler, a! rl klar ne al n rsa al ns n, model öngörülerinin
do!rusal bir kombinasyonu olmaktad r.
2.2.
Varyans-Kovaryans yöntemi
Varyans-kovaryans yöntemi kombine edilecek model öngörülerinin performans n dikkate
alarak a! rl klar n belirlendi!i do!rusal öngörü kombinasyon yöntemidir. Bu yöntemde
a! rl klar a a! daki formül ile belirlenir.
(
3)
Burada
örnek kovaryans matrisini gösterir,
ve
olmaktad r.
(3) e itli!ine göre a! rl klar elde edildi!inde kombine öngörüler (1) formülüne göre
hesaplanmaktad r.
2.3.
Öngörü hata kareler ortalamas: indirme (MSFE) yöntemi
MSFE yönteminde, varyans-kovaryans yönteminden farkl olarak, son öngörülerin katk s
artt r larak, kombinasyon a! rl klar belirlenmektedir. Winkler ve Makridakis taraf ndan
önerilen bu yöntemde a! rl klar a a! daki formül ile elde edilmektedir [11].
(
4)
olacak ekilde seçilen indirim çarpan d r, ise i. modelden t. gözlem
Burada
için elde edilen öngörünün hatas d r. (4) e itli!ine göre a! rl klar elde edildi!inde kombine
öngörüler (1) formülüne göre hesaplanmaktad r.
3. Bulan k zaman serileri ve çözüm yöntemleri
Bulan k zaman serisi yakla m ilk olarak Song ve Chissom taraf ndan önerildi [9,10].
Chen çal mas nda yöntemi daha basitle tirdi. Chen bu çal mas nda Song ve Chissom’un
çal mas ndaki karma k matris i lemleri yerine bulan k ili ki tablosundan yararlanma
fikrini ortaya att [12]. Bulan k zaman serisi yakla mlar a a! daki temel tan mlara
ba!l d r.
U = {u1 ,..., u b } evrensel küme olsun. U ’nun elemanlar aral klard r. Bu aral klar zaman
serisinin tüm de!erlerini kapsayan evrensel kümenin parçalanmas ile elde edilir. U ’nun
elemanlar na ba!l olarak Ai bulan k kümeleri a a! daki gibi tan mlanabilir.
(5)
376
Burada f Ai , Ai bulan k kümesinin üyelik fonksiyonudur ve f Ai : U * [0,1] olmaktad r.
f Ai (u a ) , u a ’n n Ai ’ye ait olmas n n derecesidir.
Tan m 1. Y (t ) , t = ...,0,1,2,... reel de!erli zaman serisi olsun. Zaman serisine uygun
evrensel küme tan m ve parçalanmas yap ld ktan sonra Ai ’lerden olu an yeni zaman
serisi F (t ) ’ye bulan k zaman serisi ad verilir.
Tan m 2. Bulan k zaman serisinde ili ki için, F (t ) ’nin sadece, bir gecikmeli bulan k
zaman serisi F (t 1) ’den etkilendi!i dü ünülürse bulan k zaman serisine birinci dereceden
bulan k zaman serisi ad verilir. Birinci dereceden bulan k zaman serisi için bulan k ili ki
F (t ) = F (t 1) ( R (t , t 1) eklinde gösterilebilir. Bu ifadede ( herhangi bir operatörü
göstermektedir. F (t 1) = Ai ve F (t ) = A j olsun. Bu durumda bulan k mant k ili ki
Ai * A j ile gösterilebilir. Burada Ai bulan k ili kinin sol yan ve A j bulan k ili kinin sa!
yan olarak isimlendirilir. Buna göre birinci dereceden bulan k zaman serisi öngörü modeli
a a! daki gibi yaz l r.
(6)
Tan m 3. F (t ) bulan k zaman serisi olsun. E!er F (t 1), F (t
neden oluyorsa bulan k mant k ili ki a a! daki gibidir.
F (t
n),..., F (t
2) ,…, ve F (t
n) , F (t ) ’ye
2), F (t 1) * F (t )
(
7)
(7)’de verilen ifadeye n. dereceden bulan k zaman serisi öngörü modeli ad verilir.
Literatürde iyi bilinen bulan k zaman serisi yakla mlar , Chen, Huarng ve yine Chen
taraf ndan önerilen yakla mlar d r [12,6,13]. Cheng vd. ise bulan k kümelemeye dayal
yeni bir yöntem önermi tir [2]. Bu yakla mlardan baz lar birinci dereceden yöntemlerdir
ve (6)’da verilen modele göre çözümleme yap l r [2,6,12]. Baz lar ise yüksek dereceli
modellerdir ve (7)’de verilen modele göre çözümleme yap l r [13]. Yöntemler hakk nda
detayl bilgi verilen kaynaklardan al nabilir.
4.
Yapay sinir a< na dayal yeni bir öngörü kombinasyonu tekni<i ve imkb zaman serisine
uygulamas
Üçüncü bölümde verilen öngörü kombinasyonu teknikleri, a! rl klar n belirlenmesinde
farkl teknikleri kullansa da üç yöntemde de kombinasyon fonksiyonu (1)’de verilen
do!rusal formdad r. Öngörü kombinasyon fonksiyonunun do!rusal seçilmesi a! rl klar n
optimal de!erinin elde edilmesini kolayla t rmaktad r. Ancak en iyi kombinasyonunun elde
edilmesinde do!rusal bir fonksiyon yerine e!risel bir fonksiyonun kullan m da tercih
edilebilir. Bu çal mada, çe itli modellerden elde edilen öngörüler, ileri beslemeli yapay
sinir a! n n girdisi olarak al narak ve yapay sinir a! n n ç kt s n n kombine öngörüler
olarak elde edildi!i yeni bir öngörü kombinasyonu yöntemi önerilmi tir. Bu ekilde
377
düzenlenmi bir yapay sinir a! optimize edildi!inde, en iyi e!risel e le meyi sa!layacak
optimal a! rl klar belirlenmi olmaktad r. Bu nedenle, öngörü kombinasyonunda yapay
sinir a!lar yöntemi kullan ld ! nda, hem kombinasyon fonksiyonu hem de optimal
a! rl klar sorunsuzca belirlenebilmektedir. Kombinasyon için kullan lacak ileri beslemeli
yapay sinir a! n n girdi birim say s , kombine edilecek öngörü yöntemi say s (n) kadard r.
Gizli tabaka birim say s , yapay sinir a! n n genelle tirme yetene!ini kaybetmemesi ve
kombinasyon fonksiyonu yap s n n basit olmas n sa!lamak için 1 olarak dü ünülmü tür.
Ç kt say s da bir olarak tercih edilmi tir. Kombinasyon için kullan lan ileri beslemeli
yapay sinir a! rekil 1’de verilmi tir. rekil 1’de mimari yap s verilen yapay sinir a! ile 5
modelden elde edilen öngörüler kombine edilebilir.
Bekil 1. Öngörü kombinasyonu için ileri beslemeli YSA modeli
Kombinasyon için kullan lan ileri beslemeli yapay sinir a! nda gizli tabaka birimleri için
(8) de verilen lojistik aktivasyon fonksiyonu ve ç kt tabakas nda (9) de verilen do!rusal
aktivasyon fonksiyonu kullan lmaktad r.
(
8)
(9)
rekil 1’de verilen ileri beslemeli yapay sinir a! n n matematiksel modeli sonuç olarak
a a! daki gibi yaz labilir:
(10)
Burada
, i. modelden elde edilen öngörü,
ile gizli tabakan n ba!lant a! rl klar ,
için a! rl k,
a! rl klar girdi tabakas
girdi tabakas yan ile gizli tabaka ba!lant s
gizli tabaka ile ç kt tabakas aras ndaki ba!lant n n a! rl ! ve
ise gizli tabaka yan ile ç kt tabakas aras a! rl k olmaktad r. (10)’da verilen
modelin e!risel bir forma sahip oldu!u aç kt r. Matematiksel modeli (10)’da verilen sinir
378
a! n n e!itilmesi ile elde edilen a! rl klar öngörü kombinasyonunun optimal a! rl klar ve
yapay sinir a! n n ç kt s ise kombine öngörüler olmaktad r. Yöntemin uygulamas nda
yapay sinir a! n n girdilerinin kullan lan lojistik aktivasyon fonksiyonuna uygun olarak
[0,1] aral ! na dönü türülmesi unutulmamal d r.
Önerilen yöntem 20.05.2008 ile 29.09.2008 tarihleri aras nda gerçekle en toplam 95
gözlemden olu an MKB ulusal 100 endeksi zaman serisi (rekil 2) için uygulanm t r.
Cheng vd. [2], Chen [12], Huarng [6] ve Chen [13] yöntemlerinden 16.09.2008 ile
29.09.2008 zaman aral ! ndaki 10 veri (test kümesi) için tüm elde edilen öngörüler (Tablo
1), basit öngörü kombinasyonu, Varyans-kovaryans yöntemi ve öngörü hata kareler
ortalamas indirme (MSFE) yöntemleri ile kombine edilerek elde edilen sonuçlar Tablo
2’de verilmi tir.
Bekil 2. 20.05.2008 ile 29.09.2008 tarihleri aras nda gerçekle en MKB ulusal 100
endeksi zaman serisi
Tablo 1. Bulan k Zaman Serisi Yöntemlerinin En yi Durumlar çin Öngörüler
Tarih
IMKB
Chen [12]
1300 Aral k
Uzunlu!u
16.09.2008
17.09.2008
18.09.2008
19.09.2008
22.09.2008
23.09.2008
24.09.2008
25.09.2008
26.09.2008
33736,3
32727,5
32216,4
36370,1
36183,6
35454,1
35177,1
36361,8
36556,6
34816.6
34600
33950
33950
36550
36550
34816.6
34816.6
36550
Chen [13]
2. Derece
900 Aral k
Uzunlu!u
35750
33350
32750
32450
34850
36050
35600
36050
35150
379
Huarng [6]
Da! l ma Dayal
Huarng [6]
Ortalamaya
Dayal
Cheng vd.
[2]
6 küme
35075
33950
32750
32150
37550
36050
35150
35075
37550
35000
34000
32750
32250
37750
37750
35000
35000
37750
35626.9
35626.9
35626.9
35626.9
35626.9
35626.9
35626.9
35626.9
35626.9
29.09.2008
36051,3
HKOK
36550
1328.04
36650
1576.1
35750
1777.68
35750
1622.87
35626.9
1621.45
Tablo 2. Çe itli Yöntemlerden Elde Edilen Kombine Öngörüler
Tarih
IMKB
16.09.2008
17.09.2008
18.09.2008
19.09.2008
22.09.2008
23.09.2008
24.09.2008
25.09.2008
26.09.2008
29.09.2008
33736,3
32727,5
32216,4
36370,1
36183,6
35454,1
35177,1
36361,8
36556,6
36051,3
HKOK
Basit Öngörü
Yöntemi
35253,7
34305,3
33565,3
33285,3
36465,3
36405,3
35238,7
35313,7
36525,3
36065,3
1349,63
VaryansKovaryans
Yöntemi
34973,0
34426,3
33885,8
33868,3
35993,2
35611,5
34975,8
35027,6
36047,8
36708,4
1266,24
MSFE
35269,3
34480,3
33845,4
33624,5
36333,7
36272,2
35257,0
35320,4
36384,8
36068,0
1320,09
Önerilen
Yöntem
33736,3
32471,9
32471,9
36116,7
36116,7
35454,1
36116,7
36116,7
36116,7
36116,7
366,07
Son olarak önerilen yöntem ile MKB zaman serisi için Cheng vd. [2], Chen [12], Huarng
[6] ve Chen [13] yöntemlerinden elde edilen öngörüler önerilen yakla m ile kombine
edilmi tir. (10)’da matematiksel modeli verilen ileri beslemeli yapay sinir a!lar n n
optimal a! rl klar Tablo 3’deki gibi elde edilmi tir. Önerilen yapay sinir a! na dayal
yakla m n kombine öngörüleri ise Tablo 2’nin son sütununda verilmi tir.
Tablo 3. leri Beslemeli Yapay Sinir A!lar çin Optimal A! rl klar
w(1,1)
-28,99062419
w(1,5)
-354,301
w(1,2)
267,3430312
w(3,1)
21,969
w(1,3)
357,0638727
w(2,1)
0,839774696
w(1,4)
-124,203528
w(3,2)
0,058885
Tüm öngörü kombinasyonu tekniklerinde ve bu çal mada önerilen YSA’na dayal öngörü
kombinasyonu tekni!inden elde edilen öngörülerin gerçek de!erler ile birlikte grafi!i rekil
3’de verilmi tir.
380
Bekil 3. Tüm öngörü kombinasyonu tekniklerinden elde edilen öngörülerin gerçek de!erlerle
birlikte grafi!i
5. Sonuçlar
Zaman serilerinin çözümlenmesi için alternatif birçok yöntem bulunmaktad r. Her yöntemin
kendine göre avantajlar ve dez avantajlar vard r. Bir zaman serisi yönteminden elde edilen
öngörüler dönme noktalar n yakala m ken hata büyüklü!ü aç s ndan kötü sonuçlar verebilir.
Di!er bir yöntem ise dönme noktalar n tam yakalayamam ama hatan n büyüklü!ü aç s ndan iyi
sonuçlar vermi olabilir. Herhangi bir zaman serisi için çe itli öngörü yöntemlerinden elde edilen
sonuçlar n kombine edilmesi daha iyi öngörülere neden olacakt r. Bu fikirden hareketle, literatürde
basit öngörü kombinasyonu, Varyans-kovaryans ve MSFE yöntemleri gibi öngörü kombinasyon
teknikleri önerilmi tir. Önerilen bu tekniklerde öngörü kombinasyon fonksiyonu daima do!rusal
formdad r. Bu çal mada yapay sinir a!lar na dayal yeni bir öngörü kombinasyon tekni!i
önerilmi tir. Önerilen yakla m ile MKB Ulusal 100 Endeksi zaman serisi için çe itli bulan k
zaman serisi öngörü yöntemlerinden elde edilen öngörüler kombine edilmi tir. Önerilen
yakla m n, Tablo 2’den görüldü!ü gibi, literatürde var olan basit öngörü kombinasyonu, Varyanskovaryans ve MSFE yöntemlerinden daha do!ru öngörülere neden oldu!u aç kt r. Ayr ca rekil
3’de de önerilen yöntemin öngörü do!ulu!u bak m ndan di!er yöntemlere üstünlük sa!lad !
görülmektedir.
Kaynaklar
[1]
[2]
[3]
[4]
Ç.H. Alada!, M.A. Ba aran, E. E!rio!lu, U. Yolcu, V.R. Uslu, (2009), Forecasting in High Order
Fuzzy Times Series by Using Neural Networks to Define Fuzzy Relations, Expert Systems with
Applications, 36, 4228-4231.
C.H. Cheng, G.W. Cheng, J.W. Wang, (2008), Multi-attribute fuzzy time series method based on
fuzzy clustering, Expert Systems with Applications, 34, 1235-1242.
E. E!rio!lu, Ç.H. Alada!, S. Günay, (2008), A New Model Selection Strategy in Artificial Neural
Network, Applied Mathematics and Computation, 195, 591-597.
Granger C.W.J. and R. Ramanathan (1984), Improved Methods of Combined Forecasts, Journal of
Forecasting, 3, 197-204.
381
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
J.M. Bates, C.W.J. Granger (1969), The Combination of Forecast, Operational Research
Quarterly, 20 (4), 451-468.
K. Huarng, (2001), Effective length of intervals to improve forecasting in fuzzy time-series, Fuzzy
Sets and Systems, 123, 387-394.
K.K.F Wong, H. Song, S.F. Witt, D.C. Wu, (2007), Tourism Forecasting: To Combine or not to
Combine?, Tourism Management, 28, 1068-1078.
P.P. Newbold, C.W.J. Granger, (1974), Experience With Forecasting Time Series and
Combination of Forecasts, Journal of the Royal Statistical Society A, 137 (2), 131-165.
Q. Song, B.S. Chissom, (1993a), Fuzzy time series and its models. Fuzzy Sets and Systems, 54,
269-277.
Q. Song, B.S. Chissom, (1993b), Forecasting enrollments with fuzzy time series - Part I, Fuzzy
Sets and Systems, 54, 1-10.
R.L. Winkler, S. Markidakis, (1983), The Combination of Forecasts, Journal of the Royal
Statistical Society A, 146 (2), 150-157.
S.M. Chen, (1996), Forecasting enrollments based on fuzzy time-series, Fuzzy Sets and Systems,
81, 311-319.
S.M. Chen, (2002), Forecasting enrollments based on high order fuzzy time series, Cybernetics
and Systems, 33, 1-16.
382
Rize Üniversitesi F nd kl Meslek Yüksek Okulu
ö<rencilerinin sigara içme al !kanl klar
Zeynep Kazanc
Bengü Kabata
Rize Üniversitesi F:nd:kl: Meslek Yüksekokulu
Marmara Üniversitesi Sosyal Bilimler Enstitüsü
Zeynep.kazanc:@gmail.com
statistik Bölümü
[email protected]
ÖZET
Amaç: Çal:#man:n amac:, Rize Üniversitesi F:nd:kl: Meslek Yüksekokulu ÖGrencileri aras:nda sigara içme al:#kanl:G: ve
bunu etkileyen faktörlerin belirlenmesidir.
Metot ve Yöntem: Çal:#man:n örneklemi Rize Üniversitesi F:nd:kl: Meslek Yüksek Okulunun çe#itli bölümlerinde eGitim
gören birinci ve ikinci s:n:flardaki 262 öGrenciden olu#maktad:r. DaG:t:lan anket formlar: gönüllü öGrencilerin kendileri
taraf:ndan doldurulmu#tur. Verilerin deGerlendirilmesinde frekans tablolar:, t-testi, F testi, ki-kare testi ve Homals (
homojenlik analizi veya çoklu kar#:l:k getirme analizi) kullan:lm:#t:r.
Sonuçlar: Çal:#maya yakla#:k %41 erkek öGrenci %59 k:z öGrenci kat:lm:#t:r. K:z öGrencilerin sigaray: ilk kez deneme
ya#:n:n erkek öGrencilerden yüksek olduGu, erkek öGrencilerin k:z öGrencilerden daha uzun süredir sigara içtikleri,
öGrencilerin sigara içme durumunun cinsiyete, okuduklar: bölüme ve anne mesleGine göre farkl:l:k gösterdiGi sonucuna
ula#:lm:#t:r.
Anahtar Kelime: Sigara içme al:#kanl:G:, üniversite öGrencileri, F:nd:kl: M.Y.O
SUMMARY
SMOKING HABITS OF R ZE UNIVERSITY FINDIKLI VOCATIONAL HIGH
SCHOOL STUDENTS
Object: The purpose of Study, Rize University F:nd:kl: Vocational School Students of smoking habits is to
determine the factors affecting it.
Method and Procedure: Working with samples of various parts of Rize University F:nd:kl: Vocational High School in
studying the first and second class consists of 262 students.Survey forms distributed by volunteers from the students
themselves have been filled.The data in the evaluation of frequency tables, t-test, F test, ki-square test and Homals
(homogeneity analysis or multiple analysis of the money) is used.
Results: Approximately 41% male students in the study were 59% female students participated.Girl students try smoking
for the first time, high-age students are men, male students than female students for a long time to smoke, smoking status of
students' gender, reading the chapter and the mother varies according to the profession that has been found.
383
Key Words:
Smoking habits, university students, F:nd:kl: MYO.
1.Giri!
Sigara içmek, çok yayg n bir ba! ml l k çe ididir. Bu ba! ml l k insan sa!l ! üzerine yapt !
olumsuz etkiler nedeniyle dünyan n ve ülkemizin en önemli halk sa!l ! sorunlar ndan biridir.
Sigara içmek, insanlar n kendi seçimleriyle benimsedikleri bir davran
biçimi oldugundan, erken
ölümlerin en ”önlenebilir” nedenidir. Dünyada ve ülkemizde sigara içenlerin say s her geçen gün
artmaktad r. Sigara içicili!inde art
özellikle kad n, ergen ve genç eri kinlerde olmaktad r.
Günümüzde sigara içen ki ilerin ço!unlu!u sigara içmeye 25 ya ndan önce, s kl kla da çocukluk
ya da adelosan ça!da ba lamaktad r. Dünya nüfusunun 1.3 milyar içicidir ve küresel bazda 4.9
milyar insan sigara kullan m na ba!l sebeplerden dolay ölmektedir. Genellikle çevreye özenme ve
uyma, reklâmlar ve arkada
etkisi, yeni zevkler arama, keyiflenmek, dinlenmek, güncel
s k nt lardan ve stresten uzakla mak, sakinle mek, konsantre
olabilmek, kilo almamak, okul
ba ar s zl klar , sosyoekonomik durumlar gibi sosyal ve psikolojik nedenler çocuklar n okul
ya lar nda sigaraya ba lamas nda rol oynayan etmenlerdir. Geçmi y llarda yap lan çal malar
inceledi!imizde; 1988 y l nda P AR taraf ndan yap lan '' Sigara Al kanl klar ve Sigarayla
Mücadele Kampanyas Kamuoyu Ara t rmas 'na göre, 15 ya üstü nüfusta sigara içme h z ,
erkeklerde % 62,8, kad nlarda % 24,3 ve ortalama %43,6 d r.Tüm ülkeyi temsil eden di!er bir
P AR çal mas na göre 15–18 ya grubu gençlerin sigara içme oranlar % 30 dur.Sigara içenlerin %
39 u sigaraya 15–18 ya lar nda, %20 si ise 11-14 ya lar nda ba lad klar n belirtmi lerdir. Naz m
Bilir ve arkada lar n n 1996 y l nda yapt klar bir ara t rmada lise ö!rencilerinin sigara kullanma
oran % 28,3 bulunmu tur. Türkiye statistik Kurumu'nun (TÜ K) çal mas na göre sigara
kullan m nda kad nlarda art , erkeklerde azal var. 1993'te sigara kullanan kad nlar n oran yüzde
13,5 iken 2004'te bu rakam yüzde 19,45'e, 2006'da yüzde 16,6'ya yükseldi. Erkeklerde ise 57,8 olan
oran 2006'da 50,6'ya geriledi. TÜ K zmir Bölge Müdürü R dvan Yaka verdi!i bilgilere göre 18–24
ya
aras ndaki her dört gençten biri sigara içiyor. Dünyada 15 ya
kullan m nda yüzde 51,8'le Yunanistan ba
üstü fertlerde sigara
çekiyor, Türkiye yüzde 35,5'le 21. s rada bulunuyor.
Türkiye’deki sigara ba! ml l ! nda az da olsa azalma var. Dünya genelinde 1 milyar 250 milyon
ki i sigara içiyor. Sigara, her y l 4 milyon, her gün 11 bin ki inin ölümüne sebep oluyor. Yeti kin
nüfusun yakla k üçte biri sigara içiyor. Dünyada sigara kullananlar n yakla k üçte ikisi u 10
ülkede ya yor: Çin, Hindistan, Endonezya, Rusya, ABD, Japonya, Brezilya, Banglade , Almanya
ve Türkiye. Sigara içmenin yol açt ! birçok hastal k vard r ki bunlar n en ba nda kanser, beyin
damar hastal klar , solunum yolu rahats zl klar ve kalp rahats zl klar d r. Sigaran n belli ba l
sa!l k sak ncas olan akci!er kanseri riskine ise ilk kez 1761 y l nda Dr. John Hill ad nda bir ngiliz
hekim i aret etmi tir. lk kez 1964 y l nda ABD’de “Surgeon General “ sigaran n zararl oldu!unu
ifade etmi tir. Daha sonra 1986 y l nda pasif olarak sigara duman na maruz kalman n da tehlikeli
384
oldu!u ortaya konmu tur. Pasif sigara içicili!i, aktif içme kadar tehlikeli sa!l k sorunlar na yol
açmaktad r. Avrupa Komisyonu taraf ndan desteklenen French Comite National Centre le
Tabagisme’ ye ba!l ba! ms z
uzmanlar taraf ndan yap lan bir çal maya göre; 15 ya n üzerindeki Avrupal lar n yakla k %80’ i
çevredeki tütün duman na maruz kalmaktad r ve günde 1 veya daha fazla aktif olarak sigara içen ile
e de!erde duman inhale etmektedir. Sigara al kanl ! , kanser ölümlerinin en önemli tek nedeni
olup, geli mi ülkelerdeki erkeklerde görülen kanserlerin %45’i, tüm nüfustaki kanserlerin %30’u
sigaraya ba!l d r.
2.Metot ve Yöntem
Bu çal mada, Rize Üniversitesi F nd kl Meslek Yüksek Okulu Ö!rencileri aras nda sigara içme
al kanl ! ve bunu etkileyen faktörlerin belirlenmesi amaçlanmaktad r. Çal man n örneklemi
Rize Üniversitesi F nd kl Meslek Yüksek Okulunun çe itli bölümlerinde e!itim gören birinci ve
ikinci s n flardaki 262 ö!renciden olu maktad r. Da! t lan anket formlar gönüllü ö!rencilerin
kendileri taraf ndan doldurulmu tur. Verilerin de!erlendirilmesinde frekans tablolar , t-testi, F testi
ki-kare testi ve Homals ( homojenlik analizi veya çoklu kar l k getirme analizi) kullan lm t r.
Çal maya kat lan Turizm ve Otelcilik Pazarlama, Büro Yönetimi ve Sekreterlik bölümlerinin 2.
ö!retimleri yoktur. Ayr ca Pazarlama ve Büro Yönetimi ve Sekreterlik bölümlerinin yeni aç lan
bölümler olmas nedeniyle 2. s n flar bulunmamaktad r. Anket 29 sorudan olu maktad r. Ankette
ö!rencilere ya , cinsiyet, sigara içme durumlar pasif içici olup olmad klar ebeveynlerinin ve
karde lerinin sigara içip içmedikleri ve ailelerinin e!itim durumlar , sigaraya ba lama nedenleri ve
sigaray ilk kez kulland klar ya , sigaray kullanmaya ba lama nedeni özenti ise kimlere
özendikleri, ne kadar zamand r sigara kulland klar , sigaray b rakmay dü ünüp dü ünmedikleri
gibi faktörler sorulmu tur. Veriler SPSS15.0 paket program yla de!erlendirildi.
3.Bulgular
Çal ma F nd kl meslek yüksekokul’unun tüm bölümlerinden (i letme,muhasebe,turizm,Pazarlama
ve büro yönetimi ve sekreterlik) 262 ö!renci aras nda yap lm t r.Çal maya kat lan ö!rencilerin
155’i k z(%59,2) , 105’i erkek(%40,8)d r.Ayr ca 192si(%73ü) 1. ö!retimde e!itim görüyorken
,yakla k %27 si ikinci ö!retimde e!itim görmektedir. Ö!rencilerin 127(%48,5)si hiç sigara
içmedim derken, %9,5i bir kez denedim hiç sevmedim, %0,4ü bir kez denedim hiç ho uma gitti,
%10,3ara s ra içiyorum
,%29ü düzenli içiyorum, %2,3 içiyordum b rakt m ifadeleri tablo1
gösterilmi tir. Ö!rencilerin ya lara göre da! l m tablo2’cinsiyetlerine göre da! l m tablo3’de
verilmi tir. Ankete kat lan ö!rencilerin ya ortalamas 20,04 m 2,373tür. Bu çal mada sigara
385
içmeyen ki ilere pasif içici olup olmad klar sorulmu tur. Ankete kat lan ö!rencilerin yakla k
%79ü evet cevab n vererek sigara duman na maruz kald klar n ifade ederken %21 l k k s m pasif
içici olmad klar n ifade etmi lerdir.
Tablo1:Siz sigara içiyor musunuz?
Sigara içme
durumlar
Hiç içmedim
Bir kez denedim,
hiç sevmedim
Bir kez denedim,
ho uma gitti
Ara s ra içiyorum
Düzenli içiyorum
çiyordum,
b rakt m
Toplam
Say
Tablo2:Ya n z
Ya! n z
17
18
19
20
21
22
23
24
25
27
48
Toplam
%
127
48,5
25
9,5
1
,4
27
76
10,3
29,0
6
2,3
262
100,0
Say
5
50
50
76
41
24
10
1
2
2
1
262
%
1,9
19,1
19,1
29,0
15,6
9,2
3,8
,4
,8
,8
,4
100,0
Bekil1:ö!rencilerin pasif içicilik durumu
Tablo3:Cinsiyetiniz
pasif içicilik
evet
hayir
Cinsiyetiniz
Kad n
21,15%
hayir
Erkek
Toplam
Say
%
155
59,2
107
40,8
262
100,0
78,85%
evet
Pasif içicilik, ba kalar n n içti!i sigara duman na veya sigara duman içeri!inde bulunan
kimyasal maddelere maruz kalarak soluma durumudur. Kendisi sigara içmeyen birinin
sigara duman na maruz kalmas , istek d
olarak gerçekle ti!inden, olaya bu isim
verilmi tir. Sigara içenler taraf ndan d ar verilen dumana çevresel tütün duman ad da
386
veriliyor. Sigara içen ki i taraf ndan, sigara duman n n sadece %15lik bir bölümü solunuyor. Geri
kalan yüzde ise d ar ya veriliyor. Bu da pasif içici durumundaki insanlar n zarar görme riskini
yükseltiyor. Pasif içicilerde dumana maruz kalma sonucu %69 s kl kla göz ve bo!azda irritasyon,
%33 oran nda nazal semptomlar, %33 s kl kla ba a!r s görülmektedir. Alerjik ki ilerde de h r lt l
solunum, hap rma ve mide bulant s görülür. Esas olarak pasif içiciler dü ük doz sigara içiminin
gösterdi!i fizyolojik etkilere sahiptir. Amerika’da pasif içicilik ölüm sebepleri aras nda üçüncü
s radad r.
Tablo4:ö!rencilerin sigaray deneme ya da ba lama nedenlerinin cinsiyet faktörüne göre
gösterilmesi
Sigaray deneme ya da ba!lama nedeni
Cinsiyetiniz
Kad n
Merak ettim
19
Erkek
23
38
42
46
Toplam
Özendim
Toplam
Di<er
8
8
35
12
20
73
Ki-kare ve p
de<eri
Q 2 = 8,418
P<0.05
108
K zlar n sigaraya ba lama nedeni %54 merak etmek iken erkeklerin ise %52 özenerek sigaraya
ba lamaktad r. Di!er seçene!inde çevre, arkada ortam , stres, ba ar s zl k kayg s , bunalma vb.
nedenlerden sigara ba lad klar n ifade etmi lerdir. En yak n arkada n sigara kullanmas (özenti) ya
da arkada grubunda sigara kullan lmas gencin sigara ile tan mas na neden olmaktad r. Gençler
sigaraya en çok yak n arkada lar n n sigara ikram ve srarlar ile ba lamaktad r. En iyi arkada n n
sigara kullanmas , gencin sigara içme riskini 3–4 kat artt rmaktad r. Merak, büyümeyi ispat
etmenin bir yöntemi, formda kalma iste!i sigara kullanma nedenleri aras ndad r. Gençler stres ya
da s k nt l olma ve kendilerine olan güvenlerini art rmak için sigaraya ba lamaktad rlar.
Tablo5:Örgencilerin sigara kullan m na ba!l olarak ya ad klar yak nmalar sonucu sigaray
b rak p b rakma faktörü üzerinde etkileri
Öksürük
B rakmay
denediniz
mi?
Toplam
Ki-kare ve p
de<eri
Di<er
Hay r
Evet
Toplam
Yak nmalar
Balgam
Nefes
ç karma
darl <
4
3
10
16
33
13
17
15
18
7
17
18
34
53
86
Q 2 = 9,261
P<0.05
Ö!rencilerin sigara kullan m nedeniyle yak nmalar ya ayanlar n n sigaray b rakmay denedi!ini
görmekteyiz. Di!er seçene!i (Ba a!r s , halsizlik, i tahs zl k, dikkat problemi, kötü koku vb.)
sigaray b rakmay isteyenlerin yakla k %34ünü olu turmaktad r. p<0.05 yani sigara kullan m yla
ya anan yak nmalar sigara b rakmayla ili kilidir.
387
Tablo6:Sigara içme durumunu etkileyen faktörlerin Ki-Kare testi ile gösterilmesi
Ba< ms z
de<i!kenler
Sigara içme durumu
Hiç
içmedim
Bir kez
denedim,
hiç
sevmedim
Bir kez
denedim,
ho!uma
gitti
Ara s ra
içiyorum
Düzenli
içiyorum
Cinsiyet
Kad n
Erkek
Toplam
100
27
127
20
5
25
1
0
1
14
13
27
18
58
76
2
4
6
155
107
262
Bölümünüz
sletme
Muhasebe
Turizm otl
Büro yönt.
Pazarlama
Toplam
50
39
13
13
12
127
7
5
5
5
3
25
1
0
0
0
0
1
10
11
4
1
1
27
28
23
14
1
10
76
1
2
0
3
0
6
97
80
36
23
26
262
117
2
3
0
23
1
0
1
0
0
0
0
25
0
0
0
69
0
1
0
6
0
0
0
240
3
4
1
2
1
1
1
0
0
0
0
0
0
0
0
1
0
0
0
0
2
0
0
0
0
3
0
3
0
0
0
0
0
2
1
7
1
3
127
25
1
27
76
6
262
Annenizin
mesle<i
Ev kad n
Memur
çi
Zanaatkâr
(ayakkab
tamircisi,
terzi, s hh
tesisat,
boyac ,
esnaf
(bakkal,
kasap,
manav,
seyyar
sat c ,
pazarc vb.)
Muhasebeci
Di!er
Ö!retmen
Hem ire,
ebe, sa!l k
Teknisyeni,
laborant vb.
Toplam
Anneniz
388
çiyordum,
b rakt m
Top.
Ki-kare ve p
de<eri
Q 2 = 67,178
P<0.05
Q 2 = 32,574
P<0.05
Q 2 = 67,497
P<0.05
sigara
içiyor mu?
çmiyor
çiyor
çiyordu
b rakt
Toplam
109
17
0
18
6
1
0
1
0
20
7
0
55
15
6
5
1
0
207
47
7
126
25
1
27
76
6
261
Q 2 = 21,236
P<0.05
Sigara içme durumunu etkileyen faktörlerin (cinsiyet, Bölüm, anne mesle!i, annenin sigara içmesi)
anlaml olanlar Tablo6’de gösterilmi tir. K zlar n yakla k %12si düzenli sigara içiyor iken
erkeklerin %54ü düzenli sigara içmektedir. Ö!rencilerin anne mesle!i ev han m olanlar n n
yakla k %28i düzenli sigara kullanmaktad r.
Tablo7:Sigaray ilk deneme ya ve ne kadar zamand r sigara kullan yorsunuz sorular n n erkek ve
k z ö!rencilere göre etkileri(ba! ms z t testleri)
Gruplar
Cinsiyet
Kad n
Erkek
Sigaray ilk kez kaç Ya! nda
denediniz(y l)
Ne kadar zamand r
Sigara içiyorsunuz(y l)
N
Ort.
S.S.
N
Ort.
S.S.
34
73
16,44
14,41
2,915
4,219
21
65
3,19
5,42
1,887
2,979
t=2,889
p=0,005
t=3,214
p=0,002
K z ve erkek ö!rencilerin sigaray ilk kez deneme ya lar aras ndaki ili ki istatistiksel olarak
anlaml d r. K zlar sigaray ilk kez ortalama 16,44 ya nda denerken, erkekler ortalama 14,41
ya nda sigaray ilk kez denemi leridir. Sigara kullanma öyküleri k zlar n ortalama 3 y l görülürken
erkeklerin ise ortalama 5 y ld r sigara kulland ! görülmektedir. p<0.05 yani sigara kullanma
süreleri cinsiyete göre de!i mektedir, sonuç anlaml d r.
Tablo8: lk deneme ya * Ailenin sosyal durumu de!i kenlerinin F testi
lk deneme ya!
Ailenin sosyal durumu
Birlikte ya yorlar
Bo and lar ayr ya yorlar
Annem öldü
Babam öldü
Üvey annem babam var
F
p
0,762
0,552
Post Hoc.
_
Ankete kat lan ö!rencilerin anne babalar n n sosyal durumu ile sigaray ilk kez deneme ya lar
aras nda anlaml bir farkl l k yoktur. p>0.05 oldu!undan H0 reddedilemez
Homals(Homojenlik Analizi)
389
Uygunluk Analizi yöntemi, iki veya çok de!i kenli çapraz tablolar n sat r ve sütunlar nda yer alan
kategorik de!i kenler aras ndaki ili kiyi analiz etmek amac ile geli tirilmi
tan mlay c bir
matematik-grafik tekniktir. Çapraz tabloda yer alan kategoriler aras ndaki ili kileri, "haritalar"
olarak isimlendirilen grafiksel gösterimlere dönü türerek ara t r r. Uygunluk analizi içerdi!i
de!i ken say s na ve boyut say s na ba!l olarak Basit Uygunluk Analizi ve Çoklu Uygunluk
Analizi ad n al r. Uygunluk Analizinin en temel formu basit uygunluk analizi olarak adland r lan,
iki yönlü çapraz tablolara uygulanan d r
Basit Uygunluk Analizi rxc biçiminde gösterilen çapraz tablolar n a! rl kl ana bile enler analizini
yapar. Homojenlik analizi veya çoklu kar l k getirme analizi, üç veya daha fazla kategorik
de!i ken say s na sahip olan çok yönlü kontenjans tablolar n n analiz edilmesi için kullan l r. Bir
di!er ifade ile, R*C*M* eklinde iç içe farkl
ekillerde çaprazlanm
tablolarda yer alan
de!i kenlerin alt kategorileri aras ndaki birlikteli!i ve ili kileri ortaya koymak için ba vurulan
grafiksel bir analizdir. Analizde, say sal olmayan çok de!i kenli veri yap s n göstermek
amaçlanmaktad r. Kategoride kullan lan tüm de!i kenlerin ölçüm düzeyi çoklu s n flay c d r.
De!i kenler aras ndaki ili ki homojenlik analizi kullan larak ortaya konulmaya çal lm t r.
Çal mam z için, sigaraya ba lama nedeni, cinsiyet, sigaray deneme ya
de!i kenleri iki boyutlu
bir grafikte, kategorileri kombinasyonlar n n nas l olaca! n görmek amac yla homojenlik analizi
uygulanm
ve her bir de!i kenin her bir boyutun ayr m ölçüleri tablo9’da verilmi tir. Analiz
sonucunda elde edilen özde!erler,
D1 = 0,4693 , D2 = 0,422 dir. Homojenlik analizinde
özde!erler, gerçek grafik ile elde edilen iki boyutlu grafik aras ndaki uyumun tam bir ölçümünü
vermektedir. Bu do!rultuda, gerçek grafik ile elde edilen iki boyutlu grafik aras nda uyumun
0,8913 iyi oldu!u söylenebilir.
Tablo9:Her bir de!i ken ve her bir boyut için ayr m ölçüleri
De<i!ken
Boyut1
Boyut2
Sigaraya ba lama nedeni
0,417
0,667
Cinsiyet
0,519
0,134
Sigaray deneme ya
0,472
0,465
Ayr m ölçüleri kareleri al nm korelasyonlard r.Tablo9 incelendi!inde, Cinsiyet ve sigaray
deneme ya de!i kenlerinin boyut 1 taraf ndan, sigaraya ba lama nedeni de!i keninin ise boyut 2
taraf ndan daha iyi aç klanabilece!i görülmektedir. Ayr ca analiz sonucunda elde edilen grafik ekil
2 de verilmi tir.
390
Bekil2:Kategori nicelle tirmesi
Cinsiyet
Sigara Deneme Ya Arali!i
3
Sigara Ba lama Nedeni
B
O
y
U
t
2
20+
2
Diger
1
özendim
15-20
0
Erkek
Kadin
Merak ettim 10-15
5-10
-1
-2
-2
-1
0
1
2
Boyut1
rekil 1 incelendi!inde, kad nlar n ilk kez 10–15 ya lar nda merak duygusuyla, erkeklerin ise ilk
kez 5-10 ya lar nda özenme ile sigaraya ba lad klar görülmektedir.
4.Sonuç
Yap lan çal mada elde edilen bulgular a a! da maddeler halinde verilmi tir.
Erkek ö!rencilerin sigara içme al kanl klar n n k zlardan yüksek oldu!u ve daha uzun
zamand r sigara içtikleri
Anne mesle!inin ve annenin sigara içmesinin çocuklar n sigara içme al kanl klar n
yüksek düzeyde etkiledi!i
Sigaraya erkeklerin özenerek k zlar n ise merak duygusuyla ba lad !
Sigara içme al kanl klar n n bölümlere göre de!i ti!i
391
Sigara kullanan ö!rencilerin baz yak nmalar ya ad klar ve bunun sigaray b rakmalar yla
ili kili oldu!u
Sigara kullanmayan ö!rencilerin birço!unun pasif içici durumda olmalar
Sigaray kullananlar n %69ü sigaray b rakmay dü ünmektedir.
Ankete kat lan ö!rencilere göre sigaray cayd r c nedenlerin en ba nda 18 ya ndan
küçüklere kesinlikle sigara sat lmamas gelmektedir.
Ankete kat lan ve sigara içti!ini belirten ö!rencilere yöneltilen sigaray b rakmay
denediniz mi ve dü ünüyor musunuz? Sorular na s ras yla % 23,3 ve % 26,3 ü evet
cevab n vermi tir.
Ö!renciler, sigara kullan m nedeniyle ailesindeki veya yak n çevresindeki ki ilerin % 16
s n n kanser hastal ! na, % 6,5 inin ise kalp rahats zl klar na yakaland klar n belirtmi tir.
Kaynaklar
1) Ata, Nihal. (2007), '' Ya#am Verisi çin Homojenlik Analizi''. nönü Üniversitesi T p Fakültesi
Dergisi.
2) Aytaç, M., N. Bayram (1999),'' Çoklu Kar#:l:k Getirme Analizi Ve ÖGretim Elemanlar: Üzerinde Bir
Uygulama''. V. Ekonometri ve statistik Sempozyumu.
3) Çelik, P nar. vd.(2000), '' Manisa linde Lise ÖGrencilerinin Sigaraya Kar#: Tutumlar:''. Toraks
Dergisi, .
4) Geer, J. Van de.(1993), Multivariate Analysis of Categorical Data Applications. Sage Publications.
California.
5) Herkese Sa%l&k Türkiye'nin Hedef ve Stratejileri. TC SaGl:k Bakanl:G:. Ankara, 2001.
6) In: Behrman RE, Kliegman RM, Arvin MA (eds): Nelson Textbook of Pediatrics, (1996) Litt IF.
Special health problems during adolescence, 15th ed., Philadelphia, WB. Saunders.
7) Özdamar, Kaz m.(2004), Paket Programlama 1le 1statistiksel Veri Analizi-2. Kaan Kitabevi.
Eski ehir.
8) '' Süleyman Demirel Üniversitesi lk Ve Son S:n:f ÖGrencilerinin Sigaraya Yönelik Bilgi Tutum
Davran:#lar: Ve Sigaraya Ba#lama Ve Al:#ma Durumlar:''. www.dicle.edu.tr/~halks/m9.25.htm.
Eri im Tarihi: 19.12.2008.
9) Schorling JB, Gutgesell M, Klas P, Smith D, Keller A. Tobacco (1994), Alcohol and other drug use
among college students. Journal of Substance Abuse.
10) reker, Gürcan. '' Sigara Al&'kanl&%&na Yönelik Tutumlar&n Saptanmas& ve Sigara 1çme
Al&'kanl&%&na Yönelik Bir Çal&'ma (Ankara Üniversitesi E%itim Bilimleri Fakültesi Örne%i)” '. I.
Ulusal PDR Ö!rencileri Kongresi.
11) WHO (World Health Organization). Facts and figures about tobacco. 2006.
http://www.who.int/tobacco/fctc/cop/en/index.html
392
IMDb Verilerinin Analizi ve Karma Model
Tabanl Kümeleme Uygulamas
Bahar Erar
Gülay Ba ar r K ro!lu
Ayd n Erar
BaGlarba#: Soyak Evleri B-4/17
34664, stanbul
0216 3414766
[email protected]
Mimar Sinan Güzel Sanatlar
Üniversitesi
Fen Edebiyat Fakültesi, statistik
Bölümü
0212 2589596
[email protected]
Mimar Sinan Güzel Sanatlar
Üniversitesi
Fen Edebiyat Fakültesi, statistik
Bölümü
0212 2366936
[email protected]
Özet
Kümeleme, verileri s n fland rmak için çe itli alanlarda s kça kullan lan çok de!i kenli istatistiksel
bir yöntemdir. Kümeleme analizinde kullan lan birçok farkl teknik ve yakla m vard r. Bunlardan
biri, karma model tabanl kümeleme yöntemidir. Bu çal mada amaç, IMDb (Internet Film Veri
Taban ) uzun metrajl sinema filmi verilerini analiz etmek ve sonlu karma model tabanl kümeleme
yöntemini kullanarak filmleri s n fland rmakt r. Bu do!rultuda, EDA teknikleri kullan larak
de!i kenler aras ili kiler ve uygun dönü ümler belirlenmi tir. Daha sonra model tabanl kümeleme
yöntemleriyle küme say s ve model belirlenmi , küme yap s aç klanm t r.
Anahtar sözcükler: Ke#fedici veri analizi (EDA), Kümeleme analizi, Sonlu karma modeller, IMDb.
Abstract
Analysis of IMDb Data and Application of Mixture Model-Based Clustering
Clustering is a multivariate statistical technique used for data classification in a wide selection of
fields. There are various techniques and approaches to employ in cluster analysis. One approach is
mixture model based clustering. The goal of this study is to analyze The Internet Movie Database
(IMDb) data of theatrically released full length movies and to classify them using finite mixture
model based clustering method. With this purpose, the nature of relationships between variables and
appropriate transformations had been identified with EDA. Then the number of clusters and the
model had been determined with model based clustering techniques and cluster memberships had
been assigned to movie titles.
Keywords: Explanatory data analysis, Cluster analysis, Finite mixture models, IMDb.
1. Giri!
S n fland rma insan hayat nda oldu!u kadar bilimde de çok kullan lan bir kavramd r. Kendall’ n
deyimiyle “Bilimin temel problemlerinden biri, dünyay tabakalara küçültmek amac yla
s n fland rmakt r [8].”
Genel olarak s n fland rmay , elimizde nesneler ve özelliklerine dair gözlemler varken bunlar
benzerliklerini baz alarak grupland rmak olarak aç klayabiliriz.
statistikte gözlemleri “kümelemek”ten bahsederken ana problem udur: p özellikten her birisi için
n say da gözlem varken, bu gözlemlerin “belirli bir yap s olmad ! ” alternatif hipotezine kar ,
tan mlanabilir gruplarda kümelendiklerini gösteren bir kan t var m d r?
393
Kümeleme analizi, esas grup yap lar hakk nda ön bilgi olmad ! ya da en az ndan varl klar bilinse
de her grup için mevcut veri bulunmad ! durumlarda nesneler aras nda gruplar yaratmak için
kullan l r [7].
Kümeleme analizinin birçok farkl yöntemi vard r. Bu çal mada öncelikle genel olarak çok
de!i kenli kümeleme analizine ili kin temel bilgiler sunulacak, daha sonra olas l k modellerine
ba!l olarak geli tirilen bir kümeleme algoritmas olan model tabanl kümeleme yöntemi
incelenecektir.
Olas l k modeline dayal kümeleme yöntemlerinin farkl alanlarda uygulamalar vard r; bunlar
aras nda gen tan mlamas veri incelemeleri [4], doku segmentasyonu [5], astronomik veri
s n fland rmas [6] gibi çal malar vard r. Model tabanl kümelemede verinin, her biri bir kümeyi
temsil eden olas l k da! l mlar n n kar m ndan geldi!i varsay l r. Böylece küme say s ve uygun
kümeleme yöntemi seçimi, istatistiksel model seçimi problemine indirgenmi olur [3]. Bu da küme
say s ya da kümeleme yöntemi seçiminde kesin bir kriter sa!lamayan di!er kümeleme
yöntemlerine göre büyük bir avantaj sa!lar. Model tabanl kümeleme yöntemi ve model seçimi
Bölüm 3’te aç klanm t r.
Bölüm 4’te aç klanan IMDb (Internet Movie Database) veritaban ndan elde edilmi bir örneklem,
uzun metrajl sinema filmi verilerini model tabanl kümeleme yöntemiyle s n fland rmak için
kullan lm t r. Bölüm 4.3’te ke fedici veri analizi teknikleriyle veri yap s de!erlendirilecek ve
daha sonra 4.4’te kümeleme analizine ili kin sonuçlar verilecektir.
2. Kümeleme Analizi
Kümeleme (Cluster) analizi, amac sahip olduklar özelliklere dayanarak nesneleri gruplamak olan
bir çok de!i kenli analiz tekni!idir. Kümeleme, her nesneyi (birey, ürün, denek, vb.) önceden
belirlenen bir seçim kriterine göre kümedeki di!er nesnelere çok benzer olacak ekilde s n fland r r.
Sonuçta ortaya ç kan kümeler, yüksek küme içi homojenlik ve yüksek kümeler aras heterojenlik
sa!lamal d r.
Buna göre kümeleme analizinin ana amac n n, en çok benzeyen nesneleri gruplayarak verinin
yap s n tan mlamak oldu!u söylenebilir. Bu amaç do!rultusunda kümeleme analizinin üç temel
problemi vard r: Benzerlik nas l ölçülür? Kümeler nas l olu turulur? Kaç grup olu turulmal d r?
Kümeleme analizi temelde nesnelerin benzerli!ine, ya da uzakl klar na, dayand ! için gözlemleri
e zamanl olarak de!i ken baz nda kar la t racak bir yönteme ihtiyaç vard r. Bu kar la t rmada
kullan lan farkl ölçütler vard r. Kümeleme uygulamalar nda en s kça kullan lan üç temel ölçüm
yöntemi vard r: korelasyon ölçüleri, uzakl k ölçüleri ve birliktelik (association) ölçüleri.
Korelasyon ve uzakl k ölçüleri metrik veriyi ölçmede kullan l rken, ili kilendirme ölçüleri metrik
olmayan veriler için kullan l r [12]. Hangi ölçünün kullan laca! verinin yap s na ve de!i ken
tiplerine ba!l oldu!u kadar pratikte ara t rmac n n tercihine de ba!l d r.
Uzakl k ölçüleri kümeleme analizinde en s k kullan lan benzerlik ölçüsüdür. Yayg n olarak
kullan lan bir uzakl k ölçüsü Öklid uzakl ! d r. Öklid uzakl ! n n karesi (Squared Euclidean
distance), Mahalanobis uzakl ! ve genellenmi bir yakla m olan Minkowski uzakl ! da yayg n
kullan lan di!er uzakl k ölçüleridir.
Genel olarak kümelemenin ola!an basamaklar n a a! daki gibi özetleyebiliriz:
1. Örüntü (pattern) önerme: Aranacak küme say s na karar vermek, hangi ölçümlerin
kullan laca! na karar vermek, kaç gözlem üzerinde çal laca! n seçmek ve dönü üm yapmak gibi
i lemleri içerir.
2. Benzerlik ölçüsü: Kullan lacak benzerlik ölçüsüne karar verme sürecidir.
394
3. Gruplama: Veriyi kümelere ay rma sürecidir.
4. Veri özetleme: Bölmelerin aç k tan mlamalar n yapmay içeren iste!e ba!l bir ad md r. Bunlar,
her küme için sözel ya da say sal tan mlamalar olabilir.
5. Küme de!erlendirmesi: Kümelerin anlaml olup olmad ! n n incelenmesidir.
Pratikte kullan lan üç tür kümeleme yöntemi vard r: Hiyerar ik kümeleme yöntemleri, Hhiyerar ik
olamayan kümeleme yöntemleri (k-ortalama) ve Model tabanl kümeleme yöntemleri.
Hiyerar ik kümeleme yöntemleri genel olarak, a!aç yap s na benzeyen bir hiyerar i kurmaya
dayanan yöntemlerdir. Temel olarak iki algoritmas vard r: toplamal (agglomerative) ve da! tmal
(divisive). Toplamal algoritmada, her gözlem kendi kümesi olarak ba lar, her ad mda en yak n
kümeler çiftler halinde birle tirilir ve sonunda bütün gözlemler tek bir büyük kümede toplan r.
Da! tmal metotlarda ise, bütün gözlemleri içeren tek bir kümeden ba lan r; her ad mda en az
benzeyen kümeler ayr l r ve sonunda her bir gözlem bir kümeye da! t l r [12]. Bu algoritmalar ile
kullan lan çe itli tekniklerden en yayg n kullan lan ikisi: tek ba!lant ve tam ba!lant teknikleridir.
Tek ba!lant tekni!inde (en yak n kom uluk) minimum uzakl klar dikkate al n r; yani her ad mda
kümeler birle tirilirken aralar nda en k sa uzakl k olan çiftler birle tirilir. Tam ba!lant tekni!inde
(en uzak kom uluk) ise kümeleme kriteri maksimum uzakl !a dayan r.
Hiyerar ik olmayan kümeleme yöntemleri, küme say s konusunda ön bilgi varken ya da küme
say s önceden belirlenmi ken kullan lan yöntemlerdir. Analiz girdisi olarak yaln zca veriyi
kulland ! için hiyerar ik yöntemlere k yasla büyük veri kümelerinde kullan mlar daha kolayd r
[1]. En yayg n kullan lan hiyerar ik olmayan yöntem k-ortalama (k-means) tekni!idir. Bu teknikte
amaç grup-içi uzakl klar minimum olacak ekilde veriyi k tane gruba ay rmakt r.
Bu tekniklerin kullan m nda kar la lan problemlerden biri uygun küme say s na karar verme
zorlu!u; bir di!eri de, örne!in k-ortalama tekni!inde, kümelere belirli bir yap empoze edilmesidir.
Ayr ca baz teknikler ayk r de!erlere a r hassasken, birço!u da kümelerin istatistiksel
özelliklerini içermezler. Bölüm 3’te aç klanan model tabanl kümeleme teknikleri bu problemlerin
bir ço!u konusunda di!er tekniklere üstünlük sa!lar.
3. Karma Model Tabanl Kümeleme
Kümeleme analizinde kullan lan yakla mlardan biri de karma model tabanl kümeleme (mixture
model-based clustering) yöntemidir. Veri kayna! iki ya da daha çok kitlenin kar m ndan elde
edildi!inde, gözlemlerin karma bir da! l ma sahip oldu!u söylenir.
Kümelemede sonlu karma model yakla m olas l k yo!unluk fonksiyonun, a! rl kl bile en
yo!unluklar n n toplam olarak modellenebilece!i varsay m na dayan r. Her xij , ' 1 ,..., ' k
oranlar yla G1,…,Gk kitlelerinin kar m olan bir karma G kitlesinden geldi!inde, ' j > 0 ve
"
k
j =1
r j iken, x vektörünün olas l k yo!unluk fonksiyonu sonlu karma formda,
g (x; d, c ) = " d j f j (x; c j )
k
(3.1)
j =1
biçiminde verilir. Burada c j , j’inci bile enin bilinmeyen parametre vektörü, d j ise bir gözlemin
j’inci bile ene ait olma olas l ! d r.
Çok de!i kenli Gaussian karma modellerin bu amaca yönelik uygun bir araç oldu!u birçok
ara t rmada gösterilmi tir [1,2,7]. Bile en da! l mlar n n çok de!i kenli normal (Gaussian)
oldu!unu varsayd ! m zda karma yo!unluk fonksiyonu,
395
g (x; d, µ j , e j ) = " d j f j (x; µ j , e j )
k
(3.2)
j =1
olarak tan mlan r. Burada kümeler, µ k ortalama merkezli elipsoitlerdir. e k kovaryanslar ise
kümelerin di!er geometrik özelliklerini temsil eder [3]. Burada f j ,
/ 1
(x i µ j )T e j1 (x i
exp 0
1 2
f j (x i ; µ j , e j ) =
(2' )p / 2 e j
;
µ j )<
=
(3.3)
ile verilen çok de!i kenli normal da! l m n olas l k yo!unluk fonksiyonudur.
rekil 1’de tek de!i kenli ve iki bile enli bir karma normal da! l m n iki boyutlu grafik gösterimi ve
iki bile enli ve iki de!i kenli bir karma normal da! l m n üç boyutlu grafik gösterimi verilmi tir
[1].
0.55
y
0.5
0.45
0.4
0.12
0.35
0.1
0.3
0.25
0.08
0.2
0.06
0.15
0.1
0.04
0.05
x
-1.5
-1
-0.5
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
5.5
6
6.5
0.02
5
0
-6
-4
0
-2
0
2
4
6
-5
X1
X2
Bekil 1. Tek de!i kenli ve iki de!i kenli karma normal da! l mlar.
3.1. Olabilirlik Kestirimi
Model tabanl kümelemede c = ( d j , µ j , e j ) parametrelerinin kestirimini yapmak için iki farkl
yakla m vard r.
Karma olabilirlik (mixture likelihood) yakla m nda c ,
n
k
i =1
j =1
L(c | x) = " ln " ' j f j (x i | µ j ; e j )
(3.4)
log-olabilirlik fonksiyonunu maksimize edecek ekilde seçilir. Bunun için EM (Expectation
Maximization) algoritmas kullan l r.
EM algoritmas c 0 ba lang ç de!erlerini kullanarak iki basamakta parametre kestirim sonuçlar n
verir. En çok olabilirlik yakla m uygulan rken E-basama! nda, E itlik 3.4’ü kullanarak mevcut c
de!eri için xij ’nin j’inci bile ene ait olmas ko ullu olas l ! hesaplan r. Daha sonra M-
396
ˆ en çok olabilirlik kestirimleri
basama! nda bu ko ullu olas l klar kullan larak dˆ j , µˆ j , e
j
hesaplan r [6].
S n fland rma olabilirlik (classification likelihood) yakla m nda ise gözlemlerin hangi bile ene ait
oldu!unu belirleyen bir gösterge vektörü (indicator vector), z i de bir bilinmeyen parametre olarak
kullan l r. Bu gösterge vektörü,
/51, xi 7 G j
z ij = 0
510, xi Y G j
(3.5)
ile tan mlan r. Buna göre c ,
LC (c | x) = "" z ij ln{' j f j (x i | µ j ; e j )}
k
n
j =1 i =1
(3.6)
s n fland rma log-olabilirlik fonksiyonunu maksimize edecek ekilde seçilir. Bu kez z ij de!erleri
eksik de!er olarak al narak EM Algoritmas uygulan r [6]. EM algoritmas n n s n fland rmaya
uyarlanm bu kullan m CEM Algoritmas olarak da adland r l r [13].
3.2. Kovaryans Matrisinin Parametrizasyonu
Banfield ve Raftery kovaryans matrisinin özvektör-özde!er ayr m n kullanarak, bile enlerin
geometrik özelliklerinin k s tlanmas na dayanan bir sistem önermi tir [5]. Kovaryans matrisinin
özde!er-özvektör ayr m ,
e k = sk D k A k D Tk
(3.7)
olarak yap ld ! nda bir skalar olan Dk , bile enin (kümenin) hacmini; özvektörlerin dik matrisi olan
D k , yönünü; özde!erlerle orant l de!erlerin kö egen matrisi olan A k ise eklini belirler
( A k = 1 ).
E itlik 3.7’deki parametrelerin hepsinin de!il ama baz lar n n kümeler aras nda de!i kenlik
gösterdi!i hesaba kat ld ! nda, farkl kümelenme durumlar n tan mlamaya uygun, kolayl kla
yorumlanabilen az parametreli (parsimonious) modeller elde edilir. Bu yüzden model tabanl
kümelemenin bir di!er önemli avantaj da farkl veri yap lar na (farkl kümelenme senaryolar na)
uygun olan çe itli modellerin kullan labilir olmas d r [4].
Celeux ve Govaert bu ekilde tan mlanm 14 modelin tan m n ve aç klamas n yapm t r. Celeux
ve Govaert ayr ca EM algoritmas nda kullan lmak üzere, bu modellere dayal kovaryans matrisi
güncel denklemlerini de (covariance matrix update equation) sunmu tur [6]. Bu denklemlerin
baz lar kapal yap da olmakla beraber, baz lar n n çözümü ancak iteratif yöntemlerle mümkündür.
Bu çal mada yaln zca kovaryans matrisi güncel denklemi kapal yap da olan ve Çizelge 1’de
belirtilen 9 model kullan lacakt r [1].
3.3. Model Seçimi
Kovaryans matrisi için belirlenen her farkl model ve her farkl küme say s kombinasyonu, farkl
bir olas l k modeline kar l k gelir. Bu durumda model tabanl kümelemenin olas l ksal çerçevesi,
en iyi kümeleme yöntemi ve do!ru küme say s seçimi sorunlar n e zamanl olarak model seçimi
problemine indirgemi olur [4].
397
Model kar la t rmas için, genelde, Bayes faktör yakla m kullan l r. Gözlenen X verisi için
M k , k parametreli bir model iken toplanm olabilirlik (integrated likelihood),
p ( X | M k ) = . p ( X | c k , M k ) p (c k | M k )dc k
(3.8)
olarak tan mlan r. p (c k | M k ) burada c k ’n n önsel da! l m d r. Toplanm
olabilirlik, verinin
M k modeli yap s nda oldu!u bilindi!inde, X verisinin gözlemlenmi olma olas l ! n belirtir.
Çizelge 1. Çok de!i kenli normal karma da! l m modelleri tan mlar
Model No.
Kovaryans
Da.%l%m
1
e k = sI
2
e k = sk I
Hacim: De/i ken / Aekil: Sabit / Yön: -
3
e k = sB
Hacim: Sabit / Aekil: Sabit / Yön: Eksenler
4
e k = sB k
Hacim: Sabit / Aekil: De/i ken / Yön: Eksenler
5
e k = sk B k
Hacim: De/i ken / Aekil: De/i ken / Yön: Eksenler
6
e k = sDAD
Hacim: Sabit / Aekil: Sabit / Yön: -
T
Hacim: Sabit / Aekil: Sabit / Yön: Sabit
7
e k = s D k AD Tk
Hacim: Sabit / Aekil: Sabit / Yön: De/i ken
8
e k = sD k A k D Tk
Hacim: Sabit / Aekil:De/i ken / Yön: De/i ken
9
e k = s k D k A k D Tk
Hacim: De/i ken / Aekil: De/i ken / Yön: De/i ken
Bayes faktörü, iki modelin toplanm olabilirliklerinin oran olarak tan mlanm t r. Ba ka bir
deyi le Bayes faktörü, hiçbir modelin önsel olarak kabul edilmedi!i varsay m alt nda, bir modelin
bir di!erine sonsal odds sonucudur [14]. Bayes faktörünün model tabanl kümeleme için uygun
olmas n n nedeni Bayesçi bir çözüm olmas n n yan s ra, ikiden daha fazla modelin kar la t r lmas
için uygulanabilir olmas d r [3].
Ancak Bayes faktör kullan m pratikte problemli oldu!undan, Bayesian Bilgi Kriteri (BIC,
Bayesian Information Criteria) ad verilen bir yakla m kullan l r [15]. m k , M k modelindeki
kestirilecek parametre say s ve ĉ k , c k parametresinin en çok olabilirlik kesitirmi iken BIC,
2 log p( X | M k ) Z BIC k = 2 log p ( X | cˆ k , M k ) mk log(n)
(3.9)
ile verilmi tir. BIC skorunun, farkl parametrelenmi ve farkl bile en say s na sahip modellerin
kar la t r lmas nda anlaml sonuçlar verdi!i çe itli çal malarda gösterilmi tir [3].
Yüksek BIC skoru, söz konusu model lehine güçlü kan t oldu!una i aret eder. Genel olarak, BIC
skorlar aras ndaki 10’dan büyük farklar n bir modelin bir di!erine tercih edilmesi için çok güçlü
kan t oldu!u söylenebilir [14].
398
3.4. Model Tabanl: Kümeleme Algoritmas:
Çal mada kullan lan algoritma, Martinez ve Martinez’in verdi!i MBCLUST algoritmas d r [1].
MBCLUST bir MATLAB uygulamas d r. Verilen model tabanl kümeleme algoritmas üç temel
ad mda incelenebilir:
1. EM Algoritmas nda kullan lan ba lang ç parametre de!erlerinin belirlenmesi.
2. EM Algoritmas ile parametrelerin en çok olabilirlik kesitirimlerinin yap lmas .
3. Bayesçi Bilgi Kriteri (BIC) de!erlerine göre model ve küme say s seçimi yap lmas .
Kümelemede EM Algoritmas n n ba lang ç de!erlerine karar vermek için önerilen yöntemlerden
biri model tabanl toplamal kümelemedir [3, 5]. Model tabanl toplamal kümeleme yöntemi genel
olarak, her gözlemin birer kümeye atanmas ve her ad mda iki kümenin birle tirilmesine dayanan
hiyerar ik toplamal kümeleme yöntemine benzer. Ancak burada kümeler, s n fland rma olabilirlik
fonksiyonunu maksimize edecek ekilde birle tirilir.
Model tabanl toplamal kümelemede, Çizelge 1’de belirtilen dokuz kovaryans matrisi modeli de
kullan labilir. Fraley ve Raftery dört temel modelin bu teknikte kullan m n n algoritmalar n
vermi tir [3]. K s ts z modeli (model no. 9) kullanarak uygulanm model tabanl toplamal
kümelemenin EM algoritmas için anlaml ba lang ç de!erleri sa!lad ! yap lan çal malarla
gösterilmi tir [1].
Bekil 2. Model tabanl kümeleme algoritmas .
rekil 2’de uygulamalarda kullan lacak olan model tabanl kümeleme algoritmas n n ad mlar
gösterilmi tir. Öncelikle verilen model ve küme say s için toplamal model tabanl kümeleme
uygulanarak EM algoritmas n n ba lang ç de!erleri belirlenir. Daha sonra EM algoritmas n n
yak nsamas sonucunda elde edilen parametre kestirimlerine göre BIC skoru hesaplan r. Bu i lem
her model ve belirlenen her küme say s için tekrarlan r. Sonuçta BIC skorlar kar la t r larak
seçilecek olan modele karar verilir. Seçilen model sonuç olarak küme say s n ve küme yap lar n
(bile en da! l mlar n ) verir ve bu sonuçlara göre gözlemlerin küme üyelikleri belirlenir [1].
4. IMDb Verileri ve Analizi
4.1. Veri KaynaG:
399
IMDb (Internet Movie Database), Internet üzerinden sunulan ve filmler, oyuncular, televizyon
programlar , video oyunlar ve yap m ekipleri hakk nda geni çapl bilgiler içeren çevrimiçi bir
veritaban d r [17]. Amazon.com’un bir yan kurulu u olan IMDb, 1990 y l ndan bu yana yap lan
çal malar ile olu turulmu tur. Veritaban , film bilgilerinin yan nda kullan c lar n ba l klara verdi!i
oylar ve güvenilirli!i sa!lamak amac yla özel yöntemlerle hesaplanan oy ortalamalar , yani
“rating”leri de içerir.
10 Ekim 2007 tarihli kay tlara göre IMDb’nin 17 milyonu kay tl üye olmak üzere, 57 milyon
kullan c s vard r. Ayr ca 28 Mart 2009 itibari ile IMDb’de kay tl ba l k say s 1,379,920 olup bu
ba l klar n 441,957’si sinema filmidir.
Kullan lan verilerin son güncelleme tarihi 28 Mart 2009’dur. Veri analizinde kullan lan de!i kenler
unlard r: yap m y l , IMDb Rating (kullan c oylar n n “a! rl kl ” ortalamas , puanlar n tan m : “1:
berbat”, “10: mükemmel”), oy say s (her ba l k için kullan lan toplam oy say s ), tür (aksiyon,
macera, vb.), süre, yap m ülkesi, film bütçesi (tahmini bütçe).
Oy sahtekarl ! n önlemek amac yla IMDb Rating hesaplarken, kullan lan oylar çe itli ekillerde
filtreleyerek ve a! rl kland rarak her ba l k için aritmetik ortalamadan farkl bir “a! rl kl ortalama”
ölçüsü kullanmaktad r. Film türleri, IMDb ba l klar n kategorize etmek için veritaban nda
kullan lan 27 tür üzerinden tan mlanm t r. Ancak bu çal mada uzun metraj sinema filmlerinin ait
oldu!u, belgesel hariç, 20 türün birle tirilmesiyle elde edilen 14 tür kategorisi dikkate al nm t r.
Yap m ülkesi giri i, ortak yap m filmler (co-production) için esas yap m ülkesi dikkate al narak
yap lm t r. Ülkeler daha sonra A.B.D., ngilizce konu ulan di!er ülkeler (E.S.C.), Avrupa, Güney
Amerika, Uzak Do!u ve di!er olmak üzere 6 grupta toplanm t r. Bütçeler milyon dolar cinsinden
belirtilmi tir. Eksik veriler EM Algoritmas kullan larak Eksik De!er Analizi ile tamamlanm t r.
4.2. Örneklem Seçimi
Çal mada yaln zca son on y lda (1998-2008) yap m tamamlanm olan uzun metrajl sinema
filmleri de!erlendirmeye al nm t r. Belgesel filmler de!erlendirmeye al nmam t r. Süresi
belirtilmeyen filmler veriden ç kar lm ; yaln zca IMDb Rating’i belirli olan ve 200’den fazla oy
alan ba l klar de!erlendirilmi tir. Bu k s tlamalara göre hedef kitle boyutu 8,572’dir. Bu veriden,
SPSS Clementine ile %5’lik rastgele örneklem seçimi (Örneklem 1) yap lm t r. Daha sonra
analizler sonucu, modellemede önemli farkl l klara yol açan bir de!i ken oldu!una karar verilen oy
say s na göre yeni bir k s tlama getirilerek yeni bir örneklem seçimi (Örneklem 2) yap larak
sonuçlar kar la t r lm t r. Bu örneklemin seçildi!i kitle, oy say s 2000’den büyük olan ba l klar
içermekte ve 3,019 gözlemden olu maktad r. Bu kitleden yakla k %5’lik bir örneklem seçimi
yap lm t r.
4.3. Verilerin Analizi
IMDb uzun metrajl film verisinin de!i ken yap lar ve de!i kenler aras ndaki ili kiler incelenmi ,
uygun dönü ümler belirlenmi tir. Baz dikkat çekici sonuçlar a a! da aç klanm t r.
Kullan c be!enisini temsil eden IMDb Rating’lerinin 5.9 ortalamas ile yakla k simetrik da! ld !
gözlemlenmi tir. Oy say s , bütçe ve süre de!i kenlerinin a r çarp k da! ld klar gözlendi!i için,
oy say s ve süre logaritmik dönü üm, bütçe dördüncü dereceden kök dönü ümü yap larak
modellemede kullan lm t r [2].
400
50.0%
40.0%
30.0%
20.0%
South
America
Far East
Other
Comedy
Crime
Drama
Europe
E.S.C.
0.0%
USA
10.0%
250
200
150
100
Thriller&Mystery
Music&Musical
History&Biography
Sci-Fi
Romance
Horror
Fantasy
Family
Animation
Adventure
0
Action
50
Bekil 3. Filmlerin ülke ve türlere göre da! l mlar .
Filmlerin yakla k %70’e yak n n n A.B.D. ve Avrupa yap m oldu!u görülmü tür. Ortak yap m
filmlerin esas yap m ülkelerinin bu kategorilerde olmas ve bu ülkelerdeki film endüstrilerinin
geli mi li!i göz önüne al nd ! nda bu beklenen bir sonuçtur. Ayr ca türlere göre film say lar
incelendi!inde dram ve komedi türlerinin en çok gözlenen türler oldu!u görülmü tür. rekil 4’te,
tarih-biyografi ve müzik-müzikal filmleri genel olarak ortalamadan yüksek rating ald klar ve
korku filmlerinin de genel ortalamadan dü ük rating ald ! görülüyor.
401
10.0
Rating
8.0
6.0
4.0
Thriller
sci-fi
romance
music
horror
History
fantasy
family
drama
comedy
animatio
adventur
action
0.0
crime
2.0
Bekil 4. Türlere göre Rating da! l mlar .
Ayr ca düzle tirme (smoothing) yap larak al nan sonuçlara göre, 90 dakikadan k sa filmler için film
süresi uzad kça be!eninin azald ! ancak 90 dakikadan uzun filmler için filmler uzad kça be!eninin
artt ! n görüyoruz. Benzer bir ili kinin bütçe (s n r $1,000,000) ve oy say s için de geçerli oldu!u
görülüyor.
8.5
8.5
8
8
7.5
7.5
7
Rat ing
Rat i ng
7
6.5
6
6.5
6
5.5
5.5
5
5
4.5
3.5
4.5
0.5
4
4.5
5
5.5
6
1
1.5
2
2.5
3
3.5
4
4.5
5
Budget
Runt i m e
8.5
8
7.5
Rat ing
7
6.5
6
5.5
5
4.5
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
Num ber of Vot es
Bekil 5. Rating’in süre, bütçe ve oy say lar na göre de!i imi.
4.4. Model-tabanl: kümeleme uygulamas:
Bölüm 4.3’te analiz sonuçlar verilen IMDb verisi ile daha sonra model tabanl kümeleme
uygulamas yap lm t r. Çal man n bu a amas nda, modellemede rating, oy say s , süre ve bütçe
de!i kenleri kullan lm t r.
Bölüm 3.4’te aç klanan MBCLUST algoritmas , analiz sonucu karar verilen dönü ümlerin
yap ld ! , Örneklem 1 verisine uyguland ! nda a a! daki sonuçlar al nm t r.
402
En yüksek BIC de!eri 4 kümeli k s ts z model (model no. 9) ile elde edilmi tir; ancak 2 ve 3 küme
ile olu turulan ayn modelin BIC de!erleri de oldukça yüksektir.
Model 9, 4 clusters is optimal.
-2000
1: [ k = D I
2: [ k = Dk I
3: [ k = D B
-3000
BI C
4: [ k = D B k
5: [ k = Dk B k
6: [ k = D DA D'
-4000
7: [ k = D D k A D k'
8: [ k = D D k A k D k'
-5000
9: [ k = [ k
0
1
2
3
4
5
6
7
8
9
Num ber of clust er s
Bekil 6. Örneklem 1 için BIC de!erleri.
Kaufman ve Rousseeuw bir veri kümesindeki grup say s n belirlemek için bir kestirim yöntemi
olarak siluet istatisti!ini önermi tir. Bir gözlemin siluet geni li!i genel anlam yla, o gözlemin küme
atamas n n ne kadar iyi yap ld ! n belirtir. Ortalama siluet geni li!i ise bir verideki küme say s n
belirlemek için kullan l r. Büyük siluet de!eri anlaml kümeleme yap ld ! n n i aretidir. Siluet
grafi!i ise her küme için siluet de!erlerini gösterir [16].
1
1
Cluster
Cluster
2
3
2
4
-0.5
0
0.5
1
-0.5
0
0.5
1
Silhouette Value
Silhouette Value
Cluster
1
2
3
-0.5
0
0.5
1
Silhouette Value
Bekil 7. Örneklem 1 kümelemesinde küme say lar 4, 2 ve 3 için siluet grafikleri.
4 kümeli model için ortalama siluet de!eri 0.13 iken, 2 kümeli model için 0.27, 3 kümeli model
için 0.34’tür. rekil 7’de, 3 farkl küme say s na ait siluet grafikleri gösterilmi tir. 4 kümeli modelde
yaln zca 1 numaral kümenin iyi bir küme oldu!u ve di!er kümelerin anlaml küme yap s nda
olmad ! söylenebilir. 2 kümeli modelin de küme yap s n iyi aç klamad ! görülebilir. Bu iki
modele k yasla 3 kümeli modelin daha anlaml bir küme yap s olu turdu!u aç kt r.
403
Küme say s 3 ve kovaryans matrisi k s ts z olarak (model no. 9) parametrize edilen modele göre,
bile enlerin hacim, ekil ve yönleri de!i kenlik gösterir. Çizelge 2’de kümelere atanan gözlemlerin
de!i ken ortalamalar verilmi tir. Bu de!erler, örne!in, Küme 1’de bulunan filmlerin sürelerinin
ortalamas n n 95 dakika, ortalama bütçenin $1,684,640, rating ortalamas n n 5.2 ve ortalama oy
say s n n 325 oldu!u anlam na gelir.
Çizelge 2. Çok de!i kenli normal karma da! l m modelleri tan mlar
Küme -1
Ortalamalar
Küme - 2
Küme - 3
Süre
95
99
102
Bütçe
1,684,640
2,331,187
15,939,622
Rating
5.2
6.5
5.9
Oy Say%s%
325
766
9,065
Buna göre Küme 1’in k sa, dü ük bütçeli, tan nmam ve genellikle az be!enilen filmlerden
olu tu!u; Küme 2’nin ortalama süreli, ortalama bütçeli ve fazla tan nmam olmas na ra!men
yüksek rating alan filmlerden olu tu!u; Küme 3’ün ise uzun, çok yüksek bütçeli ve çok izlenen
filmlerden olu tu!u söylenebilir. Bu de!erlendirmeye göre Küme 1, ‘Limonata Filmler’; Küme 2,
‘Nitelik Filmleri’; Küme 3 ise ‘Kapitalist Filmler’ olarak adland r lm t r.
Rating de!i keninin ba! ml bir de!i ken oldu!u dü ünülerek, yine Örneklem 1 üzerinde rating
de!i keni ç kar larak üç de!i ken üzerinden yeniden kümeleme yap ld ! nda ise en yüksek BIC
de!erine sahip modellerin 2 ve 3 kümeli k s ts z modeller oldu!u belirlenmi tir. 2 kümeli model
için ortalama siluet de!eri 0.57, 3 kümeli model içinse 0.45’tir. Ancak rekil 9’daki siluet
grafiklerine bak ld ! nda 3 kümeli modelin küme yap lar n n daha iyi oldu!u görülebilir.
Model 9, 3 clusters is optimal.
-1000
1: [ k = D I
-1500
2: [ k = Dk I
3: [ k = D B
BI C
-2000
4: [ k = D Bk
-2500
5: [ k = Dk Bk
6: [ k = D DAD'
-3000
7: [ k = D Dk A Dk'
8: [ k = D Dk A k Dk'
-3500
-4000
9: [ k = [ k
0
1
2
3
4
5
6
7
8
9
10
11
Number of clust ers
Bekil 8. Örneklem 1’in üç de!i ken üzerinden kümelenmesinde BIC de!erleri.
404
1
Cluster
Cluster
1
2
2
3
-0.5
0
0.5
1
-0.5
Silhouette Value
0
0.5
1
Silhouette Value
Bekil 9. Örneklem 1’in üç de!i ken üzerinden kümelenmesinde 1 ve 2 kümeli modellerin siluet
grafikleri.
Örneklem 2’ye dört de!i kenin hepsi al narak model tabanl kümeleme uyguland ! nda 5 kümeli
k s ts z modelin optimal model oldu!u görülüyor. Bu modelin BIC skorunun di!erlerine göre
oldukça büyük olmas , bu model lehine çok güçlü kan t oldu!unun i aretidir.
Model 9, 5 clusters is optimal.
-800
1: [ k = D I
-1000
2: [ k = Dk I
BI C
3: [ k = D B
4: [ k = D Bk
-1200
5: [ k = Dk Bk
6: [ k = D DA D'
-1400
7: [ k = D Dk A Dk'
8: [ k = D Dk A k Dk'
9: [ k = [ k
-1600
0
1
2
3
4
5
6
7
8
9
10
11
Num ber of clust er s
Bekil 10. Örneklem 2 kümelemesinin BIC de!erleri.
5. Sonuçlar
Çal man n amac do!rultusunda, Ke fedici Veri Analizi (EDA) ile de!i ken yap lar belirlenmi
ve modellemede kullan lmak üzere uygun dönü ümler belirlenmi tir. Ayr ca de!i kenlerin film
ratingi ile ili kileri incelenmi ; süre, bütçe ve oy say s de!i kenleri ile rating aras nda do!rusal
olmayan ili kiler oldu!u görülmü tür.
Model tabanl kümeleme, oy say lar na k s tlama getirilerek seçilmi iki farkl örneklem üzerinde
uygulanm t r. Oy say s 200’den büyük filmleri içeren Örneklem 1 için k s ts z model yap s na
uygun 3 küme olu turulmu tur. Bu kümeler Çizelge 3’te tan mlanm t r.
Çizelge 3. Örneklem 1 için 3 kümeli k s ts z model, küme tan mlar
Süre
Limonata
Ortalama 95 dak.
K,sa
Bütçe
Oy Say%s%
Ortalama $1,684,640
Dü ük ve orta bütçeli
405
Ortalama 325 oy
Tan,nmayan
Rating
Ortalama 5.2
Ortalama be/enilen
Ortalama 99 dak.
Nitelik Orta uzunlukta
Ortalama $2,331,187
Orta bütçeli
Ortalama $15,939,622
Ortalama 102 dak.
Genellikle yüksek
Uzun
Kapitalist
bütçeli
Ortalama 766 oy
Az tan,nan
Ortalama 6.5
Çok be/enilen
Ortalama 9,065
oy
Çok izlenen
Ortalama 5.9
Orta ve yüksek derecede be/enilen
Daha sonra bu örneklemden Rating de!i keni ç kar larak tekrar modelleme yap lm ve daha
anlaml küme yap lar ve yüksek siluet geni liklerine sahip kümeler ç kar lm t r. Oy say s
2000’den büyük olan filmleri içeren Örneklem 2 üzerinde de ayr ca kümeleme uygulamas
yap lm ve bu kez 5 kümeli k s ts z modelin en iyi model oldu!una karar verilmi tir.
Yap lan üç farkl uygulama sonucu ç kan farkl küme yap lar ve küme say lar , örneklem seçimi ve
de!i ken seçiminin model tabanl kümeleme uygulamas nda son derece önemli oldu!unu
göstermektedir. Di!er kümeleme yöntemlerinden farkl olarak model varsay mlar na dayanan bir
yöntem oldu!undan, model tabanl kümeleme için öncelikle örneklem ve de!i ken seçiminin
amaca yönelik olarak yap lmas na dikkat edilmelidir.
Kaynaklar
[1] W. L. Martinez, A. R. Martinez, (2004), Exploratory Data Analysis with MATLAB, Chapman &
Hall/CRC, Boca Raton.
[2] A. Erar, G. K ro!lu, (2008), Veri Analizi Ders Notlar:, MSGSÜ, stanbul.
[3] C. Fraley , A. E. Raftery, (1998), How many clusters? Which clustering methods? Answers via
model-based cluster analysis, Computer Journal, 41, 578-588.
[4] K. Y. Yeung, C. Fraley, A. Murua, A.E. Raftery, W.L. Ruzzo, (2001), Model-based clustering and
data transformations for gene expression data, Bioinformatics, 17, 977-987.
[5] J. D. Banfield, A. E. Raftery, (1993), Model-based Gaussian and non-Gaussian clustering,
Biometrics, 49, 803-821.
[6] G. Celeux, G. Govaert, (1995), Gaussian parsimonious clustering models, Pattern Recognition, 28,
781-793.
[7] G. J. McLachlan, K. E. Basford, (1988), Mixture Models: Inference and Applications to Clustering,
Marcel Dekker, New York.
[8] M. G. Kendall, (1981), Multivariate Analysis, Charles Griffin & Co., Bristol.
[9] B. G. Mirkin, (2005), Clustering for Data Mining: A Data Recovery Approach, Chapman &
Hall/CRC, Boca Raton.
[10] H. Tatl dil, (1996), Uygulamal: Çok DeGi#kenli statistiksel Analiz, Engin Yay nlar , Ankara.
[11] D. M. Titterington, A. F. M. Smith, U. E. Makov, (1985), Statistical Analysis of Finite Mixture
Distributions, John Wiley & Sons, London.
[12] J. F. Hair, R. E. Anderson, R. L. Tatham, W. C. Black, (1998), Multivariate Data Analysis, PrenticeHall, New Jersey.
[13] G. Celeux, G. Govaert, (1992), A classification EM algorithm for clustering and two stochastic
versions, Comput. Stat. Data Anal., 14, 315-332.
[14] R.E. Kass, A.E. Raftery, (1995), Bayes Factors, J. Am. Stat. Assoc., 90, 773-795.
[15] G. Schwarz, (1978), Estimating the dimension of a model, The Annals of Statistics, 6, 461-464.
[16] L. Kaufman, P. J. Rousseeuw, (2005), Finding Groups in Gata: An Introduction to Cluster Analysis,
John Wiley & Sons, New York.
[17] The Internet Movie Database (IMDb), http://www.imdb.com/ (accessed March 28, 2009).
406
Faktör korelasyonlar n n Cronbach Alpha
üzerine etkisi
Fatma NOYAN
Gülhayat GÖLBArI r MrEK
Y:ld:z Teknik Üniversitesi, Fen Edebiyat Fakültesi
statistik Bölümü, 34210 Davutpa#a stanbul
[email protected]
Y:ld:z Teknik Üniversitesi, Fen Edebiyat Fakültesi
statistik Bölümü, 34210 Davutpa#a stanbul
gulhayatgolbasi@ gmail.com
Özet
E!itim, sosyoloji, istatistik, t p, siyaset bilimleri ve ekonomi olmak üzere hemen her bilim alan nda
tutum ve davran lar n ölçülmesi için, genellikle sosyal bilimlerde ölçek olarak adland r lan tutum
anketleri haz rlanmaktad r. Bu anketlerden elde edilen veriler ise istatistik analizlere girdi
olu turmaktad r. Bu a amada analizlerin veya tahminlerinin do!rulu!u, olu turulan ölçeklerin geçerli
ve güvenilir olmas na ba!l olmaktad r. Geçerlilik en genel tan m yla, ölçe!in istenilen kavram
di!erleriyle kar t rmadan ölçebilmesi, güvenilirlik ise ölçümlerin tutarl olmas d r. Tutarl l ! n
tahmininde ba ta Cronbach S katsay s olmak üzere Guttman ikiye bölme (split-half) katsay s ve
Spearman-Brown katsay s gibi birçok yöntem kullan lmaktad r. Cronbach’ n 2004 y l nda yapt !
bir çal maya göre, Cronbach’n n 1951 y l ndaki makalesi y lda en az 325 defa olmak üzere, SSCI
kapsam nda yakla k 5590 defa referans gösterilmi tir. Buradan S katsay s n n ölçek geli tirmedeki
önemi de ortaya konulmu olmaktad r.
Tutum ve davran lar ölçmekte kullan lan ölçekler, tek bir kavram ölçmek için olu turulabilece!i
gibi, ölçekte, birden çok kavram veya alt-ölçek bulunabilir. Bu alt-ölçeklerdeki göstergelerin tamam
toplam ölçe!i olu turur. Alt-ölçekler ba! ms z olabilece!i gibi, negatif veya pozitif korelasyonlu da
olabilir.
Bu çal man n amac , toplam ölçe!i olu turan alt-ölçekler veya faktörler aras ndaki korelasyonun,
ölçe!in toplam güvenilirli!i üzerinde bir etkisi olup olmad ! n ara t rmakt r. Bu amaçla, anakütle
güvenilirlikleri bilinen faktör modelleri için, faktörler aras ndaki korelasyonun farkl i aret ve
derecelerine göre bir Monte Carlo simülasyon çal mas yap lacakt r. Faktörler aras ndaki
korelasyonun Cronbach S güvenilirlik tahmininin yanl l k ve etkinli!ine etkisi incelenecektir.
Anahtar sözcükler: Güvenilirlik, Cronbach 3, Simülasyon, Faktör korelasyonlar&
Abstract
The Effect of Factor Correlations on Cronbach’s Alpha
The validity and reliability of a scale are the key concepts in scale development. Among the methods
to estimate reliability, coefficient alpha has received more attention than others such as split-half
reliability. Cortina (1993) reported that in a review of the Social Sciences Citations Index for the
literature from 1966 to 1990, Cronbach’s 1951 article had been cited nearly 60 times every year in a
total of 278 different journals that cover a variety of research fields including not only psychology but
also education, sociology, statistics, medicine, counseling, nursing, political science, and economics.
Cronbach (2004) reported that his 1951 article had been cited no less than 5,590 times and had been
cited approximately 325 times per year in the Social Sciences Citation Index in recent years. The
scales that used for measure some underlying constructs can be a single scale or its consisted of some
many subscales. These subscales may be positively or negatively correlated as well as being
independent. The aim of this study is to investigate the effect of factor correlations on the bias and
efficiency of Cronbach’s alpha to estimate reliability through Monte Carlo simulation.
Keywords: Reliability, Cronbach’s Alpha, Simulation, Factor Correlations
407
1. Giri!
E!itim, sosyoloji, istatistik, t p, siyaset bilimleri ve ekonomi olmak üzere hemen her bilim alan nda
tutum ve davran lar n ölçülmesi için, genellikle sosyal bilimlerde ölçek olarak adland r lan tutum
anketleri haz rlanmaktad r. Bu anketlerden elde edilen veriler ise istatistik analizlere girdi
olu turmaktad r. Bu a amada analizlerin veya tahminlerinin do!rulu!u, olu turulan ölçeklerin
geçerli ve güvenilir olmas na ba!l olmaktad r. Geçerlilik en genel tan m yla, ölçe!in istenilen
kavram di!erleriyle kar t rmadan ölçebilmesi, güvenilirlik ise ölçümlerin tutarl olmas d r.
Günümüze kadar ölçme araçlar n n güvenilirli!ini tahminine yönelik çok say da güvenirlik
katsay s önerilmi tir. Güvenirlik katsay lar n n say ca çok olmas n n temel nedeni; bu katsay lar n
farkl madde yap lar nda farkl de!er üretmeleridir [1]. Buna ra!men, e!itim ve psikoloji alan nda
yap lan çal malar incelendi!inde; çoklu derecelenmi (polythomous) testlerin güvenirli!inin elde
edilmesinde yayg n olarak Guttman ve Cronbach taraf ndan geli tirilen S katsay s n n, Guttman
yar ya bölme (split-half) katsay s n n ve Spearman-Brown katsay s n n, ikili derecelenmi
(dichothomous) testlerde ise Kuder ve Richarson taraf ndan gelistirilen KR-20 ve KR-21
katsay lar n n kullan ld ! gözlenmektedir.
Güvenilirlik temellerini Psikoloji’deki klasik ölçme teorisinden alm t r. Ölçme
teorisindeki klasik ölçe modeli [2],
X i = Ti + E i (i = 1, 2,..., k)
(1)
eklindedir. Burada gözlenen de!i ken Xi, ölçülmesi gereken do!ru de!eri Ti (true) ve do!ru
skordan ba! ms z oldu!u ( Cov(Ti , E i ) = 0 ) kabul edilen hata terimine (Ei) ayr t r lmaktad r.
Gözlenen skorlar n toplam ndan olu an gözlenen skor toplam ,
X = X1 + X 2 + ... + X k
(2)
olup, (1)’dekine benzer ekilde
X = T1 + T2 + ... + Tk + E1 + E 2 + ... + E k
(3)
veya
T = T1 + T2 + ... + Tk ve E = E1 + E 2 + ... + E k ile gösterilerek,
X =T+E
(4)
eklinde do!ru skor ve hata bile enlerine ayr t r lmaktad r. Bu tan mlardan hareketle, bile ik
güvenilirli!i,
=
Var(T)
Var(X)
(5)
olarak tan mlanmakta ve do!ru skor varyans n n gözlenen skor varyans na oran olarak ifade
edilmektedir.
Güvenilirli!in tahmininde test-tekrar test, alternatif form, yar ya bölme (split-halves) ve iç-tutarl l k
yöntemleri kullan lmaktad r [3]. Test-tekrar test yönteminde, belli zaman aral klar nda ard arda
408
yap lan ölçümler aras ndaki korelasyon güvenilirlik tahmini olarak kullan lmaktad r. Bu durumda
testin en az iki kere tekrarlat lmas n n zorlu!unun yan s ra, testler aras nda geçen sürenin ki ilerin
tutum ve davran lar n n de!i ebilece!i kadar uzun olmas durumunda güvenilirlik hakk nda tutarl
bir tahmin verememesi ve testlerin çok k sa bir zaman aral ! nda tekrarlanmas durumunda da,
cevaplay c lar n daha önce verdi!i cevab hat rlayarak, yine güvenilirlik tahminini ku kulu hale
getirecek sak ncalar da bulunmaktad r. Alternatif form yönteminde, güvenilirli!i ara t r lacak
ankettekilerle paralel olacak ekilde alternatif bir anket formu haz rlanarak, belli bir zaman sonra
ayn deneklere tekrarlat lmakta, ve birbirinin alternatifi olan bu iki ankete verilen cevaplar n
korelasyonu güvenilirlik tahmini olarak kullan lmaktad r. Test-tekrar test yönteminde oldu!u gibi
bu yöntemde de anketin en az iki defa tekrarlanmas gerekmektedir. Yar ya bölme yönteminde
ölçekteki maddeler e it say da madde bulunduran iki altsete ayr l p, bu altsetlerdeki maddelerin
toplam skorlar aras ndaki korelasyonla ilgilenilmektedir. Böylece yar ya bölme yöntemi, alternatif
form yöntemine bir yakla m olarak dü ünülebilir. Uygulamada tek numaral maddeler bir altsete,
çift numaral maddeler di!er altsete ayr larak, skor toplamlar aras ndaki korelasyon güvenilirlik
tahmini olarak kullan lmaktad r. Bununla beraber, örne!in 12 maddeden olu an bir ölçe!in 462
farkl ekilde ( C(12, 6) / 2 ) iki alt ölçe!e bölünebilece!i göz önüne al nd ! nda, yar ya bölme
sonucunda elde edilen güvenilirlik tahminin alt ölçeklere seçilen maddelerden etkilendi!i ve
güvenilirli!in tahmiminde baz sak ncalar olaca! aç kt r. Bu durumda elde edilen güvenilirlik
tahmini de gerçekte, toplam testin de!il alt ölçeklerin güvenilirli!i olarak dü ünülmektedir. Bu
sak ncan n giderilmesi amac yla, Spearman (1910) ve Brown (1910) taraf ndan ba! ms z olarak
geli tirilen ve Spearman- Brown formülü olarak adland r lan,
xx HH
=
2
1+
xx H
(6)
xx H
istatistiksel düzeltmesi uygulanmaktad r [4,5]. Burada xxH yar ya-bölme korelasyonu, xxHH ise
toplam ölçe!in güvenilirli!ini ifade etmektedir. Yine yar ya bölme yönteminin dezavantajlar ndan
biri de, elde edilen güvenilirlik tahmininin toplam ölçekte bulunan madde say s ile do!rudan
ili kili olmas d r. Bu sak ncay da ortadan kald rmak için (6)’daki Spearman- Brown formülünün
genelle tirilmi hali olan,
x n x HHn
=
L xx H
1 + (L 1)
(7)
xx H
kullan labilmektedir. Burada
x n xHHn
, orijinal ölçe!in L kat
kadar madde içeren ölçe!in
güvenilirlilik katsay s n göstermektedir.
Güvenilirli!in de!erlendirilmesinde kullan lan yöntemlerden dördüncüsünün genel ad iç-tutarl l k
yöntemleri olup, güvenilirli!in de!erlendirilmesinde kullan lan iç tutarl l k ölçümlerinden baz lar ;
Cronbach S [6] , KR-20 (Kuder-Richardson 20), temel bilesenler analizinden elde edilen en
katsay s , ortak faktör analizi
yüksek özdeger (eigenvalue) ile elde edilen Armor (1974)’un
sonuçlar ndan elde edilen Heise ve Bohrnstedt 1970 [7] taraf ndan önerilen R katsay s , yap sal
güvenirlik (construct reliability) olarak ta adland r lan [8] ve dogrulay c faktör analizi yöntemiyle
elde edilen McDonald’ n N katsay s [9], maddelerin kovaryanslar n n ortalamalar kullan larak
Katsay s ’d r [10]. ç tutarl l k yöntemleri de yar ya bölme yönteminde
elde edilen Revelle’nin
oldu!u gibi, anketin tekrar yapt r lmas n gerektirmedi!inden, test-tekrar test ve alternatif form
yöntemlerinde de!inilen, daha önceden verilen cevaplar n hat rlanmas veya tekrar test yap lmadan
önce tutum ve davran n de!i mi olmas gibi sak ncalar içermemesinin yan nda, güvenilirlik
daha az maliyet ve zamanda de!erlendirilebilmektedir.
Tutum ve davran lar ölçmekte kullan lan ölçekler, tek bir kavram ölçmek için olu turulabilece!i
gibi, ölçekte, birden çok kavram veya alt-ölçek bulunabilir. Bu alt-ölçeklerdeki göstergelerin
409
tamam toplam ölçe!i olu turur. Alt-ölçekler ba! ms z olabilece!i gibi, negatif veya pozitif
korelasyonlu da olabilir.
Bu çal man n amac , toplam ölçe!i olu turan alt-ölçekler veya faktörler aras ndaki korelasyonun,
ölçe!in toplam güvenilirli!i üzerinde bir etkisi olup olmad ! n ara t rmakt r. Bu amaçla, anakütle
güvenilirlikleri bilinen faktör modelleri için, faktörler aras ndaki korelasyonun farkl i aret ve
derecelerine göre bir Monte Carlo simülasyon çal mas yap lacakt r. Faktörler aras ndaki
korelasyonun Cronbach S güvenilirlik tahmininin yanl l k ve etkinli!ine etkisi incelenecektir.
2. Faktör Modeli ve Güvenilirlik
Jöreskog (1971) taraf ndan, gözlenen skor X i ’nin latent faktör ’ ve hata terimi } i ’ye
Xi = ai ’ + }i
(8)
genel faktör modeli ile ayr t rabilece!i ifade edilmi tir [11]. Burada X i ( i = 1, 2,..., k )’nin tek ve
ayn ’ özelli!ini ölçen gözlenen de!i kenler oldu!u, ’ ile hata terimlerinin ve gözlenen
de!i kenlerin hata terimlerinin korelasyonsuz oldu!u varsay lmaktad r.
Cov(’, } i ) = 0 ve Cov(} i , } j ) = 0
(9)
(8) modelinden hareketle, gözlenen skorlar n kovaryans matrisi,
X1
X2
X i3
M
Xk
X1
a + ~11
a 2 a1
a 3 a1
M
a k a1
2
1
X2
a1a 2
2
a 2 + ~ 22
a3a 2
M
ak a2
X3
a1a 3
a 2 a3
2
a 3 + ~ 33
M
a k a3
K
Xk
L
a1a k
L
a2ak
K
a3a k
K
M
2
K a k + ~ kk
(10)
formunda yazabilmektedir. Kovaryans matrisinin kö egen elemanlar do!ru skor varyanslar
(a )
2
i
ile gözlenen skorlardaki hata varyanslar n n ( ~ii ) toplam n , kö egen d elemanlar ise gözlenen
skorlar aras ndaki kovaryanslar göstermektedir. Toplam skoru olu turan her bir bilenin
güvenilirli!i,
jii =
a2i
~
= 1 2 ii
2
a i + ~ii
a i + ~ii
(11)
Ve her bir bile enin güvenilirliklerinin toplam ndan da olu turulabilen bile ik (toplam skor)
güvenilirli!i de, yine bile i!in do!ru skor varyans n n, gözlenen sor varyans na oran olup,
410
k
j xx =
k
k
" a2i + "" ai a j
i =1
i =1 i : j
k
k
k
k
" a2i + "" ai a j + " ~ii
i =1 i : j
i =1
i =1
(12)
k
i =1
"a
i =1
2
k
"a
i
i =1 i : j
i
j
=
2
k
"a
i =1
i
oldu!undan, (12) ifadesi
2
k
i =1
k
" a + "" a a
olup, burada
j xx =
k
2
i
i
k
+ " ~ii
i =1
(13)
basit formunda yaz labilmektedir. Güvenilirli!i bu ifadesi ayn zamanda McDonald’ n ” katsay s
olup [9], yap güvenilirli!i olarak ta adland r lmaktad r.
Klasik ölçme teorisine göre, X = T + E denklemindeki E hata teriminin sistematik hata içermeyip
yaln zca ölçmedeki hatalar ifade eden s f r ortalamal bir rastgele de!i ken oldu!u, do!ru skorun
ise ayn testin ayn ki iye sonsuz defa uygulanabilmesi durumunda, bu ki iden elde edilen bütün
skorlar n ortalamas oldu!u varsay lmaktad r [12]. Sonuç olarak bir ki inin T toplam skoru, do!ru
skoru etraf nda olmakla birlikte tam olarak do!ru kesinlikte veya gerçek do!rulukta de!ildir. Bu da
psikometrideki do!ru (true) kavram na kar l k gelmektedir. Do!ru skor, rastgele hatadan ba! ms z
olan ve ’ ’nin verilen bir seviyesinde tutarl olan skor anlam na gelmektedir. Do!ru skor rastgele
ölçme hatas ndan ba! ms z olsa bile, sistematik hatal olabilmektedir [13]. Bu durumda do!ru skor,
Ti = a i ’ + si
(14)
oldu!undan, gözlenen skor da,
X i = a i ’ + si + } i
(15)
olmaktad r. Klasik ölçme teorisinde ölçümler paralel, tau-e de!er, tau-e biçimli ve konjenerik
olmak üzere dörde ayr lmaktad r.(1), (8), (14) ve (15) modellerinden hareketle,
ai = a j = L = a k
ve ~ii = ~ jj = L = ~ kk
ise
ölçümlerin
paralel
oldu!u
yani
bütün
de!i kenlerin bir latent kavram e it büyüklükte ve e it duyarl l kta (hata terimleri varyans n n e it
olma durumu) ölçtü!ü [14], ba ka bir ifadeyle herhangi iki de!i ken için
Ti = Tj ve Var(E i ) = Var(E j ) oldu!u,
ai = a j = L = a k
ve ~ii : ~ jj
ise ba ka bir ifadeyle Ti = Tj ve Var(E i ) : Var(E j ) ise
ölçümlerin tau-e de!er (tau-equivalent) oldu!u,
411
E!er ölçülmek istenen do!ru skorlar aras nda Ti = Tj + a ij (a ij : 0) ba! nt s ba ka bir ifadeyle
Ti = a j’ + s j + a ij (a ij : 0) ili kisi varsa ölçümlerin tau-e biçimli (essentially tau-equivalent)
oldu!u,
ai : a j
ve ~ii : ~ jj ise ba ka bir ifadeyle Ti = bijTj + a ij (b ij : 0, a ij : 0) ise ölçümlerin
konjenerik (congeneric) oldu!u yani, bir latent kavram ölçen de!i kenlerin hem faktör yükleri hem
de hata varanslar bak m ndan heterojen oldu!u ifade edilmektedir [15]. Konjenerik ölçümler ile
paralel, tau-e de!er ve tau-e biçimli ölçümler arasndaki en önemli farkl l k; paralel, tau-e de!er ve
tau-e biçimli ölçümlerde gözlenen skorlar aras ndaki kovaryaslar e it iken, konjenerik ölçümlerde
bu e itlik sa!lanmamaktad r [14]. Ayr ca buradan paralel, tau-e de!er ve tau-e biçimli ölçümlerde
Cov(X i , X j ) = Var(Ti ) = Var(Tj )
(16)
oldu!u görülmektedir.
(13) denklemiyle verilen güvenilirlik, ölçümlerin paralel olmas durumunda
j xx =
(ma i )2
,
(ma i )2 + m~ii
(17)
ölçümlerin tau-e de!er veya tau-e biçimli olmas durumunda
j xx =
(ma i ) 2
k
(ma i ) 2 + " ~ ii
i =1
(18)
haline gelerek basitle mektedir, ölçümlerin konjenerik olmas
sadele tirme yap lamamaktad r.
durumunda ise böyle bir
2. Güvenilirlik Tahmini çin Cronbach g
Cronbach’ n 2004 y l nda yapt ! bir çal maya göre, Cronbach’n n 1951 y l ndaki makalesi y lda
en az 325 defa olmak üzere, SSCI kapsam nda yakla k 5590 defa referans gösterilmi tir [16].
Buradan S katsay s n n ölçek geli tirmedeki önemi de ortaya konulmu olmaktad r.
Klasik test kuram paralel ölçmeler üzerine kurulu [17] oldu!u için bu tür ölçme araçlar ndan elde
edilen güvenirlik katsay lar gerçek güvenirli!i vermektedir. Guttman (1945) paralel ölçmelerin
d ndaki tüm ölçme kümeleri için güvenirlik katsay lar gerçek güvenirli!in alt nda de!er
üretece!inden dolay “güvenirligin alt s n r ” olarak alt adet • katsay önermi tir [18]. Guttman
(1945) taraf ndan önerilen katsay s lar içerisinden •3 katsay s ayn zamanda Cronbach’ n S
güvenirlik katsay s [6] olarak bilinir. Ayr ca, Nunnally (1978) taraf ndan da Cronbach S ’n n bir
ölçek ile asla yap lmayacak olan ve e it say da de!i ken içeren varsay msal alteratif formu
aras ndaki korelasyonun beklenen de!eri oldu!u gösterilmi tir. Benzer ekilde Cronbach S ,
yar ya bölme güvenilirlik tahminlerinin örnekleme da! l m n n beklenen de!eri olarak ta
tan mlanabilmektedir. (19) denkleminde verilen Cronbach S güvenirlik katsay s de!i kenlerin
412
kovaryans terimleri üzerine kuruludur. S =
(19)
Burada k de!i ken say s n ,
"
i: j
"
k
k 1
i: j
Cov(Xi , X j )
Var(X)
Cov(Xi , X j ) gözlenen skorlar n kovaryans matrisinin kö egen
elemanlar n n toplam n , Var(X) ifadesi ise (2) ve (3) denklemerinde verilen gözlenen skor
d
toplam X = X1 + X 2 + ... + X k ’n n varyans olup, gözlenen skorlar n kovaryans matrisinin tüm
elemanlar n n toplam d r [19]. (19) denkleminin alternatif gösterim ekillerinden baz lar ;
k
S=
k
" Var(X )
k 1
i
i =1
1
Var(X)
=
k
k 1
1
iz ( – )
1H–1
(20)
burada – gözlenen de!i kenlerin kovaryans matrisini göstermekte,
S=
k 2 Qij
Var(X)
(21)
(21) denkleminde ise Qij , gözlenen de!i kenler aras ndaki ortalama kovaryans ifade etmektedir
[10].
S=
kQij
Q + (k 1)Qij
2
i
(22)
Burada Qij , gözlenen de!i kenler aras ndaki ortalama kovaryans , Qi2 ’de gözlenen de!i kenlerin
varyanslar n n ortalama n göstermektedir [20]. Cronbach’ n S katsay s ayn zamanda do!rulay c
faktör analizi terimleri ile de ifade edilebilir [9].
S=
k (a)
k
k 1
(a )
k (a) + (a ) + ~
2
2
2
2
(23)
( )
Burada a
2
( )
faktör yüklerinin ortalamas n n karesini, a2 faktör yüklerinin kareler ortalamas n ,
~ ’da gözlenen de!i kenlerdeki hata varyanslar n n ortalamas n göstermektedir. Cronbach S
katsay s , bir ölçekte yer alan de!i kenlerin paralel, tau-e de!er veya tau-e biçimli ölçümler oldu!u
durumlarda gerçek güvenirli!in sistematik hatas z bir tahmincisi olmaktad r. Ölçekteki
de!i kenlerin konjenerik ölçümler oldu!u durumlarda ise S katsay s yanl sonuçlar vermektedir
[10,11,17,21,22, 23, 24,25, 26, 27, 28, 29]. Daha aç k bir ifadeyle; ölçme sonuçlar n n
çözümlemesinde kullan lan faktör analizinde, de!i kenlere ili kin faktör yükleri e it ise bu tür
de!i kenler paralel, tau-e de!er veya tau-e biçimli ölçüm olarak adland r lmaktad r. Bu
de!i kenler üzerinden elde edilen S güvenirlik katsay s ise gerçek güvenirli!i vermektedir. Ancak
de!i kenlere ili kin faktör yükleri e it de!ilse bu tür de!i kenler konjenerik ölçüm olarak
adland r lmakta ve bu durumda S güvenirlik katsay s gerçek güvenirli!in alt nda de!erler
üretmekte, böylece S katsay s konjenerik ölçümler için gerçek güvenirli!in bir alt s n r (lower
bound of relibility) olmaktad r [24].
413
Ölçe!i olu turan k de!i enin paralel oldu!u varsay l rsa, k × k boyutlu Ti ( i = 1, 2,..., k ) do!ru
skorlar n n kovaryans matrisinin elemanlar n n toplam ,
Var T = Var(T1 + T2 + ... + Tk ) = kVar(Ti ) + k(k 1)Cov(Ti , Tj )
(24)
olup; paralel, tau-e de!er veya tau-e biçimli ölçümler için (16) denkleminde verilen
Cov(X i , X j ) = Var(Ti ) = Var(Tj ) = Cov(Ti , Tj )
(25)
e itli!i göz önüne al narak,
Var(T) = k Cov(Ti , Tj ) + k(k 1)Cov(Ti , Tj )
(26)
veya
Var(T) = k 2 Cov(Ti , Tj ) = k 2 Var(Ti )
(27)
olmaktad r. E!er ölçümlerin en az ndan biri (örne!in g. de!i ken) konjenerik ise, yani Var(Tg ) ,
Tg ’nin di!er bir i.de!i kenle kovaryans ndan büyük veya bu de!ere e it olabilecektir:
Var(Tg ) 8 Cov(Ti , Tg )
(28)
E!er ölçümlerin ikisi konjenerik ise,
Var(Ti ) + Var(Tj ) 8 2Cov(Ti , Tj )
(29)
veya benzer yakla mla,
k
" Var(T ) 8
i
k
"" Cov(T , T )
i
i =1 j: i
j
k 1
(30)
(30) denkleminin her iki taraf na kovaryans terimlerinin toplam eklenirse,
414
k
k
k
" Var(Ti ) + "" Cov(Ti , Tj ) 8
k
"" Cov(T , T )
i
i =1 j: i
j
k 1
i =1 j: i
k
k
+ "" Cov(Ti , Tj )
i =1 j: i
(31)
elde edilen ifadenin sol taraf (26) ile verilmi olan Var(T) oldu!undan, (31) denklemi,
Var(T) 8
k
k
k
"" Cov(T , T )
k 1 i=1
i
j: i
j
(32)
olmaktad r. Güvenilirlik katsay s j xx ’i elde edebilmek için (32) ifadesinin her iki taraf Var(X)
ile bölünüp,
k
Var(T)
k
8
Var(X) k 1
k
"" Cov(T , T )
i
i =1 j: i
j
Var(X)
(33)
paralel,
tau-e de!er
veya
tau-e biçimli
ölçümler
için
(25)
denkleminde
verilen
Cov(X i , X j ) = Var(Ti ) = Var(Tj ) = Cov(Ti , Tj ) özelli!i kullan larak,
k
Var(T)
k
8
Var(X) k 1
k
"" Cov(X , X )
i
i =1 j: i
j
Var(X)
(34)
daha basit bir ifadeyle de,
j xx 8 S
(35)
e itli!i ispatlanarak, S katsay s n n güvenilirlik tahmininin alt s n r oldu!u söylenir [29]. Ayr ca,
Cronbach S katsay s n n üretilmesinde iki varsay m bulunmaktad r. Bunlardan ilki hata
terimlerinin korelasyonsuz olmas di!eri ise do!ru skorlar aras ndaki ili kinin do!rusal olmas ve
böylece de Var(T) ’nin do!as nda toplamsal olabilmesidir [30]. Literatürde de!i kenlerdeki hata
terimleri aras nda korelasyon olmas durumunda S tahminleri incelenmi ve Komaroff (1997),
Raykov (1997, 2001) Rae (2006) ve Zimmerman vd. (1993) ölçümlerdeki hata terimlerinin negatif
korelasyonlu olmas durumunda S katsay s n n gerçek güvenirli!in alt nda de!erler üreterek a a!
tahmin etti!ini; hata terimlerinin pozitif korelasyonlu oldu!unda ise gerçek güvenirli!in üzerinde
de!erler üreterek a r tahmin etti!ini belirtmi lerdir [27,28,30,31,32]. Toplamsall k varsay m
bozuldu!unda ise Zimmerman vd. (1993) taraf ndan S ’n n gerçek güvenilirli!in alt nda tahminler
üreterek, güvenilirli!i a a! tahmin etti!i belirtilmi tir [30].
415
3. Çok Boyutlu Ölçeklerde Boyutlar n Korelasyonlar n n Cronbach
Tahminine Etkisi: Mone-Carlo Simülasyonu
Güvenilirlik
Makalenin amac na uygun olacak ekilde, yukar da teorik olarak üretilen sonuçlar , daha kullan l
hale getirmek için planlanan simülasyon çal mas iki a amadan olu maktad r. Birinci a amada,
SAS 9.1 program nda, iki faktörlü do!rulay c faktör modeli kullan larak, faktörler aras ndaki
korelasyonun farkl i aret ve derecelerine ve ölçümlerin yap s na göre (paralel ve konjenerik)
anakütle kovaryans matrisleri olu turulmu tur. Anakütle kovaryans matrislerinin bilinmesi,
anakütledeki güvenilirlik de hesaplanabilmesini sa!lamaktad r. Anakütle kovaryans matrisleri
olu turulurken, faktörlerin varyanslar 1’e sabitlenerek, faktörler aras ndaki korelasyonun ( ), 11
farkl seviyesinde, ölçümlerin yap s için de 2 farkl seviye kullan ld ! ndan, 11× 2 = 22 farkl
anakütle kovaryans matrisi olu turulmu tur.
:
-1
-.9
-.7
-5
-.3
0
.3
.5
.7
.9
1
Ölçüm: paralel konjenerik
n
:
100
200
500
1000
Çal man n ikinci a amas nda, birinci a amada olu turan ve anakütle kovaryans matrisleri bilinen
anakütlelerden yine SAS 9.1 program kullan larak normal da! l ml ve dört farkl örnek
büyüklü!ünün (100, 200, 500, 1000) her biri için 200’er örnek çekilerek Monte Carlo simülasyonu
uygulanm t r. Bu ekilde 11× 2 × 4 = 88 farkl simülasyon ko ulunda 200 defa örnek çekilerek ve
’lar ( 88 × 200 = 17600 adet) hesaplanm , bulunan özet sonuçlar
bu örneklerin Cronbach
hesaplanan anakütle güvenilirlikleri ile kar la t r lm t r.
Paralel modelin olu turulmas nda D i = 0.6 ve i = 0.46 (i = 1, 2,3, 4, 5, 6) anakütle parametreleri
sabit tutulup, faktör korelasyonlar de!i tirilerek 11 farkl anakütle modeli olu turulmu , bu
güvenilirlikleri kar la t r larak bias de!erleri
modellerin anakütle güvenilirlikleri ile Cronbach
elde edilmi tir.
Konjenerik
modelin
olu turulmas nda
D1 = 0.4, D 2 = 0.5, D 3 = 0.7, D 4 = 0.5 , D 5 = 0.6 , D 6 = 0.9
1 = 0.1657, 2 = 0.14, 3 = 0.08, 4 = 0.67 , 5 = 0.07 ,
6
ise
ve
= 0.02 anakütle parametreleri sabit
tutulup, faktör korelasyonlar paralel modelde oldu!u gibi de!i tirilerek 11 fark anakütle modeli
olu turulmu tur. Paralel model için Monte Carlo simülasyon sonuçlar Tablo 1’de, konjenerik
model için Monte Carlo simülasyon sonuçlar Tablo 2’de verilmi tir.
Tablo 1 incelendi!inde, paralel modeller için faktör korelasyonlar artt kça, bias n azald ! ve
faktör korelasyonlar n n 1 oldu!u durumda da (tek faktörlü model), bias n s f r oldu!u
görülmektedir. Ayr ca, Cronbach
tahminlerinin n artt kça anakütle de!erine yakla t ! da
görülmektedir. Bu tabloda dikkati çeken di!er bir husus ta faktör korelasyonu artt kça,
tahminlerinin standart sapmas n n azalmas ,
= 1 için en küçük standart sapma de!erinin elde
edilmesidir.
Tablo 2 incelendi!inde, konjenerik ölçümlü modeller için de paralel modelin sonuçlar na benzer
sonuçlar ç kar labilece!i görülmektedir. Ayr ca konjenerik modelde = 1 için bile ’n n anakütle
güvenilirli!ini dü ük tahmin etti!i ve bias n s f r olmad ! ortaya konulmu olmaktad r.
416
Son olarak, paralel ve konjenerik modellerdeki bias de!erlerinin kar la t r lmas için ba! l bias
de!erleri [(bias/ )*100)] hesaplanarak sonuçlar Tablo 3’te verilmi tir.
Tablo 3 incelendi!inde konjenerik ölçümlü modellerde, paralel modele göre bias n daha fazla
oldu!u, fakat bias n önemli k sm n n ise, modelin konjenerik olmas ndan de!il faktörler as ndaki
korelasyondan kaynakland ! görülmektedir. Bu sonuç Tablo 3 sat r sat r ele al narak, modellerin
ba! l biaslar aras ndaki farklar kar la t r larak ortaya konulmu tur. Örne!in = 0.0 durumunda
paralel modeldeki ba! l bias %20, konjenerik modeldeki bias %22.4 olup, bu ko ullar alt nda,
bias n %20’si faktörler aras ndaki korelasyondan, sadece %2.44’ü modelin kojenerik modelden
kaynakl olarak yorumlanabilir.
4. Sonuç ve öneriler
Özellikle aç klay c faktör analizi kullan larak yap lan ölçek geli tirme çal malar nda, faktörler
aras ndaki korelasyonlar hesaba kat lmadan, olu turulan bütün ölçek için tek bir güvenilirlik
tahmini verilmeye çal lmaktad r. Oysa ki, ölçe!i olu turan alt ölçekler aras ndaki korelasyonlar n
yönü ve büyüklü!ü, ölçe!in güvenilirli!inin bir tahmini olarak s kça kullan lan Cronbach S
katsay s n etkileyerek, ölçe!in güvenilirli!inin yanl
veya eksik belirlenmesine neden
olabilmektedir.
Simülasyon çal malar n n sonuçlar incelendi!inde, faktör korelasyonlar azald kça, hem paralel
hem de konjenerik ölçümler için, Cronbach S’n n anakütle güvenilirli!ini a a! tahmin etti!i ve çok
faktörlü ölçeklerde, konjenerik ölçümlere göre faktör korelasyonlar n n Cronbach S’daki a a!
tahminde daha etkili olabilece!i sonuçlar na ula lm t r. Yap lan simülasyon çal mas yla faktör
korelasyonlar n n Cronbach S güvenilirlili!inin yans zl k ve etkinli!ine etkisinin ara t r lmas ,
ölçek geli tirme çal malar aç s ndan büyük önem ta maktad r.
417
Tablo 1. Paralel ölçümler için simülasyon sonuçlar
n=100
n=200
n=500
n=1000
Genel
ˆ
ˆ
ˆ
ˆ
ˆ
s.s.
s.s.
s.s.
s.s.
s.s.
bias
(
-
)
I
II
I
II
= 1
0
-0.93333
0.93333
0.70
0.70
0.70
0.70
-0.9484
0.3102
-0.9431
0.2432
-0.9491
0.1455
-0.9330
0.1089
-0.9434
0.2167
= 0.9
0.18919
-0.52973
0.71892
0.70
0.70
0.70
0.70
-0.5573
0.2587
-0.5420
0.1921
-0.5289
0.1130
-0.5231
0.0827
-0.5378
0.1759
= 0.7
0.41176
-0.05490
0.4667
0.70
0.70
0.70
0.70
-0.0853
0.1737
-0.0595
0.1259
-0.0660
0.0760
-0.0574
0.0501
-0.0670
0.1168
= 0.5
0.53846
0.21538
0.32308
0.70
0.70
0.70
0.70
0.2011
0.1256
0.1996
0.0932
0.2088
0.0551
0.2134
0.0393
0.2057
0.0852
= 0.3
0.62025
0.38987
0.23038
0.70
0.70
0.70
0.70
0.3644
0.0999
0.3865
0.0678
0.3841
0.0431
0.3881
0.0299
0.3801
0.0661
= 0.0
0.70000
0.56000
0.14000
0.70
0.70
0.70
0.70
0.5485
0.0711
0.5564
0.0496
0.5601
0.0328
0.5596
0.0215
0.5562
0.0477
= 0.3
0.75207
0.67107
0.08099
0.70
0.70
0.70
0.70
0.6608
0.0555
0.6644
0.0360
0.6700
0.0226
0.6712
0.0170
0.6666
0.0362
= 0.5
0.77778
0.72593
0.05185
0.70
0.70
0.70
0.70
0.7224
0.0441
0.7243
0.0317
0.7257
0.0198
0.7257
0.0138
0.7245
0.0297
= 0.7
0.79866
0.77047
0.02819
0.70
0.70
0.70
0.70
0.7629
0.0400
0.7693
0.0257
0.7688
0.0157
0.7701
0.0119
0.7678
0.0259
= 0.9
0.81595
0.80736
0.00859
0.70
0.70
0.70
0.70
0.8026
0.0294
0.8071
0.0207
0.8086
0.0131
0.8057
0.0094
0.8060
0.0198
=1
0.82353
0.82353
0
0.70
0.70
0.70
0.70
0.8251
0.0265
0.8218
0.0186
0.8235
0.0121
0.8232
0.0089
0.8234
0.0179
418
Tablo 2. Konjenerik ölçümler için simülasyon sonuçlar
n=100
n=200
n=500
n=1000
Genel
ˆ
ˆ
ˆ
ˆ
ˆ
s.s.
s.s.
s.s.
s.s.
s.s.
bias
(
-
)
I
II
I
II
= 1
0.12181
-1.97337
2.09518
0.87
0.84
0.85
0.81
-2.6380
0.6464
-2.6065
0.4422
-2.5596
0.2729
-2.5596
0.2729
-2.5849
0.42854
= 0.9
0.40952
-0.093371
1.34324
0.87
0.84
0.85
0.81
-1.1940
0.4110
-1.1733
0.2464
-1.1091
0.1664
-1.1337
0.1207
-1.1525
0.2623
= 0.7
0.46327
-0.08907
0.73234
0.87
0.84
0.85
0.81
-0.1369
0.2169
-0.1365
0.1497
-0.1157
0.0871
-0.1264
0.0644
-0.1289
0.1425
= 0.5
0.74443
0.27650
0.46793
0.87
0.84
0.85
0.81
0.2668
0.1375
0.2676
0.0942
0.2765
0.0560
0.2738
0.0398
0.2712
0.0901
= 0.3
0.80090
0.48054
0.32036
0.87
0.84
0.85
0.81
0.4863
0.0913
0.4789
0.0649
0.4857
0.0400
0.4872
0.0290
0.4845
0.0612
= 0.0
0.85046
0.65962
0.19083
0.87
0.84
0.85
0.81
0.6628
0.0589
0.6709
0.0401
0.6691
0.0268
0.6728
0.0172
0.6689
0.0391
= 0.3
0.88026
0.76732
0.11294
0.87
0.84
0.85
0.81
0.7774
0.0393
0.7812
0.0254
0.7820
0.0153
0.7819
0.0110
0.7806
0.0253
= 0.5
0.89431
0.81807
0.07624
0.87
0.84
0.85
0.81
0.8285
0.0293
0.8310
0.0207
0.8307
0.0114
0.8309
0.0091
0.8303
0.0193
= 0.7
0.90540
0.85816
0.04724
0.87
0.84
0.85
0.81
0.8690
0.0227
0.8720
0.0138
0.8705
0.0088
0.8716
0.0060
0.8708
0.0143
= 0.9
0.91439
0.89064
0.02375
0.87
0.84
0.85
0.81
0.9039
0.0157
0.9009
0.0102
0.9033
0.0071
0.9037
0.0045
0.9030
0.0103
=1
0.91827
0.90467
0.01360
0.87
0.84
0.85
0.81
0.9147
0.0148
0.9165
0.0087
0.9174
0.0055
0.9174
0.0039
0.9165
0.0093
419
Tablo 3. Paralel ve konjenerik modeller için ba! l bias [(bias / )*100)] de!erleri
Konjenerik model
Paralel model
I
= 1
=0.7
II
=0.7
I =0.7
II =0.7
I
=0.87
II
=0.84
I =0.85
-
1720.04
= 0.9
380.00
328.00
= 0.7
113.34
158.08
= 0.5
60.00
62.86
= 0.3
37.14
40.00
= 0.0
20.00
22.44
= 0.3
10.77
12.83
= 0.5
6.67
8.53
= 0.7
3.53
5.22
= 0.9
1.05
2.60
=1
0.00
1.48
II =0.81
Kaynaklar
[1] Osburn, H. G. (2000). Coefficient alpha and related internal consistency reliability coefficients.
Psychological Methods, 5, 343-355.
[2] Lord F. M. & Novick, R. (1968). Statistical theories of mental test scores. Reading MA: AddisonWesley.
[3] Carmines, E. G., & Zeller, R. A. (1979). Reliability and validity assessment, Sage, Beverly Hills,
Calif.
[4] Spearman, C. (1910). Correlation calculated with faulty data. British Journal of Psychology, 3, 271295.
[5] Brown,W. (1910). Some experimental results in the correlation of mental abilities. British Journal of
Psychology, 3, 296-322.
[6] Cronbach, L.J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika,16, 297334.
[7] Heise, D. R., & Bohrnstedt, G. W. (1970). Validity, invalidity and reliability. In Borgatta, E. F. and
Bohrnstedt, G. W. (eds.), Sociological Methodology. Jossey-Bass, San Francisco. 104—129.
[8] Nunnally, J. C. & Bernstein, I. H. (1994): Psychometric theory. 3rd Edition. McGraw-Hill: New
York.
[9] McDonald, R. (1985). Factor analysis and related methods. Hillsdale, N J:Erlbaum.
420
[10] Zinbarg, R. E., Yovel, I., Revelle W. and, McDonald, R. P. (2006). “Estimating Generalizability to a
Latent Variable Common to All of a Scale’s Indicators: A Comparison of Estimators for ”h”,
Applied Psychological Measurement, Vol. 30 No. 2, March 2006, 121–144.
[11] Jöreskog, K. G. (1971). Statistical analysis of congeneric tests. Psychometrika, 36, 109-133.
[12] Allen, M. J., & Yen, W. M. (1979). Introduction to measurement theory. Monterey, CA:
Brooks/Cole.
[13] Streiner, D. L. (2003), “Being Inconsistent About Consistency: When Coefficient Alpha Does and
Doesn’t Matter”, Journal of Personality Assessment, 80(3), 217–222.
[14] Yurdugül, H. (2006). “The Comparison of Reliability Coefficients in Parallel, Tau-Equivalent, and
Congeneric Measurements”, Ankara University, Journal of Faculty of Educational Sciences, 39 (1),
15-37.
[15] Reuterberg, S.-E., & Gustafsson, J.-E. (1992). Confirmatory factor analysis and reliability: Testing
measurement model assumptions. Educational and Psychological Measurement, 52, 795-811.
[16] Cronbach, L. J. and, Shavelson, R. J. (2004). “My Current Thoughts on Coefficient Alpha and
Successor Procedures”, Educational and Psychological Measurement, 64 (3), 391-418.
[17] DeVellis, R. F. (2003). Scale development: Theory and applications (2nd ed.). Thousand Oaks, CA:
Sage.
[18] Guttman, L. (1945). A basis for analyzing test-retest reliability. Psychometrika, 10(4), 255-282.
[19] Christmann, A. and, Aelst, S. Van (2006). “Robust Estimation of Cronbach’s Alpha”, Journal of
Multivariate Analysis, 97, 1660-1674.
[20] Waller, N. G. (2008). “Commingled Samples: A Neglected Source of Bias in Reliability Analysis”,
Applied Psychological Measurement, 32 (3), 211–223.
[21] Alwin, D. F. (1976). Attitude scales as congeneric tests: A re-examination of an attitude-behavior
model. Sociometry, 39, 377-383.
[22] Bacon, D. R., Sauer, P. L. & Young M. (1995). Composite Reliability in Structural Equations
Modeling. Educational and Psychological Measurement, 55, 394-406.
[23] Feldt, L. S. & Qualls, A. L. (1996). Bias in coefficient alpha arising from heterogeneity of test
content. Applied Measurement in Education. 9(3), 277-286.
[24] Lucke, J. F. (2005a). “Rassling the Hog: The Influence of Correlated Item Error on Internal
Consistency, Classical Reliability, and Congeneric Reliability”, Applied Psychological
Measurement, 29 (2), 106–125.
[25] Lucke, J. F. (2005b). “The S and the ” of Congeneric Test Theory: An Extension of Reliability and
Internal Consistency to Heterogeneous Tests”, Applied Psychological Measurement, Vol. 29 (1),
65–81.
[26] Miller, M. B. (1995). Coefficient alpha: A basic introduction from the perspectives of classical test
theory and structural equation modeling. Structural Equation Modeling, 2, 255–273.
[27] Raykov, T. (1997). “Scale Reliability, Cronbach's Coefficient Alpha, and Violations of Essential
Tau-Equivalence with Fixed Congeneric Components”, Multivariate Behavioral Research, 32 (4),
329-353.
[28] Raykov T. (2001). “Bias of Coefficient S for Fixed Congeneric Measures With Correlated Errors”,
Applied Psychological Measurement, 25 (1), 69–76.
[29] Traub, E. R. (1994). Reliability for the social sciences: Theory and Applications. Measurement
methods for the social sciences. Sage Publications, 1994.
[30] Zimmerman, D. W., Zumbo, B.D. & Lalonde, C. (1993). Coefficient Alpha as an estimate of test
reliability under violation of two assumptions. Educational and Psychological Measurement, 53 (1),
33-49.
[31] Komaroff, E. (1997). Effect of simultaneous violations of essential tauequivalence and correlated
errors on coefficient alpha. Applied Psychological Measurement, 21, 337–348.
[32] Rae, Gordon (2007). “A Note on Using Stratified Alpha to Estimate the Composite Reliability of a
Test Composed of Interrelated Nonhomogeneous Items”, Psychological Methods; 12 (2), 177-184.
421
Ba< ml De<i!kende Ayk r De<er Olmas Durumunda
ANFIS le Parametre Tahmini
Türkan ERBAY DALKILIÇ
Karadeniz Teknik Üniversitesi, Fen
Edebiyat Fakültesi statistik ve Bilgisayar
Bilimleri Bölümü, Trabzon.
[email protected]
Kamile rANLI KULA
Ahi Evran Üniversitesi
Fen Edebiyat Fakültesi
Matematik Bölümü,K:rsehir.
[email protected]
Ay#en APAYDIN
Ankara Üniversitesi,
Fen Fakültesi,
statistik Bölümü,Ankara.
[email protected]
Özet
Regresyon çözümlemesi, iki ya da daha çok deGi#ken aras:ndaki ili#kinin yap:s:n: inceleyerek, eGer,
ilgilenilen olay: tan:mlayan baG:ml: deGi#ken ve bu olay: etkileyen baG:ms:z deGi#kenler aras:nda bir
ili#ki varsa, ili#kinin derecesini ve fonksiyonel #eklini belirler. Regresyon modelinin bilinmeyen
parametrelerinin tahmininde, ele al:nan veri setinin yap:s:na uygun modelin elde edilebilmesi için
geli#tirilen birçok yöntem literatürde yer almaktad:r. Regresyon çözümlemesi yöntemlerinin her biri
için veri analizi oldukça önemlidir. Çünkü tek bir gözlem bile regresyon modelindeki parametre
tahminleri üzerinde büyük bir etkiye sahip olabilir. Veri setinde yer alan baG:ml: deGi#kene ili#kin
gözlem deGerleri aras:nda ayk:r: deGer bulunmas: durumunda, parametre tahminlerinin var olan bu
ayk:r: deGer ya da deGerlerden etkilenmesini en küçük düzeye indirecek güçlü regresyon yöntemleri
önerilmi#tir. Bu çal:#mada, regresyon modelinin bilinmeyen parametrelerinin elde edilmesi ve hatas:
küçük tahmin deGerlerine ula#:labilmesi için, k:saca ANFIS (Adaptive Network based Fuzzy
Inference System) olarak adland:r:lan, bulan:k ç:karsama sistemine dayal: uyarlamal: aG:n
kullan:ld:G: bir algoritma önerilmi#tir. Önerilen algoritma, baG:ml: ve baG:ms:z deGi#kenler
aras:ndaki ili#kiyi bir yerine birden fazla model ile ifade ederek, tahmin deGerlerine bu modellerin
aG ile birle#tirilmesi yoluyla ula#t:G: ve çözüm sürecinde sezgiselliGe izin vermediGi için, veri setinde
yer olan baG:ml: deGi#kende var olabilecek ayk:r: gözlemlerden etkilenmemektedir. Bu özelliGinden
dolay:, önerilen algoritman:n etkinliGinin s:nanmas: amac: ile, elde edilen sonuçlar literatürde yer
alan baz: robust yöntemlerden elde edilen sonuçlar ile kar#:la#t:r:lacakt:r.
Anahtar Kelimeler: Bulan:k ç:karsama, uyarlamal: aG, robust regresyon.
Abstract
Parametre Estimation By ANFIS Where Dependent Variable Has Outlier
Regression analysis is investigation the relation between two ore more variable and if there is a
relation between dependent and independent variables, the degree and functional shape of this
relation is determinate by regression analysis. There are to many methods are located in literature
for the estimation of unknown parameter. In regression analysis, data analysis is very important.
Because, every observation may be has large influence on the parameters estimates in regression
model. In case that dependent variable has outlier, the robust regression methods are proposed to
make smaller the effect of the outlier on the parameter estimates. In this study, an algorithm has been
suggested to define the unknown parameters of regression model, which is based on ANFIS
(Adaptive Network based Fuzzy Inference System). The proposed algorithm, expressed the relation
between the dependent and independent variables by more than one model and the estimated values
are obtained by connected this model via ANFIS. In the solving process, the proposed method is not
to give permission the intuitional and not to be affected the outliers which are to exist in dependent
variable. So, to test the activity of the proposed algorithm, estimated values will be compared with
some robust methods which are located in literature.
Key Words: Fuzzy inference, adaptive network, robust regression.
422
1. Giri!
Regresyon modelinin bilinmeyen parametrelerinin elde edilmesi ve hatas küçük tahmin
de!erlerine ula labilmesi için, literatürde pek çok yöntem yer almaktad r. Son y llarda karma k
problemlerin çözümlenmesinde yayg n olarak kullan lan sinir a!lar , parametre tahminlerinde de
etkin sonuçlar veren yakla mlar n önerildi!i bir alan olarak kendini göstermektedir. Bu çal mada
da girdi ve ç kt de!i kenleri aras ndaki ili kiyi bir yerine birden çok regresyon denklemi ile
modelleyerek tahmin de!erlerine bu modellerin a! rl kl olarak bir araya getirilmesi ile ula an bir
yöntem önerilmi tir. Önerilen yönteme ili kin algoritma, k saca ANFIS olarak adland r lan, bulan k
ç karsama sistemine dayal uyarlamal a! ile hesaplama yapabilecek biçimde olu turulmu tur.
Algoritma ba! ml ve ba! ms z de!i kenler aras ndaki ili kiyi, de!i kenleri birden fazla s n fa
ay rarak modelledi!i için ve çözüm sürecinde sezgiselli!e izin vermedi!i için, veri setinde yer olan
ba! ml de!i kende var olabilecek ayk r gözlemlerden mümkün oldu!unca az etkilenmektedir.
Veri setlerinde ayk r de!erlerin var olmas durumunda regresyon model tahmininde ayk r
de!erden En Küçük Kareler yöntemine göre daha az etkilenen robust yöntemler literatürde yer
almaktad r. Çal mada öncelikle uyarlamal a!lar ve i leyi lerine de!inilecek daha sonra bu i leyi e
dayanarak önerilen algoritmaya ili kin ad mlar verilerek uygulama k sm nda say sal veriler
MATLAB de olu turulan ve algoritman n i leyi ine imkan veren program ile i letilerek elde edilen
tahmin sonuçlar ayn verilere ili kin robust yöntemlerden elden tahmin sonuçlar ile
kar la t r lacakt r.
2. ANFIS: Bulan k Ç karsamaya Dayal Uyarlamal A<
Bulan k ç karsama sistemi, bulan k küme teorisi, bulan k E<er- se kural ve bulan k
muhakemeye dayal kullan !l bir hesaplama yap s olu!turur. Bulan k metodolojinin en
popüler yakla! m olan bulan k ç karsama sistemi genellikle, girdilerin sistemin durum
de<i!kenlerine ve ç kt lar n kontrol sinyallerine kar! l k geldi<i durumlarda girdi-ç kt
ili!kileri üzerinde performans gösterirler [1,2,9].
Bulan k ç karsama sisteminin temel yap s be! fonksiyonel bloktan olu!ur. Bunlar, bulan k
kurallar n seçiminin gerçekle!ti<i kural taban , bulan k kurallarda kullan lan üyelik
fonksiyonunun tan mland < veri taban , uygun bir ç kt n n türetilmesi prosedürünün
olu!turuldu<u muhakeme mekanizmas , kesin girdilerin sözel de<erlerle e!le!tirildi<i
bulan kla!t rma kesiti, ç karsaman n bulan k sonuçlar n kesin ç kt lara dönü!türüldü<ü
bulan kl ktan kesinli<e dönü!türme kesitidir [1,9,10].
Farkl E<er- se kural türlerinin farkl bulan k ç karsama sistemlerine ihtiyac vard r.
Problem; birden çok da< l mdan gelen bulan k girdilere regresyon do<rular uydurmak
oldu<unda, Sugeno taraf ndan önerilen Sugeno Bulan k Ç karsama Sistemi uygun sistemdir.
Sugeno a!a< daki bulan k kural önermi!tir:
R l = EGer ;( x1 = F1l ise ve x2 = F2l ise ve ... x p = Fpl ise)
Y = Y l = c0l + c1l x1 + ... + c lp x p
dir [9,14,15]. Burada,
Fi l : Bulan k Kümeyi gösterir. l. kuraldaki xi girdisi,
Y l : R l kural na göre sistem ç kt s l=1,...,m.
423
m : Bulan k kural say s ,
cil : cil = (ail , bil ) biçiminde de ifade edilen, merkezi ail ve yay l m bil olan simetrik üçgensel
bulan k say d r.
l
Sugeno bulan k ç karsama sisteminde ci ; gerçek de<erli parametreyi gösterir. Sugeno
bulan k sisteminin ç kt s ,
m
" w: Y :
Yˆ = :=1
m
" w:
:=1
(1)
biçiminde
Y l ’lerin a< rl kland r lm ! bir ortalamas d r.
l
Burada w a< rl < ,
wl =
p
i =1
µ F ( xi ) .
i
l
(2)
biçiminde tan mlan r ve,
µ F : Fi l bulan k kümesinde üyelik fonksiyonunu gösterir [8].
i
l
ANFIS, bulan k regresyon analizi için, ç karsama sisteminin i leyi ine imkan veren bir yap d r.
rekil 1’de gösterilen bir uyarlamal a!; çok tabakal , ileri beslemeli bir sinir a! d r. Her sinir girdi
sinyalleri üzerinde özel fonksiyonlar gösterir. Sinir fonksiyonlar için formülasyonlar sinirden
sinire de!i iklik gösterir ve her sinir fonksiyonunun seçimi, tüm a! n girdilerine ve ç kt lar na
dayan r. Regresyon fonksiyonuna iyi bir yakla m elde etmek için kullan lan, sinirlere ve
ba!lant lara sahip uyarlamal a! be tabakadan olu ur [7].
Birinci tabakadaki her sinir dilsel de!erli girdiye dayanan bir üyelik fonksiyonu üretirler yani
l
ç kt s üyelik fonksiyonudur. kinci tabakadaki sinirler; girdi sinyallerine ba!l w (l=1,...,6)
ürünlerini ç kart rlar. Bu tabakadaki sinirlerin fonksiyonu bulan k E!er- se kural n n ba lang ç
bölümündeki bilgi sentezi içindir. kinci tabakadaki sinirlerin say s , birinci tabakadaki alt
gruplarda bulunan sinirlerin kombinasyon say s na e ittir.
Üçüncü tabaka, ikinci tabakadan gelen ç kt sinyallerinin bir normalizasyonu i levini içerir.
Dördüncü tabakadaki her sinir E!er- se kural n n sonucuna kar l k gelir. Örne!in dördüncü
tabakadaki Y siniri Y = c0 + c1 x1 + c2 x2 eklinde tan mlan r.
Son olarak be inci tabaka, dördüncü tabakadan gelen tüm ç kt lar n toplam d r [10].
1
1
1
1
1
3. Parametre Tahmini çin ANFIS’e Dayal Bir Algoritma
Hedeflenen ç kt ile tahmin edilen ç kt aras ndaki fark ile verilen hata ölçüsünün en küçüklenmesi
prensibine dayanarak parametrelerin tahmini, farkl da! l m parametrelerine sahip verilere ili kin
regresyon modellerinin olu turulmas ve bu regresyon modellerine dayanan ortak bir tahmin setinin
elde edilmesi sürecinde bulan k uyarlamal a!lardan faydalan lmaktad r [8,11,12].
424
Regresyon modellerine ait tahmin setinin elde edilmesi süreci iki önemli ad mdan olu maktad r.
Bunlardan birincisi, verilerin geldi!i s n f karakterize eden önsel parametre setinin belirlenmesi ve
bu parametrelerin süreç içinde güncellenmesi, ikincisi ise sonsal parametre setinin tahmin
edilmesidir. ANFIS ile regresyon modellerinin parametrelerinin belirlenmesi süreci, ba! ms z
de!i kenlerin s n f ya da düzey say lar n n ve önsel parametrelerin belirlenmesi ile ba lar. Ba! ms z
de!i kenlerin normal da! l mdan gelmesi durumunda regresyon modellerinin parametrelerinin
belirlenmesi için önerilen yönteme ili kin algoritma a a! daki gibi tan mland .
Ad&m 1: Ba! ms z de!i kenlere ait veri kümesine ili kin optimal s n f say lar belirlenir. S n f
say s n ifade eden c’nin alabilece!i tüm de!erler (c=2, c=3,..., c=max) için S fonksiyonunun farkl
de!erleri,
Sk =
m
1 c n
uij ) vi
(
""
n i =1 j =1
min vi
xj
k = 1,..., c
2
vj
i: j
2
(3)
ile elde edilir ve S k de!erlerinden en küçü!ünün hesaplanmas nda kullan lan c, optimal s n f say s
olarak belirlenir.
Ad&m 2: Önsel parametreler belirlenir. Yay l mlar, girdi de!i kenlerinin de!er ald ! aral !a ve
de!i kenlerin düzey say lar na göre belirlenir. Merkez parametreleri de de!i kenlerin de!er ald !
aral !a ve düzey say s na ba!l d r ve
vi = min( X i ) +
max( X i ) min( X i )
* (i 1)
(c 1)
i = 1,..., p
(4)
ile belirlenir [3]. Burada c Ad m 1’de belirlenen de!i kenlere ili kin optimal s n f say s n , p ise
ba! ms z de!i ken say s n göstermektedir.
Ad&m 3: Sonsal parametre setinin hesaplanmas nda yer alacak olan B matrisinin olu turulmas nda
L
kullan lan w a! rl klar ba! ms z de!i kenin ait oldu!u da! l m ailesine dair üyelik
fonksiyonlar ndan yararlan larak hesaplan r. Ba! ms z de!i ken say s p ile gösterildi!inde her bir
de!i kene ait düzey say s li (i = 1,..., p ) ile ifade edilirse, bulan k kural say s
L=
p
i =1
li
ile belirlenir. Uyarlamal a! n birinci tabakas ndaki sinir fonksiyonlar ba! ms z de!i kenlerin
geldi!i da! l ma ait üyelik fonksiyonlar ile,
f1,h = µ Fh ( xi )
(5)
biçminde tan mlan r. Fh için üyelik fonksiyonu uygun bir çok fonksiyon olabilir. Burada
önsel parametre seti {vh ,
h
} olan Normal Da< l m fonksiyonu dü!ünüldü<ünde, üyelik
fonksiyonlar ;
µ F ( xi ) = exp
xi
vh
2
h
h
(6)
biçiminde tan mlan r. Tan mlanan üyelik fonksiyonundan, ba! ms z de!i kenler için, bu
de!i kenlerin ait oldu!u her bir s n fa ait üyelik dereceleri belirlenir. Bu üyelik derecelerinin
ba! ms z de!i ken say s na ve bu de!i kenlerin düzey (s n f) say lar na ba!l miktarda kar l kl
çarp mlar ndan wL a! rl klar
425
wL = µ FL ( xi ).µ FL ( x j )
(7)
wL
ile ifade edilir.
wL =
a! rl klar
w L ile belirtilen a! rl klar n normalizasyonudur ve,
wL
m
"w
L
L =1
(8)
ile hesaplan r.
Ad&m 4: Ba! ms z de!i kenlerin bulan k, ba! ml de!i kenin kesin say lardan olu tu!u durumda,
sonsal parametre seti ciL = aiL , biL , ciL = aiL (i=1,...,p) biçiminde kesin say lar olarak elde edilir.
(
)
Bu durumda sonsal parametre setinin saptanmas için,
Z = ( BT B ) 1 BT Y
(9)
e itli!i kullan l r. Burada, B ile a! rl kland r lm [((p+1)*m )*n] boyutlu veri matrisi, Y ba! ml
de!i ken de!erlerinden olu an (n*1) boyutlu vektör ve Z sonsal parametrelere ili kin
Z = a10 ,..., a0m , a11 ,..., a1m , a1p ,..., a mp
T
(10)
biçiminde tan mlanan [(p+1)*m ] boyutlu vektördür.
Ad&m 5: Ad m 3’de elde edilen sonsal parametre seti ci = ai kullan larak,
L
L
Y L = c0L + c1L x1 + c2L x2 + ... + c Lp x p
(11)
biçiminde ifade edilen regresyon modelleri olu turulur. Kurulan modellerden ve Ad m 3’de
belirlenen a! rl klardan yararlan larak tahmin de!erleri,
m
Yˆ = " w LY L
L =1
(12)
ifadesi ile elde edilir.
Ad&m 6: Her bir gözleme ili kin hata
) k = Yk Yˆk
k=1,...,n
(13)
n
(
biçiminde verildi!inde, modele ili kin hata ) = " Yk
k =1
Yˆk
)
2
biçiminde hesaplan r.
E!er ) < ise ula lan sonsal parametre, kurulacak olan regresyon modellerinin parametreleri
olarak elde edilmi tir, sürece son verilir. E!er ) 8 ise Ad m 7’ye geçilir.
Burada, , karar verici taraf ndan belirlenen küçük sabit bir de!er,
Ad&m 7: Ad m 2’de belirlenen merkezi önsel parametreler, en küçük de!erden en büyük de!ere
do!ru artacak, en büyük de!erden en küçük de!ere do!ru azalacak ekilde, vi = vi ± t
ile güncellenir. Burada,
'
t=
max( x ji ) min( x ji )
a
j = 1,..., n i = 1,..., p
(14)
ile hesaplanan ad m büyüklü!üdür ve a , ad m büyüklü!ü (t)’yi ve dolay s yla iterasyon say s n
belirleyen bir sabittir.
Ad&m 8: De!i im ile elde edilen her önsel parametre için tahminler ve bu tahminlere ili kin hata
ölçütleri hesaplan r. Hesaplanan hata ölçütlerinden en küçük olan belirlenir. Belirlenen en küçük
426
hatay veren önsel parametreler ve bu parametrelere ili kin modellerden elde edilen tahmin ç kt
olarak al n r.
Önerilen bu algoritmada, bulan k uyarlamal a! ile olu turulan modellerden elde edilen tahmin
de!erleri, ba! ms z de!i kenlerin a! rl kland r lm biçimlerinden elde edildi!i için ba! ms z
de!i kenlerde var olabilecek ayk r gözlemlerden etkilenmemektedir. Bu anlamda robust bir
yöntem özelli!i ta d ! dü üncesi ile literatürde yer alan ve s k kullan lan robust yöntemlerle
kar la t r lmas na uygulama k sm nda yer verilmi tir. .
4. Uygulama
Veri kümesinde ayk r de!er olmas durumda, elde edilen regresyon modeli ayk r de!erin etkisiyle
ayk r de!er d ndaki gözlemlerden uzakla r. Ayk r de!er d ndaki gözlemlerin art klar büyür.
Robust regresyon çözümlemesi ile ayk r de!er olmas durumunda regresyon model tahmininde
EKK yöntemine göre daha az etkilenen parametre tahminleri elde edilir [13]. Önerilen algoritman n
etkinli!inin s nanmas için, elde edilen sonuçlar, literatürde s kl kla kullan lan robust yöntemlerden
elde edilen sonuçlar ile kar la t r lacakt r. Bu amaçla kullan lan robust yöntemlere k saca
de!inmek gerekirse.
4.1. M Yöntemi
Huber, Hampel, Andrews ve Tukey’in tan mlad klar farkl fonksiyonlara sahip M yöntemi
art klar n kareleri toplam n minimum yapmaktan çok art klar n fonksiyonunu minimum yapar.
Regresyon katsay lar
n
"
i =1
( yi
p
" xij ˆ j ) / d
j =1
(15)
toplam minimum yap larak elde edilir. E itlik (1)’in ˆ j ’ya göre türevi al n p s f ra e itlenirse
n
" xij, ( yi
i =1
p
" xij ˆ j ) / d
j =1
=0
j = 1,..., p
p denklem sistemi için regresyon katsay lar elde edilir.
fonksiyonu
Huber’in
/ z2
5
( z ) = 50 2
5
5k z
1
(16)
z !k
k2
2
z >k
z = ri / d
d = median ri median ( ri ) / 0.6745
biçiminde tan mlan r. Burada k ifadesi tuning sabiti (ayar sabiti) olarak ifade edilir ve k=1.5
de!erini al r. d’nin pay genellikle mutlak sapmalar n medyan (MAD) olarak tan mlan r. Ayr ca
ri = yi
p
xij ˆ j ’dir. E itlik (16)’n n türevi al n rsa
"
j =1
427
z< k
z !k
z>k
/ k
5
, ( z ) = 50 z
5
51 k
(17)
fonksiyonu elde edilir. , fonksiyonu ’nun türevidir. E itlik (17)’de ayk r de!ere genellikle s f r
ya da s f ra çok yak n , a! rl klar verilir. Bu nedenle , “s f ra geri azalan” (redescending to
zero) olarak nitelendirilir.
Hampel , fonksiyonu
/z
5
5a sgn ( z )
5
, ( z) = 0 c z
sgn ( z )
5a
5 c b
50
1
0< z !a
a< z !b
/+1,
5
sgn( z ) = 00 ,
5 1,
1
,
b< z !c
z>0
z=0
z<0
c< z
(18)
biçiminde tan mlan r. Genellikle sabitlerin de!erleri a=1.7, b=3.4 ve c=8.5 olarak seçilir.
Andrews (sinüs tahmini) ise , fonksiyonunu
/sin( z / k )
z ! k'
510
z > k'
, ( z ) = 50
(19)
olarak tan mlam t r, burada k=1.5 ya da k=2.1 al n r.
Tukey’in iki a! rl kl tahmini için , fonksiyonu ise
/ z (1
, ( z ) = 50
( z / k ) 2 )2
z !k
z >k
510
(20)
biçiminde tan mlan r. k, 5 ya da 6 olarak seçilir [4,5,6,7]
4.2. Say:sal Örnek
Veri setinde yer alan, ba! ms z de!i kenler X 1 ~ N ( µ = 20;
X 3 ~ N ( µ = 32;
= 3) , X 2 ~N ( µ = 50; = 12 ) ve
= 13) olan normal da! l mdan, ba! ml de!i ken de!erleri ise ba! ms z
de!i ken de!erlerine ba!l olarak türetildi. Ba! ml de!i kendeki 15’inci gözlem
( y15 + 50 )
biçiminde de!i tirilerek ayk r gözlem durumuna dönü türüldü. Üç ba! ms z ve bir ba! ml
de!i kenden ve 30 gözlemden olu an veri seti Çizelge 1’de verilmi tir.
Çizelelge 1. Ba! ml de!i kende ayk r de!er olmas durumu için veri kümesi
No
x1
x2
x3
y
No
428
x1
x2
x3
y
50.5397
78.9993
46.2813
52.2510
61.3724
43.6916
36.6127
30.8922
64.0981
55.8217
69.7458
44.5492
62.1052
74.5928
57.2242
21.8101
19.8248
16.6740
26.4327
15.9415
21.3711
21.1735
26.2190
19.0300
24.4044
18.4928
20.6288
22.2644
17.1554
21.8395
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
49.8319
35.1925
33.5450
37.0010
31.0880
24.4820
38.1010
48.8959
53.2524
22.8635
42.4943
18.6431
48.8284
32.1941
34.8432
125.4057
137.4526
97.0719
116.3851
107.0015
92.0244
100.6000
90.8950
136.5460
104.7410
133.6250
83.1755
134.8870
126.0083
166.4707
25.2815
20.2663
27.7867
17.9736
28.3604
19.9495
20.8150
17.2577
14.1459
19.0477
21.7650
22.4870
14.9754
14.2331
18.6900
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
50.2143
30.6749
64.8650
58.2030
40.6314
56.3718
75.6140
54.2523
52.7804
65.4558
49.8381
33.9999
43.3239
59.0672
39.0578
54.2714
40.9755
33.4679
17.8756
11.7420
40.2863
26.7405
26.7568
33.0930
26.3405
24.6859
43.4148
21.4096
28.6413
38.4129
128.9194
60.9541
130.0444
87.9184
78.4568
116.6304
118.1328
103.9698
101.7193
113.7832
93.9008
101.4928
85.7995
105.1197
99.5382
Veri seti, MATLAB da yaz lan ve bulan k ç karsama sistemine ve bulan k kümelemeye dayal
uyarlamal a! n i leyi inin modellendi!i programda i letilerek bulan k kurallara ili kin regresyon
modelleri a a! daki gibi elde edilmi tir.
ŷ1 =1308 +346x1 -84x 2 -314x 3
ŷ 2 =10896-145x1 +175x 2 -230x 3
ŷ3 =9022-211x1 -126x 2 +263x 3
(21)
ŷ 4 =-27061-24x1 +202x 2 +207x 3
ŷ5 = -20670+701x1 -51x 2 +436x 3
ŷ 6 =-6201-405x1 -155x 2 +341x 3
ŷ 7 =18219-610x1 +19x 2 -316x 3
ŷ8 =25742+283x1 -204x 2 -283x 3
Robust regresyon yöntemleri kullan larak elde edilen Regresyon Model Tahminleri ise Çizelge
2’de yer almaktad r.
Çizelge 2: Regresyon parametreleri tahmin de!erleri
Regresyon Katsay lar
Yöntem
Sabit
ˆ
ˆ
1.0404
0.8125
0.7794
0.8127
0.7775
1.2420
1.0329
0.9778
0.9625
0.9809
1
-10.4360
3.0366
5.5338
5.3224
5.2896
EKK
Huber
Hampel
Tukey
Andrews
ˆ
2
3
0.9412
1.0085
1.0412
1.0563
1.0430
Çizelge 3: Tüm yöntemler için gözlemlere ili kin a! rl klar
Gözlemlerin E itlik (21) de ki Modellere ait olma dereceleri
No
EKK
A! rl k
Huber
A! rl k
Hampel
A! rl k
1
2
3
4
5
6
7
8
9
10
11
12
13
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0.9901
0.2780
1
1
1
1
1
1
1
1
1
1
1
1
0.1984
1
1
1
1
1
Tukey
A! rl k
0.9892
0.9274
0.9704
0.9996
0.9068
0.9812
0.9383
0
0.9555
0.9729
0.9853
0.9794
0.9999
Andrews
A! rl k
w1
0.4710
0.4632
0.4713
0.4752
0.4545
0.4702
0.4559
0.1023
0.4685
0.4692
0.4732
0.4728
0.4758
0.2558
0.1331
0.4513
0.2955
0.2619
0.9279
0.6285
0.1777
0.1053
0.5702
0.1575
0.9492
0.1794
429
w2
w3
0.8399
0.1553
0.4688
0.3919
0.2287
0.5080
0.9008
0.5464
0.4404
0.2784
0.3079
0.3440
0.5488
0.1927
0.6541
0.2568
0.2492
0.4029
0.4451
0.1891
0.0367
0.1939
0.6084
0.4207
0.4818
0.2896
w4
0.6327
0.7634
0.2667
0.3305
0.3518
0.2437
0.2710
0.1128
0.8109
0.2971
0.8225
0.1746
0.8859
w5
0.2563
0.1323
0.4431
0.3017
0.2564
0.9283
0.6283
0.1813
0.1044
0.5774
0.1557
0.9468
0.1801
w6
0.8417
0.1544
0.4603
0.4001
0.2239
0.5082
0.9005
0.5573
0.4365
0.2820
0.3045
0.3431
0.5510
w7
w8
0.1931
0.6504
0.2521
0.2544
0.3944
0.4453
0.1890
0.0374
0.1922
0.6161
0.4160
0.4806
0.2908
0.6341
0.7590
0.2619
0.3374
0.3444
0.2438
0.2709
0.1150
0.8037
0.3009
0.8134
0.1742
0.8895
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0.0793
1
0.1292
1
0.5182
1
1
0.5921
1
1
1
1
1
0.9584
1
1
1
0
1
0
1
0.7229
1
1
0.9567
1
1
1
1
1
1
1
1
0.9917
0
0.9371
0
0.8298
0.6013
0.9810
0.9724
0.7679
0.8455
0.9931
0.9569
0.9086
0.9955
0.8559
0.9882
0.9931
0.1503
0.4992
0.1247
0.5070
0.1445
0.5293
0.3005
0.3892
0.2313
0.5032
0.2068
0.4008
0.8261
0.4479
0.4073
0.1948
0.5378
0.4754
0
0.4691
0
0.4345
0.3816
0.4742
0.4718
0.4197
0.4425
0.4747
0.4682
0.4589
0.4762
0.4441
0.4744
0.4726
0.1419
0.5684
0.5603
0.8905
0.1493
0.1817
0.0669
0.6510
0.1485
0.3235
0.2081
0.2502
0.4589
0.9347
0.1794
0.1431
0.7880
0.5525
0.5843
0.0919
0.1032
0.2798
0.6608
0.1178
0.4306
0.9096
0.4841
0.1806
0.8070
0.5943
0.1135
0.1907
0.2575
0.1901
0.5216
0.6652
0.4131
0.1812
0.2891
0.2268
0.0262
0.7203
0.5841
0.3113
0.1817
0.5038
0.3301
0.2367
0.0840
0.1891
0.2785
0.1478
0.5004
0.1267
0.5050
0.1483
0.5224
0.3091
0.3872
0.2309
0.4952
0.2010
0.3973
0.8278
0.4501
0.3971
0.1894
0.5323
0.1396
0.5697
0.5694
0.8869
0.1532
0.1793
0.0688
0.6476
0.1483
0.3184
0.2022
0.2480
0.4598
0.9393
0.1750
0.1392
0.7799
0.5435
0.5856
0.0934
0.1027
0.2872
0.6521
0.1212
0.4284
0.9080
0.4764
0.1755
0.7999
0.5955
0.1140
0.1860
0.2504
0.1882
Çizelge 4: Tüm yöntemler için gözlemlere ili kin art klar
Gözlem
No
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
HKT
EKK
Art k
3.4767
-3.9789
1.1051
-0.4020
-4.6338
2.9175
7.6721
-10.3378
-2.5497
-1.0641
-1.8004
-0.7286
-0.9346
-4.3509
50.3167
-0.3957
-26.3607
-0.4926
-9.4589
-2.1298
-1.6218
-12.1691
3.8849
0.7363
-1.6870
-3.4418
5.4420
6.6952
0.4278
5.8638
3867,3
Huber
Hampel
Art k
Art k
2.1904
1.5721
1.2178
2.5822
-1.1466
-1.6369
0.5861
0.6348
-3.7318
-3.3337
1.8044
1.6230
4.1178
3.0940
-14.6644
-16.1899
-1.8646
-1.9390
1.1593
1.8002
0.6667
1.2379
-1.4388
-1.4064
0.3685
0.4359
-0.4822
0.6489
51.4430
51.6845
-1.2575
-1.9241
-31.5567
-33.0319
3.6793
4.5840
-7.8677
-7.1450
-1.4330
-1.1352
-1.4706
-1.5166
-6.8861
-5.3992
3.8895
4.0801
-0.7023
-0.9030
1.0962
1.9775
-3.1937
-3.0297
1.2833
-0.0150
4.2542
3.9416
0.6231
0.9175
2.2337
1.2525
4087,8
4228,2
Tukey
Andrews
ANFIS
Art k
Art k
Art k
1.0752
1.6086
-17.6759
2.8061
2.5519
-7.8254
-1.7818
-1.5673
-1.5879
0.2043
0.6978
-11.5606
-3.1872
-3.3084
-2.6604
1.4196
1.7260
1.1031
2.5835
3.1943
-7.6847
-17.1185
-16.0816
-28.9371
-2.1887
-1.9565
2.7615
1.7052
1.8737
-6.1937
1.2547
1.2210
-1.0513
-1.4838
-1.2970
1.2672
0.1152
0.4387
-13.3710
0.9398
0.6329
-4.3802
51.5151
51.7272
-10.2161
-2.6085
-1.8880
-29.6824
-33.6463
-32.9199
-9.3339
4.3540
4.6162
-11.3668
-6.9146
-7.0821
-5.1477
-1.4250
-0.9864
10.9992
-1.7185
-1.4846
-7.6727
-5.1320
-5.4017
-11.5501
4.1399
4.1380
-3.2610
-0.8580
-0.8578
0.0676
2.1547
2.0043
-7.9256
-3.1557
-2.9457
-2.9142
-0.6893
0.0864
-16.3709
3.9915
4.0392
0.8268
1.1227
0.9512
-1.3372
0.8570
1.3398
-5.0809
4278,2
4222,3
3580.9
Regresyon modellerinin tahminlerinde kullan lan herbir yöntem için veri setinde yer alan
gözlemlere ili kin a! rl klara Çizelge 3’de yer verilmi tir. Robust yöntemler için elde edilen
a! rl klar, verilerin elde edilen tek bir modele dahil edilme a! rl klar n ifade etmektedir. Di!er
yandan a!dan elde edilen a! rl klar verilerin E itlik 21 ile verilen de!i ken say s na göre çe itlilik
gösterebilen modellere aitliklerini göstermektedir. Bu aç dan a! rl klar aras nda fark olmas
do!ald r.
E itlik (23)’de verilen regresyon modellerin a! rl kl ortalamalar ndan elde edilen tahmin
de!erlerine dayanarak belirlenen art k de!erleri ve robust regresyon yöntemleri kullan larak
olu turulan modellerden elde edilen tahminlerin art klar ise Çizelge 4’de yer almaktad r. Bu
çal mada önerilen algoritma MATLAB’da yaz lan bir program ile i letildi. Ad msal i letim
a amas nda bu çal ma için, ayk r gözlemin mevcut oldu!u ba! ml de!i kene sahip veri seti ele
al nd . Tan mlanan robust regresyon yöntemlerinden M yöntemleri için MATLAB’da yaz lan
programlar i letilerek elde edilen sonuçlar kar la t r ld . Yap lan kar la t rmalardan, uyarlamal
a!dan elde edilen modellerin en küçük hatay veren tahmin de!erlerine ula t klar görüldü.
430
0.5132
0.6668
0.4198
0.1804
0.2967
0.2238
0.0270
0.7165
0.5831
0.3063
0.1766
0.4994
0.3307
0.2379
0.0819
0.1839
0.2757
Kaynaklar
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
[15]
Cherkassky, V. and Muiler, F., (1998), Learnin From Data Concepts, Theory and Methods, Newyork
Jhon Wiley and Sons.
Chi-Bin, C. and Lee, E. S. (2001), Switching Regression Analaysis by Fuzzy Adaptive Network,
Europen Journal of Operational Research, 128, 647-663
Erbay, D.T., Apayd n, A. A Fuzzy Adaptive Network Approach to Parameter Estimation in case
Where Independent Variables Come From Exponential Distribution, Journal of Computational and
Applied Mathematics, doi:10,1016/j.cam,2008,07,057. 2008.
Hampel, F.R., Ronchetti, E.M., Rousseeuw, P.J., and Stahel W.A. (1986). Robust statistics. JohnWilley & Sons, New-York.
Hogg, R.V. (1979). Statistican robustness: One view of its use in applications today. The American
Statistican, 33, 108-115.
Huber, P.J. (1981). Robust statistics. John Willey & Son.
Huynh, H. (1982). A comparision of for approaches to robust regression. Psychological Bulletin, 92,
505-512.
Ishibuchi, H. and Nei, M. Fuzzy Regression using Asymmetric Fuzzy Coefficients and Fuzzied Neural
Networks, Fuzzy Sets and Systems 119, 273–290, 2001.
Jyh-Shing Roger J. (1993), ANFIS: Adaptive-Network-Based Fuzzy Inference System, IEEE
Transaction on Systems, Man and Cybernetics, 23, No;3, 665-685
James, D. and Donalt, W., (1999), Fuzzy Number Neural Networks, Fuzzy Sets and Systems, Vol 108
49-58.
Lung-Fei L., Robert H.P., (1984), Switching Regression Models With Imperfect Sample Separation
Information-With an Application on Cartel Stability, Econometrica, Vol52 391-418
Michel M., (2001), Fuzzy Clustering and Switching Regression Models Using Ambiguity and
Distance Rejects, Fuzzy Sets and Systems, 122, 363-399
Rousseeuw, P.J and Leroy, A.M. (1987). Robust regression and outlier detection. John Willey & Son.
Richard E.Q., 1972, A New Approach to Estimating Switching Regressions, Journal of the American
Statistical Association, 67, No:338, 306-310
Takagi, T., and Sugeno, M., 1985, Fuzzy Identification of Systems and Its Applications to Modeling
and Control, IEEE Trans. On Systems, Man and Cybernetics, Vol 15, No 1, 116-132
431
Exponantial-binomial distribution
Co kun Ku
16
Selcuk University, Faculty of Sciences, Department of Statistics, Konya, Turkey.
Abstract
Some probability distributions have been proposed to fit real life data with decreasing
failure rates. In this article, a three-parameter distribution with decreasing failure rate is
introduced. Various properties of the introduced distribution are discussed. An EM
algorithm is used to determine the maximum likelihood estimates when one parameter is
given or known. Illustrative examples based on real data are also given.
Key words: Compounding, decreasing failure rate, EM algorithm, exponential
distribution, lifetime distributions, maximum likelihood estimation, zero truncated
binomial distribution
1. Introduction
In recent years, some probability distributions have been proposed to fit real life data with
decreasing failure rates. Adamidis and Loukas (1998), Ku (2007) and Tahmasbi and
Rezaei (2008) provided the Exponential-Geometric, Exponential-Poisson and ExponentialLogarithmic distribution, respectively. There are a number of papers dealing with the
models for DFR. The distributions with DFR are discussed in the works of Lomax (1954),
Proschan (1963), Barlow et al. (1963), Barlow and Marshall (1964, 1965), Marshall and
Proschan (1965), Cozzolino (1968), Dahiya and Gurland (1972), McNolty et al. (1980),
Saunders and Myhre (1983), Nassar (1988), Gleser (1989), Gurland and Sethuraman
(1994), Adamidis and Loukas (1998), Ku (2007) and Tahmasbi and Rezaei (2008).
This paper is organized as follows: In Section 2, a new three parameter DFR distribution is
obtained by mixing exponential and zero truncated Binomial distribution where mixing
procedure was previously carried out by Adamidis and Loukas (1998) and further
discussed in Ku (2007) and Tahmasbi and Rezaei (2008). In Section 3, some properties of
the introduced distribution are discussed. In Section 4, the estimation of parameters is
studied by the method of maximum likelihood when one parameter is given or known.
Finally, in Section 5, illustrative examples based on real data are provided to close the
paper.
16
Note that in a recent issue of Computational Statistics and Data Analysis there is a related paper (Chahkandi and
Ganjali, 2009) where a general family of power series distributions is considered, which includes the binomial.
432
2. The distribution and its properties
Let W1 , W2 ,...,WZ be a random sample from f ( w;
truncated Binomial variable with probability function
m z
m
p (1 p )
z
P ( z; p ) =
where
and
Z
z
{1
(1
p)
m
}
1
)=
w
e
, w, 7 R + ,
Z is a zero
z = 1,..., m, p 7 ( 0,1) ,
X = min (W1 ,W2 ,...,WZ ) .
W s are independent. Let's define
Then,
f ( x | z; ) = ze zx and marginal probability density function of X obtained as
follows: Let us consider the following identity(recall the moment generating function of
binomial distribution):
m
m z
m
m z
m
exp ( zx )
p (1 p ) = (1 p + p exp ( x ) ) (1 p ) .
"
z
z =1
(1)
If in both sides of the equation (1) derivatives with respect to x are taken, then we obtain:
m
"
z =1
z exp (
zx )
m z
m z
p (1 p ) =
z
x ) (1 p + p exp (
pm exp (
x ))
m 1
.
(2)
Hence using equation (2), probability density function of X is introduced by
f ( x;
m
m
m ) = " f ( x, z ;
m ) = "P ( z ; p ) f ( x | z ;
z =1
m
= " z exp (
z =1
=
pm
1
(1
p)
)
z =1
m
zx )
exp (
m z
m
p (1 p )
z
z
{1
(1
x ) {1 p + p exp (
p)
x )}
m
m 1
}
1
, x 7 R+,
(3)
p 7 ( 0,1) ,
where m 7 N + ,
7 R + and
m
= ( p,
)
with given or chosen parameter
m. Also
is obviously a scale parameter. In the sequel, distribution of X will be
referred to as the Exponential-Binomial distribution (EB) which is customary for such
names to be given to the distributions arising via the operation of compounding (mixing) in
the literature (Adamidis and Loukas,1998, Ku , 2007 and Tahmasbi and Rezaei, 2008.). It
can be seen that the EB density function is monotone decreasing with modal value
{
pm 1
(1
p)
m
}
1
at x = 0 . EB probability density functions are displayed in Fig. 1
and Fig. 2 for selected parameter values. Observing changing parameter
because it only shows the well known effect of a scale parameter.
433
is unnecessary
The model is obtained under the concept of population heterogeneity (through the process
of compounding). An interpretation of the proposed model is as follows: A situation where
failure (of a device for example) occurs due to the presence of an unknown number, Z ,
of initial defects of same kind (a number of semiconductors from a defective lot, for
example). The W s represent their lifetimes and each defect can be detected only after
causing failure, in which case it is repaired perfectly (Adamidis and Loukas, 1998). Then
the distributional assumptions given earlier lead to the EB distribution for modeling the
time to the first failure X .
10
9
8
7
f(x)
6
5
4
3
2
1
2,5
2
1,5
1
0,5
0
0
x
Fig. 1. Probability density functions of the EB distribution for
=1, m =10 and
respectively, by the y-axis intercepts appearing in increasing order of magnitude
p
=0.1,0.5,0.9, identified,
8
7
6
f(x)
5
4
3
2
1
2,5
2
1,5
1
0,5
0
0
x
Fig. 2. Probability density functions of the EB distribution for
=1, p =0.5 and
respectively, by the y-axis intercepts appearing in increasing order of magnitude
m
=5,10,15, identified,
For all values of parameters, the density is strictly decreasing in x and tending to zero as
x * +. Its graph resembles those of the EG, EP, Pareto II and exponential distributions.
As p approaches zero or m = 1 , the EB leads to exponential distribution with parameter
and as m tends to infinity the EB distribution approaches the Exponential Poisson
which is introduced by Ku (2007).
434
The distribution function of X is given by
F ( x;
m
)=
{1 p (1
1
(1
1
}
x ))
exp (
p)
m
m
(4)
and hence, the median is obtained by
1
/
log 0 p
1
(
1
1
2
)
;
1 + p <.
=
1/ m
(1 p )m
+
2
For r 7 N + , raw moments are given by
+
E(X r;
r
m ) = . x f ( x;
m
) dx
0
=
=
x
(1 p ) .
=
r
m
1
x ) {1 p + p exp (
exp (
x )}
m 1
dx
0
+
pm
(1
1
p)
m 1
×
=
+
pm
m
p ) pm
i
m 1
m 1
m
"
(1 p )
m
1
{
(1
p)
m
i
}
+
i
.x
r
exp {
( m i ) x} dx
0
m 1 (1 p ) p m
i
m 1
"
r
dx
(1 p ) p m
i
i=0
mU ( r + 1)
1
i 1
i 1) x}
(m
i =0
0
(1
i
m 1
x ) " exp {
r
.x exp (
i
i=0
(m i)
i
, r 7 N+ ,
r +1
where U ( F) is the gamma function.
Hence the mean and variance of the EB distribution are given respectively by
E(X;
m
)=
{1
m 1
m
(1
p)
m
"
}
i=0
m 1 (1 p ) p m
2
i
(m i)
i
i
and
Var ( X ;
m
)=
m 1
2m
{1
(1
/
5
0
51
1
{
p)
m
}
2
p)
i=0
m 1
m
(1
"
m
}
"
i=0
m 1 (1 p ) p m
3
i
(m i)
i
i
m 1 (1 p ) p
2
i
(m i)
i
435
m i
2
;
5
< .
5
=
Using (3) and (4), survival function and failure rate function (hazard function) of the EB
distribution are given respectively by
s ( x;
) =1
f ( x;
s ( x;
m
pm exp (
)=
m)
m
{1 p (1
(1
1
p)
{
m
p)
}
m
Fig. 3. Hazard functions of the EB distribution for
=1, m =10 and
y-axis intercepts appearing in increasing order of magnitude
p
exp (
m
,
}
x ) 1 p (1 exp (
x ))
m
(1
m
5
)=
F ( x;
}
x ))
exp (
5,5
h ( x;
m
{1 p (1
)=
x ))
(1
p)
m 1
m
.
10
9
8
7
h(x)
6
5
4
3
2
1
8
7,5
7
6,5
6
4,5
4
3,5
3
2
2,5
1,5
1
0,5
0
0
x
=0.1,0.5,0.9, identified, respectively, by the
Both functions have simple forms in contrast to those of some DFR distributions such as
Gamma with DFR. Since m is finite the EB distribution is in fact a finite mixture of
exponential distributions. Hazard function is decreasing because of the DFR property arise
from the results of Barlow et al. (1963) on mixtures. The initial and long-term hazards are
h ( 0;
m)=
{
pm 1
(1
p)
m
}
1
and h ( +;
m
)=
. They are both finite in contrast to
those of Weibull distribution with h ( 0; m ) = + and h ( +;
selected parameter values are displayed in Fig. 3.
m
) = 0.
Hazard functions for
3. Estimation of the parameters
3.1 Estimation by maximum likelihood
The log-likelihood function (parameter m is given or known) based on the observed
sample size of n , y obs = ( xi ; i = 1, 2,..., n ) , from the EB distribution is given by
436
l(
{
n
m " xi
m ; y obs ) = n log ( mp )
n log 1
i =1
(1
p)
m
}
n
+ ( m 1) " log {exp ( xi )(1 p ) + p}
i =1
and subsequently the associated gradients are found to be
l(
m
; y obs )
=
n
n
n
i =1
i =1
m " xi + ( m 1) "
(1
p ) xi exp ( xi )
exp ( xi )(1 p ) + p
= 0,
(5)
l(
m
; y obs )
p
n
=
p
nm (1 p )
1
(1
m 1
p)
m
( m 1) {1 exp ( xi )}
= 0.
i =1 exp ( x )(1
p) + p
i
n
+"
(6)
In the following, Theorem 1 expresses when the parameters m and p are given, the
MLE of the parameter
lies in the specified interval.
Theorem 1. Let g ( ; p, y obs ) denote the function on the RHS of the expression in (5) and
x = n 1 " in=1xi , where p is the true value of the parameter. Then, for a given p 7 ( 0,1)
and
m 7 N+
({ x ( p ( m
the root of
}
1) + 1)
1
,x
1
g ( ; p, y obs ) = 0,
) with probability 1.
the MLE of
lies in the interval
3.2. An EM algorithm
Apparently, the solution of the two non-linear normal equations must be attained using a
numerical method; this would involve a two-dimensional search using any of the methods
of numerical analysis. EM algorithm is a very powerful tool in handling the incomplete
data problem (Dempster et al.(1977), McLachlan and Krishnan (1997)). It is an iterative
method by repeatedly replacing the missing data with estimated values and updating the
parameter estimates. It is especially useful if the complete data set is easy to analyze. As
pointed out by Little and Rubin (1983), the EM algorithm will converge reliably but rather
slowly (as compared to the Newton--Raphson method) when the amount of information in
the missing data is relatively large. Recently, EM algorithm has been used by several
authors such as Adamidis and Loukas (1998), Adamidis (1999), Ng et al. (2002), Karlis
(2003), Adamidis et al. (2005), Ku and Kaya (2006), Ku (2007) and Tahmasbi and
Rezaei (2008).
First of all, denote the observed and missing data by
X = ( X 1 , X 2 ,K , X n )
and
Z = ( Z1 , Z 2 ,K , Z n ) , respectively, where the Z i correspond to the unobserved mixing
variables. Combine X and Z to form Y = ( X, Z ) which is the complete data set. This
model problem can be viewed as an incomplete data problem and then the EM algorithm is
437
applicable to obtain the maximum likelihood estimators of the parameters. To start the
algorithm, hypothetical complete-data distribution is defined with density function
f ( y;
m
z exp (
)=
m z
m
p (1 p )
z
zx )
1
(1
p)
m
z
, x > 0, z = 1,..., m,
where y = ( x, z ) . Thus, it is straightforward to verify that the E-step of an EM cycle
requires the computation of the conditional expectation of
( h)
m
( h)
= (p ,
( h)
P ( z | x;
) is the current estimate of
m
)=
z exp (
zx )
m
(Z | X ;
(h)
m
),
where
. Using that
m z
m
p (1 p )
z
z
pm exp ( m x ) {exp ( x )(1 p ) + p}
m 1
, z = 1,..., m,
this is found to be
E Z|X
x;
exp m 1 x 1 p 1 m exp x
exp x 1 p p m 1 1 p 1 exp x
m
m
.
The EM cycle is completed with M-step, which is complete data maximum likelihood over
m
(
, with the missing Z ' s replaced by their conditional expectations si = E Z | X ;
(Adamidis and Loukas, 1998). Thus, an EM iteration, taking
( h +1)
{ }
n
i =1
n
i =1
h +1)
{
m
into
( h +1)
m
m
)
, is given by
1
= n " si xi
" si = nmp (
( h)
(h)
1
,
(
1 p(
h +1)
)}
m
1
.
It can be seen that only a one-dimensional search such as Newton-Raphson is required for
M-step of an EM cycle. Recently, Karlis (2009) has been proposed Nested EM algorithm
without Newton-Raphson iteration for the ML estimation of EP distribution which is
introduced by Ku (2007). This idea of Karlis (2009) is adapted to our problem. The
problem can be solved in closed form expressions as follows. Observe that at the M-step
one has to solve the problem of finding the ML estimates from a sample of truncated
binomial data with known m . This is exactly the second equation. There is a simple way
to do this via an EM algorithm. Consider a sample Z1 , Z 2 ,K , Z n from such a truncated
binomial distribution. If we augment the data with some missing data that represent the
zero values not observed then ML estimation of p would be extremely simple being just
the proportion of successes. Note that the missing values do not contribute to the " in=1Z i .
p would be
Hence if we had n0 values of zero then the ML estimate of
438
{m ( n + n )}
1
" in=1Z i since now the sample size would be n + n0 . So we just need to
estimate the number of zero values expected with given parameter values which is
m
obviously ( n + n0 )(1 p ) . So the full EM for the exponential binomial would be
0
( h)
Consider the current values
, p ( ) , n0(
h)
h
E1-step: Obtain the values
si = E ( Z | X ;
h
m
) , i = 1,..., n
and
E2-step: Obtain the value
n0(
h +1)
(
= n + n0(
h)
) (1
p(
h)
)
m
.
M-step: Update the parameters by
{ }
n
M1-step:
( h +1)
M2-step:
p( h +1) =
1
= n " si xi
i =1
1
(
n
( h+1)
m n + n0
" si .
) i =1
Clearly this approach does not need any NR step and hence deriving derivatives which can
be quite slow. Moreover if the initial values belong to the appropriate domain of the
parameter values we will never go out of this domain which can happen with the NR
approach.
4. Illustrative examples
The fit of the EB distribution of real data is examined by graphical methods using MLEs. It
is also compared with the EP, EG, Weibull and Gamma models with respective densities
f1 ( x; L1 ) =
p1 1
e
1 e p1
(
)
f 2 ( x; L 2 ) = p2 (1
f 3 ( x; L 3 ) =
3
2
p3 3 x
f 4 ( x; L 4 ) = p4 4 x
4
3
1
e
)e
1
e
1 x + p1 exp
p1
p2 x
(1
( p3 x )
3
( p4 x )
(
1x
2
)
p2 x
e
, x > 0,
{U ( )}
4
, x,
1
)
3
2
1
, p1 7 R + ,
, x > 0, p2 > 0,
, p3 > 0,
, x > 0,
439
4
, p4 > 0,
2
7 ( 0,1) ,
where L j = ( p j ,
j
),
j = 1, 2,3, 4.
The first set consists of the number of successive failures for the air conditioning system of
each member in a fleet of 13 Boeing 720 jet airplanes. The pooled data, yielding a total of
213 observations, were first analyzed by Proschan (1963) and further discussed in Dahiya
and Gurland (1972), Gleser (1989), Adamidis and Loukas (1998) and Ku (2007). In the
second set, the data are 109 observations on the period between successive coal-mining
disasters and can be found in Cox and Lewis (1978) and further discussed in Adamidis and
Loukas (1998) and Ku (2007). The third data set includes the time intervals(in days) of
the successive earthquakes with magnitudes greater than or equal to 6 Mw (moment
magnitude) in North Anatolia Fault Zone between 39.00o 42.00o North latitude and
30.00o 40.00o East longitude and can be found in Ku (2007). Since the
is obviously
a scale parameter, transformed data are used so as to avoid overflow errors during the EM.
For the second data set, the log-likelihood keeps increasing for m < 21 and then decreases
so the maximum occurs at m = 21 and for the second data set, the log-likelihood keeps
increasing for m < 9 and then decreases so the maximum occurs at m = 9. The loglikelihoods for a wide range of values of m are given in Fig. 4 and Fig. 5. for first and
second data sets.
For the last data set, running for a wide range of values of m , we found that the loglikelihood still increases even for m = 1000 implying that m * + i.e. the binomial tends
to a Poisson distribution and EB distribution tends to the exponential Poisson distribution.
The Fig. 6 plots show this. The horizontal line is the log-likelihood value of the EB model.
Fig. 6 shows the log-likelihood value for the last data for values from 3 to 1000. One can
see that the log-likelihood still increases after 1000 which implies that the value of m
tends to + . We have not seen this behavior to the other datasets.
-1175,842
-1175,844
0
10
20
30
40
50
60
70
80
90 100 110
log-likelihood
-1175,846
-1175,848
-1175,85
-1175,852
-1175,854
-1175,856
-1175,858
-1175,86
m
Fig. 4. The log-likelihood for the first data set for values of m from 3 to 100. The
horizontal line represents the log-likelihood of the Exponential Binomial distribution
440
-703,28000
-703,30000
0
10
20
30
40
50
60
70
80
90 100 110
log-likelihood
-703,32000
-703,34000
-703,36000
-703,38000
-703,40000
-703,42000
-703,44000
m
Fig. 5. The log-likelihood for the second data set for values of m from 3 to 100. The
horizontal line represents the log-likelihood of the Exponential Binomial distribution
-30,95
0
100 200 300 400 500 600 700 800 900 1000 1100
log-likelihood
-31
-31,05
-31,1
-31,15
-31,2
m
Expected Cumulative Probability
Fig. 6. The log-likelihood for the last data set for values of m from 3 to 100. The
horizontal line represents the log-likelihood of the Exponential Binomial distribution
0,95
0,9
0,85
0,8
0,75
0,7
0,65
0,6
0,55
0,5
0,45
0,4
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0,02 0,07 0,12 0,17 0,22 0,27 0,32 0,37 0,42 0,47 0,52 0,57 0,62 0,67 0,72 0,77 0,82 0,87 0,92 0,97
Observed Cumulative Probability
Fig. 7. EB Probability Plot for the first data set.
441
Expected Cumulative Probability
0,95
0,9
0,85
0,8
0,75
0,7
0,65
0,6
0,55
0,5
0,45
0,4
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0,02 0,07 0,12 0,17 0,22 0,27 0,32 0,37 0,42 0,47 0,52 0,57 0,62 0,67 0,72 0,77 0,82 0,87 0,92 0,97
Observed Cumulative Probability
Expected Cumulative Probability
Fig. 8. EB Probability Plot for the second data set.
0,95
0,9
0,85
0,8
0,75
0,7
0,65
0,6
0,55
0,5
0,45
0,4
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0,02
0,1 0,15
0,23
0,31
0,4 0,44
0,52
0,6 0,65
0,73
0,81
0,9
Observed Cumulative Probability
Fig. 9. EB Probability Plot for the third data set.
The PP-Plots are shown in Fig. 7, Fig. 8 and Fig. 9 for the EB distribution. As the figures
show, in all cases, EB distribution is very similar and it provides good fits to the data sets.
Table 1
Parameter estimates and log-likelihood values obtained from the fit of each of the five distribution for the data set 1,2 and
3
Data Set
Distribution
EB
EP
1
( n = 213)
EG
Weibull
Gamma
2
( n = 109 )
EB
EP
Estimates
21
0. 06536, 7. 47
10
3
LL
-1175,8431
3
-1175,8447
8. 01
10 3 , 0. 4276
-1175,9749
3
1. 12
10 2 , 0. 9240
-1177,6372
4
9. 9
9
0. 3153, 1. 83
10
3
-703,3046
1
3. 2148, 1. 67
10
3
-703,3710
1
1. 3321, 7. 51
2
10
-1178,3427
10 3 , 0. 9220
442
EG
Weibull
Gamma
EB
n
EG
24
Weibull
Gamma
3
4. 5
4
3. 44
-703,9165
10 3 ,0. 5599
-704,6367
10 3 , 0. 8650
-705,4496
10 3 , 0. 8280
2. 632
10 3 , 3. 591
10
10
-196,8662
4
-196,8649
4
1
2. 6377, 3. 56
2
3
3
8. 12
10 4 , 0. 7854
-197,0897
4
4. 98
10 4 , 0. 7117
-197,4051
-196,7526
10 4 , 0. 7369
) )
= ( p, ) for given m which is choosen considering large value of p)
) )
value for the data sets and L j = ( p j , j ), j = 1, 2,3, 4 , log-likelihoods under the EB, EP,
EG, Weibull and Gamma models are presented in Table 1. For the first second and third
sets of data, the parameter estimates of the EB distribution were obtained, using the EM
algorithm, in 2254, 2363 and 1346 iterations, respectively. Looking at the log-likelihoods
in Table 1, the proposed model offers an attractive alternative to these three wellestablished models such as Weibull, Gamma, EG and EP as in the analyzed real data sets.
The MLEs
)
2. 65
1000
EP
3
2
m
Appendix
Proof of Theorem 1.
Let
(1
n
w ( ; p, y obs ) = ( m 1) "
i =1
p ) xi exp ( xi )
exp ( xi )(1 p ) + p
then it is clear that w is strictly increasing in
,
and
n
lim w ( ; p, y obs ) = ( m 1)(1 p ) " xi .
*0
i =1
It follows that
g ( ; p, y obs ) > n
1
n
m " xi + lim w ( ; p, y obs ) = n
i =1
and, hence, g ( ; p, y obs ) > 0 when
1
*0
{
}
< x ( p ( m 1) + 1)
n
{ p ( m 1) + 1} " x
i =1
1
. On the other hand,
lim w ( ; p, y obs ) = ( m 1) " in=1xi
*+
so that
g ( ; p, y obs ) < n
1
n
m " xi + lim w ( ; p, y obs ) = n
i =1
*0
443
i
1
n
" xi
i =1
Hence,
g ( ; p, y obs ) < 0
when
g ( ; p, y obs ) = 0 in the interval
>x
1
({ x ( p ( m
and, therefore, there is at least one root of
}
1) + 1)
1
,x
1
) ; this proof is analogous to that
of Theorem 4.1 in Adamidis and Loukas (1998).
References
Adamidis, K. and Loukas, S. (1998). A life time distribution with decreasing failure rate. Statist. Probab. Lett., 39, 35-42.
Adamidis, K. (1999). An EM algorithm for estimating negative Binomial parameters. Austral. & New Zealand J. Statist.,
41 2, 213-221.
Adamidis, K., Dimitrakopoulou, T. and Loukas, S. (2005). On an extension of the exponential-geometric distribution.
Statist. Probab. Lett., 73, 259-269.
Barlow, R. E., Marshall, A. W. and Proschan, F. (1963). Properties of probability distributions with monotone hazard
rate, Ann. Math. Statist., 34, 375-389.
Barlow, R. E. and Marshall, A. W. (1964). Bounds for distributions with monotone hazard rate I and II. Ann. Math.
Statist., 35, 1234-1274.
Barlow, R. E. and Marshall, A. W. (1965). Tables of bounds for distributions with monotone hazard rate. J. Amer. Statist.
Assoc., 60, 872-890.
Cox, D. R. and Lewis, P. A. W. (1978). The Statistical Analysis of Series of Events. Chapman & Hall, London.
Chahkandi, M., Ganjali, M. (2009) On some lifetime distributions with decreasing failure rate Computational Statistics
and Data Analysis 53 (12), pp. 4433-4440
Cozzolino, J. M. (1968). Probabilistic models of decreasing failure rate processes. Naval Res. Logist. Quart., 15, 361374.
Dahiya, R. C. and Gurland, J. (1972). Goodness of fit tests for the gamma and exponential distributions. Technometrics,
14, 791-801.
Dempster, A. P., Laird, N. M. and Rubin, D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm
(with discussion). J. Roy. Statist. Soc. Ser. B, 39, 1-38.
Gleser, L. J. (1989). The gamma distribution as a mixture of exponential distributions. Amer. Statist., 43, 115-117.
Gurland, J. and Sethuraman, J. (1994). Reversal of increasing failure rates when pooling failure data. Technometrics, 36,
416-418.
Karlis, D. (2003). An EM algorithm for multivariate Poisson distribution and related models. J. App. Statist., 30 1, 63-77.
Karlis, D. (2009) A note on the exponential Poisson distribution: A nested EM algorithm, Comp. Statist. Data Analy., 53,
894-899.
Ku , C. and Kaya, M. F. (2006). Estimation of parameters of loglogistic distribution based on progressive censoring
using em algorithm. Hacettepe J. Math. Statist., 35 2, 203-211.
Ku , C. (2007). A new lifetime distribution. Comp. Statist. Data Analy., 51 9, 4497-4509.
Little, R. J. A. and Rubin, D. B. (1983). Incomplete Data. In: S. Kotz, N.L. Johnson (Eds.), Encyclopedia of Statistical
Sciences. Vol. 4., Wiley, New York.
Lomax, K. S. (1954). Business failures: another example of the analysis of failure data. J. Amer. Statist. Assoc., 49, 847852.
Marshall, A. W. and Proschan, F. (1965). Maximum likelihood estimates for distributions with monotone failure rate,
Ann. Math Statist., 36, 69-77.
McLachlan, G. J. and Krishnan, T. (1997). The EM Algorithm and Extension. Wiley, New York.
McNolty, F., Doyle, J. and Hansen, E. (1980). Properties of the mixed exponential failure process. Technometrics, 22
555-565.
Nassar, M. M. (1988). Two properties of mixtures of exponential distributions. IEEE Trans. Raliab., 37 4, 383-385.
Proschan, F. (1963). Theoretical explanation of observed decreasing failure rate. Technometrics, 5, 375-383.
Saunders, S.C. and Myhre J.M. (1983). Maximum likelihood estimation for two-parameter decreasing hazard rate
distributions using censored data. J. Amer. Statist. Assoc. 78, 664-673.
Tahmasbi, R. and Rezaei, S. (2008). A two-parameter lifetime distribution with decreasing failure rate.Comp. Statist.
Data Analy., 52 8, 3889-3901.
444
Çok Boyutlu Do<rusal Regresyon Modeli çin LMS
Algoritmas ve Uygulamalar
Yasemin Kayhan At lgan
Derya Ersel
Süleyman Günay
Hacettepe Üniversitesi
Fen Fak. statistik Böl.
06800 Beytepe Ankara,
Türkiye
[email protected]
Hacettepe Üniversitesi
Fen Fak. statistik Böl.
06800 Beytepe Ankara,
Türkiye
[email protected]
Hacettepe Üniversitesi
Fen Fak. statistik Böl.
06800 Beytepe Ankara,
Türkiye
[email protected]
Özet
‘En Küçük Ortanca Kareler / Least Median of Squares / LMS’ kestiricisinin PROGRESS algoritmas: kullan:larak
orijinden geçen doGrusal regresyon modellerinde, doGru kestirim deGerlerine ula#:lamad:G:, tek deGi#kenli doGrusal
regresyon modelleri için gösterilmi# ve daha sonra Kayhan ve Gunay (2008) taraf:ndan iki deGi#kenli modeller için yeni
bir algoritma önerilmi#tir. Bu çal:#mada, çok boyutlu modeller için bu algoritman:n genelle#tirilmi# biçimi ve k:saca
uygulama ad:mlar: sunulacak, daha sonra da deGi#ik veri kümeleri üzerinden elde edilen sonuçlar tart:#:lacakt:r.
Anahtar Kelimeler: En küçük ortanca kareler; Genelle#tirilmi# LMS; Kayhan and Gunay Algoritmas:; PROGRESS.
Abstract
LMS Algorithm and Its Applications for Multiple Linear Regression Model
Via the PROGRESS algorithm, correct LMS estimate can not be reached for the linear regression model through the
origin. The basic solution of this problem was illustrated for the univariate regression model and then a different
algorithm for the bivariate case was suggested by Kayhan and Gunay (2008). In this study, the generalization of this
algorithm (generalized LMS) for the multiple linear regression model will be presented. Moreover, the steps of the
generalized LMS will be explained and the results over different data sets will be discussed.
Key words: Least Median of Squares; Generalized LMS; Kayhan and Gunay Algorithm; PROGRESS.
1. Genelle!tirilmi! LMS Algoritmas
Do!rusal regresyon modeli a a! daki gibi tan mlans n;
Y = X +)
y1
x11
x12
y2
x 21
M
x 22 K x 2p
M
M
x i1
x i2
M
M
M
=
yi
M
yn
nx1
x n1
K x1p
K
e1
2
x ip
+
M
M
x n 2 K x np
e2
1
p
nxp
px1
M
(1)
ei
M
en
nx1
burada y i i = 1, 2,..., n , cevap vektörünün i.sat r , xi nxp boyutlu dizayn matrisinin i. sat r ,
px1 boyutlu bilinmeyen parametreler vektörü, ei hata vektörünün i. sat r olarak tan mlanmaktad r.
Bu model kullan larak elde edilen art klar a a! daki gibi verilebilir:
445
R = Y Xˆ
burada ˆ , bilinmeyen parametreler vektörü
’n n kestirimidir.
Veri kümesindeki her bir (x i1 , x i2 , …, x ip , yi ) gözlemi için art k kareler a a! daki gibi
tan mlanabilir:
(x
ri2 = yi
ˆ + x ˆ + ... + x ˆ
i2 2
ip p
i1 1
)
2
(2)
E t.2’de tan mlanan art k kare ifadesi, ˆ ’n n bir fonksiyonu olarak dü ünülürse a a! daki gibi
verilebilir:
ri2 = f i ( ˆ )
(3)
E t.3’de tan mlanan fi ( ˆ ) , iki kez türevlenebilen bir fonksiyondur ve Hessian matrisi pozitif yar tan ml d r. Dolay s yla fi ( ˆ ) ’n n ]p üzerinde konveks bir fonksiyon oldu!u gösterilebilir.
Tan mlanan fonksiyon, ]p ’nin bo olmayan bir, Pi ,alt kümesi üzerinde, verilen veri kümesi için
arad ! m z LMS kestirimini ta yan fonksiyon olarak dü ünülebilir. Bu alt küme ise medyan
kestiricinin baya! tan m kullan larak a a! daki gibi ifade edilebilir:
{
}
Mi = k 7 {1, 2,3,..., n} k : i
burada Mi , fi ( ˆ ) için tan mlanan
( n 1)
(4)
( n 1)
elemanl bir indeks kümesi olsun. Bu kümenin tüm
2 elemanl alt kümeleri de Li1 , Li 2 , Li3 ,..., Lit olarak tan mlans n. Daha sonra Uik kümesi
Uik = M i \ Lik olarak verilsin ve Pi ^ ]p olacak biçimde bir alt küme a a! daki biçimde ifade
edilsin:
Pi = Pi1 ? Pi2 ? L ? Pit
(5)
burada,
{
Pim = ˆ 7]p
f k ( ˆ ) ! f i ( ˆ ) ! f j ( ˆ ), 6k 7 Lim , 6j 7 Uim
}
(6)
olarak tan mlanmaktad r. Lim ve Uim ’deki eleman say lar birbirine e it olaca! için fi ( ˆ ) , Pi
üzerinde medyand r denilebilir.
E t.6’da verilen ifade a a! daki gibi yaz labilir:
Pim = Pim+ ? Pim
(7)
{
Pim+ = ˆ 7]p yi x i ˆ 8 0 , yk
{
Pim = ˆ 7 ]p yi
x i ˆ ! 0 , yk
x k ˆ ! yi x i ˆ , yi x i ˆ ! y j x j ˆ , 6k 7 Lim , 6j 7 Uim
x k ˆ ! yi + x i ˆ ,
}
yi + x i ˆ ! y j x j ˆ , 6k 7 Lim , 6j 7 Uim
446
(8)
}
(9)
E t.8 a a! daki gibi verilebilir:
+
+
Pim+ = Pim1
? Pim2
(10)
{
xi ˆ 8 0 ,
yi + x i ˆ ! y k
x k ˆ ! yi
x i ˆ , y j x j ˆ 8 yi
{
xi ˆ 8 0 ,
yi + x i ˆ ! y k
x k ˆ ! yi
x i ˆ , y j x j ˆ ! yi + x i ˆ , 6k 7 Lim , 6j 7 U im
+
= ˆ 7]p yi
Pim1
+
Pim2
= ˆ 7 ] p yi
x i ˆ , 6k 7 Lim , 6j 7 U im
}
(11)
}
(12)
+
+
olmak üzere. E t.11 ve 12’den yararlan larak verilen Pim1
ve Pim2
kümelerinin konveks oldu!u
gösterilebilir ve benzer i lemler E t.9 için de gerçekle tirilebilir. Dolay s yla fi ( ˆ ) ’n n medyan
oldu!u alt küme, Pi , konveks alt kümelerin birle iminden olu an konveks olmayan bir küme
biçiminde elde edilir. Algoritmada LMS çözümü bahsedilen konveks alt kümeler üzerinde
ara t r lmaktad r. Dolay s yla kestirim de!eri hesaplama i leminin, bir konveks optimizasyon
problemi oldu!u dü ünülerek, algoritma çok boyutlu modellerin çözümü için genelle tirilmi tir.
Algoritmada LMS çözümü tüm fi ( ˆ ) , i = 1,..., n ’lar ve bunlar n medyan olabilece!i bölgeler için
tek tek ara t r l r.
Genelle tirilmi LMS algoritmas n n i leyi i basit bir örnek üzerinden a a! daki gibi aç klanabilir:
Veri kümesi a a! daki gibi tan mlans n:
6
1
9
Y= 5
8
3
7
2
1
4
X= 2
7
3
6
1
1
6
7
1
3
6
2
4
2
3
7
9
4
Ad m1: Algoritma ara t rmaya birinci gözlem ile ba lar. f1( ˆ ) , LMS kestirimini verebilecek aday
fonksiyon olarak kabul edilir. Bu a amada, fonksiyonun medyan oldu!u bölgenin muhtemel
ekstremum noktalar n hesaplamada kullan lacak olan A i ve bi matrisleri olu turulur. E t.11’de
verilen ifade a a! daki gibi yaz labilir:
{
+
+ ˆ
+
= ˆ 7]p A im1
! bim1
Pim1
}
(13)
+
Tan mlanan konveks alt kümenin en az bir tane ektremum noktas olaca! ve bu noktan n A im1
matrisinin pxp rankl alt matrislerinden elde edilebilece!i gösterilebilir (Bertsekas, 2003). Benzer
gösterim, elde edilen her bir konveks küme için yaz labilir. Daha sonra, bu gösterimden
yararlan larak tan mlanan matrisler birle tirilir ve elde edilen süper matris a a! daki gibi verilebilir:
447
M
x + xk
Ai = i
xi x k
M
2(n
M
y + yk
bi = i
yi y k
M
1)xp
6k 7 {1, 2,..., n} , k : i
(14)
2(n 1)x1
A i , b i matrislerinden elde edilecek pxp boyutlu alt matrisler, aran lan çözümü verebilecek olan
muhtemel ekstremum noktalar olarak kabul edilir. Algoritman n bu ad mda gerçekle tirdi!i
i lemler a a! daki kod ile gösterilebilir:
[row_x,col_x]=size(x);
for i=1:row_x
A_i=[];
for k=1:row_x
if k~=i
A_i=[A_i;x(i,:)-x(k,:) y(i)-y(k)];
A_i=[A_i;x(i,:)+x(k,:) y(i)+y(k)];
end
end
Verilen örnek için f1( ˆ ) ’n n medyan oldu!u bölgenin ekstremum noktalar n verecek matrisler
a a! daki gibi elde edilir:
A =
T
1
1
3
2
6
0
4
5 9
1
2
2
0
6
5
4
7
0
8 6
5 1
2 0
9 5
4 2
11 7
b1T = [5 7
3 15 1 11
2 14 3 9
5
4
8
10 8
6 2
1 13]
Ad m2: Bu ad mda ekstremum noktalar olu turmak için A i , b i matrislerinden, pxp boyutlu
olu turulabilecek tüm alt matrisler hesaplan r.
subset=combnk(1:size(A_i,1),col_x);
Verilen örnek için algoritma toplamda 220 adet 3x3 lük matris hesaplar.
Ad m3: Elde edilen alt matrislerin bir ekstremum nokta olu turup olu turmad ! determinantlar na
bak larak kontrol edilir. Olu turulan matrislerden determinant s f rdan farkl olanlar muhtemel
çözüm noktalar olarak al n r.
for k=1:size(subset,1)
% A_i bar matrix is generated
coeff_mat=A_i(subset(k,:),1:col_x);
% b_i bar matrix is generated
const_mat=A_i(subset(k,:),col_x+1);
if det(coeff_mat)~=0
% possible extreme point is determined
possible_extreme=(inv(coeff_mat)*const_mat)';
448
Bilgisayar kodunda yer alan ‘possible_extreme’ ifadesi, ara t r lan LMS kestirimini verecek
muhtemel bir ekstremum olarak tan mlanm t r. Ancak bunun için noktan n Ad m4’de belirtilen
ko ullar da sa!lamas gerekmektedir.
Ad m4: Ad m3’de bulunan noktan n çözüm olabilmesi için f1( ˆ ) ’n n tan m bölgesinde yer almas
gerekir. Bunun kontrolü ise bilgisayar kodunda a a! daki biçimde yap l r:
lms_val=median((y-x*possible_extreme').^2);
Bulunan nokta kullan larak art k kareler ortancas hesaplan r. Ancak bu noktan n arad ! m z çözüm
olmas için, f1( ˆ ) ’da yerine koyuldu!unda elde edilen sonuç ile lms_val de!erinin birbirine e it
olmas gerekir. Dolay s yla, bilgisayar kodunda a a! da verilen ikinci kontrole geçilir:
(y(i)-x(i,:)*possible_extreme')^2
if lms_val==(y(i)-x(i,:)*possible_extreme')^2
Hesaplanan iki de!er birbirine e it oldu!unda, bulunan noktan n f1( ˆ ) ’n n medyan oldu!u bölgede
tan ml bir ekstremum oldu!u garanti edimi olur ve veri kümesi için muhtemel bir çözümdür.
Buraya kadar anlat lanlar verilen veri kümesi için gerçekle tirildi!inde, ilk çözüm noktas na k=12.
iterasyonda ula l r. Noktay olu turan alt matrisler,
Coeff _ Mat =
1
2
2
2
0
5
8
4
5
5
Const _ Mat =
3
1
olarak belirlenmi tir. Matrisler yard m yla veri kümesi için elde edilen muhtemel ekstremum nokta
a a! daki gibi bulunmu tur:
possible_extreme =
41.8000
7.0000
-11.4000
Bu nokta kullan larak veri kümesinden hesaplanan LMS de!eri a a! daki gibi elde edilmi tir:
lms_val =
8.7236e+003
Daha sonra nokta, f1( ˆ ) ’de yerine yaz lm ve a a! daki de!er elde edilmi tir:
ans =
8.7236e+003
ki de!er ayn oldu!u için ˆ T = [ 41.800 7.000
11.400] , f1( ˆ ) ’n n medyan oldu!u bölgede
tan ml bir ekstremumdur.
Ad m5: Algoritmada hesaplanan LMS de!eri bir önceki iterasyonda bulunan LMS de!eri ile
a a! daki biçimde kar la t r l r:
449
if lms_val<min_lms
min_lms=lms_val;
m=possible_extreme;
Yeni hesaplanan de!er daha küçük ise, sonuç güncellenir ve Ad m3’e geri dönülerek
A1 matrisinden türetilen tüm alt matrisler için ayn i lemler tekrar edilir.
Ad m6: Algoritma birinci ad ma geri dönerek, ikinci gözlem için ayn i lemleri tekrar eder ve veri
kümesindeki tüm gözlemler için ara t rma tamamland ktan sonra, min_lms de!erini aran lan
çözüm olarak verir.
Algoritma verilen örnekteki birinci gözlem için 73 tane ekteremum noktada LMS hesaplamaktad r.
Ayn süreç tüm gözlemler için tekrar edildi!inde, veri kümesi kestirim de!erleri a a! daki gibi elde
edilmi tir:
ndimLMS_kestirim : 0.03363780248279058700, ˆ = [ 0.288210
0.598253 0.017467 ]
PROGRESS_kestirim: 1.059688581314882400, ˆ = [1.794118
0.352941
0.147059]
Verilen örnekten de aç kca görülebilece!i gibi, PROGRESS algoritmas LMS çözümünü 1.05,
genelle tirilmi LMS algoritmas ise 0.03 olarak hesaplamaktad r.
2. Uygulama
Bu bölümde genelle tirilmi LMS algoritmas n n, orijinden geçen do!rusal regresyon modelleri
için parametre kestirimlerinde, PROGRESS algoritmas na olan üstünlü!ünü göstermek amac yla,
iki ayr veri kümesi üzerinden elde edilen sonuçlar verilmi tir.
lk örnek için 3 aç klay c de!i ken ve 21 gözlemden olu an veri kümesi kullan lm t r (
Rousseeuw ve Leroy (1987), sayfa 76). Hem genelle tirilmi LMS, hem de PROGRESS
algoritmas ile elde edilen sonuçlar a a! daki gibidir:
ndimLMS kestirimi : 2.13338943447185430000
ˆ = [1.143873
0.114880
0.576586]
PROGRESS kestirimi : 4.08928491843803150000
ˆ = [1.348313
0.184766
0.684004]
PROGRESS algoritmas ile kestirim de!eri 4.089, genelle tirilmi LMS algoritmas ile de 2.133
olarak hesaplanm t r.
kinci örnekte 5 aç klay c de!i ken ve 19 gözlemden olu an bir veri kümesi için ( Rousseeuw ve
Leroy (1987), sayfa 79, ilk 19 gözlem) her iki algoritma ile parametre kestirimleri elde edilmi tir.
Sonuçlar a a! daki gibidir:
ndimLMS estimate : 0.077979
ˆ = [ 2.395871 0.001209 0.653274 1.423126 0.625495]
450
PROGRESS_kestirimi : 0.244109
ˆ = [ 2.158264 0.017741 0.607261 1.344829 0.746242]
Yine bu örnek için de genelle tirilmi LMS algoritmas ile elde edilen kestirim de!eri daha küçük
hesaplanm t r.
3. Sonuçlar ve Tart !ma
Orijinden geçen do!rusal regresyon modeli için Kayhan ve Günay taraf ndan önerilen algoritman n
çok boyutlu modele genelle tirilmi biçimi, ad m ad m bilgisayar kodlar da verilerek aç klanm t r.
Önerilen algoritman n üstünlü!ünün ortaya konulmas aç s ndan, uygulama bölümünde farkl veri
kümeleri üzerinden elde edilen sonuçlar sunulmu tur. Genelle tirilmi LMS algoritmas ile
PROGRESS algoritmas , LMS de!eri ‘0’ oldu!unda, bir ba ka ifade ile veri kümesindeki
gözlemlerin yar dan fazlas do!rusal modele tam uyum gösterdi!inde ayn sonucu vermektedir.
Bunun d nda, kestirim de!erlerine bak ld ! nda verilen tüm örneklemlerde genelle tirilmi LMS
algoritmas n n, PROGRESS algoritmas ndan daha küçük LMS kestirimine ula t ! gösterilmi tir.
Ayr ca bulunan bu de!erden daha küçük bir de!ere ula lamayaca! da algoritman n konveks
optimizasyon teorisine dayand r larak geli tirilmesi ile garanti alt na al nm t r. Algoritman n zay f
kalan noktas , veri kümesindeki toplam gözlem say s n n ‘tek’ olmas ko uludur. Gözlem say s
‘çift’ oldu!unda izlenilecek yol daha sonra ayr ca incelenecektir.
Kaynaklar
[1]
Bertsekas, D. P. Nedic, A. Ozdaglar, A.E, (2003), Convex Analysis and Optimization.
Massachusetts: Athena Scientific.
[2]
Rousseeuw, P.J., (1984), Least Median of Squares Regression, Journal of American
Statistical Association, 79,388.
[3]
Rousseeuw, P.J. Leroy, A.M., (1987), Robust Regression and Outlier Detection, New York:
John Wiley & Sons.
[4]
Kayhan, Y. Gunay, S., (2008), A new approach to Least Median of Squares and Regression
Through the Origin, Communications in Statistics Theory and Methods, Volume:37, Issue:5.
451
Türkiye’de sizlik Oran n n Temel Bile enli
Regresyon Analizi le Belirlenmesi
Öznur çi
Atilla Gökta
M. Niyazi Çankaya
MuGla Üniversitesi FEF
statistik Bölümü
48000 MuGla, Türkiye
[email protected]
MuGla Üniversitesi FEF
statistik Bölümü
48000 MuGla, Türkiye
[email protected]
MuGla Üniversitesi FEF
statistik Bölümü
48000 MuGla, Türkiye
[email protected]
Özet
Bugünün dünyas:nda ekonomik ve sosyal etkilerinin yer ald:G: i#sizlik, bir ülkenin çok yönlü
problemler ile kar#: kar#:ya kalmas:d:r. Bir ülkedeki i# gücünün durumu ve niteliGi ekonomik
geli#imleri göstermektedir. Bu gerçekler :#:G:nda, geli#mekte olan bir ülke i#sizlik probleminin
üstesinden gelmesi gerekmektedir. Türkiye statistik Kurumu’na göre, i# gücünü olu#turan 15 ve 60
ya# aras:ndaki aktif bireyler kurumsalla#mam:# nüfustan olu#maktad:r. #sizlik, herhangi bir i#e
sahip olmayan ve mevcut ödeme düzeyinde bir i# teklifi arayan bireylerin olu#turduGu bir kavramd:r.
#sizliGi etkileyen baz: faktörler, ithalat, ihracat, ithalat ve ihcarat:n dolar kuru, ithalat ve ihracat
deGi#im oran:, döviz kuru, nüfus art:# h:z:, GSMH, cari fiyatlarla GSMH büyüme h:z:, sabit fiyatlarla
GSMH büyüme h:z:, kamu yat:r:mlar:, özel yat:r:mlar, GSMH deflatörüdür. Çal:#man:n temel amac:
i#sizlik oran:n: etkileyen deGi#kenlerdeki var olan çoklu baGlant: sorununu ortadan kald:rmak olup,
temel bile#enler kullan:larak bu deGi#kenlerden faktörler elde etmektir. Aç:klay:c: deGi#kenler olan
bu yeni deGi#kenler i#sizlik oran: regresyon modelini olu#turmada kullan:lmaktad:r. statistiksel
ç:kar:m varsay:mlar: kontrol edildikten sonra, Türkiye’deki i#sizlik oran: öngörüsü yap:lm:#t:r.
Anahtar Kelimeler: Ç:kar:m Süreci, #sizlik Oran:, #sizlik Oran:n: Etkileyen Faktörler, Öngörü,
Temel Bile#enler Analizi.
Abstract
Determination of Unemployment Rate in Turkey Using Principal Components Regression Analysis
In today’s world, a country with unemployment that is resulted by the effects of economical and social
effects comes across multidimensional problems. The condition and qualification of labor force in a
country indicate an economical developments. In the light of these facts, a developing country should
overcome the problem of unemployment. According to Turkish Statistical Institute, people in working
condition in ages of between 15 and 60 that are labor force consist of non-institutionalization
population. Unemployment is defined as jobless who are looking for a job that offers the current fee
level. Some factors that affect the unemployment are the asset of import and export, dollar price of
import and export, exchange rate of import and export, exchange rate, population growth speed, GNP,
GNP growth speed in current price, GNP growthspeed in fixed price, public investments, private
investments, GNP deflator. The main aim of this study is to remove the existing collinearity inside
variables that affect the rate of unemployment and to obtain the factors from these variables via
principal components. The new variables that are regressors are used in constructing of
unemployment rate regression model. After the assumptions of statistical inference are justified, the
unemployment rate for Turkey is forecasted.
Keywords: Forecasting, Principal Components, Statistical Inference, The rate of unemployment, The
factors of unemployment rate.
1. Giri!
sizlik problemi gerek ülkemizde gerekse de dünyada önemli bir sosyal sorun olarak yer
almaktad r. Bir ülkedeki i sizlik, çal mak istedi!i halde i bulamayan yeti kinlerin (15 ya
452
ve üstündekiler) olmas halinde, söz konusu ekonomide i!sizlik var demektir. O halde,
çal mak istedi!i halde i bulamayan yeti kinlere i!siz denir[1].
sizli!in, ki isel ve topluma dair olmak üzere önemli sonuçlar söz konusudur. Ki isel
sonuçlar yönünden bak l rsa; i siz ki iler geçimlerini sa!lamak üzere para kazanamazlar,
bunun sonucu olarak ki iler mortgage ev kredilerini veya ev kiralar n ödeyemeyecek
duruma dü üp, kald klar mekânlardan ç kmak zorunda kalabilirler. Ayr ca istatistiklere
bak ld ! nda i sizli!in yüksek oldu!u dönemlerde suç oranlar n n yükseldi!i
gözlemlenmi tir. Sosyal-devlet yap s n n daha geli ti!i ülkelerde i sizlik sigortas
uygulamalar görülmektedir. Ayr ca i ini kaybetme korkusu bireylerde psikolojik
rahats zl klara yol açabilir. Topluma dair sonuçlar yönünden bak l rsa da; yüksek i sizlik
oran na sahip bir ekonomi, sahip oldu!u i gücünün önemli bir k sm n kullanamamaktad r.
sizli!in yükselmesi toplumda bencillik ve yabanc dü manl ! na yol açabilir. Az
miktarda olan i imkân n di!er ülkelerden gelen yabanc lara kapt rmak istememe istemi
yabanc dü manl ! na ve s n rlardaki geçi lerin azalmas na neden olabilir. Ayr ca toplumda
bireyler mevcut i i kapabilmek için, ki ilerin sa!l ! n olumsuz etkileyebilecek düzeye
ula an bir yar maya dönü ebilir. Di!er taraftan yüksek i sizlik oran i çiyi, patronun
kar s nda güçsüz bir duruma dü ürebilir. veren, i çiyi onun yerine ba kalar n
alabilece!i telkin ve tehdidinde bulunarak i çinin üzerine bask uygulayabilir[1,13].
Tüm bunlar dikkate al nd ! nda, çal man n Türkiye ekonomisinde uygulanan politikalara
belli aç lardan k tutmas hedeflenmi tir.
2. Ekonometrik göstergeler
sizlik Oran :
arayan, i e dönmeye haz r ya da i bekleyen bireylerin ülke nüfusu i
gücüne oran d r. Ekonomik aktivitedeki dü ü ün sonucu i sizli!i meydana getirir. Burada
GSMH, GSY H’nin fiyat genel düzeyi ile ilgili olmas i sizli!i etkileyen olarak kar m za
ç kacakt r[1]. thalat: Yurt d nda üretilmi mallar n ülkedeki al c lar taraf ndan sat n
al nmas d r[13]. thalat De!i im Oran (%): Bir önceki y la göre yüzdesel de!i imidir.
hracat:Bir mal n yabanc ülkelere döviz kar l ! yap lan sat d r[13]. Döviz kuru: Bir
birim ülke paras n n di!er bir ülke paras cinsinden fiyat na, de!erine denir[13]. gücü
nüfus art h z : Bir önceki y la göre 15 ya ve üstündekilerin yüzdesel de!i imidir.
GSMH(Gayri Safi milli Has la): Bir ülke vatanda lar n n bir y l için ürettikleri toplam mal
ve hizmetlerin, belli bir para birimi kar l ! ndaki de!erinin toplam d r[13].GSY H: Bir
ülkenin kendi s n rlar içinde 1 y lda üretilen mal GSY H ve hizmetlerin piyasa fiyatlar
cinsinden, toplam parasal de!eridir[1].Mevduat:Bankalara ve benzeri kredi kurumlar na
istenildi!inde ya da belli bir vade ya da ihbar süresi sonunda çekilmek üzere yat r lan
paralard r. Reeskont:Bankalar n elinde bulundurdu!u senedi, ba ka bir bankaya
zaman ndan önce iskonto etmesidir[13]. Deflatör:Parasal de!erleri, enflasyon etkisini
gidererek gerçek de!erlere dönü türen bir endekstir. Bu endekste, sektörel deflatörler
hesaplan rken, baz durumlarda o sektörün kapsad ! mal ve hizmetlerdeki fiyat de!i ikliklerinin a! rl kl ortalamas al nmakta, baz durumlarda da gösterge niteli!indeki
endeksler esas al nmaktad r [2].
Çizelge 1’de çal ma kapsam nda kullan lan de!i kenler verilmektedir. Bu çal mada
literatürdeki bilgiler baz al narak 26 de!i ken i sizlik oran n tahmin etmek üzere
regresyon modeline dahil edilmi tir. Çal man n birçok de!i ken ile gerçekle tirilmesinin
nedeni, i sizlik oran n daha iyi aç klayabilmektir.
453
Çal mada, veriler Türkiye statistik Kurumu’nun “ statistik Göstergeler 1923-2005”,
“ statistik Göstergeler 1923-2007”, “Türkiye statistik Y ll ! 2008”, “Ekonomik
Göstergeler I 2008”, “Ekonomik Göstergeler II 2008”, “Tar m statistikleri Sorularla
Resmi statistikler Dizisi-5” yan s ra devletin di!er kurumlar ndan elde edilmi tir.
Çizelge 1’de yer alan birim bazl de!i kenlere ili kin veriler dolar cinsinden Türkiye
statistik Kurumu’nun istatistiki göstergelerinden bulunmu tur. Veriler, ait olduklar y la
ili kin dolar kuru fiyat ile çarp l p TL birimindeki de!erleri elde edilmi tir.
Çizelge 1.
t
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11
X12
X13
X14
X15
X16
X17
X18
X19
X20
X21
X22
X23
X24
X25
X26
sizli!i etkiledi!i dü ünülen de!i kenler
Y l Etkisi
thalat De!eri (Bir Trilyon $, TL)
thalat De!i im Oran (%)
thalat Dolar Kuru TL
hracat De!eri (Bir Trilyon $, TL)
hracat De!i im Oran (%)
hracat Dolar Kuru TL
Döviz Kuru (Al ) TL
Döviz Kuru (Sat ) TL
gücü nüfus art h z (100)
GSMH (Trilyon TL)
Cari fiyatlarla GSMH büyüme h z TL
Sabit fiyatlarla GSMH büyüme h z TL
Cari fiyatlarla ki i ba na GSMH TL
Sabit fiyatlarla ki i ba na GSMH TL
Harcama / GSMH TL
Bütçe Aç ! / GSMH TL
Toplam Yat r mlar n GSMH‘ ya Oran TL
Kamu yat r mlar TL
Özel yat r mlar TL
Kamu yat r mlar / Toplam Yat r mlar
Özel Yat r m / Toplam Yat r m
Tasarruf mevduat faiz oran
TCMB reeskont faiz oran
GSMH deflatörü
GSY H TL
D ticaret hacmi (Trilyon $, TL)
3. statistiksel yöntemler
3.1. Temel Bile#enler
Temel bile enler analizi orijinal de!i kenlerin bir kaç do!rusal kombinasyonlar arac l !
ile varyans-kovaryans yap s n n aç klanmas i lemidir. Genel hedef, de!i ken indirgeme ve
yorumlama yapabilmenin yan s ra rank sorununa kar önlem alma ve varyans-kovaryans
matrisindeki do!rusal ili kinin kald r lmas d r [7,12].
454
3.2. Çok DeGi#kenli DoGrusal Regresyon Modeli
Regresyon analizi ile ilgili birçok uygulamada birden fazla aç klay c de!i kenin yer ald !
durumlar söz konusudur. Birden fazla aç klay c de!i kenin yer ald ! regresyon modeline
çok de!i kenli regresyon modeli denir. sizlik oran n aç klamak için temel bile en sonucu
elde edilen bile ke de!i kenler aç klay c de!i ken olarak örnek gösterilebilir[4,5].
4. Sonuç ve Öneriler
Aç klay c de!i kenler aras ndaki korelasyon ili kisi incelendi!inde temel bile enler
yap lmas uygundur. F1, F2, F3, F4, F5 ve F6 bile kelerinin aç klay c de!i kenleri çal mada
yer almaktad r ve buradaki de!i kenlere ili kin anlams z olan katsay lar n ortadan
kald r lmas için geriye do!ru eliminasyon yöntemi yap ld ! nda modelden ç kar lan
de!i kenler F1, F4 ve F6 eklindedir. Bu de!i kenler ç kar lm olsa bile çok de!i kenli
durumdaki R ili ki de!eri 0.794 olarak yer almaktad r.
Elde edilen regresyon modeli ise a a! da verilmektedir. F1, F2, F3, F4, F5 ve F6
de!i kenlerinin tümünün yer ald ! regresyon modelinde R de!eri 0.799 olarak yer almakta
ve F1, F4 ve F6 de!i kenlerini ç karm olman n getirdi!i bir dezavantaj söz konusu
de!ildir.
Ŷi
= 8.389600+0.105268t-0.286506F2-0.224856F3-0.322893F5 + )ˆ i
(1)
Bekil 1. Art klar n da! l m n n sorgulanmas
Trend etkisi t, F2, F3 ve F5 bile keleri ve i sizlik oran na göre olu turulmu do!rusal
regresyon modeline göre rekil 1’de art klar n da! l m Kolmogorov-Smirnov test
istatisti!ine göre normal da! l m göstermektedir.
455
Bekil 2. Tahmin de!erlerine kar art klar
rekil 2’ye göre tahmin de!erleri ile art klar aras nda bir ili ki yoktur. Varsay mlar
sa!land ! na göre test model ve katsay lar na ili kin ç kar m sürecini gerçekle tirmek
uygundur. Buna göre, (1) regresyon modeli p = 0.0 < S = 0.1 oldu!undan regresyon modeli
anlaml d r.
(1) nolu e itlikle elde edilen regresyon modelinin de!i kenleri olan t, F2, F3 ve F5 için,
s ras yla, p = 0.0, 0.001, 0.008, 0.049 < S/2 = 0.05 olmas nedeniyle modele ili kin
katsay larda anlaml d r.
Yukar daki (1) denkleminde, F2, F3 ve F5 bile kelerinin yerine bile enleri olan X1, …, X26
yaz ld ! nda a a! da verilen i sizlik oran n tahmin eden regresyon modeli (2) yer
almaktad r.
=
8.389600+0.105268t-0.02441X1+0.048408X2+0.006408X30.00653X4+0.220603X5+0.005861X6-0.00944X7-0.00944X8+0.082747X9+0.026292X100.08902X11+0.005631X12-0.08922X13+0.003696X14-0.10292X15+0.125415X160.15493X17-0.04725X18-0.12901X19+0.040619X20-0.04062X21-0.08723X22-0.20851X230.15386X24-0.11755X25-0.01777X26 + )ˆ i
(2)
Ŷi
(2)’deki regresyon modeline göre; y ldan kaynaklanan etkiyi aç klayabilmek yani verilerde
dura!anl ! kazand rabilmek için t de!i keninden yararlan lm t r. Buna göre 1982-2006
y llar aras nda her y la ili kin etki 0.105268’dir.
Çizelge 2. sizlik oran n etkileyen de!i kenlere ili kin katsay lar n de!erleri
X23
-0.20851
X18
-0.04725
X6
X17
-0.15493
X21
-0.04062
X3
X24
-0.15386
X1
-0.02441
X10
X19
-0.12901
X26
-0.01777
X20
X25
-0.11755
X7
-0.00944
X2
456
X15
-0.10292
X8
-0.00944
X9
X13
-0.08922
X4
-0.00653
X16
X11
-0.08902
X14
0.003696
X5
X22
-0.08723
X12
0.005631
0.005861
0.006408
0.026292
0.040619
0.048408
0.082747
0.125415
0.220603
Çal mada kullan lan X1,…,X26 de!i kenleri negatif katsay l lardan pozitif olanlara do!ru
s ralanmaktad r. De!i kenlerden biri ele al n p di!erleri sabit tutuldu!unda i sizlik oran
üzerindeki etkileri Çizelge 2’de verilmektedir. Burada de!i kenlerin katsay lar n n negatif
olup en küçük olanlar ndaki art i sizlik oran ndaki azal mda en büyük etkiyi yapm
oldu!u anlam na gelir.
Kaynaklar
[1] Anadolu Üniversitesi Yay nlar , (2002), ktisada Giri .
[2] http://www.bilgininadresi.net/Madde/14876/Deflat%C3%B6r (09.01.2009)
[3] A. M. Sharp, C. A. Register, P.W. Grimes, (2003), Economics of Social Issues, McGraw Hill
Professional.
[4] John Neter, Michael H. Kutner, Christopher J. Nachtsheim and William Wasserman (1996),
Applied Linear Statistical Models, Fourth Edition, Irwin Book Team.
[5] Douglas C. Montgomery and Gergo C. Runger, (2002), Applied Statistics And Probability for
Engineers, Third Edition, John Wiley & Sons, USA.
[6] J.O. Rawlings, D.A. Dickey, S.G. Pantula, (1998), Applied Regression Analysis: A Research Tool,
Springer-Verlag, New York, s. 434-444.
[7] J. W. Pratt, H. Raiffa, R. Schlaifer, (2001), Introduction to Statistical Decision Theory, MIT Press,
London, England.
[8] D. N. Gujarati, Çevirenler: Ü. renesen, G.G. renesen, (2006), Temel Ekonometri, Literatür
Yay nc l k.
[9] B. G. Tabachnick, L. S. Fidell, (2007), Using Multivariate Statistics, Fifth Edition, Pearson
International Edition.
[10] W. Mendenhall, T. Sincich, (1996), A Second Course in Statistics: Regression Analysis, Fifth
Edition, Prentice Hall.
[11] R. A. Johnson, D. W. Wichern, (1998), Applied Multivariate Statistical Analysis, Prentice-Hall
International Editions, p. 356-357.
[12] www.tbb.org.tr/turkce/gruplar/makroekonomik/08112007.ppt (09.01.2009)
[13] http://tr.wikipedia.org (07.04.2009)
457
Ya!am Çözümlemesinde Zay fl k Modeli
Nihal ATA
Durdu KARASOY
M. Tekin SÖZER
Hacettepe Üniversitesi,
Fen Fakültesi,
statistik Bölümü,
06800, Beytepe, Ankara
(0312) 299 20 16 /141
[email protected]
Hacettepe Üniversitesi,
Fen Fakültesi,
statistik Bölümü,
06800, Beytepe, Ankara
(0312) 299 20 16 / 122
[email protected]
Hacettepe Üniversitesi,
Fen Fakültesi,
Aktüerya Bilimleri Bölümü,
06800, Beytepe, Ankara
(0312) 297 79 10
[email protected]
Özet
Ya#am verileri için en çok kullan:lan regresyon modeli Cox regresyon modelidir ve bu model
orant:l: hazardlar varsay:m:na kar#: duyarl:d:r. Bu varsay:m:n saGlanmad:G: durumlarda farkl:
ya#am modellerinin kullan:lmas: önerilmektedir. Bu çal:#mada, orant:l: hazardlar varsay:m:n:n
saGlanmad:G: durumda zay:fl:k modeli incelenmi# ve mide kanseri hastalar:na ait veri kümesini
içeren say:sal bir örnek modeli aç:klamak için kullan:lm:#t:r.
Anahtar sözcükler: Cox regresyon modeli, Orant:s:z hazardlar, Parametrik regresyon
modelleri, Zay:fl:k modeli
Abstract
Frailty Model in Survival Analysis
The Cox regression model is the most commonly used regression model for survival data and
sensitive to proportional hazards. In the violation of proportional hazards, several survival
models are suggested. In this study, frailty model was investigated in case of nonproportional
hazards and a numerical example which includes a data of stomach cancer patients is done to
clarify the model .
Keywords: Cox regression model, Nonproportional hazards, Parametric regression models,
Frailty model
1. Giri!
Ya am verileri için en çok kullan lan ya am modeli Cox regresyon modelidir ve bu modelin temel
varsay m orant l hazardlard r. Cox regresyon modelinde orant l hazardlar varsay m
sa!lanm yorsa farkl ya am modellerin kullan m önerilmektedir. Bu modeller, tabakaland r lm
Cox regresyon modeli, zamana ba!l aç klay c de!i kenli Cox regresyon modeli, parametrik
regresyon modelleri ve zay fl k (frailty) modeli biçiminde s ralanabilmektedir.
Bu çal mada, orant l hazardlar varsay m n n sa!lanmad ! durumlarda kullan labilen zay fl k
modeli incelenmi tir. Orant l hazardlar varsay m n sa!lamayan mide kanseri hastalar na ait veri
kümesi kullan larak parametrik ya am modellerinin ve zay fl k modelinin uygulamas yap lm t r.
2. Orant s z Hazardlar ve Zay fl k Modeli
458
2.1. Orant:s:z Hazardlar
Cox regresyon modelinin temel varsay m olan orant l hazardlar varsay m , hazard oran n n
zamana kar sabit olmas ya da bir bireyin hazard fonksiyonunun di!er bireyin hazard
fonksiyonuna orant l olmas anlam na gelmektedir [22]. Bu varsay m n sa!lanmamas durumunda
Cox regresyon modeli yerine farkl ya am modelleri kullan lmaktad r. Bu modellerden biri olan
zay fl k modeli, orant s z hazardlar için kullan lan modellere e de!er olarak kullan labilmektedir
[18].
2.2. Zay:fl:k Modeli
Zay fl k modeli ile ilgili ilk çal malar Vaupel v.d. (1979) taraf ndan yap lm ve “zay fl k”
kavram benzer özelliklere bireyler aras nda ya am sürelerindeki farkl l klar aç klamak için
kullan lm t r. Vaupel v.d. (1979) mortalite çal malar nda ve Lancaster (1979) i sizlik sürelerinin
modellenmesinde zay fl k modelini kullanm t r. Daha sonra zay fl k modeli Andersen v.d. (1993),
Aalen (1994), Hougaard (1995), Klein ve Moeschberger (1997), O’Quigley ve Stare (2002) ve
Stare ve O’Quigley (2004) taraf ndan incelenmi tir.
Zay fl k modeli, payla lm (shared) ve payla lmam (unshared) zay fl k modelleri olmak üzere
ikiye ayr lmaktad r. Payla lmam zay fl k modeli bireyler aras ndaki heterojenli!i ve payla lm
zay fl k modeli ise gruplar aras heterojenli!i modellemek için kullan lmaktad r.
2.2.1. Payla#:lmam:# Zay:fl:k Modeli
Zay fl k modeli, bireyler aras ndaki heterojenli!i aç klamak için ölçülemeyen rasgele etkiyi
(unmeasured random effect) hazard fonksiyonuna dahil eden bir modeldir [13].
h(t), t zaman ndaki hazard fonksiyonu ve S ölçülemeyen aç klay c de!i ken (zay fl k) olmak üzere
zay fl k modeli,
h (t / ) = h (t)
(1)
biçiminde yaz lmaktad r. Zay fl k teriminin (S) birim ortalamaya ve sonlu varyansa (~) sahip
oldu!u varsay lmaktad r.
Zay fl k modeli hazard fonksiyonu üzerinde gözlemlenemeyen etkiyi (S) aç klamaktad r ve zay fl k
terimi üzerindeki ko ul E itlik 1’deki gibi verilmektedir. S, birim ortalamaya ve ~ varyans na sahip
pozitif bir niceliktir. S > 1’e sahip olan bireylerin aç klay c de!i kenler taraf ndan aç klanamayan
nedenlerden dolay daha fazla zay f oldu!u ve artan ba ar s zl k riskine sahip oldu!u ifade edilir.
S < 1’e sahip olan bireylerin aç klay c de!i kenler taraf ndan aç klanamayan nedenlerden dolay
daha az zay f oldu!u ve bu bireylerin daha uzun ya ama e!ilimine sahip oldu!u belirtilir [9].
Payla lmam zay fl k modelinde bireysel ya am fonksiyonu S( t / ) = [S( t )] biçimindedir.
Burada S(t) standart ya am modelinin ya am fonksiyonudur. Kitle ya am fonksiyonu ise,
gözlemlenemeyen S’lar üzerinden integral al narak hesaplan r. Zay fl k terimi (S), g(S) olas l k
yo!unluk fonksiyonuna sahip ise, kitle ya da ko ulsuz ya am fonksiyonu E itlik 2’deki gibi verilir:
+
S (t ) =
. [S( t )] g(
)d .
(2)
0
Burada verilen ~ alt indisi zay fl k teriminin varyans na ba! ml l ! vurgulamaktad r.
Zay fl k modeli ile ilgili çal malar n birço!u zay fl k teriminin da! l m n n seçimini içermektedir
[5, 8, 10, 17, 23, 25, 26]. Çal malarda zay fl k terimi için en çok kullan lan da! l m, Gamma ya da
459
ters Gaussian da! l mlar d r. Bu da! l mlar n d nda normal ve lognormal da! l m, bile ik Poisson
da! l m kullan labilmektedir [1, 2, 12].
S, birim ortalama ve ~ varyans ile gamma da! l m na sahip ise, olas l k yo!unluk fonksiyonu ve
ya am fonksiyonu s ras yla E itlik 3 ve E itlik 4’de verildi!i biçimdedir:
1/
g( ) =
1
exp( / )
,
U (1 / ) 1 /
S ( t ) = [1
ln S( t )]
1/
(3)
.
(4)
S, birim ortalama ve ~ varyans ile ters Gaussian da! l ma sahip ise, olas l k yo!unluk fonksiyonu
ve ya am fonksiyonu s ras yla,
1/ 2
1
g( ) =
exp
3
2'
1
2
2+
1
(5)
ve
S ( t ) = exp
1
(1
(1
2 ln S( t ) )
1/ 2
)
(6)
biçimindedir [7, 9, 13].
2.2.1.1. Olabilirlik Fonksiyonu
Ya am fonksiyonu ve hazard fonksiyonu aras ndaki ili ki S üzerinde ko ulsuzdur, bu nedenle kitle
hazard fonksiyonu,
d
1
S ( t )[S ( t )]
dt
h (t ) =
(7)
biçimindedir. i.gözlem için zaman aral ! (t 0i , t i ] olsun. ti ba ar s zl k zaman olmak üzere birey ti
zaman nda ba ar s z olmu sa di = 1, ti zaman nda durdurulmu ise di = 0 olsun. Buna göre,
log-olabilirlik fonksiyonu
ln L = ln
n
i =1
=
n
[S i (t i )]1 d [f i ( t i )]d
i
i
S i ( t 0i )
[ln S i (t i )
ln S i ( t 0i ) + d i h i ( t i )]
, i = 1,..., n
i =1
biçimindedir. Burada h i ( t ) = h ( t / x i ) ’dir [7, 9, 13].
2.2.2. Payla#:lm:# Zay:fl:k Modeli
460
(8)
Payla lm zay fl k modelinde, zay fl k teriminin grup içinde sabit oldu!u varsay lmaktad r ve
zay fl k grup içi korelasyonu modellemek için kullan lmaktad r. Bu modellerle ilgili ilk çal malar
Clayton (1978), Clayton ve Cuzick (1985) taraf ndan yap lm t r. Hougaard (1986a) Weibull
bireysel hazardlar ile payla lm zay fl k modelini, Whitmore ve Lee (1991) üstel bireysel
hazardlar ile ters Gaussian payla lm zay fl k modelini ve Sahu v.d. (1997) ise Gibbs
örneklemesini kullanarak Bayesci payla lm modelini incelemi lerdir. Pickles v.d. (1994) ve
Yashin v.d. (1995) ise çal malar nda payla lm zay fl k modelini ayn grup içindeki gözlemler
aras nda farkl fakat ili kili zay fl k terimlerine izin verecek biçimde geli tirmi lerdir.
Bu model, bireylerin ayn zay fl k terimini payla malar na izin vermektedir. Ayn zay fl k terimini
payla mak, bireyler aras ndaki ba! ml l ! ortaya ç karmaktad r.
n gruptan olu an bir veri için
h ij ( t /
i)
=
, j = 1,2,...n i
i h ij ( t )
(9)
biçimindedir. ni, i. gruptaki birey say s n
göstermekte ve h ij ( t ) = h ( t / x ij ) biçimindedir.
i. gruptaki herhangi bir birey için, standart hazard fonksiyonu payla lm zay fl k Si ile
çarp lmaktad r. Bu durumda ko ulsuz ya am fonksiyonu ise,
Sij ( t /
i)
[
= Sij ( t )
]
(10)
i
biçimindedir [7, 9, 13].
2.2.2.1. Olabilirlik fonksiyonu
n grup say s n göstermek üzere her bir gruptaki birey say s ni (j=1,…,ni, i=1,…,n) olmak üzere
i. gruptaki j. birey için ba lang ç zaman , biti zaman ve ba ar s z ya da durdurulmu olmas
( t 0ij , t ij , d ij ) ile gösterilsin. Bu durumda olabilirlik fonksiyonu,
L ij (
i)
=
i)
Sij ( t 0ij /
i
biçimindedir. D i =
Li (
i)
[h
)
Sij ( t ij /
=
Di
"
ij ( t ij
ni
j=1
/
i)
]
d ij
=
S ij ( t ij )
Sij ( t 0ij )
i
[
i h ij ( t ij )
]
d ij
(11)
d ij olursa, i.grup için olabilirlik fonksiyonu
ni
Sij ( t ij )
j=1
Sij ( t 0ij )
i
[h
ij ( t ij )
]
d ij
(12)
biçimindedir.
Si ye göre integral al narak i. grup olabilirlik fonksiyonu
+
.
Li = Li (
i )g (
i )d
(13)
i
0
biçiminde hesaplan r. Zay fl k terimi Gamma da! l m na sahip ise Li a a! daki gibi hesaplan r:
461
Li =
ni
j=1
[h
ij ( t ij )
]
d ij
U(1 / + D i )
U(1 / )
Di
1
ni
Sij ( t ij )
" ln S
j=1
ij
( t 0ij )
.
(14)
Zay fl k terimi ters Gaussian da! l m na sahip ise, Li nin hesaplan
fonksiyonunu içermektedir) [7, 9, 13].
daha karma kt r (BesselK
3. Say sal örnek
Uygulamada, mide kanseri olan 106 hastaya ait bilgiler kullan larak say sal bir örnek yap lm t r.
Mide kanseri hastalar n n ya am sürelerini etkileyen faktörler ya am çözümlemesi yöntemleri
kullan larak belirlenmeye çal lm t r. Hastalar n ölümü ba ar s zl k olarak ifade edilmi tir.
Çal ma süresinin sonunda ba ar s zl k ile kar la mayan hastalar ise durdurulmu olarak
tan mlanm t r. Hastalar n ba ar s zl k ya da durdurma süreleri ya am süresi (min=1 ay, max=67
ay) olarak al nm t r.
Hastalar n izlenme süresi sona erdi!inde 106 hastadan 67’sinde (%63.2) ba ar s zl k ve 39’unda
(%36.8) durdurma gözlenmi tir. Uygulamada ya , kemoterapi, patolojik evre, cinsiyet metastaz,
sigara içme, alkol, ülser tedavisi, aile öyküsü, tümör boyutu, kas eksilmesi ve radyoterapi
de!i kenleri çözümlemeye al nm t r. Bu de!i kenler ve de!i kenlerin düzeyleri Çizelge 3.1.’de
verilmi tir.
Çizelge 3.1. Mide kanseri verisi için kullan lan de!i kenler ve düzeyleri
De<i!ken
Ya
Kemoterapi
Patolojik Evre
Cinsiyet
Metastaz
Sigara çme
Alkol
Ülser Tedavisi
Aile Öyküsü
Tümör Boyutu
Kas Eksilmesi
Radyoterapi
De<i!ken
Düzeyleri
Toplam Olay
Say s (%)
Ba!ar s z Olay
Say s
Durdurulmu!
Olay
Say s
56.68 ± 1.2
Yok
Var
1
2
3
Kad n
Erkek
Yok
Var
Yok
Var
Yok
Var
Yok
Var
Yok
Var
1
2
Yok
Var
Yok
Var
11 (%10.4)
95 (%89.6)
14 (%13.2)
23 (%21.7)
69 (%65.1)
33 (%31.1)
73 (%68.9)
74 (%69.8)
32 (%30.2)
54 (%50.9)
52 (%49.1)
94 (%88.7)
12 (%11.3)
61 (%57.5)
45 (%42.5)
79 (%74.5)
27 (%25.5)
27 (%25.5)
79 (%74.5)
102 (%96.2)
4 (%3.8)
34 (%32.1)
72 (%67.9)
1 (%2.6)
38 (%97.4)
2 (%5.1)
6 (%15.4)
31 (%79.5)
12 (%30.8)
27 (%69.2)
16 (%41.0)
23 (%59.0)
20 (%51.3)
19 (%48.7)
35 (%89.7)
4 (%10.3)
25 (64.1)
14 (35.9)
27 (%69.2)
12 (%30.8)
5 (%12.8)
34 (%87.2)
37 (%94.9)
2 (%5.1)
14 (%35.9)
25 (%64.1)
10 (14.9)
57 (85.1)
12 (%17.9)
17 (%25.4)
38 (%56.7)
21 (%31.3)
46 (%68.7)
58 (%89.6)
9 (%13.4)
34 (%50.7)
33 (%49.3)
59 (%88.1)
8 (%11.9)
36 (53.7)
31 (46.3)
52 (%77.6)
15 (%22.4)
22 (%32.8)
45 (%67.2)
65 (%97.0)
2 (%3.0)
20 (%29.9)
47 (%70.1)
462
Çal mada SAS 9.1 paket program n n SAS/LIFETEST, SAS/PHREG, SAS/LIFEREG alt
modülleri ve STATA 8 paket program kullan lm ve mide kanseri verisi için Cox regresyon
modeli, parametrik regresyon modelleri ve zay fl k modeli ile çözümleme yap lm t r.
Çal mada öncelikle orant l hazardlar varsay m n n sa!lan p sa!lanmad ! Schoenfeld art klar ile
ya am sürelerinin rank aras ndaki korelasyon testi kullan larak incelenmi ve metastaz de!i keni
için orant l hazardlar varsay m n n sa!lanmad ! görülmü tür (p= 0.0001). Buna göre klasik Cox
regresyon modeli yerine parametrik regresyon modelleri ya da zay fl k modelinin veri için daha
uygun olaca! dü ünülerek bu modeller incelenmi tir.
Parametrik regresyon modellerinde uyum iyili!i Cox-Snell art klar kullan larak incelenmektedir.
Ŝ R (r ) , SR(r)’nin Kaplan-Meier tahmin edicisidir. Cox-Snell art ! ri ve Cox-Snell art ! n n ya am
fonksiyonunun Kaplan-Meier tahmin edicisi Ŝ R (r ) olmak üzere ri’nin log Ŝ R (r ) ’ye kar grafi!i
bir e!im ve s f r kesi im ile düz bir do!ru ise parametrik modelin ilgilenilen veri kümesi için uygun
oldu!u sonucuna ula l r [16].
Mide kanseri verisi için her bir da! l ma ait Cox-Snell art klar elde edilmi ve Cox-Snell art k
grafikleri rekil 3.1.’de verilmi tir.
3,00
2,00
2,00
-logS(r)
-logS(r)
3,00
1,00
1,00
0,00
0,00
0,00
1,00
2,00
0,00
3,00
1,00
Üstel
3,00
Weibull
2,00
2,00
1,50
1,50
-logS(r)
-logS(r)
2,00
r
r
1,00
1,00
0,50
0,50
0,00
0,00
0,00
0,50
1,00
1,50
0,00
2,00
0,50
1,00
1,50
2,00
r
r
Loglojistik
Lognormal
-logS(r)
3,00
2,00
1,00
0,00
0,00
1,00
2,00
3,00
r
Gamma
Bekil 3.1. Parametrik ya am modellerinden elde edilen Cox-Snell art k çizimleri
463
Cox-Snell art k grafiklerine göre lognormal regresyon modelinin veri kümesi için uygun oldu!u
söylenebilir ancak kesin olarak uygun parametrik regresyon modeline karar verilebilmek için
model kar la t rma kriterleri de kullan lm t r. Çal ma kapsam nda Üstel, Weibull, Loglojistik,
Lognormal ve Gamma parametrik regresyon modellerine ait -2logL, Akaike bilgi kriteri (AIC) ve
Bayesci bilgi kriteri (BIC) elde edilmi tir. Veri kümesi için Gamma regresyon modeli sonuçlar
yak nsama sa!lanamad ! ndan elde edilememi tir. Di!er modellere ait sonuçlar Çizelge 3.2’de
verilmi tir.
Çizelge 3.2. Parametrik regresyon modelleri için model kar la t rma kriterleri
Parametrik Regresyon Modeli
Üstel
Weibull
Loglojistik
Lognormal
-2LogL
168.61
160.64
160.14
158.80
AIC
198.61
192.64
192.14
190.80
BIC
194.94
186.97
186.47
185.13
En küçük -2logL, AIC ya da BIC de!erine sahip model lognormal regresyon modeli oldu!undan
veri kümesi için bu modelin kullan lmas n n uygun olaca! görülmektedir. Buna göre lognormal
regresyon modeli için elde edilen sonuçlar Çizelge 3.3’te verilmi tir.
Çizelge 3.3. Lognormal regresyon çözümlemesinin sonuçlar
De<i!ken
Sabit
Kemoterapi
Patolojik Evre
Cinsiyet
Ya
Metastaz
Sigara çme
Alkol
Ülser Tedavisi
Aile Öyküsü
Tümör Boyutu
Kas Eksilmesi
Radyoterapi
g
5.22
-0.74
-0.17
-0.54
0.18
0.00
-0.60
-0.36
0.17
0.48
-0.63
-0.46
-1.31
0.49
Std. Hata
0.93
0.72
0.68
0.80
0.37
0.01
0.27
0.33
0.44
0.28
0.31
0.56
0.67
0.30
%95 Güven Aral <
(3.39. 7.05)
(-2.15. 0.67)
(-1.50. 1.17)
(-2.11. 1.04)
(-0.55. 0.90)
(-0.03. 0.02)
(-1.12. -0.08)
(-1.01. 0.28)
(-0.69. 1.03)
(-0.07. 1.02)
(-1.23. -0.02)
(-1.57. 0.64)
(-2.62. -0.01)
(-0.09. 1.08)
Ölçek
0.94
0.12
(0.74. 1.20)
z
5.60
-1.02
-0.25
-0.67
0.48
-0.32
-2.26
-1.11
0.39
1.72
-2.03
-0.83
-1.97
1.64
p-de<eri
0.000
0.305
0.806
0.504
0.635
0.747
0.024
0.268
0.693
0.085
0.043
0.408
0.049
0.100
Çizelge 3.3’teki p de!erleri incelendi!inde metastaz, aile öyküsü ve kas eksilmesi de!i kenlerinin
ba ar s zl ! etkileyen önemli risk faktörleri oldu!u %95 güven düzeyinde söylenebilmektedir.
Metastaz olmayan hastalar n ortanca ya am süresi metastaz olan hastalara göre yakla k 1.82 kat
(exp(0.60)=1.82) daha fazlad r. Aile öyküsü olmayan hastalar n ortanca ya am süresi aile öyküsü
olan hastalara göre 1.88 (exp(0.63)=1.88) kat daha fazlad r. Kas eksilmesi olmayan hastalar n
ortanca ya am süresi kas eksilmesi olan hastalara göre 3.71 (exp(1.31)=3.71) kat daha fazlad r.
Hazard fonksiyonunda gözlemlenemeyen faktörlerden aç !a ç kan bireysel farkl l klar n orant s z
hazardlara neden olabilece!i dü ünülerek zay fl k modeli mide kanseri verisi için kullan labilir.
Uygun bulunan lognormal regresyon modeli dikkate al narak ve zay fl k terimi için Ters Gaussian
da! l m kullan larak lognormal zay fl k modeli elde edilmi ve sonuçlar Çizelge 3.4’te verilmi tir.
464
Çizelge 3.4. Lognormal zay fl k modeli sonuçlar
De<i!ken
Sabit
Kemoterapi
Patolojik Evre
Cinsiyet
Ya
Metastaz
Sigara çme
Alkol
Ülser Tedavisi
Aile Öyküsü
Tümör Boyutu
Kas Eksilmesi
Radyoterapi
j
4.63
-0.96
0.20
-0.45
0.23
-0.01
-0.15
-0.53
0.44
0.54
-0.46
-0.74
-1.34
0.82
Std. Hata
0.70
0.49
0.50
0.61
0.37
0.01
0.28
0.28
0.36
0.26
0.28
0.47
0.60
0.37
%95 Güven Aral <
(3.25, 6.00)
(-1.93, 0.00)
(-0.77, 1.17)
(-1.64, 0.75)
(-0.49, 0.95)
(-0.03, 0.0)
(-0.69, 0.40)
(-1.09, 0.03)
(-0.27, 1.15)
(0.02, 1.05)
(-1.00, 0.08)
(-1.66, 0.19)
(-2.51, -0.16)
(0.09, 1.54)
z
6.58
-1.95
0.40
-0.73
0.63
-1.77
-0.52
-1.87
1.22
2.02
-1.65
-1.56
-2.23
2.21
p-de<eri
0.00
0.06
0.69
0.46
0.53
0.08
0.60
0.06
0.22
0.04
0.10
0.12
0.03
0.03
ln_p
ln_~
-1.18
3.36
0.83
2.15
(-2.81, 0.44)
(-0.85, 7.57)
-1.43
1.56
0.15
0.12
p
~
0.31
28.79
0.25
61.81
(0.06, 1.56)
(0.43, 1936.11)
~’n n olabilirlik oran testi: p= 0.009
Çizelge 3.4’teki p de!erleri incelendi!inde ülser tedavisi, kas eksilmesi ve radyoterapi
de!i kenlerinin ba ar s zl ! etkileyen önemli risk faktörleri oldu!u %95 güven düzeyinde
söylenebilmektedir. Ülser tedavisi gören hastalar n ortanca ya am süresi ülser tedavisi görmeyen
hastalara göre 1.72 (exp(0.54)=1.72) kat daha fazlad r. Kas eksilmesi olmayan hastalar n ortanca
ya am süresi kas eksilmesi olan hastalara göre 3.82 (exp(1.34)=3.82) kat daha fazlad r. Radyoterapi
gören hastalar n ortanca ya am süresi radyoterapi görmeyen hastalara göre 2.27 (exp(0.82)=2.27)
kat daha fazlad r.
Zay fl k terimi ~’n n modele dahil edilip edilmemesine karar vermek için olabilirlik oran testi
kullan lm ve ki-kare de!eri 5.64 ve p-de!eri 0.009 bulunmu tur. Buradan zay fl k teriminin
model üzerinde etkisi oldu!u ve modele dahil edilmesi gerekti!i sonuçlar na ula lm t r. Buna
göre lognormal regresyon modeli yerine lognormal zay fl k modelinin veri kümesi için
kullan lmas n n daha uygun oldu!u söylenebilmektedir.
Çal mada incelenen mide kanseri verisi için Akaike bilgi kriteri de!erleri kar la t r ld ! nda
lognormal zay fl k modelinin (AIC=185.13), lognormal regresyon modeline (AIC=190.80) ve Cox
regresyon modeline (AIC=317.68) göre daha uygun oldu!u sonucuna ula lm t r. Orant s z
hazardlar n olmas durumunda birimler/bireyler aras ndaki gözlemlenemeyen farkl l klar modele
dahil eden zay fl k modelinin Cox regresyon modeline göre daha iyi sonuç verdi!i görülmektedir.
4. Sonuç ve öneriler
Bu çal mada orant s z hazardlar durumunda kullan lan zay fl k modeli incelenmi ve mide kanseri
hastalar na ait veri kümesi ile parametrik regresyon modelleri ile zay fl k modelinin kullan m ele
al nm t r. ncelenen veri kümesi için zay fl k modeli Cox regresyon modeline göre daha uygun
sonuçlar vermi tir. Buna göre ya am verilerinin analizinde orant l hazardlar varsay m
incelendikten sonra kullan lacak ya am modeline karar verilmelidir. Orant l hazardlar varsay m
sa!lan yorsa Cox regresyon modeli, sa!lanm yorsa ve ya am süresinin ya da parametrik regresyon
modelinde hata teriminin da! l m na ili kin bilgi olmas durumunda ise da! l ma uygun parametrik
465
regresyon modellerinin ya da birimler/bireyler aras ndaki heterojenli!in önemli olmas durumunda
da zay fl k modelinin kullan lmas n n daha uygun sonuçlar verece!i yorumu yap labilmektedir.
Kaynaklar
[1] O.O. Aalen. (1988). Heterogeneity in Survival Analysis. Statistics in Medicine. 7. 1121 – 1137.
[2] O.O. Aalen. (1992). Modelling Heterogeneity in Survival Analysis by the Compound Poisson
Distribution. Annals of Applied Probability. 4 (2). 951 – 972.
[3] O.O. Aalen. (1994). Effects of Frailty in Survival Analysis. Statistical. Methods in Medica.
Research. 3. 227-243.
[4] P.K. Andersen. O. Borgan. R.D. Gill. N. Keiding. (1993). Statistical models based on counting
processes. Springer Verlag. New York.
[5] D. Clayton. (1978). A Model For Association in Bivariate Life Tables and Its Applications in
Epidemiological Studies Of Familial Tendency in Chronic Disease Incidence. Biometrika. 65. 141–
151.
[6] D. Clayton. J. Cuzick. (1985). Multivariate Generalisations of the Proportional Hazards Model (with
discussion). Journal of the Royal Statistical Society. Series A. 148. 82–117.
[7] D. Collett (2003). Frailty models. Modelling Survival Data in Medical Research. Chapman&Hall. .
New York. s.320-323.
[8] P. Congdon. (1995). Modelling Frailty in Area Mortality. Statistics in Medicine.14. 1859-1874.
[9] R.G. Gutierrez. (2002). Parametric Frailty and Shared Frailty Survival Models. The Stata Journal.
2(1). 22-44.
[10] P. Hougaard. (1984). Life Table Methods for Heterogeneous Populations: Distributions Describing
the Heterogeneity. Biometrika. 71. 75–83.
[11] P. Hougaard. (1986a). A Class of Multivariate Failure Time Distributions. Biometrika. 73.671–678.
[12] P. Hougaard. (1986b). Survival Models for Heterogeneous Populations Derived from Stable
Distributions. Biometrika. 73. 387-396.
[13] P. Hougaard. (1995). Frailty Models for Survival Data. Lifetime Data Analysis. 1. 255–273.
[14] J.P. Klein. M.L. Moeschberger. (1997). Multivariate survival analysis. Survival Analysis Techniques
for Censored and Truncated Data. Dietaz. K.. Gail. M.. Krickeberg. K.. Samet. J.. Tsiatis. A. (eds.).
Springer. New York. s.405-422.
[15] T. Lancaster. (1979). Econometric Methods for the Duration of Unemployment. Econometrica. 47.
939–956.
[16] E.T. Lee. J.W. Wang. (2003). Parametric Methods for Regression Model Fitting and Identification of
Prognostic Factors. Statistical Methods for Survival Data Analysis. Wiley&Sons. New York.
[17] D. Oakes. (1982). A Concordance Test for Independence in the Presence of Censoring. Biometrics.
38. 451-455.
[18] J. O’Quigley. J. Stare. (2002). Proportional Hazards Models with Frailties and Random Effects.
Statistics in Medicine. 21. 3219-3233.
[19] A. Pickles. R. Crouchley. E. Simonoff. L. Eaves. J. Meyer. M. Rutter. J. Hewitt. J. Silberg. (1994).
Survival Models for Developmental Genetic Data: Age of Onset of Puberty and Antisocial Behavior
in Twins. Genetic Epidemiology. 11. 155 – 170.
[20] S.K. Sahu. D. K. Dey. H. Aslanidou. D. Sinha. (1997). A Weibull Regression Model with Gamma
Frailties for Multivariate Survival Data. Lifetime Data Analysis. 3. 123–137.
[21] J. Stare. J. O’Quigley. (2004). Fit and Frailties in Proportional Hazards Regression. Statistics in
Medicine. 21. 3219-3233.
[22] T.M. Therneau. P.M. Grambsch.. (2000). Testing proportional hazards. Modelling Survival Data:
Extending the Cox Model. Dietaz. K.. Gail. M.. Krickeberg. K.. Samet. J.. Tsiatis. A. (eds.).
Springer. New York. s.127-152.
[23] J.W. Vaupel. K. Manton. E. Stallard. (1979). The Impact of Heterogeneity in Individual Frailty on
The Dynamics of Mortality. Demography. 16. 439–454.
[24] G.A. Whitmore. M.L. T. Lee. (1991). A Multivariate Survival Distribution Generated by an Inverse
Gaussian Mixture of Exponentials. Technometrics. 33. 39–50.
[25] A.I. Yashin. I.A. Iachine. (1995). Genetic Analysis of Durations: Correlated Frailty Model Applied
to Survival of Danish Twins. Genetic Epidemiology. 12. 529 – 538.
[26] A.I. Yashin. J.W. Vaupel. I.A. Iachine. (1995). Correlated Individual Frailty: An Advantageous
Approach to Survival Analysis of Bivariate data. Mathematical Population Studies. 5. 145 – 159.
466
Veri Madencili<i’nde Yap sal Olmayan Verinin
Analizi: Metin ve Web Madencili<i
M. Özgür Dolgun
Tülin Güzel Özdemir
Doruk O!uz
SPSS, Çankaya Mah. Mahmut
Yesari Sk. No:8/5
06550-Çankaya, Ankara, Türkiye
[email protected]
SPSS, Zümrütevler Atatürk Cd.
Nazmi lker Sk. No:24
34852-Maltepe, stanbul, Türkiye
SPSS, Zümrütevler Atatürk Cd.
Nazmi lker Sk. No:24
34852-Maltepe, stanbul, Türkiye
[email protected]
Özet
Verinin büyük boyutlara ula#mas: ve bilgisayarlar donan:mlar:n:n yüksek kapasitede analiz yapabilecek seviyelere
gelmeleri ile birlikte analistler karma#:k ko#ullar ile kar#: kar#:ya kalmaktad:rlar. Bu ko#ullar:n çoGu depolama
ayg:tlar:n:n etkinliGi ve yap:sal olmayan verinin analizine baG:ml:d:r. Merrill Lynch’in yapt:G: bir tahminde; potansiyel
olarak kullan:lan bütün verilerin yakla#:k %80’inin yap:sal olmayan türde olduGunu ifade etmi#tir. Bu büyük ve karma#:k
yap:daki yap:sal olmayan veri analistlere yeni f:rsatlar açmaktad:r. Bu çal:#mada, yap:sal ve yap:sal olmayan veri tek tek
ve beraber analiz edilmi#tir. Elde edilen modeller birbirleri ile kar#:la#t:r:lm:# ve en iyi model tespit edilmi#tir.
Anahtar sözcükler: Veri madenciliGi; Metin madenciliGi; Web madenciliGi; Model kar#:la#t:rma; Churn analizi.
Abstract
Unstructured Data Analysis in Data Mining: Text and Web Mining
As data becomes large-scale, as megabytes become cheaper, as CPU speed becomes faster, we as analysts will be faced
with more complex requirements. Many of these requirements will depend on the efficient storage and analysis of
unstructured data. Merrill Lynch has recently estimated that over 80% of all potentially usable business information
exists as unstructured data. The huge amount and complexity of unstructured data opens up many new opportunities for
the analyst. In this study, we analyze structured and unstructured data both one by one and together. All generated
models compare each other and then discovered which one is the best.
Keywords: Data mining; Text mining; Web mining; Model comparison; Churn analysis.
1. Giri!
Son y llarda bilgi sistemleri ve teknolojinin geli mesi sonucunda; kamu kurum ve kurulu lar ,
i letmeler ve di!er kurulu lar veritabanlar nda kurulu un amac na ve yap s na ba!l olarak çe itli
türlerde veri toplamaktad r. Fakat bu veriler i lenmedi!i sürece anlams z bir veri y ! n olarak
veritabanlar nda depolanmaktad r [2].
Uygun yaz l mlar n geli imi ve firmalar n toplad ! veriyi kullan labilir bilgiye çevirme iste!i
toplanan bu veriyi i leyerek, verinin içerisindeki kullan labilir ve ilginç ili kilerin, birlikteliklerin
ve örüntülerin (patterns) ortaya ç kar lmas n gerekli hale getirmi tir. Günümüzde pek çok kurum
verilerini mü teri nitelikleri ve mü terilerin sat n alma örüntülerine ili kin yararl , kullan l bilgiler
elde edecek yöntemler ile i lemeye ba lamam t r. Ham veri zengini, nitelikli bilgi (knowledge)
fakiri durumunda olan kurumlar n rekabetçi piyasada ba ar l olmalar ve ba ar lar n sürdürmeleri
her geçen gün daha da zorla maktad r. Veri toplaman n önemini kavram olan ve geçmi e yönelik
sorgularla veriden en üst düzeyde fayda sa!layamayaca! n görmeye ba layan bütün kurumlar n en
büyük yard mc s veri madencili!idir [6].
467
Veri madencili!i mevcut veriden anlaml bilgileri, ili kileri ç karmada kullan lan tekniklere verilen
genel isimdir. Veri madencili!i yap sal veriyi analiz edebilmekte iken, metin ve web madencili!i
yap sal olmayan veriyi analiz edip verinin yap sal hale dönü türülmesinde kullan lmaktad r. Farkl
birçok alanda kullan labilen veri madencili!inin alt alanlar ndan Metin ve Web Madencili!i bu
çal mada bir uygulama üzerinden incelenecektir.
2. Veri, Metin ve Web Madencili<i
Veri madencili!i büyük veri y ! nlar nda gizli olan örüntüleri ve ili kileri ortaya ç karmak için
istatistik ve yapay zeka kökenli çok say da ileri veri çözümleme yönteminin tercihen görsel bir
programlama ara yüzü üzerinden kullan ld ! bir süreçtir. Veri madencili!i algoritmalar ;
istatistiksel algoritmalar, matematiksel algoritmalar ve yapay zeka algoritmalar n (sinir a!lar ,
karar a!açlar , kohonen a!lar, birliktelik kurallar vb.) bir arada içerir [6].
Veri madencili!i genel olarak yap sal veriyi analiz edebilmektedir. Veri madencili!i araçlar ve
algoritmalar metin (veya web) verisindeki kal plar bulmadan veya model olu turmadan önce
metin (veya web) verisinin yap sal olmas gerekmektedir. Metin ve Web madencili!i i lemleri, veri
madencili!inde kullan lacak yap sal veriye ula mak için kullan lan araçlar olarak tan mlanabilir.
Metin ve web madencili!i son y llarda oldukça fazla çal lan birbiri ile ili kili alanlard r. Metin
madencili!i, çok büyük belgelerin analizi ve metin tabanl verinin içerisindeki gizli kal plar n elde
edilmesidir. Web madencili!i ise, web içerikleri, sayfa yap lar ve web ba!lant istatistiklerinin de
içinde oldu!u web ile ili kili olan verinin analizini içermektedir [8].
2.1. Yap:sal ve yap:sal olmayan veri
Yap sal veri, bir yap içerisinde organize edilebilen ve bundan dolay tan mlanabilen gerçek veri
için kullan lan bir terimdir. En s k kullan lan evrensel yap sal veri türü SQL ve Access gibi veri
kaynaklar d r. Örne!in SQL (Structured Query Language), kolon (de!i ken) ve sat r (kay t) bazl
bilginin seçimine imkan vermektedir. Yap sal veri, içerikteki veri tipine göre organize edilebilen ve
arama yap labilen veridir. Buna kar n yap sal olmayan verinin tan mlanabilir bir yap s yoktur. En
çok bilinen yap sal olmayan veri türleri; resim dosyalar , pdf, word ve text gibi metin dosyalar ,
web üzerinde tutulan log dosyalar ve e-postalard r. E-postalar veritabanlar nda Microsoft Outlook
gibi araçlar ile organize edilebilmesine ra!men bu tür veriler herhangi bir yap sal veri türü ile
e le mediklerinden ham veri olarak dü ünülür. Excel gibi hücre yap s na sahip veri türleri yap sal
olmas na ra!men halen yap sal ve yap sal olup olmama konusundaki yeri tart lmaktad r.
Birçok kurumun verisinin ço!u yap sal olmayan veri olarak veritabanlar nda tutulmaktad r. Merrill
Lynch’in yapt ! bir tahminde; potansiyel olarak kullan lan bütün verilerin yakla k %80’inin
yap sal olmayan türde oldu!unu ifade etmi tir [4, 8, 9].
2.2. Metin madenciliGi
Veri farkl ekillerde bulunabilir. Baz lar otomatik veri analizi için üstesinden gelinebilir ve uygun
iken baz lar çok daha zordur. Al lm veri analiz yöntemleri verinin de!i ken ve kay t bazl
düzenlendi!i varsay m ile i lem yapmaktad r. Buradaki soru, e!er veri metin format nda yani
kay tlar n ve de!i kenlerin olmad ! bir yap da ise ne yapmam z gerekti!idir. Metin verisindeki
anlam n ortaya ç kar labilmesi için kullan lan yöntem metin madencili!idir.
Metin yaz m nda standart kurallar olmad ! ndan dolay bilgisayar bunlar anlayamamaktad r. Her
bir metnin dili ve içerdi!i anlam amaca ba!l olarak çe itlilik göstermektedir. Yap sal olmayan
bilgiden içerik ç karmak için kullan lan geleneksel yöntemler; anahtar kelimeler veya mant ksal
aramalar, istatistiksel veya olas l ksal algoritmalar, sinir a!lar ve kal p ke fedici sistemler gibi
dilbilimsel olmayan yöntemlerdir.
468
Bu yöntemler, hem sorgudaki hem de metindeki kelimelerin karakterlerini kar la t ran bir temele
dayan r. Bundan dolay içeri!i aç klay c sonuçlar elde edemez. Dili anlam n n temeli dilbilimsel
yollara dayan r ve bu ço!unlukla Natural Language Processing (NLP) olarak ifade edilir. NLP’yi
içeren bir sistem, karma k ifadelerin bulundu!u terimleri ak ll olarak ç karabilmekte ve terimleri
s n flayarak ürünler, organizasyonlar veya ki iler gibi s n flara atamaktad r.
Metin madencili!i do!al dil metinlerinden bilgi ve nitelikli bilgi ç kar lmas sürecidir. ki a amada
gerçekle ir.
•
Anahtar içerik/ifadeler metinden ç kar l r,
•
Ç kar lan içerik/ifadeler, yüksek dereceden ili kili oldu!u kategorilere atan r.
Metin madencili!i uygulamalar iki ana s n fta ayr labilir:
•
Metnin anla lmas /özetlenmesi: Metin madencili!inin amaçlar ndan bir tanesi metinden
anlaml nitelikli bilginin ç kar lmas d r. Böylece metnin içerdi!i anahtar içerik
anla labilecektir. Örne!in, yava tamir veya sipari lerin gibi sorunlar yüzünden ikayet
eden mü terilerin oran n ö!renmek isteyebiliriz.
•
Metin ile modelleme: Daha yayg n olarak, metin madencili!i terk etme veya ürün alma gibi
mü teri davran lar n n tahmin edildi!i bir modelin geli tirilmesi a amas n n bir bölümünü
olu turmaktad r. Metinden içerik ç karma i lemi girdi de!i keni gibi kullan l r, di!er
bilgiler ile beraber öngörüsel model geli tirilir.
Veri madencili!i girdi olarak sadece yap sal veriyi kullanmaktad r. Bundan dolay veri madencili!i
çözümleri ve algoritmalar kullan larak metin verisinden kal plar bulunup, modeller kurulmadan
metindeki bilgi yap sal olmak zorundad r. Kategorilerin olu turulmas ile yap sal olmayan veri
yap sal hale dönü türülerek demografik bilgiler gibi standart bilgi ekline dönü mektedir.
Metin madencili!inin uygulama alanlar ndan baz lar ;
•
CRM: Bütün mü terilerin e-mail, i lem, ça!r merkezi ve anket gibi eri im noktalar ndan
elde edilen metinden nitelikli bilgi ç kar l r. Bu nitelikli bilgi mü terinin terk ve çapraz
sat lar n tahmin etmek üzere kullan l r.
•
Fraud (Sahtekarl k) Tespiti: Sa!l k, sigorta ve hükümet taraf nda toplanan büyük çaptaki
metin verilerinde kal plar ve anormallikler aranarak sahtekarl klar tespit edilir.
•
Bilimsel ve Medikal Ara t rmalar: Hasta raporlar , makale ba l klar , yay nlanm
ara t rma sonuçlar ve di!er yan nlar gibi metin materyallerinden ç kar m yap l r.
•
Güvenlik/ stihbarat: Organizasyonlar ve bireyler aras ndaki kal plar ve ba!lant lar, terörist
tehlikeleri ve kriminal davran lar tahmin etmek ve engelleyebilmek için büyük çaptaki
metin içerisinde aran r.
•
Pazar Ara t rmas : Yay nlanm belgeler, bas n bültenleri ve web sayfalar Pazar etkisinin
ölçülmesi için aran r ve izlenir. Metin madencili!i kantitatif yöntemler ile aç k uçlu anket
sorular ve mülakatlar n de!erlendirilmesinde kullan labilmektedir [5].
2.3. Web madenciliGi
Veri madencili!i genel olarak yap sal veriyi analiz edebilmektedir. Web madencili!i i lemleri
kullan larak yap sal olmayan web verileri yap sal veriye dönü türülür.
469
Web madencili!i uygulamalar temel olarak üç alt ba l k alt nda toplanabilir;
•
Web yap madencili!i: Web yap madencili!i ile internetin temel yap s n olu turan web
siteleri, web sayfalar aras ya da web sayfas ndaki ba!lant lar aras ndaki ili kiler incelenir.
•
Web içerik madencili!i: Web içerik madencili!i ile web sayfalar n n içerikleri incelenir ve
kullan l bilgi ç kar m sa!lan r. Web içerik madencili!i kullanarak web sayfalar n n
ba l klar , içerisinde geçen kelimeler, resimler veya müzik dosyalar incelenir. Bulunan
içeriklere göre web siteleri belirli s n flara veya kümelere ayr labilir.
•
Web kullan m madencili!i: Web kullan m madencili!i ile web sunucular nda tutulan
kullan c eri im kay tlar incelenerek anlaml ve faydal kal plar bulunabilir. Web kullan m
madencili!i yöntemleri uygulanarak web sitelerini ziyaret eden ki ilerin davran ve
tutumlar n belirlenebilir.
Web madencili!inin günümüzde birçok alanda kullan lmas n n en önemli sebebi; ki ilerin web
sayfalar nda göstermi olduklar davran lar n, hareketlerin ve yapm olduklar i lem bilgilerinin
var olan i süreçlerine entegrasyonunu sa!layarak mü terinin en iyi ekilde anla lmas n sa!layan
mü teri odakl bir sistem olu turmas d r.
Web madencili!i kullan m alanlar a a! daki gibidir;
•
Web üzerinden ürün sat gerçekle tiren irketler web verilerini analiz ederek mü teri
profili ve kümeleri olu turmaktad rlar.
•
Google vd. di!er arama motorlar web içerik madencili!i uygulayarak aranan anahtar
kelimeyi içeren web sitelerini belirlemektedirler.
•
Web madencili!i uygulanarak web sitelerinin iyile tirilmesi ve güncel kalmas
sa!lanmaktad r [1, 6].
3. Uygulama
Uygulamada Clementine 12.0 kullan larak; 2070 mü teriye ait 17 de!i kenden olu an ve yap sal
veri olan bir telekomünikasyon kurumuna ait mü terilerin churn ( irketi terk etme) verisi
kullan larak, terk eden mü terilere ait karar a!ac ile bir profil çal mas gerçekle tirilerek bir
model elde edilmi tir.
Ayr ca, web log dosyas (mü terilere ait internet üzerinden elde edilen veri) ve metin dosyas (ça!r
merkezlerinden elde edilen mü terilere ait veri) olmak üzere iki tür yap sal olmayan veri
kullan larak bir profil çal mas gerçekle tirilerek bir model elde edilmi tir. Buradan elde edilen
modeller ve daha önce elde edilen modeller kar la t r lm ve her üç veri türü de kullan larak
karma bir model elde edilmi , genel model ba ar s sonucuna ula lm t r.
3.1. Web MadenciliGi
Web madencili!i ile ilgili yap lanlar genel hatlar rekil 1-9 ile anlat lmaya çal lm t r.
470
Bekil 1. Log dosyas n n genel görünümü
rekil 1’de görülen log dosyalar Web Mining for Clementine 12.0 ile analiz edilmi ve yap sal
olmayan log dosyas rekil 2 ve 3’de görüldü!ü gibi kullan labilir olan yap sal ekle
dönü türülmü tür.
Bekil 2. Yap sal veri-grafiksel gösterim
rekil 2’de görüldü!ü gibi log dosyas nda yer alan veriler, olay (event) dosyalar baz al narak çe itli
kategorilere dönü türülmü tür. Örne!in, analiz edilen bu log dosyas içerindeki kay tlar n
%0,65’inin “About Us” sayfas na giri yapan mü terilerden olu tu!u art k bilinmektedir.
471
Bekil 3. Yap sal veri-de!i ken ve kay t bazl gösterim
rekil 3’de ise her bir ID’ye kar l k gelen log dosyalar n n, yap sal ekle nas l dönü tü!ü
görülmektedir.
3.2. Metin MadenciliGi
Metin madencili!i ile ilgili yap lanlar genel hatlar ile a a! daki ekillerde anlat lmaya çal lm t r.
Bekil 4. Metin verisinin genel görünümü
rekil 4.’de metin verisi ile ilgili genel görünüm yer almaktad r. Her bir ID’ye ili kin bir metin
bilgisi yer almaktad r.
472
Bekil 5. Metin verisinin analiz a amas
rekil 5’de metin verisinin analiz a amas ile ilgili ekran görüntüsü yer almaktad r. rekil 5’in sol alt
k sm nda yer alan görüntüde metinden elde edilen içerikler yer almaktad r.
Bekil 6. Yap sal veri-grafiksel gösterim
rekil 6’da terk eden mü teri bilgisine ait de!i ken olan CHURN de!i keninin yap sal hala
dönü türülmü metin verisinden elde edilen yeni de!i kenlerle ili kisini gösteren örnek bir grafik
yer almaktad r. Bu grafi!e göre CHURN de!i keni; fatura, servis ve yard m ile ilgili telefon
aramalar ile ili kilidir.
473
Bekil 7. Yap sal veri-de!i ken ve kay t bazl gösterim
rekil 7’de ise her bir ID’ye kar l k gelen metin dosyalar n n, yap sal ekle nas l dönü tü!ü
görülmektedir.
Yap sal olmayan veri yap sal ve analiz edilebilecek ekle dönü türüldükten sonra; ana veri, web
madencili!inden elde edilen veri ve metin madencili!inden elde edilen veri birle tirilerek genel
veri elde edilmi tir.
Her bir veri tek ba! na ve birlikte analiz edilerek modeller aras kar la t rma gerçekle tirilmi tir.
Bekil 8. Modellerin beraber kullan m
474
Bekil 9. Modellerin kar la t r lmas
4. Sonuç ve Öneriler
Yap sal veri kullan larak elde edilen model ile yap sal olmayan verinin metin ve web madencili!i
yöntemleri kullan larak yap sal hale getirilen ve buradan elde edilen model kar la t r lm t r. Metin
ve web madencili!i yöntemleri kullan larak elde edilen modelin sonuçta daha ba ar l oldu!u
görülmü tür (rekil 9). Yap sal olmayan verideki nitelikli bilginin ç kar l p modele entegre
edilebilmesi ile en son modelin daha ba ar l oldu!u sonucu beklenmeyen bir olgu de!ildir.
Dünya üzerindeki potansiyel olarak kullan lan bütün verilerin yakla k %80’inin yap sal olmayan
türde oldu!u dü ünüldü!ünde, bu verilerin kullan lmas kesinlikle ara t rmalara katma de!er
katacakt r.
Kaynaklar
[1] Chakrabarti, S. (2003), Mining the Web: Discovering Knowledge from Hypertext Data, Morgan
Kaufmann Publishers, San Francisco.
[2] Dolgun, M.Ö. (2006), Büyük Al veri Merkezleri çin Veri Madencili!i Uygulamalar , Yüksek
Lisans Tezi, Hacettepe Üniversitesi Fen Bilimleri Enstitüsü, Ankara.
[3] Han, J., Kamber, M. (2001), Data Mining: Concepts and Techniques, Morgan Kaufmann
Publishers, San Francisco.
[4] Hearst, M. (2009), What is text mining, http://www.sims.berkeley.edu/~hearst/textmining.html.
[5] Introduction to Text Mining (2008), SPSS Inc.
[6] Liu, B. (2007), Web Data Mining: Exploring Hyperlinks, Contents and Usage Data, Springer.
[7] Özdemir Güzel, T., Dolgun, M.Ö., rat r, U., Delilo!lu, S., Korkmaz, H.E. (2007), 2005 Y l Ö!renci
Seçme S nav (ÖSS) Verileri Kullan larak Ö!renci Profilinin Belirlenmesi, 5. statistik Kongresi,
Antalya.
[8] Tan, A.H., Yu, P.S. (2004), Guest Editorial: Text and Web Mining, Applied Intelligence 18, 239241, Kluwer Academic Publisher.
[9] Unstructured data (2009), http://en.wikipedia.org/wiki/Unstructured_data.
[10] W. Fan, L. Wallace, S. Rich, Z. Zhang. (2006), Tapping into the power of text
mining, Communications of ACM, 49(9), 76-82.
475
Matematikte ba!ar üzerine ö<rencilerin kendileriyle
ilgili görü!leri
brahim Demir
Y:ld:z Teknik Üniversitesi
Fen Edebiyat Fakültesi
statistik Bölümü
34210-Esenler, stanbul, Türkiye
[email protected]
Serpil K:l:ç
Y:ld:z Teknik Üniversitesi
Fen Edebiyat Fakültesi
statistik Bölümü
34210-Esenler, stanbul, Türkiye
[email protected]
Özet
Bu çal:#ma Uluslararas: ÖGrenci DeGerlendirme Program: (PISA) 2003’deki Türkiye verileri kullan:larak matematik
ba#ar:s: ile öGrencilerin kendileri ile ilgili görü#leri aras:ndaki ili#kiyi incelemek amac:yla yap:lm:#t:r. Çok a#amal:
modele uygun olan veri setimizde 1. a#ama öGrencileri, 2. a#ama ise okullar: temsil etmektedir. 1. a#ama baG:ml:
deGi#keni matematik ba#ar:s:, baG:ms:z deGi#kenleri cinsiyet, ekonomik sosyal kültürel statü, öGrencilerin matematikte
kendileriyle ilgili görü#leri, 2. a#ama baG:ms:z deGi#kenler ise okul türleri ve okula ayr:lm:# olan kaynaklard:r. Elde
ettiGimiz bulgulara göre, erkekler k:zlara göre matematikte daha yüksek performansa sahiptir. Matematik ba#ar:s:
deGi#keni üzerinde en fazla okul türleri ve öGrencinin matematikte kendini yeterli görmesi deGi#kenlerinin etkili olduGu
görülmektedir. Yani matematikte kendini yeterli gören öGrencinin ba#ar:s: daha yüksektir.
Anahtar sözcükler: Öz yeterlik, Matematik Kayg:s:; Matematik Ba#ar:s:, Hiyerar#ik Lineer Modeller, P SA.
Abstract
Students’ Self-related Cognitions on Mathematics Achievement
The purpose of this study was to examine the relationship between mathematics achievement and students’ self-related
cognitions in mathematics. The sample was prepared from students who participated in Programme for International
Student Assessment (PISA) in Turkey. Analysis was done with multilevel regressions. These clustered data set with a two
level hierarchical structure examined students nested within different school types. Findings showed that male students
had higher performance than female students. School types and students’ mathematics self-efficacy variables had strong
effects on mathematics achievement. In other words, students who have higher self-efficacy had strong positive effects on
mathematics achievement.
Keywords: Mathematics Self-Efficacy; Mathematics Anxiety; Mathematics Achievement; Hierarchical Linear Models;
PISA.
1. Giri!
Matematik günlük hayat m zda çok önemli bir yere sahip olmas na ra!men, birçok zorlu!a
sahiptir. Bu zorluk sebebiylede ö!rencilerde matematik kayg s olarak adland r lan bir olgu
olu maktad r. Literatürde de matematik kayg s ö!rencilerin korkular diye tan mlan r.
Kayg ; korku, s k nt ve endi eden olu an psikolojik bir durumdur. Ö!rencilerin matematik
kayg s asl nda ilkö!retimin ilk y llar ndan itibaren, ö!renci velilerinin ve ö!retmenlerin
matematik dersi ile olumsuz dü ünceler söylemesinin de etkisiyle ortaya ç kabilmektedir
(Williams, 1988; Thomas & Furne, 1997). Velilerin ve ö!retmenlerin matematik dersi ile
ilgili bu tür olumsuz davran lar söylemesine ra!men, ö!rencilere matemati!in gelecekte
de çok önemli oldu!unu vurgulanmaktad r. Bunun sonucu olarak da, ö!rencilerde
karma k dü ünceler olu maktad r. Ayn zamanda ö!rencinin özgüveni, ö!renme yöntemi,
476
ailenin ö!renciden yüksek beklentisi, ö!retmen davran lar , matemati!e kar negatif
tutumlar ve ö!rencinin matematikteki dü ük ba ar s da matematikte kayg y olu turur (Ma
& Xu, 2004; Woodard, 2004).
Matematik kayg s olan ö!rencilerin matematik performanslar n n azald ! , yani
performans ve kayg n n ili kili oldu!u ortaya ç km t r (Hopko et. al., 2003). Kazelskis
(1999) ve Gierl & Bisenz (1995) çal malar nda ö!rencilerin ailelerinin gözünde de!er
kaybedecek olmalar “Matemati!i yapam yorum” ve “Matemati!i sevmiyorum” gibi
dü üncelerin meydana gelmesine sebep oldu!unu belirtmi lerdir. Ayr ca Marsh (1990)
çal mas nda matematik ve fen derslerine kar yeteneklerinin ba ar da pozitif etkisi oldu!u
bulmu tur. Erkeklerin k zlardan daha çok özgüvenlerinin oldu!u da Fennema ve
Sherman’ n çal mas nda göstermi tir.
Matematik kayg s kadar performansta önemli rol oynayan bir di!er olgu ise Öz yeterliktir.
Öz yeterlilik kavram , Bandura taraf ndan geli tirilen ve ki ilerin sahip olduklar becerileri
etkin ekilde kullanabilmeleri için, önce ilgili alanda özgüven duymalar gerekti!ini
savunan sosyal ö!renme kuram n n anahtar kavram d r (Pajares, 2002). Kotaman (2008)
ise öz yeterli!i, ki inin belli bir görevi ba arabilece!ine dair inanc olarak tan mlamaktad r.
Bu inanç da ki inin göreve ili kin davran a te ebbüs edip etmemesini ve performans n
etkiler. Ayr ca özellikle sosyal psikoloji alan nda geli tirilmi bir kavram olan öz yeterli!in
pek çok alanda uyguland ! ve farkl disiplinlerde kullan ld ! görülmektedir (Akkoyunlu
ve Orhan, 2003; Schunk, 1985). Fen bilimleri, matematik, bilgisayar teknolojileri ö!retimi
ve e!itim bilimleri bu alanlardan sadece birkaç d r.
E!itim alan nda yap lan ulusal de!erlendirme çal malar n n yan s ra, uluslararas düzeyde
konumumuzu belirlemek amac yla e!itim göstergelerine ihtiyaç duyulmaktad r. Bu
nedenle belirli referans noktalar na göre ülkemizin e!itim alan nda hangi düzeyde
oldu!unun, giderilmesi gereken eksikliklerin ve al nmas gereken tedbirlerin belirlenmesi
ve bu sayede de e!itim düzeyinin yükseltilmesi amac yla bir OECD ülkesi olarak ülkemiz
Uluslararas Ö!renci De!erlendirme Program (PISA) projesine ilk olarak 2003 y l nda
kat lm t r. PISA projesinden elde edilen sonuçlar, e!itim-ö!retim programlar n n
geli tirilmesinde, kar la lan eksikliklerin giderilmesinde ve e!itim alan nda yap lan
ara t rmalara kaynak olarak kullan labilir. Böylece e!itim sistemimize kazand r lan
yeniliklerin ilk sonuçlar n n uluslararas nitelikteki bir perspektiften geçirilmesi imkân n
do!uracakt r. Bu sonuçlar e!itim sistemimizde niteli!i artt rmaya yönelik reform
çal malar na da katk da bulunacakt r (MEB, 2003).
2. Uygulama
PISA endüstrile mi ülkelerdeki 15 ya grubu ö!rencilerinin kazand klar bilgi ve beceriler
üzerinde 3’er y l arayla yap lan bir çal mad r. PISA 2003 projesinin test ve anketleri,
ülkemizde 2003 y l n n May s ay nda 7 co!rafi bölgeden tesadüfi yöntemle seçilen 12
ilkö!retim okulu ve 147 lisede okumakta olan 1987 do!umlu toplam 4855 ö!renciye
yap lm t r.
Çal man n amac , matematik ba ar s ile ö!rencilerin kendileri ile ilgili görü leri
aras ndaki ili kiyi incelemektir. Çok a amal modele uygun olan veri setimizde 1. a ama
ö!rencileri, 2. a ama ise okullar temsil etmektedir. Bu çal mada, 1. a ama ba! ml
de!i keni matematik ba ar s , ba! ms z de!i kenleri cinsiyet, ekonomik sosyal kültürel
statü, matematik kayg s ve matematikte kendini yeterli görme, 2. a ama ba! ms z
477
de!i kenleri ise okul türleri ve okula ayr lm olan kaynaklard r. Veri SPSS paket program
ile analiz edilmi tir.
3.1. ÖGrenci a#amas: deGi#kenleri
Matematik Ba#ar:s: (MB), Bir ö!rencinin matematik performans matemati!in 4 alan nda
ölçülmü tür ve bu alanlar s ras yla Uzay ve rekil (Geometri), De!i me ve li kiler (Cebir),
Say (Aritmetik) ve Belirsizlik (Olas l k)’tir. Testlerde ö!rencilere gerçek ya amlar nda
kar abilecekleri tarzda 85 farkl problem sorulmu tur. Genellikle bir yaz veya ema ile
ifade edilen bir matematiksel durum ile ilgili olarak birkaç sorunun cevaplanmas
istenmi tir (PISA, 2003).
Matematikte Kendini Yeterli Görme (MY); Ö!rencilere Matematik alan ndaki
yeterliliklerine ili kin dü ünceleri hakk nda sorular sorulmu tur. Bireyin kendi kabiliyeti
ile ilgili dü ünceleri ve kendisini herhangi bir konuda yeterli görmesi ba ar yla yak ndan
ilgilidir (Marsh, 1986). Ülkemizdeki 15 ya grubu ö!rencilerinin bu gruptaki sorulara
vermi olduklar cevaplar Çizelge 1’de cevap yüzdeleri biçiminde gösterilmi tir.
Çok
Güveniyorum
Güveniyorum
Çok Az
Güveniyorum
Hiç
Güvenmiyorum
Çizelge 1. 15 Ya grubu ö!rencilerimizin Matematikte kendini yeterli görme ile ilgili
dü ünceleri aç s ndan cevap seçeneklerine da! l
%17,9
%43,6
%30,6
%7,9
%29,9
%42,9
%21,6
%5,6
%25,9
%39,8
%27,0
%7,2
Gazetelerde verilen grafiklerin anla! lmas
%25,5
%42,3
%24,9
%7,4
3x+5=17 gibi bir e!itli<in çözümü
%54,5
%26,8
%12,9
%5,9
%25,8
%34,8
%29,5
%9,9
%39,2
%31,3
%21,1
%8,4
%18,5
%36,2
%33,2
%12,0
Tren var ! kalk ! çizelgesini kullanarak, bir yerden
di<erine ula!man n ne kadar zaman alaca< n n
hesaplanmas
%30 indirimden sonra bir televizyonun ne kadar
ucuzlayaca< n n hesaplanmas
Bir zemini kaplamak için kaç metrekare fayansa
gereksinim duyulaca< n n hesaplanmas
1:10.000 ölçekli bir haritadan iki yer aras ndaki gerçek
uzunlu<un bulunmas
A!a< daki türden bir e!itli<in çözümü
2(x+3)=(x+3)(x-3)
Bir araban n yak t tüketim oran n n hesaplanmas
Matematik Kayg:s: (MK); Ö!rencilerden matematikle u!ra rken kendilerini ne derecede
çaresiz ve duygusal stres alt nda hissettikleri sorulmu tur. Ki ini kendi kendisine ili kin
bilgileri dikkate al nd ! nda matematikte s k nt içinde olman n ba ar y etkiledi!i
görülmektedir (Meece ve ark., 1990). Ülkemizdeki 15 ya grubu ö!rencilerinin bu gruptaki
be soruya vermi olduklar cevaplar Çizelge 2’de cevap yüzdeleri biçiminde
gösterilmi tir. Bu tabloya göre ö!renciler genel olarak matematikte kayg lanmakta,
problem çözerken sinirlenmekte ve çaresiz kald ! n hissetmektedirler.
478
Tamamen
Kat l yorum
Kat l yorum
Kat lm yorum
Hiç
Kat lm yorum
Çizelge 2. 15 Ya grubu ö!rencilerimizin kayg ile ilgili dü ünceleri aç s ndan cevap
seçeneklerine da! l
Matematikte derslerinde genellikle zorluk çekerim
diye kayg lan r m
%21,1
%43,4
%25,5
%9,9
Matematik ödevlerini yaparken çok gergin olurum
%15,0
%34,5
%35,2
%15,3
Matematik problemlerini çözerken çok sinirlenirim
%12,8
%27,3
%43,3
%16,6
Matematik sorunlar n çözerken çaresiz kald < m
duygusuna kap l r m
%12,6
%33,1
%41,0
%13,1
Matematikte kötü not alaca< m diye endi!elenirim
%26,1
%41,8
%21,8
%10,3
Ekonomik, Sosyal Kültürel Statü (ESCS); Bu indeks hesaplan rken aile altyap s n gösteren
üç farkl de!i ken kullan lm t r. Bu de!i kenler; en yüksek anne baba e!itim düzeyi, en
yüksek anne baba mesleki statüsü ve toplam gelirden olu maktad r.
3.2. Okul a#amas: deGi#kenleri
Okula Ayr:lm:# Olan Kaynaklar (OK); Okullara tahsis edilen e!itim kaynaklar n n kalitesi
ile ö!renci performans aras nda ili ki kurulur. P SA’da okul müdürlerine, okullar ndaki
baz kaynaklar n ne derecede yeterli oldu!una dair sorular sorulmu tur ve bunlara vermi
olduklar cevaplar Çizelge 3’te cevap yüzdeleri biçiminde gösterilmi tir.
Hiçbir Zaman
Çok Az
Bir Ölçüye
Kadar
Çok
Çizelge 3. Okul Müdürlerimizin, okuldaki e!itim kaynaklar kalitesindeki eksikliklerin 15
ya ö!rencilerinin ö!renmelerini engelleme derecesi ile ilgili dü ünceleri aç s ndan cevap
seçeneklerine da! l
E<itim araç gereçleri (örne<in ders kitaplar )
%1,3
%11,4
%34,2
%53,2
Ö<retimde kullan lacak bilgisayarlar
%5,7
%14,5
%35,8
%44,0
Ö<retimde kullan lacak bilgisayar programlar
%5,7
%16,5
%34,8
%43,0
Ö<retimde kullan lacak hesap makineleri
%25,9

Benzer belgeler