Sıfır Ağırlıklı Sayma ile Elde Edilen Veriler İçin Çok Seviyeli ZIP

Transkript

Sıfır Ağırlıklı Sayma ile Elde Edilen Veriler İçin Çok Seviyeli ZIP
Yüzüncü Yıl Üniversitesi Fen Bilimleri Enstitüsü Dergisi/ Journal of The Institute of Natural & Applied Sciences 18 (1-2):01-08, 2013
Araştırma Makalesi/Research Article
Sıfır Ağırlıklı Sayma ile Elde Edilen Veriler İçin
Çok Seviyeli ZIP Regresyon*
Suna AKKOL1, Hayrettin OKUT1, Sanem ŞEHRİBANOĞLU2
1
:Yüzüncü Yıl Üniversitesi, Ziraat Fakültesi, Zootekni Bölümü, Biyometri ve
Genetik ABD. Kampüs VAN
2
: Yüzüncü Yıl Üniversitesi, İstatistik Bölümü, VAN.
e-posta: , [email protected]
ÖZET: Çeşitli çalışma alanlarında sıfır ağırlıklı sayma ile elde edilen verilerle
sıklıkla karşılaşılmaktadır. Bu tip veriler için sıfır ağırlıklı Poisson (Zero-inflated
Poisson: ZIP) regresyon ve sıfır ağırlıklı negatif binom (Zero-inflated negatif
binomial: ZINB) regresyon kullanılmaktadır. Üzerinde çalışılan veri kümesi
boylamsal (longitudinal) bir yapıya sahip olduğunda gözlemlerin bağımsızlık
varsayımı geçerliliğini yitirmektedir. Bilinen yöntemler yerine bu tür verilerin
analizi için son yıllarda çok seviyeli modeller kullanılmaya başlanmıştır. Bu
çalışmada, sıfır ağırlıklı sayma ile elde edilen veri kümesinde gözlemlerin
birbirinden bağımsız olmaması durumunda ortaya çıkan problemlerin üstesinden
gelebilmek için çok seviyeli ZIP regresyon modeli kullanılmıştır. Bu amaçla
boylamsal yapıya sahip sıfır ağırlıklı sayma ile elde edilen veri kümesi üzerinde
bir uygulama yapılmıştır.
Anahtar Sözcükler: sıfır ağırlıklı modeller, çok seviyeli modeller, Poisson ve
negatif binomial regresyon, boylamsal veri.
Multilevel ZIP Regression for Zero-Inflated Count Data
ABSTACT: Poisson regression models are often used for analysis of zero-inflated
count data from several studies. Both, zero-inflated Poisson (ZIP) and zero inflated
negative binomial (ZINB) can handle the existing heterogeneity in data structure.
Data are correlated and have hierarchical structure when research study that
involves repeated observations of the same items over long periods of time. The
aim of present paper is to introduce multilevel ZIP model to overcome on
heterogeneity for zero-inflated count data and illustrate techniques for fitting and
interpreting the zero-inflated Poisson regression. We provided an empirical
application and illustration of the multilevel ZIP regression from a longitudinal
study.
Keywords: zero-inflated models, multilevel models, Poisson and Negative
Binomial Regression, longitudinal data
Giriş
Sayma ile elde edilen veriler ile çeşitli
çalışma
alanlarında
sıklıkla
karşılaşılmaktadır. Bu tip verilerin analizinde
genellikle
Poisson regresyon
modeli
kullanılır. Fakat pratikte sayma ile elde edilen
veriler yaygın olarak Poisson dağılışına göre
beklenenden çok sayıda sıfıra sahip
olabilirler. Dolayısıyla bu tür verilere Poisson
veya Negatif Binom regresyon modeli
uygulandığı
takdirde
parametre
tahminlerindeki istenilen sapmasızlık özelliği
geçerliliğini yitirir (Gosh ve diğ., 2006).
1
Poisson dağılışına uymayan çok sayıda
sıfıra sahip sayıma dayalı veri için önerilen
bir yaklaşım sıfır ağırlıklı (zero-inflated)
Poisson dağılışının kullanılmasıdır. İki
parametreli, p ve λ, olan bu dağılışta
populasyonun iki tip bireyden oluştuğu
varsayılır. Bunlardan birincisi p olasılıklı her
zaman sıfır olan sayıma dayalı veri, ikincisi
ise (1-p) olasılıklı Poisson (λ) dağılışlı
sayıma dayalı veriyi içerir. Lambert
(Lambert, 1992), bu dağılışı kullanarak zeroinflated Poisson (ZIP) regresyon isminde
yeni bir model tanıtmıştır. Bu model aslında
: Bu çalışma TÜBİTAK TOVAG 105O204 ve YYÜ BAPB 2006-ZF-B03 tarafından desteklenmiştir.
Akkol ve ark.,
karışımlı
Poisson
(mixture
Poisson)
regresyon modelinin özel bir halidir (Dange,
2004). ZIP regresyon son yıllarda yoğun
olarak çeşitli araştırmacılar (Böhning ve diğ.,
1999, Lee ve diğ., 2001, Cheung, 2002)
tarafından kullanılmaktadır. Veri kümesinin
sıfır olmayan kısımdaki veriler aşırı yayılıma
sahip ise ZIP dağılışı yerine alternatif bir
yaklaşım olarak zero-inflated negatif
binomial (ZINB) dağılışı gibi aşırı yayılımı
dikkate alabilecek bir dağılış önerilmektedir
(Cheung, 2002, Böhning, 1998, Yau ve diğ.,
2003, Sheu ve diğ., 2004).
Sıfır ağırlıklı sayma ile elde edilen
veriler boylamsal (longitudinal) yapıya sahip
olabilirler. Bu tip veriler son yıllarda çok
seviyeli
modelleme
içinde
değerlendirilmektedir (Akkol, 2004, Hall.,
2000; Yau ve Lee, 2001; Hur ve diğ., 2002;
Wang ve diğ., 2002). Lee ve arkadaşları (Lee
ve Diğ., 2006) tarafından sıfır ağırlıklı
boylamsal (longitidunal) sayma ile elde
edilen veriler için çok seviyeli ZIP regresyon
modeli kullanılmıştır.
Bu çalışmada çok sayıda sıfıra sahip
sayma ile elde edilmiş boylamsal veriler için
ZIP, ZINB ve gözlemlerin bağımsızlığını
yitirmesi durumunu dikkate alan çok seviyeli
ZIP regresyon modelleri kullanılacaktır. Bu
amaçla önce ZIP, ZINB ve çok seviyeli ZIP
regresyon modelleri için genel bir
değerlendirme yapılacaktır. Daha sonra çok
sayıda sıfıra sahip sayma ile elde edilmiş
boylamsal veriler için bu üç yöntem
karşılaştırılarak veri setini için en iyi model
tespit edilecektir.
Yöntem
Sıfır ağırlıklı Poisson (Zero-Inflated
Poisson=ZIP) Regresyon Modeli:
ZIP regresyon, şans değişkenleri
Y ’nin karışımlı bir modele sahip olduğunu
ve bunun iki alt populasyondan oluştuğunu
varsayar. Bu alt populasyonlarda biri şans
değişkenlerinin p olasılıkla sıfır değerinin
aldığı ( Y  0 ) populasyonu gösterirken diğeri
ise şans değişkenlerinin 1  p olasılığı ile
değerini
aldığı
alt
Y  yi Poisson i 
populasyonu ifade eder. Bundan dolayı ZIP
aşağıdaki gibi ifade edilir (Gosh ve diğ.,
2006);
 pi  (1  pi ) e  i

if yi  0,
yi ~ 0
Pr(Yi  yi | pi , i )  

 (1  pi ) e  i i yi / yi ! if yi  0, yi ~ Po (i ) yi  1,2.... 
sırayı,  ve  regresyon parametrelerini
göstermektedir. Bu dağılışa ilişkin ortalama
ve varyans sırasıyla, E (Yi )  (1  pi )i
ve
var(Yi )  (1  pi )i (1  pi i ) ifade edilir. Genel
olarak yukarıdaki regresyon modeli için tüm
verilere ait log olabilirlik fonksiyonu (3
numaralı
eşitlik)
kullanılarak
model
parametreleri  ve  tahmini yapılır (Gosh
ve diğ., 2006; Hall., 2000).
Burada i  (1 ,...,  N ) ve pi  ( p1 ,..., p N )
olup, her iki alt populasyonda parametre
tahmini için aynı model kullanılmamaktadır.
p olasılıklı alt populasyon için logit(pi) ve 1-p
olasılıklı Poisson alt populasyonu için ise
bağlantı
(link)
fonksiyonları
log(i)
kullanılarak modelleme yapılır.
log( i )  B i 
(2)
Yukarıda Bi ve Gi, B ve G kovaryet
(açıklayıcı değişken) matrisine ilişkin i’ ninci
log it ( pi )  log  ( pi (1  pi ))  Gi
N








( ,  ; yi )   ui log e Gi  exp  e Bi   (1  u i ) yi Bi   e Bi   log 1  e Gi  (1  u i ) log( yi !)
i 1
Sıfır ağırlıklı Negatif Binomial (ZeroInflated
Negative
Binomial=ZINB)
Regresyon Modeli:
Cevap değişkeni Yi’nin sıfır ağırlıklı
negatif binomial (ZINB) dağılışa sahip
(1)

(3)
olması durumunda pi olasılığı ile Yi~0 ve (1pi ) olasılığı ile Yi~ NB(i ,  ) gösterir ve bu
dağılışın olasılık yoğunluk fonksiyonu,
2
Yüzüncü Yıl Üniversitesi Fen Bilimleri Enstitüsü Dergisi/ Journal of The Institute of Natural & Applied Sciences
Sıfır Ağırlıklı Sayma ile Elde Edilen Veriler İçin Çok Seviyeli ZIP Regresyon
 p  (1  p )(1   )  1
i
i
i

Pr(Yi  y i )  
 yi i yi
 yi   1
(1  pi )
1
y i !  1 1  i  yi 



 
yi  0
ZINB de şans değişkenlerinin Y
karışımlı bir modele sahip olduğunu ve
bunun iki alt populasyondan oluştuğu
varsayılır. ZIP modelinde olduğu gibi p
olasılıklı alt populasyon için logit(pi) ve 1-p
olasılıklı, negatif binom alt populasyonu için
ise log(i) bağlantı (link) fonsiyonları
kullanılarak modelleme yapılır. ZINB
dağılışına sahip herhangi bir cevap değişkeni
için ortalama ve varyans sırasıyla aşağıdaki
gibi verilir.
(5)
E ( yi )  1  pi i ,
yer alan y   0 şeklinde skaler bir büyüklüğü
ifade eder.  ve pi ’nin her ikisin de 0’dan
büyük olduğu durumlarda Yi’nin marjinal
dağılışı  ’dan dolayı aşırı yayılım ve pi ’den
dolayı çok sayıda sıfır içerme durumu
gözlenir. Yukarıda verilen (7) numaralı
eşitlikte pi  0 olduğu zaman negatif
binomial dağılış söz konusu olacaktır. Yine
aynı eşitlikte   0 olması durumunda artık
söz konusu eşitlik ZIP modele indirgenir.
Yi (i  1,..., n) gözlemleri için ZINB logolabilirlik fonksiyonu 6 numaralı eşitlikteki
gibi yazılır (Jansakul, 2005);
Var ( y i )  1  pi i 1  pi i   i 
Burada i ve pi parametreleri aynı zamanda
modelde yer alan açıklayıcı değişkenlere
bağlı olarak değişir ve olasılık fonksiyonunda
   ,  , p; y  
 I 
i


yi 0  log  1 
(4)
yi  0
1
pi 1  i    
 
{ I 
i
yi  0
log1  pi   yi log i  yi log   log yi 
  y i   1 log 1  i   log y i   1   log  1 }
Çok seviyeli (Multi-level) ZIP Regresyon
Modeli:
İki seviyenin olduğu çok seviyeli bir
modelleme probleminde, ilk olarak en yüksek
seviyeden örnek birimler alınır. Daha sonra
mevcut birimlerden alt birimler örneklenir.
Söz konusu alt birimler birinci seviye alt
birimleridir. Buna göre birinci seviyedeki
birimler genellikle tamamen bağımsız
olmazlar (Akkol, 2004; Hox, 1998;
Goldstein, 1995; Agresti ve diğ., 2000). Yij ,
i’ninci bireye ait j’ninci tekrarı göstersin
m
( i  1,2,..., m; j  1,2,..., ni ve
toplam
n n

i
i 1
sayıdır). Buna göre şansa bağlı katsayı ve
eğime sahip iki seviyeli ZIP regresyon
modeli aşağıdaki gibi yazılır.
 pij 
  log it  pij   Gij   w0 i  w1i (7)
 ij  log 
 (1  p ) 
ij 

ij  log( ij )  B ij   u 0i  u1i
Yukarıdaki eşitlikte logit kısımdaki Gij
sabit etkilere ait desen matrisini, 
bilinmeyen
regresyon
parametresini,
w0 i ikinci seviyeye ait şansa bağlı katsayı ve
(6)
w1i şansa bağlı eğimi (slope) göstermektedir.
log kısımdaki Bij sabit etkilere ait desen
matrisini,  bu kısımdaki bilinmeyen
regresyon parametresini, u0 i bu kısımdaki
ikinci seviyeye ait şansa bağlı katsayıyı ve u1i
yine bu kısımdaki ikinci seviyeye ait şansa
bağlı eğimi göstermektedir.
  w2  w 
w  ~ N 0,   ,
w
w  0i
 
0
01

 w21 
u0 i 
 2
u    ~ N 0, u  ,  u   u
u1i 
 u
 u01 

 u21 
w 
 1i 
w

 w01
0
01
(8)
Parametre tahmin edilirken kullanılan
EM algoritmasının (McLachlan¸1997) M
aşamasında  w ve u matris elemanlarının
bilindiği varsayılır. Pratikte bunlar bilinmez
ve tahmin edilmesi gerekir. GLMM’e göre en
iyi doğrusal sapmasız tahminleyici (BLUP)
tipi log-olabilirlik,    1   2 şeklinde iki
kısımda verilir (Lee ve Diğ., 2006; Yau ve
Lee, 2001; Wang ve diğ., 2002).
3
Cilt/Volume: 18, Sayı/Issue1-:2. 2013
Akkol ve ark.,
1 
 exp ij   exp exp ij  

log


1  exp ij 
y ij  0



 y 
ij
ij
(9)

 exp ij   log  y ij !  log 1  exp ij 
y ij  0

1
1
1
ww  m log 2 u  
u u 
 2    m log 2 w  
w
u
2

Başlangıçta
varyans
unsurlarının
sabitlenmesi ile birlikte ZIP model için  1
maksimize edilmeye başlar. Bu, parametre
tahminleme sürecinin ilk aşamasıdır. Daha
sonra kısıtlanmış en çok olabilirlik (REML)
kullanılarak varyans unsurlarının değerleri
güncellenir.  1 ’deki şansa bağlı etkilerde ve
parametre tahminlerinde beklenen düzeyde
(10)
yakınsama
sağlandıktan
sonra
EM
algoritması kullanılır.
Uygulama
Bu çalışmada kullanılan veri kümesi
daha önce Okut ve arkadaşları (Okut ve diğ.,
2005) tarafından yapılan bir çalışmada
kullanılmış olan Amerika Youth Survey’den
alınmıştır. Veri kümesinde kullanılan cevap
değişkeni 5 yıl süre ile bireylerin evden kaçış
sayılarını
ifade
etmektedir.
Şekil 1. Bireylerin 5 yıl süre ile evden kaçış sayılarına ait frekans dağılımı
Uygulama amaçlı sunulan örnekte 5 yıl
süre ile aynı bireylerin her yıl evden kaçış
sayıları Şekil 1’de özetlenmiştir. Modele
bireylerin cinsiyeti, bir yılda kullandıkları
ortalama madde kullanım sayısı, ırkı,
ebeveynlerin evlilik durumu ve aile gelirleri
açıklayıcı değişken olarak dahil edilmiştir.
Çalışmada kullanılan veri kümesinin %
55.22’sini erkekler geriye kalanı bayanlardan
oluşmaktadır. Irklar dikkate alındığında,
beyazlar veri kümesinin %82.36’sını siyahlar
%13.18’ini oluştururken geriye kalan
%4.45’lik
kısmını
diğerleri
olarak
adlandırılan çeşitli ırklardan insanların bir
araya geldiği grubu ifade etmektedir.
Çalışmaya
dahil
edilen
bireylerin
ebeveynlerine ait medeni durumları iki başlık
altına toplanmıştır. Bunlardan ebeveynin evli
olduğu bireylerin toplam bireyler içindeki
oranı % 79.33 iken bekar olanların oranı
%24.67’dir. Ailenin geliri ve madde
kullanımına ilişkin temel istatistikler Çizelge
1’de özetlenmiştir.
Çizelge 1. Analizde
değişkenler
için temel istatistikler
Değişken
Aile geliri
Madde kullanımı
Birinci Yıl
İkinci Yıl
Üçüncü Yıl
Dördüncü Yıl
Beşinci Yıl
kullanılan
Ortalama (St.Sapma)
4.31 (2.33)
5.34 (4.48)
6.22 (5.09)
8.72 (6.36)
9.34 (6.73)
8.75 (4.81)
Bulgular ve Tartışma
Çalışmada kullanılan veri kümesindeki
cevap değişkeni olan bireyin evden kaçış
sayısı yaklaşık olarak %95’i sıfır değerine
sahiptir. Bu oran saymayla elde edilen veriler
için beklenenden daha yüksektir. Dolayısıyla
veri kümesinin analizi için öncelikle ZIP ve
ZINB, daha sonra iki seviyeli ZIP regresyon
analizi uygulanmıştır. Bu amaçla analizler
yapılırken Stata (Stata/SE 9.0) ve SAS (SAS,
2007) paket programları kullanılmıştır. Çok
sayıda sıfıra sahip boylamsal veri kümesi için
kullanılan ZIP ve ZINB regresyon modeli
4
Yüzüncü Yıl Üniversitesi Fen Bilimleri Enstitüsü Dergisi/ Journal of The Institute of Natural & Applied Sciences
Sıfır Ağırlıklı Sayma ile Elde Edilen Veriler İçin Çok Seviyeli ZIP Regresyon
için aynı açıklayıcı değişkenler, modelin hem
lojistik hem de log kısmında değerlendirmeye
alınmıştır. Tahmin edilen parametre sonuçları
Çizelge 2. ZIP ve ZINB regresyon modeline ilişkin sonuçlar
Değişkenler/Parametreler
Logistic  ij  log it pij  Gij 
 
ve bunlara ait standart hatalar Çizelge 2 ile
sunulmuştur.
ZIP
ZINB
Sabit
Gelir düzeyi
Cinsiyet
Madde kullanımı
Etnisite
Medeni durum
Yaş
Log  ij  log(ij )  B ij 
0.1851(.8274)
-0.0701(.0582)
-0.5306(.1705)**
-0.1097(.0135)**
0.6412(.2137)**
-0.2812(.1990)
0.2393(.0419)**
-7.7424(3.068)*
0.1332(.1352)
-0.9605(.4762)*
-0.0929(.0299)**
2.45848(.7818)**
1.2273(.5498)*
0.2963(.1400)*
Sabit
Gelir düzeyi
Cinsiyet
Madde kullanımı
Etnisite
Medeni durum
Yaş
-0.0359(.0741)
-0.3458(.0467)**
-0.4021(.1233)**
0.0029(.0094)
0.7415(.1368)**
-0.0989(.1403)*
0.0847(.0335)
-4.0287(1.446)**
-0.1567(.0694)*
-0.3784(.2778)
0.0816(.0212)**
2.0408(.5310)**
1.0473(.3337)**
-0.0595(.0989)
1.9926(.2770)**
1 
Regresyon modelini iki kısımda
inceleyen sıfır ağırlıklı modellerden ZINB
veri kümesinde sıfır olmayan kısımda aşırı
yayılım olduğu zaman kullanılır. Eğer aşırı
yayılım yoksa ZIP regresyon ZINB’ye tercih
edilen regresyon modeli olur. Çizelge 2
incelendiğinde aşırı yayılımı modelleyen
önemli
olduğu
dikkat
1  ’nin
çekmektedir. Bu parametrenin önemli
olması
aşırı
yayılımın
varlığını
göstermektedir. Bu çalışmada kullanılan veri
kümesi için aşırı yayılımı dikkate alan ZINB
regresyon modeli ZIP modele tercih
edilmektedir.
Üzerinde çalışılan veri kümesi için
elde edilen Voung testi (Moghimbeigi ve
diğ., 2009) sonuçlarına göre ZIP regresyon,
Poisson regresyona tercih edilmiştir. Benzer
sonuç negatif binom için de elde edilmiş ve
ZINB regresyon, NB regresyona tercih
edilen regresyon modeli olarak tespit
edilmiştir. Çok sayıda sıfıra sahip veri
kümesi için bu beklene bir sonuçtur.
Veri kümesindeki boylamsal yapıyı
dikkate alan bir yaklaşım, çok seviyeli
modellemedir. Bu yaklaşım ile bireylere ait
beş tekrarlı olarak elde edilen veri kümesi,
birey içi yıllar olmak üzere bir
sınıflandırmaya sahiptir. Burada tekrarlar
birinci ve bireyler ikinci seviye olmak üzere
veriler iki seviyeli model özelliği
göstermektedir. Bu tip veriler için kullanılan
modellere aynı zamanda büyüme eğrisi
modelleri (growth curve models) ismi de
verilmektedir (Okut ve diğ., 2005). Çok
seviyeli modelleme kullanılarak her iki
seviyeye ilişkin şansa bağlı etkiler ve
dolayısıyla bunlara ait varyans ve
kovaryanslar modele tanıtılmıştır. İki
seviyeli ZIP regresyon modelinden elde
edilen sonuçlar modelin her iki kısmı ( Logit
ve Log) için Çizelge 3’de verilmiştir.
5
Cilt/Volume: 18, Sayı/Issue1-:2. 2013
Akkol ve ark.,
Çizelge 3. Çok seviyeli ZIP regresyon modeline ilişkin sonuçlar
Logit Kısım
Değişkenler
Log Kısım
ij  log(ij )
 pij 
Sabit
0.917


ij  log
 (1 p ) 
Bij   u0i  u1i
Gelir
düzeyi
-0.063
ij


Cinsiyet
-0.570**
 logit pij  Gij w0i  w1i
Madde kullanımı
0.089**
Etnisite
0.283*
Medeni durum
0.067
Yaş
-0.198**
0.0408
Var w0i    w20
Değişkenler
Sabit
Gelir düzeyi
Cinsiyet
Madde kullanımı
Etnisite
Medeni durum
Yaş
Varyans ( ˆ 0i )
-0.5625
-0.400**
-0.506**
0.195**
-0.247**
0.004
0.0107
2.888
Varw1i    w21
0.05912
Varyans( ˆ1i )
0.042
covw0i , w1i    w01
0.2099
Co var yans( ˆ 0i , ˆ1i )
3.304
*:p<0.05, **:p<0.01
Boylamsal yapıya sahip sıfır ağırlıklı
saymayla elde edilen veriler için en iyi
modeli belirlemek üzere ZIP, ZINB ve iki
seviyeli ZIP regresyon modelleri için logolabilirlik, AIC ve BIC değerleri Çizelge 4’te
verilmiştir.
Çizelge 4. Kullanılan Modeller İçin Log-olabilirlik, AIC ve BIC Değerleri
Model
Log-likelihood
AIC
ZIP
-1323.7
2675.5
ZINB
-1067.7
2165.4
İki seviyeli ZIP
-985.2
2014.4
Yukarıdaki çizelgeye göre ZINB
regresyon modelinin ZIP’den daha iyi logolabilirlik, BIC ve DIC değerlerine sahip
olduğu görülmektedir. Zira ZIP’den farklı
olarak modelde yer alan yayılım parametresi
önemli bulunmuştur. İki seviyeli ZIP
regresyon modeli ise hem ZIP hem de ZINB
regresyon
modellerinden
daha
iyi
bulunmuştur.
Çünkü iki seviyeli ZIP
regresyon
modeli
veri
kümesindeki
boylamsal yapıyı dikkate almaktadır. Başka
bir ifadeyle çok seviyeli modelleme
boylamsal veri yapısını dikkate alarak
parametre tahmini yapmakta ve bu nedenle
çok sayıda sıfıra sahip boylamsal veri kümesi
için ZIP ve ZINB’ye tercih edilmektedir.
Sonuç
Sayma ile elde edilen veri kümesinde
çok miktarda sıfır olması durumunda ZIP
regresyon (Gosh ve diğ., 2006) modeli
Poisson regresyona tercih edilir. Veri
kümesinin sıfır olmayan kısmında aşırı
yayılım söz konusu ise ZINB regresyon
modeli kullanılmaktadır (Böhning, 1998;
Ridout ve diğ., 2001). Bu çalışmada
kullanılan cevap değişkeni bireylerin evden
kaçma sayılarını göstermekte ve büyük
oranda sıfır (%95) içermektedir. Çalışmaya
BIC
2765.5
2261.8
2155.4
başlarken bu veri kümesi için ZIP ve ZINB
regresyon modelleri kullanılmıştır. Çizelge
4’de verilen sonuçlar gösterdi ki üzerinde
çalışılan ZINB regresyon, veri kümesinin
uyumunu ZIP regresyondan daha iyi
yapmıştır. Tablo 3’de verilen yayılım
parametresinin () önemli çıkması veri
kümesinde bir aşırı yayılımın olduğunu ve
bunun modellenmesi ile uyumun daha iyi
olabileceğini göstermektedir.
Boylamsal yapıya sahip bir veri
kümesi aynı zamanda hiyerarşik bir yapı
sergiler. Bu tip hiyerarşik bir yapıya veya
sınıflandırmaya sahip verilerin analizi için
son yıllarda çok seviyeli modelleme
kullanılmaya başlanmıştır (Yau ve Lee, 2001;
Lee ve Diğ., 2006; Moghimbeigi ve diğ.,
2009; Lochner, 2003). Veri kümesindeki
boylamsal yapının varlığını dikkate alan çok
seviyeli modelleme ile gözlemlenemeyen
heterojenlik kaynağı dikkate alınmaktadır.
Çalışmada kullanılan ZIP, ZINB ve iki
seviyeli ZIP regresyon analizinin Toblo 4 ile
verilen sonuçları değerlendirildiğinde, iki
seviyeli ZIP regresyon analizine ait
değerlerin
(log-olabilirlik=-985.2,
AIC=2014.4 ve BIC=2155.4) en küçük
değerler olduğu tespit edilmiştir. Dolayısıyla
6
Yüzüncü Yıl Üniversitesi Fen Bilimleri Enstitüsü Dergisi/ Journal of The Institute of Natural & Applied Sciences
Sıfır Ağırlıklı Sayma ile Elde Edilen Veriler İçin Çok Seviyeli ZIP Regresyon
çalışmada
kullanılan
regresyon
modellerinden (ZIP, ZINB ve iki seviyeli
ZIP) en iyisinin, iki seviyeli ZIP regresyon
olduğu sonucuna varılmaktadır.
Kaynak
Agresti A., Booth J. G., Hobert J. P. and
Caffo B., “Random Effect Modelling of
Categorical
Response
Data”,
Sociological Methodology, 30 (1), 2780. 2000
Akkol S., “Çok seviyeli genelleştirilmiş
doğrusal
modellerde
parametre
tahminlemesinde MQL, PQL ve MCMC
yöntemlerinin
karşılaştırılması”,
Doktora Tezi, Ziraat Fakültesi, YYU,
2004.
Böhning D., “Zero- Inflated Poisson Models
and C.A.MAN: A Tutorial Collection of
Evidence”, Biometrical Journal 40(7),
833-843, 1998.
Böhning D., Dietz E., Schlattmann P.,
Mendonça L., Kirchner U., “The zeroinflated Poisson modeland decayed ,
missing and filled teeth index in dental
epidemiyology”, Jornal of Royal
Statistical Society, series A, 162, 10301039, 1999.
Cheung Y. B. “Zero-inflated models for
regression analysis of count data: a
study of growth and development”,
Statistics in Medicine, 21, 1461-1469.
2002.
Dagne A. G., “Hierarchical Bayesian
Analysis of Correlated Zero-inflated
Count Data”, Biometrical Journal, 46(6),
653–663. 2004.
Ghosh S. K., Mukhopadhyay P., and Lu J. C.,
“Bayesian Analysis of Zero-Inflated
Regression
Models”
Journal
of
Statistical Planning and Inference,
136(4), 1360-1375, 2006
Goldstein, H., 1995. Multilevel Statistical
Models,
http://www.google.com.tr/search?hl=tr&
q=Applied+Multilevel+Analysis+hox&b
tnG=Ara&aq=f&aqi=&aql=&oq=&gs_r
fai=
Hall D.B., “Zero-inflated Poisson and
binomial regression with random
effects: a case study”, Biometrics, 56,
1030-1039. 2000.
Hox J. “Multilevel Modelling in Windows; A
Reviev
of
MLwiN”,
Multilevel
Modelling Newsletter, 10(2):2-5, 1998.
Hur K., Hedeker D., Henderson W., Khuri S.,
Daley, J., “Modeling clustered count
data with excess zeros in health care
outcomes research”,
Health Serv.
Outcomes Res Method, 3, 5-20. 2002.
Jansakul N. Fitting a zero-inflated Negative
Binomial model via R”, In Proceedings
20th International Workshop on
Statistical Modelling, Sidney, Australia,
277-284, 2005.
Lambert
D.,
“Zero-inflated
Poisson
regression, with an application to defects
in manufacturing”, Technometrics ,
34:1-14, 1992
Lee A. H., Wang K., Yau KKW, “Analysis
of
zero-inflated
Poisson
data
incorporating extend of exposure”,
Biometrical Juornal, 43, 963-975, 2001.
Lee A.H., Wang K., Scott J.A., Yau K.K.W.,
McLachlan G.,J., “Multi-level zeroinflated Poisson regression modeling of
correlated count data with excess zeros”,
Statistical Methods in Medical Research,
15, 47-61, 2006.
Lochner, K.A., Kawachi, I., Brennan, R.T.,
Buka, S.L., “Social Capital and
Neighborhood Mortality Rates in
Chicago”, Social Science&Medicine,
56, 1797-1805, 2003.
McLachlan G J., “On the EM algorithm for
overdispersed count data”, Statistical
Methosds in Medical Research, 6, 7698, 1997.
Moghimbeigi A., Eshraghian M. R.,
Mohammad
K.,
McArdle
B.,
“Multilevel
zero-inflated
negative
binomial regression modeling for overdispersion count data with extra zeros”,
Journal of Applied Statistics, 35(10),
1193-1202, 2008.
Moghimbeigi A., Eshraghian M. R.,
Mohammad K., McArdle B.,”A score
test for zero-inflation in multilevel count
data”, Computational Statistics and Data
Analysis, 53, 1239-1248, 2009.
Okut H., Duncan C. S., Duncan E. T.,
“Growth Mixture Modeling of ZeroInflated Count Data”, JSM (Joint
Statistical Meeting), Minneapolis, 2005.
7
Cilt/Volume: 18, Sayı/Issue1-:2. 2013
Akkol ve ark.,
Ridout M., Hinde J., Demétrio C.G.B. “A
Score test for testing a zero-inflated
Poisson regression model against zeroinflated negative binomial alternatives”,
Biometrics, 57, 219-223. 2001.
SAS, 2007. SAS/STAT, Carry Inc. Religh,
NC.
Sheu M., Hu T., Keler T. E., Ong M., Sung
H. Y., “The effect of a major cigarette
price change on smoking behavior in
California: a zero-infated negative
binomial model”, Health Economics, 13:
781–791, 2004.
Singer J.D., “Using SAS PROC MİXED to
fit multilevel models, hierarchical
models, and individual growth models”,
Journal of Educational and Behavioral
Statistics, 24(4), 323-355, 1998.
Stata 9. Data Analysis and Statistics
Software. College Station. Texas 77845.
Vuong Q.H., “Likelihood ratio test for model
selection and non-nested hypotheses”,
Econometrics, 57(2), 307-333, 1989.
Wang K., Yau K. K. W., Lee A. H., “A zeroinflated Poisson mixed model to analyze
diagnosis related groups with majority
of same–day hospital stays”, Comput.
Methods Programs Biomed., 68, 195203, 2002.
Yau K. K. W, Lee A. H. “Zero-inflated
Poisson regression with random effects
to evaluate an occupational injury
prevention programme”, Satatistics in
Medicine, 20, 2907-2920. 2001.
Yau K. K. W., Wang K., Lee A. H. “Zeroinflated negative binomial mixed
regression modeling of over-dispersed
count
data with extra zeros”,
Biometrical Journal, 45,437-452. 2003.
8
Yüzüncü Yıl Üniversitesi Fen Bilimleri Enstitüsü Dergisi/ Journal of The Institute of Natural & Applied Sciences

Benzer belgeler

Özgeçmiş - GRUMLAB

Özgeçmiş - GRUMLAB phytoplankton in a eutropic lagoon (Liman Lake, Turkey)”. Journal of Environmental Biology, 31, 629-636. A10. MARASLIOGLU, F., SOYLU, E. N., GONULOL, A. 2013. Seasonal variation and occurrence of a...

Detaylı

Final Technical Program Turkeytrib`15

Final Technical Program Turkeytrib`15 Conference lunch (7-9 October 2015) will be given at B Building (top floor with a Bosphorous view) “Çatı Restaurant” of Yıldız Campus (the building next to the Conference Hall), Yıldız Technical Un...

Detaylı

KRD BET 2015-05-24

KRD BET 2015-05-24 X14 Sun 17:00 Club Sportivo Italiano-Deportivo Armenio

Detaylı