çoklu regresyon analizinde varsayımlardan

Transkript

ÇOKLU REGRESYON ANALİZİNDE VARSAYIMLARDAN
SAPMALARIN İNCELENMESİ
1. ÇOKLU REGRESYON ANALİZİ VE VARSAYIMALARDAN SAPMALAR
1.1. Çoklu Regresyon modeli Varsayımları
1.2. Tahmincilerin anlamlılığının sınanması (R^2)
1.3. Regresyon Katsayılarının Anlamlığı için t Testi
1.4. Varyans analizi
2. VARSAYIMLARDAN SAPMALARIN İNCELENMESİ VE ÇÖZÜMYOLLARI
2.1. OTOKORELASYONUN SAPTANMASI (ARDIŞIK BAĞIMLILIK)
2.1.1. Otokorelasyonun Saptanması
2.1.1.1. Grafik Yöntemi
2.1.1.2. Durbin- Watson d İstatistiği
2.2. DEĞİŞEN VARYANS
2.2.1. Değişen varyansın nedenleri
2.2.2. Değişen Varyans Sınamaları
2.2.2.1. Park Testi
2.2.2.2. Glejser Testi
2.2.2.3. Guldfeld- Quandt Testi
2.2.2.4. Breusch-Pagan-Godfrey (BPG) Testi
2.3. ÇOKLU DOĞRUSAL BAĞLANTI
2.3.1. Çoklu Doğrusallığın Nedenleri
2.3.2. Çoklu Doğrusallığın Sonuçları
2.3.3. Çoklu Doğrusallığın Ortaya Çıkarılması
2.3.4. Çoklu Doğrusallığı Düzeltici Önlemler
2.4. NORMALLİKTEN SAPMALAR
www.ekonomianaliz.com
Bu ders notu Fatih YAZ tarafından derlenmiştir.
1. ÇOKLU REGRESYON ANALİZİ VE VARSAYIMALARDAN SAPMALAR
Ekonomi ve işletmecilik alanlarında herhangi bir bağımlı değişkeni tek bir bağımsız
değişken ile açıklamak mümkün değildir. Ekonomik modeller, genellikle birden fazla sebebin
sonucudurlar. Çok fazla sayıda değişken bir araya gelerek bir diğer değişkeni
etkileyebilmektedirler.
Bir değişkeni etkileyen iki ve daha fazla bağımsız değişken arasındaki neden- sonuç
ilişkilerini doğrusal bir modelle açıklamak ve bu bağımsız değişkenlerin etki düzeylerini
belirlemek için yararlanılan yönteme çoklu doğrusal regresyon analizi denir.1
Çoklu doğrusal regresyonda, bağımlı değişkeni etkileyen birden çok bağımsız değişken
1. Bağımlı değişkeni etkilediği düşünülen bağımsız değişkenlerden hangisi ya da hangilerinin
bağımlı değişkeni daha çok etkilediğini bulmak.
2. Bağımlı değişkeni etkilediği belirlenen değişkenler yardımıyla bağımlı değişken değerini
kestirebilmek.2
Olarak ifade edebiliriz.
’ler bağımsız değişkenleri ve Y de bağımlı değişkeni göstermek üzere en genel çoklu
regresyon denklemi;
Şeklinde yazılır.
1
2
Özdamar, K. (2003). SPSS ile Biyoistatistik
Alpar, R. (1997) . Uygulamalı Çok Değişkenli İstatistiksel Yöntemlere Giriş.
1
1.1.
Çoklu Regresyon modeli Varsayımları
2. Model doğrusal kurulmuştur
3. X değerleri yinelenen örneklemelerde değişmez
X açıklayıcı değişkeninin yinelenen örneklemlerde aynı kaldığı düşünülür.
4. Bozucu
teriminin ortalaması sıfırdır
varsayıma göre
5.
’lerin verilmiş Xi değerlerine koşullu olan ortalaması sıfırdır.
’nin varyansı (bütün Xi’ler için) aynıdır.
=
burada ‘var’ varyans demektir.
6. Bozucu (hata) terimleri arasında ardışık bağımlılık yoktur.
(
)
burada i ile j farklı gözlemi, ‘orv’ ise ortak varyansı göstermektedir.
Xi’ye karşılık gelen
7.
’ler ile Xj’ye karşılık gelen
’ler birbirinden bağımsızdır.
ile Xi’nin ortak varyansı sıfırdır.
Her hata terimi açıklayıcı değişkenden bağımsızdır.
8. Regresyon modeli doğru kurulmuş olmalıdır.
Başka bir değişle modelde kuruluş sapması ya da hatası bulunmamalıdır.
2
9. Açıklayıcı değişkenler arasında tam doğrusal ilişki bulunmamaktadır.3
Çoklu regresyon analizinde ancak bu varsayımların geçerli olması durumunda modeli
En-Küçük Kareler yöntemiyle tahmin edebiliriz. Unutmamamız gereken diğer bir varsayım da
parametrelerin NORMAL dağıldığıdır.
1.2. Tahmincilerin anlamlılığının sınanması
;
bağımlı değişkendeki değişimin % kaçının açıklayıcı değişkenlerle yapıldığını
gösterir.
∑̂
∑̂
Şeklinde yazılır ve
Arasında değer alır.
3

1’e yaklaştıkça bağımsız değişkenler bağımlı değişkeni tam açıklar.

0’a yaklaştıkça bağımsız değişkenler bağımlı değişkeni hiç açıklamaz.
Gujarati D. N. (1995); Temel Ekonometri. İSTANBUL Literatür Yayınları
3
1.3. Regresyon Katsayılarının Anlamlığı için t Testi
Merkezi limit teoremine göre gözlem sayısı (n) arttıkça bu rassal değişkenlerin toplam
dağılımları normal dağılıma yakınsar. Eğer normal dağılıma sahip bir yığın varsa bunların
doğrusal fonksiyonları da normal dağılır.
t testi modeldeki bağımlı değişken ile bu değişkeni açıklayan bağımsız değişkenler
arasındaki ilişkiyi gösteren
H0:
=0
HA:
≠0
parametrelerinin tek tek test edilmesinde kullanılır.4
Hipotezi altında t değerleri
̂
̂
Şeklindedir. Diğer parametreler için de aynı şekilde yazılır.
Şayet, seçilen anlamlılık düzeyinde hesaplanan t değeri kritik t* değerini aşıyorsa, sıfır
hipotezi reddedilir, değilse kabul edilir.
1.4. Varyans analizi;
t istatistiği bir regresyon denkleminde parametreleri tek tek test ederken, F istatistiği
değişkenleri içeren parametrelerin tümünü test eder; yani, bağımlı değişken ile bağımsız
değişken içeren parametreler arasında sıfırdan farklı bir ilişkinin olup olmadığına
bakmaktadır.
H0:
=
HA: Parametreler aynı anda sıfır değildir.
4
4
Hipotezi altında F testi.
∑̂ ⁄
∑̂ ⁄
Şeklindedir. F testi yaptığımızda modeli tümüyle test edilir.5
2. VARSAYIMLARDAN SAPMALARIN İNCELENMESİ VE ÇÖZÜM
YOLLARI
Çoklu regresyon analizi bölümünde açıklanan varsayımlardan sapmalar olduğu
durumlarda yukarıda açıklanan yöntemlerle elde edilen sonuçların kullanılması ve ya
yorumlanmasında çok dikkatli davranmak gerekir. Bu başlık altında sapmaların nasıl
saptanacağı ve sapma belirlendiğinde nasıl davranılacağını inceleyeceğiz.
Varsayımlardan sapmalar sonucu oluşan durumları şu şekilde sıralayabiliriz;
1. Tahmin hataları arasında (
bağımlılık olması. (Otokorelasyon)
2. Tahmin hatalarının varyanslarının eşit olmaması.
3. Bağımsız değişkenler arasında bağımlılık olması.(Çoklu doğrusal bağlantı)
4. Hataların(
normal dağılıma uymaması.6
Bu durmaları tek tek ele alalım;
5
6
KUTLAR A. (2006); Ekonometri Kılavuz kitap. ANKARA Arın Yayınları
ORHUNBİLGE N. (1996); Uygulamalı Regresyon ve Korelasyon Analizi. Avcıol Basım
5
2.1.OTOKORELASYONUN SAPTANMASI (ARDIŞIK
BAĞIMLILIK)
Otokorelasyon, zaman içinde ya da mekan içinde sıralanan gözlem dizilerinin birimleri
arasındaki ilişkidir.7 Böyle bir ilişkinin olmadığı ekonometrik olarak
(
)
şeklinde ifade edilir.
Ama hata terimleri arasında bir ilişki varsa yani otokorelasyon durumu söz konusu ise
(
)
şeklinde ifade edilir.
Otokorelasyon durumunda parametrelerin en küçük kareler tahmincileri sapmasız ve
tutarlı olup, etkin değildir. Hata teriminin varyansının tahmincisi sapmalıdır ve bu yüzden
parametrelerin varyansları da sapmalı olur. Pozitif otokorelasyon varsa sapma negatif olur.
Yani varyanslar olduğundan küçük bulunur. Bunun sonucunda t test istatistiği değeri büyük
çıkar. Böylece anlamsız bir katsayının anlamlı olma olasılığı artar. R2 de yükselir. Dolayısıyla
F değeri olduğundan büyük bulunur. Sonuç olarak t ve F testleri güvenilirliğini yitirip
yanıltıcı sonuç verirler.
Hata terimleri arasındaki otokorelasyonun varlığı genel olarak aşağıdaki ana nedenlere
dayanmaktadır8

Modele bazı açıklayıcı değişkenlerin alınmaması

Modelin matematiksel kalıbının yanlış seçilmesi

Bağımlı değişkenin ölçme hatalı olması

Verilerin sistematik incelenmesi

u’nun yanlış spesifikasyonudur.
2.1.1. Otokorelasyonun Saptanması
Otokorelasyon durumunu ortaya çıkarmada iki yöntem kullanılır. Birincisi grafik
metodu, ikincisi otokorelasyon testleridir. Durbin-Watson d istatistiği ve Breusch ve
Godfrey testleri kullanılabilir.
7
8
Kendall M. G. A Dictionary of statistical Terms
Koutsoyiannis A. (1989). Ekonometri Kuramı
6
2.1.1.1. Grafik Yöntemi
Otokorelasyonun söz konusu olup olmadığı örnek hata terimi
faydalanarak grafik yoluyla tespit edilebilir. Bunun için ya zaman ile
ile
değerlerinden
değerleri, ya da
değerleri alınarak elde edilen grafiklerin durumu tetkik edilir. Aşağıda pozitif ve
negatif otokorelasyon ve otokorelasyonun olmaması durumlarını gösteren bu grafikler yer
almaktadır.9
9
AKKAYA, Ş. ve PAZARLIOĞLU, V. (2000), Ekonometri-I
7
Çizilen şekillere bakıldığında Şekil-1 ve Şekil-2’de noktalar sistematik
(düzenli) bir biçim göstermektedir. Şekil-3’te ise noktalar sistematik olmayan düzensiz bir
görünüm arz etmektedir. Şekil-1(a)’da noktalar önce sürekli artış gösteriyor, sonra belli bir
noktadan itibaren azalıp tekrar artıyor. Şekil-2(a)’da ise noktalar birden azalıp, yükseliyor. Bu
sebepten Şekil-1(a)’da pozitif, Şekil- 2(a)’da ise negatif otokorelasyon söz konusudur. Şekil3(a)’da noktalar zaman ekseni etrafında paralel dağılmakta ve artan veya azalan bir seyirleri
olmadığı için otokorelasyon söz konusu değildir.
2.1.1.2.
Durbin- Watson d İstatistiği
Otokorelasyonu ortaya çıkarmada kullanılan en ünlü iki istatistikçilere aittir.
Testin aşamaları;
1) Hipotez yazılır
H0: =0
HA: ≠0
2) Anlamlılık seviyesi seçilir.
3) Durbin Watson d istatistiği hesaplanır.
8
∑
∑
normal denklemleri alınarak
∑
∑
hesaplanır ve elde edilen ρ yerine konulduğunda
d=2(1- ρ) denklemi ortaya çıkacaktır.
4) Karar durumu.
Durbin-Watson d tablosuna bakılarak
değerleri bulunur. Böylece d
istatistiği aşağıdaki gibi ifade edilir;
9
Örnek-1;10
%1 anlamlılık seviyesinde basit regresyon analizinde otokorelasyon durumunu
inceleyelim.
Y
X
̂
D
1
2
1,25
-0,25
0,0625
S
2
3
2,188
-0,1875
0,035156
0,003906
D
3
5
4,063
-1,0625
1,128906
0,765625
5
6
5
0
0
1,128906
6
7
5,938
0,062
0,003844
0,003844
7
10
8,75
-1,75
3,0625
3,283344
8
7
5,938
2,062
4,251844
14,53134
8
8
6,875
1,125
1,265625
0,877969
TOPLAM
9,810376
20,59494
C
S
C
Z
D
%1 anlamlılık düzeyinde n=8 için d istatistiği tablomuza
baktığımızda regresyon modelinde otokorelasyon yoktur sonucuna varırız.
2.2. DEĞİŞEN VARYANS
Değişen varyans hata teriminin varyansının tüm gözlemler için aynı olmaması
durumudur.
E( ui2 ) = σ2 ise Sabit varyans
E( ui2 ) = σi2 ise Değişen varyans
10
10
değerlerine bağlı olarak
’nin koşullu varyansı, X değişkeni hangi değerleri alırsa alsın
değişmemeli, yani sabit varyanslı olmalıdır. Ortalama değişse bile ortalama etrafındaki
dağılım değişmemelidir. Aksi halde değişen varyans durumundan söz edilir.
2.2.1. Değişen varyansın nedenleri
1 - Hatasını öğrenen modeller: İnsan davranışları. Araba kullanma tecrübesi arttıkça hem
trafik hataları hem de bunların varyansı azalır. Ayrıca dersi alttan alan bir öğrencinin artık
hatasını bildiği için ikinci sefer ortalamasını yükseltebilir. Böylece ilk kez alanlarla arasında
fark oluşur.
2 - Veri derleme teknikleri: Veri derleme teknikleri geliştikçe varyans küçülür. Yani artık
ortalamadan çok fazla sapma oluşmaz.
3 - Dışa düşenlerin varlığı : Serinin çok uçtaki aşırı değerleri ortalamadan sapmalara neden
olur.
4 - Model kurma hataları: Özellikle gerekli açıklayıcı değişkenlerden biri ihmal edildiğinde
de değişen varyansa rastlanmaktadır.
Değişen varyans durumunda EKK tahmincileri doğrusal ve sapmasızdır ama etkin
değildir. Yani EDST (BLUE) değildir. Parametre tahmincilerinin varyansları da olduğundan
büyük çıkar. Bunun sonucunda t testi sonucu olduğundan küçük bulunur. Yani anlamlı bir
katsayının anlamsız olarak yorumlanması muhtemeldir.
Değişen varyans araştırması için grafik yöntemi ve bazı testler kullanılmaktadır.
Bunlar; Park testi, Goldfeld-Quandt testi, Glejser testi, Spearman sıra korelâsyon testi,
Breusch-Pagan-Godfrey testi ve White nR-kare testi.11 Grafik üzerindeki değişkenin
durumuna göre hata teriminin artan veya azalan olmaması, sabit olup belli bir ortalama
etrafında dağılması gerekir.12
11
12
11
2.2.2. Değişen Varyans Sınamaları
2.2.2.1. Park Testi: Park testi bir anlamda grafiği formülize etmektir.
Şayet
anlamlıysa verilerde değişen varyansın olduğu kabul edilir.
Örnek-2:
Aşağıdaki verileri kullanarak değişen varyansın olup olmadığını göstermek için Park
sınaması yapalım.
Yi
Xi
Ui
3396
9355
-775,658
601645,333
13,307
9,144
3787
8584
-205,048
42044,682
10,646
9,058
4013
7962
165,851
27506,554
10,222
8,982
4104
8275
183,936
33832,452
10,429
9,021
4146
8389
199,378
39751,587
10,590
9,035
4241
9418
54,666
2988,372
8,002
9,150
4387
9795
112,841
12733,091
9,452
9,190
4538
10281
150,624
22687,589
10,030
9,238
4843
11750
113,410
12861,828
9,462
9,372
ABD Endüstrisinde ortalama tazminat(Yi) ve ortalama verimlilik(Xi)
Regresyon modelinin EKK ile tahmin ettiğimizde
Yi=1992+0,233Xi
ikinci aşamada
bulunur.
denklemi tahmin edilir.
burada 2,80 parametresinin t testi ile anlamlılığına bakılır.
t testi sonucu 2,80 parametresi anlamlı çıkmıştır.
12
Yani Hata terimleri arasında değişen varyansın olmadığı sonucuna varılır.13
2.2.2.2. Glejser Testi:
Glejser testi de Park testine benzer, ilk başta regresyon denklemi bulunur ve daha
sonra elde edilen ui’nin mutlak değeri Xi’ler ile regrese edilir.
Matematiksel gösterimi;
̂
EKK ile tahmin edildiğinde
̂
√
Şeklinde gösterilir.
parametresi anlamlıysa Değişen varyans durumuyla karşılaşırız.
2.2.2.3. Guldfeld- Quandt Testi:
Bu metot açıklayıcı değişkenlerden biri ile pozitif bir ilişki içerisinde olduğu durumda
uygulanır.
denkleminde
Yukarıdaki denkleme göre Xi’nin değeri büyüdükçe
,Xi ile pozitif ilişkili olsun,
’de büyüyecektir. Böyle bir durumda
modelde değişen varyansın olacağı beklenir.
Guldfeld- Quandt testini uygulamak için;
1) Bağımsız değişken küçükten büyüğe doru sıralanır.
13
13
2) Bir C sayısı belirlenir ve serinin ortasındaki C kadar gözlem seriden atılır. Seri (n-C)/2
şeklinde ikiye ayrılır.
3) İlk dilime ve son dilime EKK uygulanır ve Hata kareleri Toplamı (HKT) iki seri için
ayrı ayrı hesaplanır.
4) Daha sonra F istatistiğine uyumlu
Şayet
değeri hesaplanır.
değeri tablodaki kritik F* değerini aşıyorsa değişen varyanstan söz edilebilir.
2.2.2.4. Breusch-Pagan-Godfrey (BPG) Testi:
k değişkenli regresyon denklemini ele alalım;
1) Model tahmin edilir ve Hata terimleri ile maksimum olabilirlik tahmin edicisi elde
edilir.
̂
̂
2) Pi gibi bir değişken belirlenir.
̂
̂
3) Pi, M ile regrese edilir.
̂
14
4) Hipotezimiz kurulur.
H0:
HA:
( )
∑
5) H0 hipotezi kabul edilirse parametreler anlamsızdır. Değişen varyans yoktur.
Örnek -3:
̂
BPG yöntemiyle değişen varyans olup olmadığını inceleyelim.
̂
̂
15
H0 Reddedilir. En az biri sıfırdan farklı. Değişen varyans vardır.14
Değişen varyan durumunu ortadan kaldırılması için önerilen çözümler;

Unutulmuş önemli bir açıklayıcı değişken varsa bu değişkenin modele ilave edilmesi.

Değişkenlerde dönüşümler yapılması.

Ağırlıklı en küçük kareler yönteminin uygulanması.
2.3.ÇOKLU DOĞRUSAL BAĞLANTI
Bir regresyon modelinde açıklayıcı değişkenlerin tümü veya bir kısmı aralarında tam
veya tama yakın bir doğrusal ilişkinin var olması anlamına gelir. Regresyon denklemlerinde
kullanılan açıklayıcı değişkenler arasında bazen doğruya yakın bir ilişki vardır. Yani bu
değişkenler arasında korelasyon katsayısı birdir. Böyle bir durumda parametreleri hesaplamak
imkânsızlaşır. Açıklayıcı değişkenler arası mükemmele yakın bir ilişki EKK metodunu
kullanılmaz hale getirir.
2.3.1. Çoklu Doğrusallığın Nedenleri;

Kullanılan veri toplama metodu,ana kütle içinde sadece sınırlı sayıda verilerin ele
alınması.

Değişkenlerin aynı etmenlerden etkilenmeleri.
Gibi çoğaltılabilir.
14
16
2.3.2. Çoklu Doğrusallığın Sonuçları;

Çoklu doğrusallığın olduğu durumlarda parametreleri tahmin etmek imkânsızlaşır.
Standart hata sonsuzlaşır.

EKK edicileri büyük varyans ve kovaryansa sahip olduklarından, kesin tahminlerde
bulunmak güçleşir.

Yukarıdaki sonuçtan dolayı güven aralığı genişler.

Bir ve birden fazla katsayının t oranı istatistiki olarak anlamsız hale gelir.

, uyum iyiliği mükemmele yakın olabilir.
2.3.3. Çoklu Doğrusallığın Ortaya Çıkarılması;
1) Yüksek
ve düşük t değeri
Çoklu doğrusallığın en önemli belirtilerinden birisidir.Regresyon denkleminin
yüksek belirlilik katsayı (örn.
) ve parametrelerin düşük t değeri
taşımalarıdır. Yani özetle model tümüyle yüksek anlam gücüne sahipken
parametrelerin anlamsız olması.
2) Açıklayıcı değişkenler arasında yüksek korelasyon ilişkisi
İki açıklayıcı değişken arasındaki korelasyon 0,80’in üstünde ise, ciddi bir
doğrusallıktan bahsedilebilir.
3) Yardımcı regresyon
Hangi X değişkeninin öteki X değişkenleriyle ilişkili olduğunu bulmanın bir
yolu, her bir Xi’nin öteki X değişkenlerine göre regresyonunu bulup buna karşılık
gelen,
diyeceğimiz
değerini hesaplamaktır.
değişkeni, k-2 ve n-k+1 sd ile F dağılımına uyar.
17
, Xi değişkeninin kalan X değişkenlerine göre regresyonunun
belirlilik katsayısını gösterir.
Hesaplanan F, seçilmiş anlamlılık düzeyinde kritik F değerini aşıyorsa, bunun anlamı
Xi’nin öteki X’lerle doğrusal olduğudur.
4) Hoşgörü ve Varyans şişirme faktörü (VŞF)
Varyans ve kovaryansı büyüten faktör, varyans şişirme faktörü olarak ifade
edilir.
∑
, X3 arasında çoklu doğrusallık olduğu durumda
bir’e yaklaşır, VŞF ise sonsuz
olur. Şayet değişkenler arasında çoklu doğrusallık ilişkisi yoksa
sıfır olur ve VŞF
bir’e eşit olur.
5) Kısmi korelasyonların incelenmesi
kısmi korelasyon katsayılarından en az biri
‘den büyükse çoklu bağlantıdan
şüphelenebiliriz.
Çoklu doğrusal bağlantıyı ortaya çıkarmadaki yukarıdaki maddelerin sadece bir
tanesinin sağlanması çoklu doğrusal bağlantının kesin var olduğunun kanıtı değildir. Birden
çok durumun aynı anda gözükmesi gerekir.15 16
15
18
Örnek-4
EKK yöntemi ile tahmin edilen para talebi (Mt) modelini inceleyip, çoklu
doğrusal bağlantı olup olmadığına karar verelim.
r: Faiz
P: Fiyat
Çoklu doğrusal bağlantı durumuna bakalım;

kısmi korelasyon katsayılarından bir tanesi modelin belirlilik
katsayısından büyük. Bu durumda çoklu doğrusal bağlantı var diyebiliriz.

Kritik tablo değerimiz.
Parametrelerin tek tek t testlerine baktığımızda
H0:
HA:
Hipotezi altında

F testine bakalım
H0:
HA:
16
19
Ho reddedilir
Model tümüyle anlamlıdır.

Model tümüyle anlamlı çıkmasına rağmen t testi sonucunda parametrelerin
iki tanesi anlamsız çıkmıştır. Bu durumda çoklu doğrusal bağlantı olduğuna
dair şüphelerim devam etmektedir.

VŞF’ye bakalım
(
)
∑
Açıklayıcı değişkenler arasında çok ciddi çoklu doğrusal bağlantı vardır
diyebiliriz.
2.3.4. Çoklu Doğrusallığı Düzeltici Önlemler:

Önsel Bilgi: Modeli oluşturmadan önce değişkenler arasındaki ilişki biliniyorsa model
farklı oluşturulabilir.

Kesit veriyle zaman serisi verilerini bir araya toplama(Panel Veriler): Zaman
serilerinde çoklu dorusallığa sık rastlanır. Bunun için zaman serileri ve yatay kesit
verileri bir arada kullanılarak çoklu doğrusal bağlantı önemli ölçüde önlenebilir.
20

Değişkenleri Modelden Atmak: Birbiriyle ilişkili olan iki açıklayıcı değişkenden biri
modelden çıkarılabilir. Örneğin; tüketim, gelir ve zenginlik ilişkisinde; zenginlik ile
gelir arasında doğrusal bir ilişki olduğundan biri kullanılabilir.

İlave Veri Kullanılması: Eldeki veriler kullanıldığında açıklayıcı değişkenler
arasında çoklu doğrusallık varsa, aynı sorunun verilerin artışıyla devam edeceği kesin
değildir. Verilerin artışıyla çoklu doğrusallık azaltılabilir.17
2.4.NORMALLİKTEN SAPMALAR
Aralık tahmini ve regresyon katsayılarının testlerinin yapılabilmesi için hataların
dağılımı hakkında bir varsayım yapılmış olması gerekir. Bu varsayım hata terimlerinin
dağılımının normal dağılıma uyduğu varsayımıydı
1. Bozucu
teriminin ortalaması sıfırdır
varsayıma göre
2.
’lerin verilmiş Xi değerlerine koşullu olan ortalaması sıfırdır.
’nin varyansı (bütün Xi’ler için) aynıdır.
=
burada ‘var’ varyans demektir.
Varsayımları altında hata terimi (ui) ortalaması sıfır, varyansı sabit olacak şekilde normal
dağılmaktadır.
Normallikten sapma olup olmadığının araştırılmasında;
17
Kennedy P. (2000), Ekonometri El Kitabı. ANKARA Gazi Kitabevi
21

Çarpıklık ve basıklık ölçüleri. Genel olarak çarpıklık katsayısı sıfır, basıklık
katsayısı üçtür. Bu katsayılara yaklaştıkça elimizdeki seri normal dağılım gösterir.

Kolmogov – Smirnov testi

Ki-kare uygunluk testi uygulanabilir.18
Hataların normal dağılım varsayımı, anlamlılık testlerinde ve tahmin aralıklarının
saptanmasında önem kazanır.
Normal dağılımdan sapmalar görüldüğünde;

En küçük kareler yöntemine alternatif teknikler (Güçlü Regresyon)

Normalliğe yaklaştırmak için değişkenlerin ikisine birden veya sadece birine
logaritmik veya kareköklü dönüşümler uygulanabilir.

Modele dâhil edilmesi gerekirken unutulmuş olan önemli bir açıklayıcı değişken
modele dâhil edilerek de hataların normal dağılım göstermesi sağlanabilir.19

Modelin farkını alarak normal dağılıma yakınsanabilir.

Başka bir yaklaşıma göre hataların normal dağılmadığı durumlarda çözüm hataların
karelerini minimize etmek yerine, hataların mutlak değerlerinin minimize edilmesidir.
∑
Elimizdeki veri seti normal dağılıma uymuyorsa ve seriye yaptığımız dönüşümler ve
farklı uygulamalar da veri setini normal dağılım haline getirmiyorsa kuracağımız regresyon
modelini En Küçük Kareler yöntemi ile tahmin edemeyiz.
Normal dağılmayan veri setleri için En Yüksek Olabilirlik yöntemi kullanılır. En
yüksek olabilirlik yöntemi EKK gibi kolay hesaplanamaz. Bunun için paket programlar tercih
edilir.
18
19
Bu testler için ilgili kitaba bakılabilir. Gürtan Kenan; İstatistik ve Araştırma Metodları
22

çoklu regresyon analizinde varsayımlardan

Transkript

Benzer belgeler

Print this article

Çoklu Regresyon Korelasyon Analizinde Varsayımdan Sapmalar ve

İstatistik ve Olasılık DersNotu

Hiper Metin Hiper Metin Yazının içine yerleştirilmiş veya gömülmüş

Instrucciones Cod. 900

e-bülten - Eyüboğlu Eğitim Kurumları

CTIS310 Industrial Training (2015-2016 Fall) quotas formed by CTIS

ikiden fazla grup ortalamasının karşılaştırılması

PDF ( 6 )

PDF İndir - Nigde Universitesi Online Dergi Sistemi

PERDE arkasında

Heyelan duyarlılığının incelenmesinde

DAÜ Giriş ve Burs Sınavı

Matematik Gelişimi 6 Testi (Progress in Maths) nin 60

Fatih Projesi Eğitimde Fırsat Olabilirmi

YAPI dergi2.qxd

Çoklu ölçekli sayısal yükseklik modellerinden çıkarılan fizyografik

kaspersky lab, sektör korumasında en iyi çözümleri sağlar

Etkileşimli Medya ve Öğretim Ortamlarında Tasarım Geliştirme Süreci

Edexcel - Gelişim Koleji

Slayt 1 - anadolu üniversitesi eczacılık fakültesi

ROMANTİK İLİŞKİLERDE SOSYAL AĞ ETKİLERİ1