9. hafta

Transkript

9. hafta
Veri Eliminasyonu
Birçok durumda yapılan ölçümler içinde değişik hatalar nedeniyle gerçeği yansıtmayan az
sayıda büyük ölçekli hatalı veri bulunacaktır. Bu tür ölçümlerin veri analizi öncesi
eliminasyonu, yapılan istatistiki analizin duyarlılığını arttıracaktır. Bu tür büyük ölçekli hatalı
ölçümleri elimine edebilmek amacıyla Chauvenet testi uygulanabilir.
Chauvenet kriteri ortalama değerin her iki yanında 2 aralığının dışında kalan ölçüm
sonuçlarının elimine edilmesine gerek olup olmadığını belirlemede kullanılır. Buna göre her
bir ölçüm için (maksimum sapma/standart sapma oranı) hesaplanmalıdır. Yapılan ölçüm
sayısına bağlı olan Chauvenet kriterleri aşağıdaki tabloda verilmiştir. Ölçülen değer
Chauvenet kriterinden büyükse o ölçüm analiz dışı tutulmalıdır. Böyle daha güvenilir analiz
sonuçları elde edilecektir.
Ölçüm sayısı
(Chauvenet Kriteri)
dmax/
2
3
4
5
6
7
10
15
25
50
100
300
500
1000
1.15
1.38
1.54
1.65
1.73
1.80
1.96
2.13
2.33
2.57
2.81
3.14
3.29
3.48
Ara ölçüm sayıları için lineer interpolasyon yapılabilir.
Örnek : Yapılan bir deneyde 10 okuma sonucu ölçülen uzunluk değerleri aşağıdaki gibidir.
1
2
3
4
5
6
7
8
9
10
5.30
5.73
6.77
5.26
4.33
5.45
6.09
5.64
5.81
5.75
Ölçüm
x (m)
Bu ölçümleri dikkate alarak hatalı olabileceğini düşündüğünüz ölçümü Chauvenet kriterini
kullanarak belirleyin.
i
x
x
d  xx
d2

2
d/
1
2
3
4
5
6
7
8
9
10
5.30
5.73
6.77
5.26
4.33
5.45
6.09
5.64
5.81
5.75
5.613
5.613
5.613
5.613
5.613
5.613
5.613
5.613
5.613
5.613
-0.313
0.117
1.157
-0.353
-1.283
-0.163
0.477
0.027
0.197
0.137
0.009797
0.01369
1.33864
0.12461
1.64866
0.02657
0.21753
0.000729
0.03881
0.01877
0.595
0.595
0.595
0.595
0.595
0.595
0.595
0.595
0.595
0.595
1.189
1.189
1.189
1.189
1.189
1.189
1.189
1.189
1.189
1.189
0.526
0.197
1.945
0.593
2.156
0.274
0.802
0.045
0.331
0.230
1=56.13
x
σ
2=3.536
1 N
1
 x i   1  5.613
n i 1
n
1 n
1
1
(x i  x) 2 
d2 


 2  0.595
n i 1
n
n
dmax > 2 olduğu ölçümü kontrol etmek gerekir.
d’nin maksimum olduğu ölçüm 5.dir.
(dmax =1.283 ) > (2  =1.189)
Maksimum sapma, standart sapmanın iki katından büyük, bu yüzden 5. ölçüm için Chauvenet
kriteri kontrol edilir. 10 adet ölçüm için Chauvenet kriter değerini tablodan bakalım. Değerin
1.96 olduğu görülmektedir.
5. ölçüm için d/=2.156 dir.
(d/=2.156) > 1.96(tablodan Chauvenet kriteri)
5. ölçüm sonucu büyük olduğu için Chauvenet kriterine göre analizden çıkarılmalıdır.
Bu nokta ihmal edilerek tekrar standart sapma hesaplanırsa 0.458 bulunur. Bu ilk değer olan
0.595 ile kıyaslanırsa değerin % 25 oranında değiştiği ve daha doğru sonuç verdiği görülür. Bu
değerden başka hatalı ölçümler olması mümkün olduğu için aynı işlem bir adım daha devam
ettirilir hatalı başka nokta varsa çıkarılır yoksa işlem sonlandırılır.
Regresyon ve Korelasyon
Regresyon analizi birden fazla değişken ve bunlar arasındaki bağıntıların incelenmesinde
kullanılan bir yöntemdir. Elde edilen regresyon denklemi ile değişkenler arasındaki yaklaşık
bağıntı bulunur. Elde edilen denklem analizlerde kolaylık sağlar. Bu yüzden genellikle yapılan
deneylerde elde edilen değerleri kullanarak regresyon analizi yapılır ve değişkenler arasında
bir matematiksel bağıntı oluşturulur.
Üzerinde durulan değişkenlerden bağımlı değişken y, bağımsız değişken x dir. İkisi arasındaki
ilişkiyi kuran y=f(x) şeklindeki fonksiyona regresyon denklemi denir.
f(x) fonksiyonu farklı şekiller alabilir:
Doğrusal:
y  ax  b
Lineer regresyon
Parabolik:
Üstsel:
y  ax  b
y  ab x , y  ae x
Non-lineer regresyon
Non-lineer regresyon
Geometrik:
Hiperbolik:
y  ax b  log y  b log( ax)
y=(ax+b)-1
Non-lineer regresyon
Non-lineer regresyon
2
Ölçüm sonuçlarının grafik hale dökülmesiyle f(x) fonksiyonunun şekli belirlenir.
Lineer Regresyon
Şimdi elimizde n adet (x,y) şeklinde iki parametreli ölçümler bulunduğunu varsayalım
(Örneğin sıcaklığa karşı basınç, veya voltaja karşı gerilme gibi). Elimizdeki n adet sonlu sayıda
ölçüm değerinden yararlanarak bu iki parametre arasında bir ilişki bulmaya çalışalım. Bu
amaçla kullanılabilecek en kolay bağıntı lineerdir.
y  ax  b
Buradaki a ve b katsayıları doğrunun eğimini ve y eksenini kestiği yeri temsil etmektedir.
a ve b katsayılarının en uygun değerlerini bulabilmek üzere her bir noktanın gerçek değerden
olan farklarının karesini minimum yapmak gerekecektir. Bu yönteme en küçük kareler
yöntemi de denir.
n
2
S   y i  (ax i  b)
i 1
Her bir noktanın gerçek değerden olan farklarının karesini minimum yapabilmek için bu
ifadenin a ve b katsayılarına göre türevi alınarak sıfıra eşitlemek gerekir.
S
 2 y i  (ax i  b)(x i )  0
a
S
 2 y i  (ax i  b)(1)  0
b
b x i  a  x i2   x i y i
nb  a  x i   y i
Bu iki denklemin çözülmesi ile aranan a ve b katsayıları aşağıdaki gibi bulunur
a
n x i yi   x i  yi
n  x i2  ( x i ) 2
y x  x y x
b
n  x  ( x )
i
2
i
2
i
i
i
i
2
i
Bu a ve b katsayılarının y = ax + b denkleminde yerine konması ile denklem elde edilmiş
olur ve istenen her bir x değerine karşılık denklemden y değeri bulunabilir.
Bundan sonra ölçüm sonuçlarına uygulanan eğrinin uygun olup olmadığının belirlenmesi
lazımdır.
Ölçüm sonuçlarına uygulanan eğrinin uygunluğunu belirlemek üzere aşağıdaki formüllere
göre hesaplanan korelasyon katsayısı (r) kullanılır.
 yx2
r  1 2
y
 y2 
1 n
 ( yi  y ) 2
n i 1
2

2
yx
1 n
   yi  (axi  b)
n i 1
Bu formüllere göre hesaplanan r değerinin 1 olması, tüm ölçüm noktalarının doğru
üzerinde olduğunu gösterir ve seçilen eğri ile ölçülen deney sonuçlarının birebir uyum
sağladığını gösterir.
Ölçüm noktalarının doğrudan uzaklaşması ile r değeri sıfıra yaklaşacaktır.
r=0 durumu ölçüm noktaları ve bulunan eğri arasında hiçbir korelasyon bulunmadığının
göstergesidir.
Genellikle
edilemez.
(r) değerinin 0.90 den küçük olduğu durumlarda iyi bir korelasyondan söz
Lineer regresyon tüm ölçüm değerleri için uygun olmayabilir. Aşağıda bazı tipik durumlar
görülmektedir.
y
y
y
x
x
x
Lineer model uygun
Doğrunun eğimi yanlış
y
Non-lineer model gerekli
y
y
x
İki lineer model gerekli
x
Muhtemel hatalı nokta
x
Non-lineer model gerekli
Örnek 1.(Lineer regresyon). 1900 yılından itibaren yapılan 200 metre olimpiyat koşularında
erkek ve kadın atletlerin süreleri aşağıdaki tabloda görülmektedir.
Yıl
Erkek Koşucu
Süre(s)
Kadın Koşucu
Süre(s)
1900
1904
1908
1912
1920
1924
1928
1932
1936
1948
1952
1956
1960
1964
1968
1972
1976
1980
1984
1988
1992
1996
2000
2004
Walter Tewksbury
Archie Hahn
Robert Kerr
Ralph Craig
Allan Woodring
Jackson Scholz
Percy Williams
Eddie Tolan
Jesse Owens
Mel patton
Andrew Stanfield
Bobby Marrow
Livio Berruti
Harry Car
Tommie Smith
Valeri Borzov
Donald Quarrie
Pietro Mennes
Carl Lewis
Joe Deloach
Mike Marsh
Michael Johnson
Konstantinos Kenteris
Shawn Crawford
22.2
21.6
22.6
21.7
22.0
21.6
21.6
21.2
20.7
21.1
20.7
20.6
20.5
20.3
19.83
20.00
20.23
20.19
19.80
19.75
20.01
19.32
20.09
19.79
F. Blankers-Koen
Marjorie Jackson
Betty Cuthbert
Wilma Rudolph
Edith McGuire
Irena Szewinska
Reneta Stecher
Barbel Eckert
Barbel Wockel
Valerie Brisco-Hooks
Florence Griffith-Joyner
Gwen Torrence
Marie Jose Perec
Marion Jones
Veronica Campbell
24.4
23.7
23.4
24.0
23.0
22.5
22.40
22.37
22.03
21.81
21.34
21.81
22.12
21.84
22.05
a) Erkek ve kadın koşucular için yıllara karşılık gelen koşma sürelerinin grafiklerini çizelim.
26
25
Erkek
Kadin
SURE (S)
24
23
22
21
20
19
YIL
En küçük kareler metoduna göre bu datalara ait denklemi bulalım.
2004
2000
1996
1992
1988
1984
1980
1976
1972
1968
1964
1960
1956
1952
1948
1944
1940
1936
1932
1928
1924
1920
1916
1912
1908
1904
1900
18
Erkek koşucular:
a
b
i
xi
yi
xi2
xi yi
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
1900
1904
1908
1912
1920
1924
1928
1932
1936
1948
1952
1956
1960
1964
1968
1972
1976
1980
1984
1988
1992
1996
2000
2004
22.20
21.60
22.60
21.70
22.00
21.60
21.60
21.20
20.70
21.10
20.70
20.60
20.50
20.30
19.83
20.00
20.23
20.19
19.80
19.75
20.01
19.32
20.09
19.79
3610000
3625216
3640464
3655744
3686400
3701776
3717184
3732624
3748096
3794704
3810304
3825936
3841600
3857296
3873024
3888784
3904576
3920400
3936256
3952144
3968064
3984016
4000000
4016016
42180.0
41126.4
43120.8
41490.4
42240.0
41558.4
41644.8
40958.4
40075.2
41102.8
40406.4
40293.6
40180.0
39869.2
39025.4
39440.0
39974.5
39976.2
39283.2
39263.0
39859.9
38562.7
40180
39659.16
=
46904
497.41
91690624
971470.5
n x i yi   x i  yi
n  x  ( x i )
2
i
2

24(971470.5)  46904(497.41)
 0.02582
24(91690624)  (46904) 2
y x  x y x
n  x  ( x )
i
2
i
2
i
i
i
2
i
y = -0.02582 x + 71.1815
i

(497.41)(91690624)  (971470.5)(46904)
 71.1815
24(91690624)  (46904) 2
Kadın koşucular:
a
b
i
xi
yi
xi2
xi yi
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
1948
1952
1956
1960
1964
1968
1972
1976
1980
1984
1988
1992
1996
2000
2004
24.40
23.70
23.40
24.00
23.00
22.50
22.40
22.37
22.03
21.81
21.34
21.81
22.12
21.84
22.05
3794704
3810304
3825936
3841600
3857296
3873024
3888784
3904576
3920400
3936256
3952144
3968064
3984016
4000000
4016016
47531.2
46262.4
45770.4
47040.0
45172.0
44280.0
44172.8
44203.1
43619.4
43271.0
42423.9
43445.5
44151.5
43680.0
44188.2
=
29640
338.77
58573120
669211.5
n x i yi   x i  yi
n  x  ( x i )
2
i
2

15(669211.5)  29640(338.77)
 0.0442
15(58573120)  (29640) 2
y x  x y x
n  x  ( x )
i
2
i
2
i
i
i
2
i
i

(338.77)(58573120)  (669211.5)(29640)
 109.9168
15(58573120)  (29640) 2
y = -0.0442 x + 109.9168
b) Erkek ve kadın koşucular için korelasyon katsayılarını bulalım.
Erkekler:
r  1
 2yx
 2y
1 n
   ( y i  y) 2
n i 1
2
y
2

2
yx
1 n
  y i  (ax i  b)
n i 1
Erkekler:
r  1
 2yx
 2y
yi - y
xi
yi
1900
1904
1908
1912
1920
1924
1928
1932
1936
1948
1952
1956
1960
1964
1968
1972
1976
1980
1984
1988
1992
1996
2000
2004
22.20
21.60
22.60
21.70
22.00
21.60
21.60
21.20
20.70
21.10
20.70
20.60
20.50
20.30
19.83
20.00
20.23
20.19
19.80
19.75
20.01
19.32
20.09
19.79
46904
497.41
y
2
1 n
   ( y i  y) 2
n i 1

2
y
(yi - y )2
1.475
0.875
1.875
0.975
1.275
0.875
0.875
0.475
-0.025
0.375
-0.025
-0.125
-0.225
-0.425
-0.895
-0.725
-0.495
-0.535
-0.925
-0.975
-0.715
-1.405
-0.635
-0.935
2
yx
1 n
  y i  (ax i  b)
n i 1
axi + b
2.174
0.765
3.514
0.950
1.625
0.765
0.765
0.225
0.001
0.140
0.001
0.016
0.051
0.181
0.802
0.526
0.245
0.287
0.856
0.951
0.512
1.975
0.404
0.875
yi - (axi + b)
[yi - (axi + b)]2
0.072
-0.425
0.678
-0.118
0.388
0.091
0.195
-0.102
-0.499
0.211
-0.086
-0.082
-0.079
-0.176
-0.543
-0.269
0.064
0.127
-0.159
-0.106
0.257
-0.330
0.544
0.347
0.005
0.181
0.460
0.014
0.151
0.008
0.038
0.010
0.249
0.045
0.007
0.007
0.006
0.031
0.294
0.073
0.004
0.016
0.025
0.011
0.066
0.109
0.295
0.120
22.128
22.025
21.922
21.818
21.612
21.509
21.405
21.302
21.199
20.889
20.786
20.682
20.579
20.476
20.373
20.269
20.166
20.063
19.959
19.856
19.753
19.650
19.546
19.443
18.606
2.226
1 n
1
yi 
497.41  20.725 s (erkekler için ortalama değer)

n i 1
24
σ 2y 
1 n
1
( y i  y) 2  18.606  0.775

n i 1
24
2
σ
2
yx
1 n
1
  y i  (ax i  b) 
2.226  0.093
n i 1
24
r  1
σ 2yx
σ
2
y
 1
sınırlar içindedir.
0.093
 0.938
0.775
regresyon denklemini korelesyonu kabul edilen
Kadınlar:
r  1
 2yx
1 n
   ( y i  y) 2
n i 1
2
y
 2y
xi
yi - y
yi
1948
1952
1956
1960
1964
1968
1972
1976
1980
1984
1988
1992
1996
2000
2004
24.40
23.70
23.40
24.00
23.00
22.50
22.40
22.37
22.03
21.81
21.34
21.81
22.12
21.84
22.05
29640
338.77
1.815
1.115
0.815
1.415
0.415
-0.085
-0.185
-0.215
-0.555
-0.775
-1.245
-0.775
-0.465
-0.745
-0.535
(yi - y )2
3.295
1.244
0.665
2.003
0.173
0.007
0.034
0.046
0.308
0.600
1.549
0.600
0.216
0.555
0.286
2

2
yx
1 n
  y i  (ax i  b)
n i 1
axi + b
23.822
23.645
23.469
23.292
23.115
22.938
22.761
22.585
22.408
22.231
22.054
21.878
21.701
21.524
21.347
yi - (axi + b)
[yi - (axi + b)]2
0.578
0.055
-0.069
0.708
-0.115
-0.438
-0.361
-0.215
-0.378
-0.421
-0.714
-0.068
0.419
0.316
0.703
11.581
0.334
0.003
0.005
0.502
0.013
0.192
0.131
0.046
0.143
0.177
0.510
0.005
0.176
0.100
0.494
2.830
1 n
1
y i  338.77  22.585 s (kadınlar için ortalama değer)

n i 1
15
n
1
1
σ 2y   ( y i  y) 2  11.581  0.772
n i 1
15
y
2
σ
2
yx
1 n
1
  y i  (ax i  b)  2.830  0.189
n i 1
15
r  1
σ 2yx
σ
2
y
 1
0.189
 0.869 yaklaşık 0.9 kabul edebiliriz. Kabul edilebilir.
0.772
c) Artık denklemlerin uygunluğu kanıtlandıktan sonra istenen analizler yapılabilir. Bulunan
regresyon denklemlerini kullanarak 2012 Olimpiyat oyunları için kadın ve erkek
koşucuların sürelerini tahmin edelim.
y = -0.02582 x + 71.1815 (erkek)
x = 2012

y = 19.23 s.
y = -0.0442 x + 109.9168 (kadın)
x = 2012

y = 20.98 s.
d) Hangi yılda kadın atletlerin 200 metreyi erkeklerle aynı sürede koşacağını regresyon
denklemlerini kullanarak bulalım.
-0.02582 x + 71.1815 = -0.0442 x + 109.9168

x = 2107
Kadın koşucuların sürelerine uydurulan eğrinin eğimi erkek koşucularınkinden eğiminden
daha dik olarak azaldığı için eğer bu trend değişmezse yaklaşık 100 sene sonra kadınların
erkeklerle 200 metreyi aynı sürede koşma imkanı olabileceği matematiksel olarak mümkün
görülüyor.
Örnek 2. (Lineer regresyon). 1975 yılından itibaren yapılan 50 metre yüzme yarışlarında
erkek ve kadın yüzücülerin süreleri aşağıdaki tabloda görülmektedir.
Yıl
Kadın Yüzücü
Süre(s)
Erkek Yüzücü
Süre(s)
1975
1976
1977
1978
1979
1980
1980
1980
1980
1980
1981
1983
1983
1984
1985
1985
1986
1986
1986
1986
1987
1988
1988
1989
1990
1990
1992
1994
2000
2000
2000
2008
2008
Ender
26.99
Malloy
Jardine
26.95
26.74
Woodhead
Asplund
Sterkel
Sterkel
26.61
26.53
26.32
25.96
Sterkel
Torres
Verstappen
Torres
25.79
25.69
25.64
25.62
Torres
Costache
Costache
Costache
25.61
25.34
25.31
25.28
Yang
24.98
Yang
Jingyi Le
DeBrujin
DeBrujin
DeBrujin
Veldhuis
24.79
24.51
24.48
24.39
24.13
24.09
Skinner
Bottom
Manganiello
Steinbach
Cavanaugh
Cavanaugh
Gaines
Stahl
Bottom
Leamy
23.86
23.74
23.72
23.7
23.66
23.12
22.96
22.83
22.71
22.54
Halsall
Jager
Biondi
22.52
22.40
22.33
Jager
Jager
Biondi
Jager
Jager
Jager
22.32
22.23
22.14
22.12
21.98
21.81
Popov
21.64
Sullivan
Bernard
21.56
21.50
Erkek ve kadın yüzücüler için yıllara karşılık gelen yüzme rekorlarının grafiklerini çizelim.
En küçük kareler metoduna göre bu datalara ait denklemi bulalım.
Kadın yüzücüler:
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
toplam
xi
yi
xi2
xi yi
1975
1977
1978
1980
1980
1980
1980
1981
1983
1983
1983
1984
1986
1986
1986
1988
1992
1994
2000
2000
2000
2008
43704
26.99
26.95
26.74
26.61
26.53
26.32
25.96
25.79
25.69
25.64
25.62
25.61
25.34
25.31
25.28
24.98
24.79
24.51
24.48
24.39
24.13
24.09
561.75
3900625
3908529
3912484
3920400
3920400
3920400
3920400
3924361
3932289
3932289
3932289
3936256
3944196
3944196
3944196
3952144
3968064
3976036
4000000
4000000
4000000
4032064
86821618
53305.25
53280.15
52891.72
52687.8
52529.4
52113.6
51400.8
51089.99
50943.27
50844.12
50804.46
50810.24
50325.24
50265.66
50206.08
49660.24
49381.68
48872.94
48960
48780
48260
48372.72
1115785
a
n x i yi   x i  yi
n  x  ( x i )
2
i
2

22(1115785)  43704(561.75)
 0.096
22(86821618)  (43704) 2
y x  x y x
b
n  x  ( x )
2
i
i
i
2
i
i
2
i

i
(561.75)(86821618)  (1115785)(43704)
 215.69
22(86821618)  (43704) 2
y = -0.096 x + 215.69
Erkek yüzücüler:
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
toplam
xi
yi
xi2
xi yi
1976
1977
1978
1979
1980
1980
1980
1980
1980
1981
1985
1985
1986
1987
1988
1988
1989
1990
1990
2000
2008
2008
43695
23.86
23.74
23.72
23.7
23.66
23.12
22.96
22.83
22.71
22.54
22.52
22.4
22.33
22.32
22.23
22.14
22.12
21.98
21.81
21.64
21.56
21.5
497.39
3904576
3908529
3912484
3916441
3920400
3920400
3920400
3920400
3920400
3924361
3940225
3940225
3944196
3948169
3952144
3952144
3956121
3960100
3960100
4000000
4032064
4032064
86785943
47147.36
46933.98
46918.16
46902.3
46846.8
45777.6
45460.8
45203.4
44965.8
44651.74
44702.2
44464
44347.38
44349.84
44193.24
44014.32
43996.68
43740.2
43401.9
43280
43292.48
43172
987762.18
y = -0.071 x + 164.146
Bulunan regresyon denklemlerini kullanarak 2012 Olimpiyat oyunları için kadın ve erkek
yüzücülerin sürelerini tahmin edelim.
y = -0.071 x + 164.146 (erkek)
x = 2012

y = 21.29 s.
y = -0.096 x + 215.69 (kadın)
x = 2012

y = 22.54 s.
a) Hangi yılda kadın yüzücülerin 50 metreyi erkeklerle aynı sürede yüzeceğini regresyon
denklemlerini kullanarak bulalım.
-0.071 x + 164.146 = -0.096 x +215.69

x = 2061

Benzer belgeler