Olasılık ve˙Istatistik

Transkript

Olasılık ve˙Istatistik
AK
TA
SL
Olasılık ve İstatistik
Aydın ÜSTÜN
2014
AK
İçindekiler
TA
SL
1 GİRİŞ
1
1.1 Ölçme, Olasılık ve İstatistiğe Genel Bakış . . . . . . . . . . . . . . . .
1
1.2 Deney Tasarımı: Anakütle ve Örneklem Uzayı . . . . . . . . . . . . .
2
1.2.1
Örneklem süreci . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.3 İstatistik Türleri . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.3.1
Betimsel istatistik . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.3.2
Çıkarımsal istatistik
6
. . . . . . . . . . . . . . . . . . . . . . .
2 TEMEL OLASILIK
9
2.1 Giriş . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
2.2 Olasılığın İki Tanımı . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
2.3 Rasgele olaylar için cebirsel işlemler . . . . . . . . . . . . . . . . . . . 12
2.3.1
Temel Olasılık Önermeleri . . . . . . . . . . . . . . . . . . . . 14
2.3.2
Koşullu Olasılık . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3.3
Bağımsız Olaylar . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3.4
Bayes Kuramı . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4 İleri Sayım Teknikleri . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.1
Ağaç Çizgeleri . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
ii
İçindekiler
2.4.2
Permütasyon . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.3
Kombinasyon . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3 RASGELE DEĞİŞKENLER ve OLASILIK DAĞILIMLARI
25
3.1 Rasgele Değişken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
AK
3.2 Rasgele Dağılımlar . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2.1
Olasılık Yoğunluk Fonksiyonu . . . . . . . . . . . . . . . . . . 27
3.2.2
Ayrık Dağılım Fonksiyonu . . . . . . . . . . . . . . . . . . . . 28
3.2.3
Sürekli Dağılım Fonksiyonu . . . . . . . . . . . . . . . . . . . 29
3.3 Rasgele Değişkenin Beklenen Değeri ve Momenti . . . . . . . . . . . . 31
Beklenen Değer ve Ağırlıklı Ortalama . . . . . . . . . . . . . . 31
3.3.2
Varyans ve Standart Sapma . . . . . . . . . . . . . . . . . . . 34
3.3.3
Moment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
TA
SL
3.3.1
3.4 Diğer Merkezi Eğilim ve Saçılım Ölçütleri . . . . . . . . . . . . . . . . 38
3.5 Birleşik Rasgele Dağılımlar . . . . . . . . . . . . . . . . . . . . . . . . 42
3.5.1
Ayrık Durum . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.5.2
Sürekli Durum . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.5.3
Bağımsız Rasgele Değişkenler . . . . . . . . . . . . . . . . . . 47
3.5.4
Koşullu Olasılık Dağılımları . . . . . . . . . . . . . . . . . . . 48
3.5.5
Kovaryans ve Korelasyon . . . . . . . . . . . . . . . . . . . . . 49
4 BAŞLICA OLASILIK DAĞILIMLARI
55
4.1 Ayrık Dağılımlar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.1.1
Bernaulli ve Binom Dağılımları . . . . . . . . . . . . . . . . . 55
4.1.2
Ayrık Üniform Dağılım . . . . . . . . . . . . . . . . . . . . . . 58
4.1.3
Poisson Dağılım . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.2 Sürekli Dağılımlar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.2.1
Normal Dağılım . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.2.2
Chi-Kare Dağılımı . . . . . . . . . . . . . . . . . . . . . . . . 65
4.2.3
t Dağılımı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Olasılık ve İstatistik
s.2014.02.21
iii
İçindekiler
Fisher Dağılımı . . . . . . . . . . . . . . . . . . . . . . . . . . 68
TA
SL
AK
4.2.4
Olasılık ve İstatistik
s.2014.02.21
TA
SL
AK
Bölüm 1
1.1
GİRİŞ
Ölçme, Olasılık ve İstatistiğe Genel Bakış
Ölçme, fiziksel bir büyüklüğün önceden belirlenmiş birim büyüklükler yardımıyla
ölçeklendirilmesi eylemidir. Ölçme sonucu elde edilen sayısal veriye ölçü veya gözlem
adı verilir. Tekrarlı ölçü sonuçları birbirine benzer sayısal değerleri işaret etse de,
bilim ve mühendislikte ölçme, rasgele (kontrol edilemeyen) olayların sonuçlarıdır.
Bu nedenle, istatistikte ölçü ve gözlemlere rasgele değişken gözüyle bakılır. Tekrar
edilen her ölçü, farklı zaman veya mekanın özelliklerini yansıtır. Çevresel koşullar
istenildiği kadar aynı tutulmaya çalışılsın, yine de insan duyularının ve ölçme
sistemlerinin yetersizliği, birbirinden az ya da çok sapan ölçme sonuçlarını doğurur.
Sonuç olarak, mükemmel veya kesin değeri verecek bir ölçme işleminden söz etmek
olanaklı değildir.
Doğada gözlenebilen olaylardan belirli bir sonuç (bilgi) çıkarmak için verileri belli
kurallar altında sayısal anlamda toplamak, bilim ve mühendislik çalışmalarının
en önemli görevleri arasındadır. Yukarıda anılan nedenlerle ölçme sonuçlarının
raslantısal olaylara bağlı olması, gereğinden fazla ölçünün toplanmasını zorunlu
kılmaktadır. Öte yandan, belli bir yığını oluşturan veriler arasında raslantısallıktan
kaynaklanan tutarsızlıklar görülmesine rağmen, bunlar bazı grafiklere taşındığında
ortak (kütlesel) bir davranış sergilerler. Bu davranış biçimi kuramsal olarak iyi
bilinen olasılık fonksiyonları ile uyum içindedir. İşte bu yüzden veri yığınlarının tek
anlamlı sonuçlara dönüştürülmesi, matematiksel istatistiğin konusudur.
Türk Dil Kurumu sözlüğüne1 göre istatistik tanımı;
1
Türkçe Sözlük (2005) Türk Dil Kurumu, Ankara.
2
GİRİŞ
bir sonuç çıkarmak için olguları yöntemli bir biçimde (olasılık kuramı
ilkelerine dayanarak) toplayıp sayı olarak belirtme işi, sayım bilimi
TA
SL
AK
biçiminde verilmektedir. Tanımdan anlaşılacağı üzere, olasılık kuramı istatistiğin
temelini oluşturmaktadır. Olasılık kuramı, tıpkı bir ölçme işlemindeki kontrol
edilemeyen çevresel etkenlerde olduğu gibi, belirsizlik durumunu inceler. Şans
oyunları olasılık uygulamalarının en tipik örneğidir.
Bilim ve mühendislik
uygulamarında ise deney ya da olay sonuçları (ölçüler), genellikle kontrol
edilemeyen ancak varlığı belli olasılık değerleriyle ortaya çıkan (stokastik) olaylar
kadar, geometrik ve fiziksel yasaların sonuçları olarak nicelikleri önceden belli
(deterministik) olguları da içerir. Örneğin, ağırlık (gravite) ivmesini ölçen bir
gravimetreden okunan sayısal değer, yeryuvarının toplam kütlesi ve ölçümün
yapıldığı noktanın yerin ağırlık merkezine göre konumuna bağlıdır. Önceden, belirli
bir yaklaşıkla bilinen kütle ve konum bilgisi için gravite ivme değeri deterministik
yolla hesaplanabilir. Ancak, deterministik sistemler başlangıç koşullar altında
hep aynı sonuçları verdiğinden stokastik süreçlerden farklıdırlar, dolayısıyla olasılık
kuramının dışında yer alırlar. Bu açıklamalardan yola çıkılarak tek başına olasılık
kavramından söz edildiğinde; rasgele olayları analiz eden bir matematik dalı,
matematiksel anlamda bir olayın gerçekleşebilme durumunu gösteren sayı (0 ile 1
arasında) anlaşılır. Burada 0 imkansız olay, 1 kesin olay anlamındadır.
Veri analizinde istatistik, sonuçların yorumlanması ve gösterimi için gereklidir.
Stokastik olayların fonksiyonel davranışını tanımlayan olasılık dağılımları kullanılmaksızın istatistik sonuçlarını yorumlamak zorlaşır. İstatistik, geçmiş verilerin
tekrarlanma (frekans, sıklık) durumunu ortaya koyarken; olasılık aynı olayın
gelecekteki gerçekleşebilme durumunu açıklar. Söz konusu ilişki, bir yazı-tura
oyunuyla örneklendirilebilir. Para atışında yazı veya tura gelme olasılığı, var olan
seçenekler göz önüne alınarak hesaplanabilir: normal koşullar altında her ikisi de
eşit, 1/2. Buna karşın 100 kez atılmış bir para için 47 tura ve 53 yazı gelmesi, tam
aynı olmasa da olasılık dağılımından elde edilen 1/2 değerini işaret ederler. Buradan,
istatistik sonuçları tutarlılık açısından olasılık dağılımı değerleriyle irdelenmelidir
önermesi yapılabilir. Ayrıca, verilen örneğe ilişkin uygulama esasları ve sonuçları
karşılaştırıldığında olasılığın kuramsal, istatistiğin deneysel açıdan değerlendirilmesi
gerektiği hemen anlaşılmalıdır.
1.2
Deney Tasarımı:
Uzayı
Anakütle ve Örneklem
Bilimsel araştırmanın amacı sınırlı bir veriden evrenin nasıl işlediğine ilişkin bilgi
çıkarmaktır. Deney ve istatistiksel analiz burada çok önemli bir sac ayağı işlevi
görür. Araştırmanın çıkış noktası gözlenen olgu ve bağlı olduğu parametreler
üzerinden kurulmuş hipotezdir. Hipotezin geçerliliği, ancak bir deneysel çalışmayla
sınanabilir. Şekil 1.1 doğa bilimlerinde bilimsel yöntemin nasıl işletildiğini ve
deneyin bir bilimsel yaklaşımdaki yerini özetlemektedir. Sonuçta üretilecek bilginin
Olasılık ve İstatistik
s.2014.02.21
3
Deney Tasarımı: Anakütle ve Örneklem Uzayı
doğruluğunu ya da bilimsel araştırmadan bir sonuca ulaşılıp ulaşılamayacağını,
eldeki örnekleme (veri toplama) planı belirler. Olası örnekleme hatalarının sonuçlar
(kestirilen parametreler) üzerindeki etkisi sistematik kayıklık (bias) olarak görülür.
AK
Doğa olayları
ve
Gözlemler
Hipotez
Test edilebilir
tahminler
TA
SL
Deney
ve
Veri analizi
Deney sonuçları
hipotezi
doğruluyor mu?
Hipotezi
yeniden kur
Hayır
Evet
Kuram/Bilgi
Şekil 1.1: Bilimsel yöntem kullanarak doğa olaylarından bilgi edinimi
İstatistikte ise gözlenen bir olgu hakkında sonuç çıkarabilmek için anakütle (evren,
popülasyon ya da uzay) hakkında veri toplamak yerine, sonuçlara anakütleyi temsil
eden örneklem uzayı üzerinden ulaşmak pratik bir zorunluluktur. Amaçlanan
istatistiksel çalışmanın başarıyla gerçekleştirilmesi deney tasarımına bağlıdır. Deney
sonuçlarını etkileme potansiyeline sahip koşulların önceden belirlenmesi tasarımın
en kritik aşaması olarak görülmelidir. Anakütle yerine seçilen örneklem uzayındaki
örneklem (denek) dağılımı, anakütleyi eksiksiz biçimde temsil edecek nitelikte olması
esastır. Bu beklenti, ancak iyi bir deney tasarımı ile karşılanabilir.
Olasılık ve İstatistik
s.2014.02.21
4
1.2.1
GİRİŞ
Örneklem süreci
Örneklem sürecini oluşturan aşamalar başarılı bir istatistiksel çalışmanın sonuç
ürünü için doğruluk ve tutarlılığın sağlanmasına zemin hazırlar. Bu aşamalar ve
temel özellikleri hakkında kısa bilgi maddeler halinde aşağıda verilmektedir.
AK
Anakütlenin tanımlaması: Anlaşılmak istenen olgu ve onun nicelik tanımının
yapılmasını ifade eder. Bu tanımlar araştırma konusu ana kütleyi açık bir şekilde
ortaya çıkarmalıdır. Örneğin, bir ülkedeki okur-yazarlık oranı belirlenmek istensin.
Okur-yazarlık, okul çağına gelmiş veya başka bir deyişle okuma-yazma yetisine sahip
bireyler ile ilgili bir kavramdır. Dolayısıyla, anakütle (nüfus veya yığın olarak da
adlandırılır), okur-yazar olup olmadığı belirlenecek tüm bireylerdir. Okul öncesi yaş
grubu ve bu yetiye sahip olmayanlar anakütlenin dışında sayılırlar.
TA
SL
Örnekleme çerçevesinin belirlenmesi: Çoğu kez anakütleyi oluşturan
tüm bireylere ulaşmak ya pratik olarak olanaksız ya da uygulama maliyeti
karşılanamayacak boyuttadır. Böyle bir durumda, anakütleyi oluşturan her örneğin
içinde bulunabileceği bir altkütle (örneklem kümesi) araştırmasına gidilebilir.
Örneklem kümesi ile anakütle hacminin anlamlı ölçüde daraltılacak olması
çalışmanın uygulanabilirliğini kolaylaştıran en önemli unsurdur.
Örnekleme
çerçevesi anakütle içerisinde sınırları belirlenmiş altkütleyi temsil eder. Yukarıdaki
okur-yazarlık örneğini ele alacak olursak, örnekleme çerçevesi bir veya birkaç il veya
mahalle ve bu sınırlar içinde kalan bireylerdir.
Örnekleme yönteminin belirlenmesi: Yukarıda sınırları belirtilen örneklem
çerçevesinden örneklemlerin nasıl seçileceğini açıklar.
Basit rasgele, düzenli
(sistematik), katmanlı, küme, çok aşamalı ve alan olasılık örnekleme tekniklerinden
biri veya kombinasyonları kullanılabilir. Örnekleme tekniğinin seçiminde uygulama
maliyetinden doğruluk beklentilerine, istatistik çalışmasının gereksinimlerinden
yöntemin uygulanabilirliğine kadar değişik etkenler belirleyici rol oynar. Hangi
yöntem seçilirse seçilsin, olasılık dağılımı kurallarına göre örnekleme çerçevesi içinde
kalan örneklem çeşitliliğinin ve bu seçimle uygulamaya geçecek erişilebilirliğin ana
kütleyi yansıtması esastır.
Örnekleme sayısının belirlenmesi: Basitçe ölçü (gözlem) sayısının belirlenmesi
olarak değerlendirilebilir. Deneysel çalışmada ilgilenilen parametre ve onların sayısı
ile yakın ilişkiye sahiptir. Parametre sayısından az olmamak koşuluyla sonuçların
güven ve anlamlılık düzeyi toplanan verilerin sayısına bağlıdır. Anakütle hakkındaki
yorum ve çıkarımların gücü örneklem sayısından gelir. Bir çalışmada ne kadarlık
veriye gereksinim olduğu bazı test gücü çizelgelerinden ve birikimli (kümülatif)
dağılım fonksiyonu eşitliklerinden hesaplanabilir.
Olasılık ve İstatistik
s.2014.02.21
5
İstatistik Türleri
Örnekleme (veri toplama): Yukarıdaki tasarım aşamalarının uygulanmasıyla
veri toplama sürecine geçilmiş olur. Tasarımda belirlenen çerçevenin dışına
çıkılmamasının yanı sıra gözlem sırasında çevresel etkenlerin de kayıt altına
alınması veri analizini ve çıkarılacak sonuçların kalitesini arttıracağı göz önünde
bulundurulmalıdır.
İstatistik Türleri
AK
1.3
Örneklem kümesinden elde edilen verilerin istatistiksel analizi bizi iki istatistik
türüne götürür: betimsel (açıklayıcı) istatistik ve çıkarımsal (tümevarımcı, sonuç
çıkarıcı) istatistik.
1.3.1
Betimsel istatistik
TA
SL
Eldeki verilerin özetlenmiş biçimi ya da başka bir deyişle niceliklendirilmesi betimsel
istatistiği açıklar. Verilerin sınıflandırılması, sınıf toplamları veya tekrarlanma
sayıları, ortalamaları, saçılım (yayılım) değerleri, veri sınıfları arasındaki ilişki
(korelasyon) değerleri, bunlara ait çizelge ve grafik gösterimler betimsel istatistiğin
uygulama örnekleridir. Analiz sürecinin olasılık kuramından bağımsız ilerlermesi
betimsel istatistiğin ayırtkan özelliğidir. Betimsel istatistik için kullanılan analiz
teknikleri değişik biçimlerde sınıflandırılabilir. Değişken sayılarına göre analiz
araçları ve bazı örnekler aşağıdaki gibi sıralanabilir:
• Tek değişkenli (univaryat)
– Çizelgeler: sayım, frekans (sıklık)
– Grafik ve çizgeler: çubuk, pasta, ağaç, histoğram
– Merkezsel konum araçları: ortalama, mod, ortanca (medyan)
– Yayılım ve saçılım (sapma) ölçütleri: varyans, standart sapma, çarpıklık,
basıklık
• İki değişkenli (bivaryat)
– Çapraz çizelgeler
– Saçılım haritaları
– Bağımlılık ölçütleri (korelasyon, kovaryans)
• Çok değişkenli (multivaryat)
– Korelasyon matrisleri
– Regresyon analizleri
Olasılık ve İstatistik
s.2014.02.21
6
GİRİŞ
AK
Betimsel istatistik örneği olarak, bir öğrenci grubunun belirli bir dersteki başarısı
açıklayıcı bir bilgi olarak değerlendirilebilir. Sınav notlarının ortalaması bir başarı
göstergesidir. Türkiye İstatistik Kurumu (http://www.tuik.gov.tr) tarafından
toplanan ve yıllık bazda yayımlanan verilerin tümü (çizelge, grafik vb.) açıklayıcı
istatistik niteliğindedir. Örneğin, 1990–2009 yılları arasında Türkiye’de gerçekleşen
sera gazı emisyon (salınım) verileri hem çizelge (Çizelge 1.1) hem de şekil (Şekil
1.2) olarak sunulabilir. Atmosferde sera etkisi yaratan bu gazların yıllık rakamlar
üzerinden toplam emisyon içindeki ortalama payları (merkezsel konumları) pasta
dilimleriyle Şekil 1.3’deki gibi gösterilebilir.
Çizelge 1.1: 1990–2009 yılları arasında Türkiye’nin sera gazı emisyon değerleri
(Kaynak: TÜİK, birim: milyon ton CO2 eşdeğeri)
CO2
141.36
148.31
153.95
162.55
160.82
173.90
192.01
205.18
204.32
203.68
225.43
208.99
218.04
232.64
243.43
259.61
276.72
307.92
297.12
299.11
CH4
33.50
37.56
41.02
43.33
43.71
46.87
49.31
50.59
51.90
53.14
53.30
52.74
50.43
51.63
49.37
52.38
53.33
55.58
54.29
54.37
N2 O F Gazları Toplam
11.57
0.60
187.03
12.51
0.74
199.13
14.58
0.68
210.23
15.10
0.69
221.66
12.02
0.60
217.15
16.22
0.52
237.51
16.40
0.89
258.62
14.98
1.13
271.88
16.65
1.18
274.05
16.93
1.03
274.78
16.62
1.66
297.01
14.69
1.70
278.11
15.32
2.41
286.20
15.67
2.80
302.75
16.00
3.46
312.26
14.18
3.73
329.90
15.55
4.05
349.64
12.35
4.13
379.98
11.57
3.51
366.50
12.53
3.64
369.65
TA
SL
Yıl
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
1.3.2
Çıkarımsal istatistik
Çıkarımsal istatistik, örneklemden elde edilen (betimsel) istatistiksel sonuçları
kullanarak anakütle hakkında yargıda bulunmayı amaçlar. Gözlem altına alınan
anakütlenin beklenen davranışı hakkında bir yargıda bulunabilmek için bir dizi
işlem yürütülür. Betimsel istatistik analiziyle türetilmiş ortalama, standart sapma,
korelasyon vb. değerler temel veri olarak kullanılır. Bu bilgilere dayanarak
anakütle için bir hipotez (varsayım) ileri sürmek ilk aşamadadır. Olasılık dağılımları
Olasılık ve İstatistik
s.2014.02.21
7
İstatistik Türleri
400
F Gazları
N2 O
CH4
CO2
300
250
200
AK
Emisyon (milyon ton CO2 eşdeğeri)
350
150
100
50
0
1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010
Yıl
TA
SL
Şekil 1.2: Yıllara göre Türkiye’nin sera gazı emisyonu değişimi (Kaynak: TÜİK)
kullanılarak hipotezler testlerden geçirilir ve sonuç olarak geleceğe ilişkin bir
öngörülerde bulunulur. Gerektiğinde bu işlem değişik veri grupları arasındaki
ilişkilerin tanımlanması ve buradan model üretilmesine (regresyon analizi) doğru
götürülebilir. Bütün bu süreçler çıkarımsal istatistik başlığı altında ele alınır. Bu
haliyle bilim, mühendislik ve üretim sektörü çıkarımsal istatiği en çok kullananların
başında gelir.
Neden sonuç ilişkisi en iyi biçimde çıkarımsal istatistikle açıklanabilir. Jeodezik
uygulamalarda atmosferik olayların doğrultu, düşey açı, elektro-manyetik dalgalar
(örneğin GNSS sinyalleri) üzerindeki etkilerinin araştırılması, uyuşumsuz ölçülerin
analizi, deformasyon analizinde noktasal yer değiştirmelerin deformasyon sayılıp
CO2
%76.26
CH4
%17.72
F Gazları
%0.64
N2 O
%5.39
Şekil 1.3: Sera gazlarının yıllık ortalama emisyon oranları (Kaynak: TÜİK)
Olasılık ve İstatistik
s.2014.02.21
8
GİRİŞ
TA
SL
AK
sayılamayacağı, koordinat dönüşümlerinde nokta uyuşum testleri, dengeleme
hesabında kestirilen parametrelerin güven ve anlamlılık düzeyleri çıkarımsal
istatistiğin en çok karşılaşılan örnekleridir.
Olasılık ve İstatistik
s.2014.02.21
AK
Bölüm 2
TA
SL
TEMEL OLASILIK
2.1
Giriş
Rasgele olayların deney sonuçları üzerindeki etkileri belli olasılık değerleri göz önüne
alınarak değerlendirilir (bkz. [1.3.2]). Bilim ve mühendislik uygulamalarında
bunun en basit örneklerini güven aralığı hesaplamaları oluşturur. İstatistiksel
bir çalışmanın kestirilmiş bazı parametrelerine (örneğin ortalama ve saçılım
değerlerine) bakılarak, sonuçların güvenirliği hakkında yorum yapılabilir. Olasılık
hesaplarının uygulama bulduğu alanlardan bir başkası şans oyunlarıdır. Şans
oyunlarının tamamen raslantısal olaylar üzerine kurgulanması, olasılık kuramına
ilişkin örneklerin neden bu tür uygulamalardan seçildiğine en iyi cevaptır.
Sırasıyla, sayılabilir ve sayılamayan örneklem uzaylarını kullanan ayrık ve sürekli
olasılık dağılımları, olasılık kuramının temel özelliklerinin anlaşılmasında anahtar rol
oynarlar. Bu bölümde olasılık kuramı açısından rasgele olaylar, rasgele değişkenler
ve onların beklenen değerleriyle, sonuçların dağılım özellikleri ele alınacaktır.
2.2
Olasılığın İki Tanımı
Deneysel bir çalışmada ardışık gözlemlerin yakın değerler olarak tekrar etmesi
belli fiziksel ve geometrik yasaların sonucudur.
Bu yasalar aynı girdi
verileriyle aynı sonuçları verirler. Gerçekte gözlem değerlerinin benzerliği belirli
bir mertebeye kadardır ve genellikle ölçme sisteminin yeteneğiyle ilişkilidir.
Ölçülen büyüklüklerdeki tekrar eden rakamlar dış etkenlerin kontrol edilebildiği
10
TEMEL OLASILIK
AK
(deterministik) kesimi temsil eder. Geriye kalan kesim ise tek bir ölçü için
değişkenliği (büyüklüğü ve işareti) önceden kestirilemeyen, ancak kitlesel olarak
davranışı bilinen rasgele (stokastik) süreçlerle açıklanır. İnsana ait hatalardan
arındırılmış, en gelişmiş teknolojinin kullanıldığı ölçme sistemlerinde bile stokastik
büyüklükler kaçınılmaz olarak gözlem değerlerinde kendilerini belli ederler. Ölçme
uygulamarında gözlenen büyüklükler, bir yere kadar kontrol altında tutulabilir.
Özetle, kusursuz veya mükemmel ölçü yoktur. Bu özellikleriyle ölçüler, şans
oyunlarındaki raslantısallıkla bire bir benzer davranış gösterirler. Sonuç olarak,
deneysel bir çalışmanın değişkenlerinin alacağı değerlerin, zar atışından farkı yoktur
denilebilir. Çevresel koşulların aynı kaldığı deneysel bir çalışmada, tekrarlı gözlemler
birbirinden farklı raslantısal değerler alıyorsa bu tür deneylere rastgele deneyler
denir.
Rasgele deneylerin olası tüm sonuçları bir küme (uzay) ile tanımlanır. Buradan
itibaren örneklem uzayı S sembolü ile gösterilecektir. Örneklem uzayının elemanları
sözel olabileceği gibi bu küme her biri için atanmış sayıları da içerebilir. Küme
elemanları sayılabilir (sonlu ya da sonsuz) veya sayılamaz nitelikte olur. Rasgele
deneyler ve örneklem uzayları aşağıda bazı örnekler verilmektedir.
TA
SL
Örnek 2.1
Bir para atışında, deney sonucu tura T (1) ya da yazı Y (0) ile sonuçlanır. Buna göre
para atışı oyununun küme elemanları,
S = {0, 1} veya S = {Y, T }
olarak gerçekleşir (sonlu sayılabilir).
Örnek 2.2
Para atışı iki kez yapılsın. Sembolik veya sayısal olarak,
S = {Y Y, Y T, T Y, T T } veya S = {0, 1, 2, 3}
küme elemanlarıyla ifade edilen 4 sonuçtan biriyle karşılaşılır (sonlu sayılabilir).
Örnek 2.3
Zar atışında deney sonucunu oluşturan küme elemanları (sonlu sayılabilir):
S = {1, 2, 3, 4, 5, 6}
Örnek 2.4
Bir oyun parkında roket oyunu için boy cetveli testi uygulansın (sonlu sayılabilir):
S = {kısa, uzun} veya S = {0, 1}
Olasılık ve İstatistik
s.2014.02.21
11
Olasılığın İki Tanımı
Örnek 2.5
Sonucu doğal sayılar kümesi,
N = {0, 1, 2, . . . }
Örnek 2.6
AK
olan deney (sonsuz sayılabilir).
Bir hedefe yapılan 10 doğrultu gözleminin aritmetik ortalaması (sonsuz sayılamaz):
S = {0g ≤ t < 400g }
TA
SL
Yukarıda verilen örneklerden anlaşılacağı üzere herhangi bir deneyin olası tüm
çıktıları önceden bilinebilmektedir. Para atışında tura gelme olasılığı –eşit yazı
gelme olasılığı da hesaba katıldığında– 1/2 olacaktır. Benzer şekilde zar atışında
üç gelme olasılığı 1/6, tek sayı gelme olasılığı 1/2 olacaktır. Olasılığın geleneksel
tanımına göre; bir deneyin karşılıklı olarak dışarmalı (mutually exclusive) ve eşit
olasılıklı n farklı çıktısı varsa, sayısı nA olan bir olayın gerçekleşme olasılığı,
nA
P (A) =
(2.1)
n
eşitliğinden hesaplanabilir.
Yukarıdaki kuramsal sonuca deneysel yolla ulaşmak mümkündür. Para veya zarın
hilesiz, tekrar atışların eşit koşullar altında yapılması durumunda, herhangi bir A
olayının gerçekleşme sayısı tüm atışların sayısına bölünerek bağıl tekrarlanma sayısı,
nA
h(A) =
(2.2)
n
elde edilir. h(A) değerine, geçmişte gözlenmiş olayların sıklığına dayandığından
olasılığın frekans açıklaması gözüyle bakılır. P (A) ve h(A) değerleri birbirine eşit
çıkması beklenen büyüklüklerdir. Deney sayısı arttıkça sonuçların birbirine daha da
yaklaştığı görülür. Buna sonuca göre; A olayının gerçekleşme olasılığı P (A), bağıl
tekrarlanma sayısının limit durumudur:
P (A) = lim h(A)
n→∞
(2.3)
(2.3)’ten,
bir
olayın
olasılığı,
bağıl
tekrarlanma
sayılarına
bakılarak tanımlanabileceği anlaşılmalıdır. Ancak, pratikte deney sayısının sonlu
oluşu ve kuramsal olasılık değerlerine sadece sonsuzda ulaşılabilmesi, tanım için bu
yöntemin tercih edilmesini zora sokar. Bu yüzden olasılık tanımları ve önermeleri
daha çok kuramsal olasılık sonuçları için geçerlidir.
Örnek 2.7
Olasılık ve İstatistik
s.2014.02.21
12
TEMEL OLASILIK
Bir hastanedeki doğum kayıtlarına göre Ocak ayında 68 erkek, 71 kız bebek dünyaya
gelmiştir. Bu verilere göre, erkek ve kız çocuk meydana gelme olasılıkları, sırasıyla h(E) =
71
68
68+71 = 0.489, h(K) = 68+71 = 0.511’dir.
2.3
AK
Olasılık hesabı, 0 ve 1 arasındaki değerlerle sonuçlanır. Bazı durumlarda bu sonuçlar
yüzdesel karşılıklarıyla da verilebilmektedir: son örnek için erkek ve kız çocuk
dünyaya gelme olasılıklarının %48.9 ve %51.1 olması gibi.
Rasgele olaylar için cebirsel işlemler
TA
SL
Rasgele deneyin olası tüm sonuçlarını içeren S kümesine örneklem uzayı, bu deneyin
çıktısına ya da S kümesinin elemanlarından birine örneklem veya elementer olay
adı verilir. Örneklem uzayının elemanlarıyla oluşturulmuş (alt)küme bir olayın
karşılığıdır. Buna göre; {1,3,5} kümesi zar atışında tek sayı gelme olayının
elemanlarıdır. Örneklem uzayının herhangi bir alt kümesi A, rasgele olay veya kısaca
olay olarak tanımlanır: A ⊂ S. Gerçekleşmesi mümkün olmayan olay için alt küme
A = ∅, boş kümedir.
S örneklem uzayında her hangi iki rasgele olaya karşılık gelen alt kümeler A ve
B olsun. A ve B, yeni rasgele olayları türetmek için kullanılabilir. Şekil 2.1’de
görüldüğü gibi, Venn diyagramlarıyla gösterilebilen birleşim (∪), kesişim (∩), değil
(˜) ve fark (−) işlemleri olaylar cebri adı verilen matematik yöntemi tanımlar:
• A ∪ B, A ve B olaylarının birleşimi anlamındadır; her iki kümenin sonuçlarını
içerir. Mantık işlemlerinde “veya” operatörünün karşılığıdır.
• A ∩ B, A ve B olaylarının kesişimi anlamındadır; her iki kümenin ortak
sonuçlarını içerir. Mantık işlemlerinde “ve” operatörünün karşılığıdır.
• Ã, A olayının dışındaki sonuçları ifade eder.
operatörünün karşılığıdır.
Mantık işlemlerinde “değil”
• B − A, B’nin A’da olmayan sonuçlarını kapsar. S − A biçiminde yazılırsa, Ã
işlemine dönüşür (Şekil 2.1).
Örnek 2.8
Olasılık ve İstatistik
s.2014.02.21
13
Rasgele olaylar için cebirsel işlemler
Zar atışı için rasgele olaylar A = {1, 2, 3, 5} ve B = {3, 4, 5, 6} verilsin. Cebirsel olaylar,
A ∪ B = {1, 2, 3, 4, 5, 6}
A veya B (birleşim)
A ∩ B = {3, 5}
A ve B (kesişim)
à = S − A = {4, 6}
A hariç (değil)
B̃ = S − B = {1, 2}
B hariç (değil)
A − B = {1, 2}
B hariç A (fark)
B − A = {4, 6}
A − B ∪ B − A = {1, 2, 4, 6}
B
A ve B karşılıklı dışarmalı
A
TA
SL
A
AK
A hariç B (fark)
B
S
S
A∪B
A
B
A∩B
A
B
S
à ∩ B = B − A
A
S
A−B∪B−A
B
S
à = S − A
Şekil 2.1: S örneklem uzayında rasgele olaylar (A, B ⊂ S) için cebirsel işlemler
Olasılık ve İstatistik
s.2014.02.21
14
TEMEL OLASILIK
A ve B olaylarına karşılık gelen kümelerde herhangi bir eşleşme yoksa yani küme
işleminden A∩B = ∅ sonucu çıkıyorsa, bu olaylar karşılıklı olarak dışarmalıdır denir.
A1 , A2 , · · · , An olaylarının karşılıklı dışarmalı olması için bu özelliğin herhangi iki çift
için de geçerli olması gerekir.
2.3.1
Temel Olasılık Önermeleri
Önerme 2.1 A’nın olasılık değeri,
AK
S örneklem uzayı üzerinden açıklanan her olay A ve onun olasılığını gösteren sayı
P (A) olsun. Aşağıdaki temel önermeler (aksiyomlar) kanıt gerektirmeksizin her
zaman geçerlidir:
P (A) ≥ 0
artı tanımlıdır.
TA
SL
Önerme 2.2 S olması kesin olaydır:
P (S) = 1
(2.4)
(2.5)
Önerme 2.3
A1 , A2 , . . . , An karşılıklı olarak dışarmalı olaylar dizisi ise
birleşimlerinin olasılığı, ayrı ayrı olasılıklarının toplamına eşittir:
P (A1 ∪ A2 ∪ · · · ∪ An ) =
n
X
i=1
P (Ai ) = P (A1 ) + P (A2 ) + · · · + P (An )
(2.6)
Yukarıdaki temel önermelere dayanılarak ileride yararlanmak üzere bazı teoremler
ileri sürülebilir.
Teorem 2.1 A olayının gerçekleşmeme olasılığı,
P (Ã) = 1 − P (A)
(2.7)
ile hesaplanır.
Kanıt: A olayının gerçeklememesi bu kümenin dışındakileri à = S − A ilgilendirir
(sonuçlar A kümesinin dışından çıkar). Karşılıklı olarak dışarmalı A ve à olaylarının
toplamları S örneklem uzayını oluşturduğundan yukarıdaki temel önermeler göz
önüne alındığında (2.7) çıkar.
Olasılık ve İstatistik
s.2014.02.21
15
Rasgele olaylar için cebirsel işlemler
Teorem 2.2 A veya B olaylarının (birleşim) olasılığı,
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
(2.8)
dir.
Kanıt: Şekil 2.1’e göre;
P (A ∪ B) = P (A ∩ B̃) + P (A ∩ B) + P (Ã ∩ B)
AK
P (A) = P (A ∩ B̃) + P (A ∩ B)
P (B) = P (A ∩ B) + P (Ã ∩ B)
P (A) + P (B) = P (A ∩ B̃) + P (Ã ∩ B) + 2P (A ∩ B)
eşitlikleri yazılabilir. Son eşitlikte sağ ve soldaki terimlerden P (A ∩ B) çıkarılırsa,
P (A) + P (B) − P (A ∩ B) = P (A ∩ B̃) + P (Ã ∩ B) + P (A ∩ B)
= P (A ∪ B)
elde edilir.
Örnek 2.9
TA
SL
Okey taşları arasından rasgele bir seçim yapıldığı varsayılsın. Taşın sarı renkli veya 13
olma olasılığını hesaplayalım.
1’den 13’e kadar 4 renk ve çift seri taşların sayısı 104’tür (joker taşlar hariç). Buradan
seçilen taşın,
P (13)
= 8/104
13 olasılığı
P (sarı)
= 26/104
P (13 ∩ sarı) = 2/104
bulunduğundan 13 veya sarı taş olasılığı,
sarı renk olasılığı
13 ve sarı renk olasılığı
P (13 ∪ sarı) = P (13) + P (sarı) − P (13 ∩ sarı)
8
26
2
32
4
=
+
−
=
=
104 104 104
104
13
çıkar.
Teorem 2.3 A1 , A2 ve A3 olaylarının birleşimi,
P (A1 ∪ A2 ∪ A3 ) = P (A1 ) + P (A2 ) + P (A3 ) − P (A1 ∩ A2 ) − P (A1 ∩ A3 )−
(2.9)
− P (A2 ∩ A3 ) + P (A1 ∩ A2 ∩ A3 )
ile elde edilir.
Teorem 2.4 Her A olayı için,
0 ≤ P (A) ≤ 1
(2.10)
eşitsizliği geçerlidir. Burada P (A) = 0 olanaksız olayın (A = ∅), P (A) = 1 kesin
olayın (A = S) olasılığıdır.
Kanıt: Önerme (2.4) ve Teorem (2.7).
Olasılık ve İstatistik
s.2014.02.21
16
2.3.2
TEMEL OLASILIK
Koşullu Olasılık
Örnek 2.10
AK
İki kez atılan para için örneklem uzayı S = {T T, T Y, Y T, Y Y }’dır. İki atışın da tura
gelme olayı A = {T T } ve olasılığı P (A) = 1/4’tür. Buna karşın atışlardan birinin tura
olduğu önceden biliniyorsa, B = {T T, T Y, Y T } olayı ile karşı karşıyayızdır. A ∩ B = {T T }
olduğuna göre, B’den A olayının çıkma olasılığı 1/3’tür.
Verilen örneği dikkate alacak olursak, daha önce gerçekleşmiş (önsel) bir olaya ilişkin
bilginin olasılık hesabında kullanılması durumu söz konusudur. Olasılık hesabında
böylesi uygulamalar, koşullu olasılık adı altında incelenir. Koşullu olasılık hesabı
birbirine bağımlı iki olayı gerektirir. A ve B iki olay olsun. Daha önce B’nin bilinen
gerçekleşmesi içinde (P (B) > 0 koşuluyla) A’nın olasılığı P (A|B) ile gösterilir.
Küme işlemleri üzerinden bu değere,
P (A|B) =
P (A ∩ B)
P (B)
(2.11)
TA
SL
işlem sonucu ile ulaşılır. Genel olarak bilinen B için A’nın koşullu olasılığı P (A|B),
bilinen A için B’nin koşullu olasılığından P (B|A) farklıdır.
Örnek 2.11
Bir zar atışında gelen sayının 4’ten küçük olma olasılığını hesaplayalım.
a) Başka bilgi verilmemiş olsun.
b) Atışın tek sayı ile sonuçlandığı biliniyor olsun.
a) A, 4’ten küçük gelme olayını göstersin: A = {1, 2, 3}. Bu durumda A’nin olasılığı (her
bir örneklemin eşit olasılığa sahip olduğu düşünülerek),
P (A) = P (1) + P (2) + P (3) = 1/6 + 1/6 + 1/6 = 3/6 = 1/2
çıkar.
b) Gelen sayının tek sayı olduğu biliniyorsa, başka bir deyişle B = {1, 3, 5} ise,
A ∩ B = {1, 3}
⇒
P (A ∩ B) = 2/6
ve koşullu olasılık,
P (A|B) =
2/6
P (A ∩ B)
=
= 2/3
P (B)
3/6
elde edilir.
2.3.3
Bağımsız Olaylar
A ve B olayları için,
P (A|B) = P (A)
Olasılık ve İstatistik
(2.12)
s.2014.02.21
17
İleri Sayım Teknikleri
eşitliğinin geçerli olduğu olaylar dizisinde, A’nın gerçekleşmesinin B’den etkilenmediği söylenebilir. Buna göre A ve B bağımsız olaylardır deriz.
P (A ∩ B) = P (A)P (B)
(2.13)
bağımsız A ve B olaylarının gerçekleşme olasılığını verir.
Örnek 2.12
AK
Tavla oyuncusunun zarları atışı bağımsız iki olayı işaret eder. Düşeş (6,6) gelme olasılığı
1
bu bağımsız olaylardan hesaplanabilir: 16 × 16 = 36
A1 , A2 , A3 olayları bağımsız, başka bir deyişle,
P (Ai |Aj ) = P (Ai )
i 6= j
(i, j = 1, 2, 3)
(2.14)
eşitliğini sağlıyorsa üçünün de aynı olay altında gerçekleşme olasılığı,
P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 )P (A3 )
TA
SL
eşitliğiyle hesaplanır.
2.3.4
(2.15)
Bayes Kuramı
Birleşimleri örneklem uzayının alt kümesini oluşturan A1 , A2 , A3 , · · · An ’in karşılıklı
olarak dışarmalı olaylar olduğunu varsayalım.
Teorem 2.5 Herhangi bir önsel A olayının gerçekleşmesinin (P (A) > 0) sonucuna
bağlı A1 , A2 , · · · , An olaylarının olasılıkları Bayes Kuralı,
yardımıyla belirlenir.
P (Ai )P (A|Ai )
P (Ai |A) = Pn
j=1 P (Aj )P (A|Aj )
(2.16)
Bayes teoremi birden fazla koşullu olasılık değerleri arasındaki ilişkiyi açıklar. (2.16)
ile P (A|B) ve P (B|A) ile birbirine dönüştürülebilir büyüklükler haline gelir:
P (A|B) =
2.4
P (A)P (B|A)
P (B)
(2.17)
İleri Sayım Teknikleri
Bir örneklem uzayı genellikle sayılabilir sonlu sayıda eleman içerir. Eleman
sayısının küçük olduğu durumlarda, olasılık hesaplamak için seçenekleri sıralamak
Olasılık ve İstatistik
s.2014.02.21
18
TEMEL OLASILIK
zor değildir. Eleman sayısının artmasıyla seçenekleri sıralamak veya saymak zorlaşır.
Örneğin 0’dan 9’a kadar olan sayılar kaç değişik biçimde sıralanabilir sorusunun
cevabını, saymak yerine seçenekleri faktöriyel hesabı ile bulmak daha kolaydır:
10! = 3 628 800.
2.4.1
Ağaç Çizgeleri
AK
Sayım işleminin belli kuramlara dayandırıldığı matematik dalına katışımsal analiz
(kombinatoryal analiz, İngilizce combinatorial analysis) adı verilir. Faktöriyel,
perpütasyon, kombinasyon varyasyon gibi ileri sayım teknikleri büyük örneklem
sayısına sahip veri kümeleri için karmaşık olasılık hesapları yapmanın en etkili
araçlarıdır.
A1 , A2 , . . . , Ak birbirinden bağımsız olaylar, n1 , n2 , . . . , nk sırasıyla eleman sayıları
olsun. k sayıdaki ardışık olayın gerçekleşmesiyle ortaya çıkacak seçeneklerin sayısı,
n1 n2 n3 · · · nk
(2.18)
TA
SL
eleman sayılarının çarpımı ile bulunur. Örneklem değerleri sürekli aynı kümeden
çıkıyorsa ya da aynı bağımsız olayın k kez tekrarlanması söz konusu ise bu durumda
seçenek sayısı,
n · n · · · · · n (k kez) = nk
(2.19)
olur. Bir zarın ya da paranın k sayıda atılması buna örnektir.
Örnek 2.13
Bir dondurmacıdan değişik dondurma ve sos seçenekleriyle sipariş vermek isteyelim.
Bağımsız olaylar,
Kremalı dondurma grubu K
Meyveli dondurma grubu M
Sos grubu
S
= {Sütlü, Kakaolu}
= {Karadut, Vişne, Limon}
= {Çikolata, Böğürtlen}
örneklem kümeleri ile verilsin.
Her örneklem kümesinden birer seçim yapılarak
verilebilecek siparişlerin sayısı 2 · 3 · 2 = 12’dir.
Örnek 2.14
Bir paranın üç kez arka arkaya atılmasıyla elde edilebilecek sonuçların sayısı 2 × 2 × 2 =
23 = 8’dir.
Ardışık olaylar dizisine ait seçeneklerin ve olasılıkların belirlenmesinde ağaç çizgeleri
(zaman zaman olasılık çizgeleri de denilmektedir), hem problemin anlaşılmasını hem
de hesap kolaylığı sağlar. Örnek 2.13, bir ağaç çizgesi (Şekil 2.2) yardımıyla da
gösterilebilir. Benzer şekilde üç kez tekrarlanan para atışı için Şekil 2.3’te görülen
seçenekler ve olasılıkları ortaya çıkar.
Olasılık ve İstatistik
s.2014.02.21
19
İleri Sayım Teknikleri
Çikolata
Karadut
Böğürtlen
Çikolata
Sütlü
Vişne
Böğürtlen
Çikolata
Limon
AK
Böğürtlen
Dondurma
Çikolata
Karadut
Böğürtlen
Çikolata
Kakaolu
Vişne
Böğürtlen
Çikolata
Limon
Böğürtlen
TA
SL
Şekil 2.2: Ağaç çizgesi üzerinden dondurma sipariş seçenekleri
Verilen iki örnek eşit olasılıklı örneklem uzayları içindir. Örneklemlerin eşit
olasılıklarla temsil edilmediği uygulamalar için de ağaç çizgeleri kullanılabilir ve
olasılık hesapları gerçekleştirilebilir. Bunun için, bir noktadan çıkan ağaç dallarının
tümü bağımsız bir olayı, dalların her biri çıkması muhtemel sonucun olasılıklarını
gösterecek şekilde çizge oluşturulmalıdır. Ardışık olayların beklenen sonuçları ağaç
dalları boyunca gidilerek bağımsız olasılıkların çarpımından hesaplanabilir.
Örnek 2.15
Bir torbada aynı büyüklükte 1 kırmızı, 2 yeşil ve 3 mavi top bulunsun. Torbadan arka
arkaya iki kez top çekilsin. Seçenekler ve olasılıklarını ağaç çizgesi yardımıyla bulalım.
Torbadan çekilen ilk topun tekrar geriye konulmadığı durumda örneklem kümesi,
S = {KY, KM, Y K, Y Y, Y M, M K, M Y, M M }
olur. Çekiş önceliği düşünülmeksizin topların kırmızı ve mavi çıkma olasılığı, Şekil 2.4’e
göre KM ve M K olasılıkları toplamına eşittir:
3
6
1
3
+
=
=
30 30
30
5
2.4.2
Permütasyon
Permütasyon bir kümedeki elemanların tamamını ya da bir kısmını kullaOlasılık ve İstatistik
s.2014.02.21
20
TEMEL OLASILIK
b
T
Y
0.5
0.5
TY
YT
YY
0.25
0.25
0.25
0.25
TTT
TTY
TY T
TY Y
0.125
0.125
0.125
0.125
AK
TT
Y TT
Y TY
YYT
YYY
0.125
0.125
0.125
0.125
Şekil 2.3: Yazı-tura oyununda üç kez atılan para için seçenekler ve olasılıkları
b
2
6
1
6
Y
M
TA
SL
K
3
6
2
5
3
5
1
5
1
5
3
5
1
5
2
5
2
5
Y
M
K
Y
M
K
Y
M
2
30
3
30
2
30
2
30
6
30
3
30
6
30
6
30
Şekil 2.4: İçinde 1 kırmızı (K), 2 yeşil (Y ) ve 3 mavi (M) top bulunan torbadan
arka arkaya yapılan iki çekilişin olasılık değerleri
narak, sadece yerlerini değiştirme yoluyla farklı sonuçlar üretme işlemidir.
Sıralama sonucu oluşacak her öğe bir permütasyon olarak değerlendirilir.
Örneğin, {abc, bca, cab, acb, cba, bac} kümesinin elemanları a, b ve c harflerinin
permütasyonudur. Farklı sıralama sonuçlarına karşılık gelen permütasyonların
sayısı, n eleman sayısının faktöriyeli n! ile bulunabilir.
Permütasyon için kullanılacak elemanların, belli bir grubun arasından sınırlı sayıda
rasgele seçimle belirlenmesi istenebilir. n elemanlı bir kümede ilk seçimde n seçenek,
ikinci seçimde n − 1 seçenek, üçüncü seçimde n − 2 seçenek vardır. Sıra r. seçime
geldiğinde n − r + 1 sayıda seçenek kalır. Bu düzenle; ortaya çıkacak sıralama sayısı,
n Pr
= n(n − 1)(n − 2) · · · (n − r + 1) =
n!
(n − r)!
(2.20)
ile hesaplanır. n Pr , n’nin r. permütasyonu olarak okunur.
Dikkat edilirse, (2.20) ile elde edilen sonuç, sıralamada herhangi bir elemanın sadece
bir kez kullanılması, tekrar etmemesi kuralı için geçerlidir (tekrarsız permütasyon).
Olasılık ve İstatistik
s.2014.02.21
21
İleri Sayım Teknikleri
Aksi durumda, permütasyon hesabı değişir. Tekrarlı permütasyon sıralamada bir
elemanın birden fazla geçtiği seçenekleri de kapsar. Bu, seçim işleminin sürekli aynı
sayıda seçenek arasından yapılması anlamına gelir. Olası seçeneklerin sayısını (2.19)
verir.
Örnek 2.16
AK
0, 1, 2, 3, 4, 5, 6 sayılarından rasgele 3’ü seçilerek (tekrarsız permütasyon) yapılabilecek
farklı dizilimlerinin sayısı,
7!
= 7 · 6 · 5 = 210
7 P3 =
4!
olur. 000,112 gibi içinde birden fazla sayının geçtiği tekrarlı permütasyonların sayısı ise
73 = 343’tür.
Seçimin yapılacağı küme elemanları farklı alt gruplardan oluşabilir. n1 sayıda birinci
grup, n2 sayıda ikinci grup, devamla nk sayıda k. grup olsun. Toplam eleman sayının
n = n1 + n2 + · · · + nk olduğu bu kümeden çıkabilecek permütasyon sayısı,
=
n!
n1 !n2 ! · · · nk !
(2.21)
TA
SL
n P(n1 ,n2 ,··· ,nk )
ile belirlenir (Speigel vd., 2009, s. 9).
Örnek 2.17
11 kelimeden oluşan MISSISSIPPI kelimesinin harfleri gruplandırıldığında, 1 M, 4 I, 4 S
ve 2 P’nin bulunduğu görülür. Bu durumda 11 harfin permütasyonu,
11 P(1,4,4,2)
=
11!
= 34650
1!4!4!2!
dir.
2.4.3
Kombinasyon
Farklı elemanların, sıra gözetilmeden bir araya getirilmesi işlemine kombinasyon adı
verilir. Permütasyonun aksine, abc ve bca aynı kombinasyonlardır. n elemanlı bir
kümenin r’li (r ≤ n) kombinasyonlarının sayısı,
n!
n
=
n Cr =
r
r!(n − r)!
(2.22)
ile hesaplanır. (2.22) kombinasyon değeri binom kuvvet dizilerinin,
n n−r r
x y
(x + y) =
r
r
Olasılık ve İstatistik
(2.23)
s.2014.02.21
22
TEMEL OLASILIK
katsayılarına eşittir. r = 0 ve r = n için kombinasyon,
n
n
=1
=
n
0
(2.24)
sonucunu verir.
AK
Bir kümeden eşit sayıda seçime karşılık gelen kombinasyon ve permütasyon sayıları
arasında,
n
n Pr
(2.25)
=
n Cr =
r!
r
ilişkisi vardır.
Örnek 2.18
Bir basketbol takımının sahadaki 12 kişilik kadrosundan kaç değişik 5 oyuncu çıkar?
TA
SL
Birbirinden farklı 5 kişilik takım sayısı (sıralamanın önemi yok):
12
12!
12 · 11 · 10 · 9 · 8 · 7!
=
=
= 792
12 C5 =
5
5!(12 − 5)!
5 · 4 · 3 · 2 · 1 · 7!
Örnek 2.19
Sayısal Loto oyununda bir oyuncunun 6 tutturma olasılığını hesaplayalım.
Toplam 49 topun bulunduğu kümeden rasgele 6 seçim yapıldığında,
49
49!
49 · 48 · 47 · 46 · 45 · 44
C
=
=
=
= 13 983 816
49 6
6
6!(49 − 6)!
6·5·4·3·2·1
seçenek ortaya çıkar. Bir oyuncunun oynayacağı tek kolonla 6 sayıyı tutturma olasılığı,
P =
1
1
=
13 983 816
49 C6
dır.
n sayıda farklı seçeneğin k sayıda alt gruba ayrıldığını kabul edelim: n1 + n2 + · · · +
nk = n. Her alt kümeden sırasıyla r1 , r2 , . . . , rk sayıda yapılacak seçimden (2.18)’e
göre,
nk
n2
n1
(2.26)
···
n1 C r1 n2 C r2 · · · nk C rk =
rk
r2
r1
farklı kombinasyon çıkar. Seçim işlemi tüm grupların birlikte bulunduğu kümeden
yapılacaksa beklenen sonucun olasılığı da kombinasyon hesabı ile bulunabilir. Bu
durumda r1 + r2 + · · · + rk = r toplam seçim miktarını göstermek üzere, (2.26)
sonucunun olasılığı,
n1 n2
· · · nrkk
n1 Cr1 n2 Cr2 · · ·nk Crk
r2
r1
=
(2.27)
P (A) =
n
n Cr
r
Olasılık ve İstatistik
s.2014.02.21
23
İleri Sayım Teknikleri
eşitliğinden bulunur. Burada A, n’nin r.
gerçekleşmesi anlamındadır.
kombinasyonu içinde ri olaylarının
Örnek 2.20
AK
Bir sınıfta 12 kız, 36 erkek öğrenci bulunduğunu varsayalım. Öğrenciler arasında 2’si kız,
6’sı erkek 8 kişilik proje grubu oluşturulmak isteniyor. Söz konusu sınıftan kaç değişik
kombinasyon çıkar?
12
kız öğrenciler arasındaki kombinasyon sayısını, 36
erkek öğrenciler arasındaki
2
6
kombinasyon sayısını temsil ettiğinden,
12 36
12 · 11 36 · 35 · 34 · 33 · 32 · 31
=
·
= 66 · 1 947 792 = 128 554 272
2
6
2
6·5·4·3·2·1
farklı sayıda proje grubu oluşturulabilir.
Örnek 2.21
TA
SL
Örnek 2.15’teki kırmızı (1), yeşil (2) ve mavi (3) toplar arasından rasgele kırmızı ve mavi
top seçme olasılığını kombinasyon hesabı ile bulalım.
Kırmızı, yeşil ve mavi alt kümelerin eleman sayıları ve kombinasyona girecek elemanları,
n = n1 + n2 + n3 = 1 + 2 + 3 = 6
r = r1 + r2 + r3
= 1+0+1 = 2
olarak bilindiğine göre, 6 top arasından kırmızı ve mavi top seçme olasılığı (2.27)’den,
1 2 3
1
1·1·3
=
P (K ve M ) = 1 60 1 =
15
5
2
çıkar.
Olasılık ve İstatistik
s.2014.02.21
24
TA
SL
AK
TEMEL OLASILIK
Olasılık ve İstatistik
s.2014.02.21
AK
Bölüm 3
TA
SL
RASGELE DEĞİŞKENLER ve OLASILIK
DAĞILIMLARI
3.1
Rasgele Değişken
Gözlenen fiziksel, geometrik ya da buna benzer bir olaya belli sayılarla ya da bu
sayılara karşılık gelen belli fonksiyonlarla nicelik kazandırılabilir. Para atışı gibi
raslantısal olaylar üzerine kurgulanmış deneyler için bile, S örneklem uzayının her
elemanı için sayısal bir karşılık bulunabilir. Bunlardan bazıları, örneğin zar atışının
sonuçları, doğal olarak sayılardan oluşurken; bazıları da sayılara dönüştürülerek
ifade edilebilir. Para atışında tura için 1, yazı için 0 kabul edilmesi gibi:
(
0 s1 = Y için
X : S → [0, 1] , X(si ) =
1 s2 = T için
Verilen örneklerden hareketle, tanımlı alanı (domain) örneklem uzayı olan
fonksiyonlara rasgele (stokastik) fonksiyon denir (Papoulis, 1984, s. 63). X rasgele
fonksiyonu (değişkeni) örneklem uzayının gerçek değerli sayılara izdüşümünü,
X :S→R
(3.1)
sağlar. Gerçek değerli rasgele fonksiyonlar ya da rasgele değişkenler, genellikle X
veya Y gibi büyük harflerle gösterilir. Rasgele değişkenler kullanılarak S sıralı
örneklem uzayında belli olayların tanımı yapılabilir. Bazı gösterimler ve anlamları
Çizelge 3.1’de verilmektedir.
Örneklem uzayındaki elementer olaylar (si ) kullanılarak türetilecek değerlerin
26
RASGELE DEĞİŞKENLER ve OLASILIK DAĞILIMLARI
Çizelge 3.1: Sıralı örneklem uzayında rasgele değişken X yardımıyla olay tanımlama
Notasyon
{X = x}
{X ≤ x}
{X > x}
{x1 ≤ X ≤ x2 }
Olay tanımı
X = x’in geçerli olduğu elementer olaylar
x ve onun solundaki elementer olaylar
x’in sağındaki elementer olaylar
x1 ve x2 aralığındaki elementer olaylar
AK
(değişken) tanımı için belli bir kural yoktur. Aynı örneklem kümesinden farklı
rasgele fonksiyon tanımları yapılabilir.
Örnek 3.1
Üç kez atılan para oyununda, tura için 1, yazı için 0 ataması yapalım.
uzayındaki seçeneklere karşılık, rasgele değişken X için değerler,
Örneklem
TA
SL
Elementer olaylar X
YYY
0
T Y Y, Y T Y, Y Y T 1
T T Y, T Y T, Y T T
2
TTT
3
şeklinde gerçekleşir.
Örnek 3.2
Başka bir örnekte, tavla oyununda bir kez atılarak elde edilen iki sayı toplamı X rasgele
değişkeni, toplamı veren seçeneklerin sayısı Y rasgele değişkeni ile gösterilsin. Örneklem
kümesine karşılık değişkenler,
Elementer olaylar
X Y
(1, 1)
2 1
(1, 2), (2, 1)
3 2
(1, 3), (2, 2), (3, 1)
4 3
(1, 4), (2, 3), (3, 2), (4, 1)
5 4
(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)
6 5
(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1) 7 6
(2, 6), (3, 5), (4, 4), (5, 3), (6, 2)
8 5
(3, 6), (4, 5), (5, 4), (6, 3)
9 4
(4, 6), (5, 5), (6, 4)
10 3
(5, 6), (6, 5)
11 2
(6, 6)
12 1
sonuçlarıyla karşımıza çıkar.
Bir deneyin gerçek sayılarla kaydedilen sonuçları veya yukarıda tanımlandığı gibi
örneklem uzayının gerçek sayılara izdüşümü ölçü, gözlem olarak adlandırılır.
Ölçüler bir başka deyişle rasgele değişkenler ayrık (discrete) ve sürekli (continous)
Olasılık ve İstatistik
s.2014.02.21
27
Rasgele Dağılımlar
olarak sınıflandırılırlar. Sonlu ya da sonsuz sayılabilir değer alan değişkene ayrık;
sayılamayan, sonsuz değer alan değişkene sürekli (ayrık olmayan) rasgele değişken
denir. İlerleyen konularda, ayrık ve sürekli rasgele değişkenler ve onların dağılım
fonksiyonları ayrı ayrı ele alınmaktadır.
3.2.1
Rasgele Dağılımlar
AK
3.2
Olasılık Yoğunluk Fonksiyonu
X rasgele değişkeni ve olasılığından söz edildiğinde,
f (x) = P ({s ∈ S}|X = x)
(3.2)
olaylarının olasılığı anlaşılır. f (x)’e olasılık dağılımı, olasılık yoğunluk fonksiyonu
ya da sadece olasılık fonksiyonu denir. (3.2), hem ayrık hem de sürekli rasgele
değişkenler için aynıdır. Genel olarak,
f (x) ≥ 0
TA
SL
(3.3)
ve x’in olası bütün değerlerini kapsamak üzere, ayrık ve sürekli rasgele değişkenler
için, sırasıyla,
Z ∞
X
f (xi ) = 1 ,
f (x)dx = 1.
(3.4)
−∞
i
koşulları gerçekleşiyorsa f (x) bir olasılık fonksiyonudur.
Örnek 3.3
Örnek 3.2’nin X rasgele değişkenine karşılık gelen olasılık fonksiyonunu bulalım. İki
seçeneğin bulunduğu 3 kez tekrarlanan olaydan 8 seçeneğin çıkacağını Örnek 3.1’de
belirlemiştik. Buna göre elementer olayların olasılıkları,
P (si ) =
1
8
,
(i = 1, 2, . . . , 8)
eşit değerlere sahip olacaktır. Buradan, olası değerler 0, 1, 2, 3 için X rasgele değişkeninin
olasılık fonksiyonu,
f (0) = P (X = 0) = P (Y Y Y ) =
1
8
3
1 1 1
+ + =
8 8 8
8
3
1 1 1
f (2) = P (X = 2) = P (T T Y ) + P (T Y T ) + P (Y T T ) = + + =
8 8 8
8
1
f (3) = P (X = 3) = P (T T T ) =
8
f (1) = P (X = 1) = P (T Y Y ) + P (Y T Y ) + P (Y Y T ) =
sonuçlarını verir.
Olasılık ve İstatistik
s.2014.02.21
28
RASGELE DEĞİŞKENLER ve OLASILIK DAĞILIMLARI
3.2.2
Ayrık Dağılım Fonksiyonu
X rasgele değişkeni için birikimli (kümülatif) dağılım fonksiyonu ya da özetle dağılım
fonksiyonu,
F (x) = P (X ≤ x)
(3.5)
AK
eşitliği ile tanımlıdır. Burada x herhangi bir gerçek sayıdır (−∞ < x < +∞).
Dağılım fonksiyonu F (x) aşağıdaki özelliklere sahiptir:
1. F (x) artan (azalmayan) bir fonksiyondur:
x≤y
⇒
F (x) ≤ F (y).
(3.6)
2. İmkansız ve kesin olayların dağılım fonksiyonları,
lim F (x) = 0 ,
x→−∞
lim F (x) = 1
x→+∞
(3.7)
3. F (x) sağdan sürekli bir fonksiyondur:
lim F (x + ε) = F (x) tüm x değerleri için
TA
SL
ε→0+
(3.8)
Ayrık rasgele değişken X’in dağılım fonksiyonu, olası x1 , x2 , . . . için bilinen olasılık
fonksiyonu değerlerinden,
F (xk ) = P (X ≤ xk ) =
k
X
f (xi )
,
k = 1, 2, . . .
(3.9)
i=1
hesaplanır. (3.7) gereğince, ilk veriden önceki dağılım fonksiyonu değerleri F (x) = 0
kabul edilir. Ayrık değerlerin sonuncusuna gelindiğinde, F (x) = 1 değerine ulaşılmış
olur.
Örnek 3.4
Örnek 3.3’ün olasılık ve dağılım fonksiyonunu bulalım ve grafiğini oluşturalım. X rasgele
değişkeninin, sonucu sadece 0, 1, 2, 3 olan olaylara bağımlı olduğunu biliyoruz. Bu aralığın
dışında, X imkansız olaylara karşılık geldiğinden,

x < x1

 =0
f (x) > 0
x1 ≤ x ≤ x4


=0
x > x4
durumu geçerlidir. Bu sonuçlarla (3.9)’dan dağılım fonksiyonu için,
i
1
2
3
4
Olasılık ve İstatistik
f (xi )
f (x1 = 0)
f (x2 = 1)
f (x3 = 2)
f (x4 = 3)
=
=
=
=
1/8
3/8
3/8
1/8
F (xi )
F (0)
F (1)
F (2)
F (3)
=
=
=
=
=
P (X
P (X
P (X
P (X
P (X
≤ xi )
≤ 0)
≤ 1)
≤ 2)
≤ 3)
=
=
=
=
1/8
1/2
7/8
1
s.2014.02.21
29
Rasgele Dağılımlar
F (xi ) = P (xi ≤ X < xi+1 )
f (xi ) = P (X = xi )
1.00
0.75
0.75
0.50
0.50
0.25
0.25
0
−1
1
2
3
4
xi
+∞
f (1) = F (1) − F (0) = 3/8
AK
1.00
−∞
−2
0
−1
1
2
3
4
xi
Şekil 3.1: Üç kez atılan para için f (x) olasılık ve F (x) dağılım fonksiyonlarının
görünümü
çizelge değerleri elde edilir. Sonuçların grafik gösterimi Şekil 3.1’de verilmektedir.
TA
SL
Dağılım fonksiyonu hakkında aşağıdaki gerçeklerden söz edilebilir:
1. Ayrık rasgele değişkenler için dağılım fonksiyonunun görünümü Şekil 3.1’de
olduğu gibi her zaman artan merdiven basamağı fonksiyonu biçimindedir.
2. Gözlem noktalarındaki sıçramaların büyüklüğü o noktadaki olasılık değerlerine
eşittir. Buna göre olasılık fonksiyonu değerleri, ardışık dağılım fonksiyonu
değerlerinden türetilebilir:
f (xi ) = F (xi ) − F (x−
i )
(3.10)
Burada F (x−
i ), dağılım fonksiyonunun sağdan limitidir; F (xi−1 ) sonucunu verir
(Şekil 3.1).
3.2.3
Sürekli Dağılım Fonksiyonu
f (x) artı tanımlı olasılık yoğunluk fonksiyonu olmak üzere, sürekli rasgele değişken
X’in [a, b] aralığındaki olasılığı,
P (a ≤ X ≤ b) =
Z
b
f (x)dx
(3.11)
a
integrali ile verilir. İntegral sınırları (−∞, x] olarak değiştirilirse kümülatif (artan)
olasılık dağılım fonksiyonu,
Z x
F (x) = P (X ≤ x) =
f (x)dx
(3.12)
−∞
Olasılık ve İstatistik
s.2014.02.21
30
RASGELE DEĞİŞKENLER ve OLASILIK DAĞILIMLARI
elde edilir. F (x), rasgele değişkenin x’e kadar alabileceği tüm değerlerin (örneklem
uzayındaki olayların) olasılığıdır. Şekil 3.2’de f (x) eğrisi altındaki alan dağılım
fonksiyonunun geometrik yorumunu verir. (3.12)’de küçük eşit (≤) işaretinin sadece
ayrık değişkenler için anlamı bulunmasına karşın, sürekli fonksiyonlarda kullanılması
gelenektir.
f (x)
AK
f (x)
F (x) = P (X ≤ x)
P (a ≤ X ≤ b)
= F (b) − F (a)
x
x
a
x
b
Şekil 3.2: Sürekli rasgele değişken X için F (x) dağılım fonksiyonu ve geometrik
yorumu
TA
SL
(3.6)–(3.8) ile özellikleri sıralanan F (x), mutlak fonksiyon niteliğindedir. Bu sayede,
(3.11) ve (3.12)’den, {X ≤ a} ve {a < X ≤ b} olaylarının bağımsız olma özellikleri
kullanılarak sürekli fonksiyonlar için geçerli,
F (b) − F (a) = P (a < X ≤ b)
(3.13)
Ra
eşitliği yazılabilir (Şekil 3.2). a = b için dağılım fonksiyonundan a f (x)dx = 0
sonucu çıkar. Başka bir deyişle, sürekli rasgele değişkenlerin belli bir değere eşit
olma olasılığı yoktur (P (X = a) = 0) denir. Öte yandan, (3.13)’te a ve b noktaları
birbirine çok yakın seçilir (∆x = b − a) ve fonksiyondaki değişimin limit durumu
incelenirse,
P (a < X ≤ b)
d
lim
=
F (x = a) = f (a)
(3.14)
∆x→0
∆x
dx
dağılım fonksiyonunun türevi, X rasgele değişkeninin olasılık yoğunluk fonksiyonu
elde edilir.
Örnek 3.5
P (X > x) = 1 − F (x) olduğunu gösterelim.
{X > x} ve {X ≤ x} karşılıklı olarak dışarmalı (bağımsız) olaylardır. Birleşimleri,
{X > x} ∪ {X ≤ x} = S
⇒
P (X > x) + P (X ≤ x) = 1
sonucu verdiğinden P (X ≤ x) yerine F (x) yazıldığında,
F (x) = P (X > x) = 1 − F (x)
bulunur. F (x) tamamlayıcı dağılım fonksiyonu olarak da bilinir.
Olasılık ve İstatistik
s.2014.02.21
31
Rasgele Değişkenin Beklenen Değeri ve Momenti
Örnek 3.6
Sürekli rasgele değişkenin olasılık yoğunluk fonksiyonu,

k
1≤x≤4
f (x) = x

0
Diğer
AK
ile tanımlı olsun.
a) Sabit k sayısını belirleyelim. Olasılık yoğunluk fonksiyonu (3.4)’ten,
Z 4
Z +∞
1
dx = 1
f (x)dx = k
x
1
−∞
sonucunu sağlamalıdır. Tanımlı integral,
x=4
=1
k(ln x)
x=1
hesabından k =
1
ln 4
≈ 0.721 elde edilir.
TA
SL
b) Yukarıdaki sonuca göre yoğunluk ve dağılım grafiklerini oluşturalım ve F (2.5) =
P (X ≤ 2.5) için olasılık değerini hesaplayalım. Şekil 3.3,
0.721
x
F (x) = 0.721 ln x
f (x) =
[1, 4] aralığında yoğunluk ve dağılım fonksiyonlarının grafiklerini göstermektedir.
Eğri altındaki dolu alan {X < 2.5} olaylarının olasığıdır:
Z 2.5
Z 2.5
0.721
f (x)dx =
F (x = 2.5) =
dx = 0.66
x
1
−∞
3.3
3.3.1
Rasgele Değişkenin Beklenen Değeri ve Momenti
Beklenen Değer ve Ağırlıklı Ortalama
Bir rasgele değişkenin olası tüm değerleri, yoğunluk fonksiyonu değerleri de hesaba
katılarak, ortalama oluşturmak üzere bir araya getirilirse rasgele değişkenin beklenen
değeri elde edilir. Tanım gereğince, beklenen değer ortalama değer ya da kıcaca
ortalama olarak görülür (Koch, 1999, s. 93).
X rasgele değişkeninin yoğunluk fonksiyonu f (x) olsun. Beklenen değer, ayrık veriler
için,
X
µ = E(X) =
xi f (xi )
,
i = 1, 2, . . . , n veya ∞
(3.15)
i
Olasılık ve İstatistik
s.2014.02.21
32
RASGELE DEĞİŞKENLER ve OLASILIK DAĞILIMLARI
f (x) =
0.721
x
F (x) = 0.721 ln x
1.00
0.66
x
1
x = 2.5
4
AK
P (X ≤ 2.5) = 0.66
1
Şekil 3.3: [1, 4] kapalı aralığında, f (x) =
Boyalı alan, P (X ≤ x = 2.5) için olasılık.
ve sürekli veriler için,
µ = E(X) =
Z
0.721
x
x = 2.5
x
4
fonksiyonu ve onun dağılım grafiği.
+∞
xf (x)dx
(3.16)
−∞
TA
SL
eşitlikleriyle tanımlanır. E(X), X’in matematiksel beklentisi (ortalama değeri)
olarak okunur; µ ile gösterilir. Zaman zaman, öteki rasgele değişkenlerle karışmasın
diye µ yerine, µX kullanılır. (3.15) ve (3.16) eşitlikleri örneklem uzayının tüm
olaylarını (S) kapsar. Bu nedenle, ağırlık (yoğunluk fonksiyonu) değerleri toplamı
P (S) = 1 eşitliğini sağladığından beklenen değer ağırlıklı ortalama anlamındadır.
Örnek 3.7
Örnek 3.1 ve 3.3’teki rasgele değişken ve olasılık değerlerini kullanarak beklenen değeri
hesaplayalım.
Rasgele değişken için olası tüm değerlerin sayısı (gözlem sayısı) n = 4 olduğuna göre,
(3.15)’den,
µ = E(X) =
4
X
i=1
elde edilir. Bu uygulamada
xi f (xi ) = 0 ·
P
i f (xi )
3
3
1
12
1
+1· +2· +3· =
= 1.5
8
8
8
8
8
= 1 olduğuna dikkat ediniz.
Ayrık rasgele değişkenin n sayıdaki olası tüm değerleri eşit olasılıklı ise,
P (X = x1 ) = P (X = x2 ) = · · · = P (X = xn ) =
beklenen değer,
1
n
n
1X
x1 + x2 + · · · + xn
µ = E(X) =
xi =
n i
n
(3.17)
basit aritmetik ortalamaya dönüşür.
Olasılık ve İstatistik
s.2014.02.21
33
Rasgele Değişkenin Beklenen Değeri ve Momenti
Örnek 3.8
Zar atışının sonuçları rasgele değişken kabul edilirse, gelen sayının olasılıkları eşit (P (X =
xi ) = 16 ) olduğundan beklenen değer,
µ = E(X) =
1+2+3+4+5+6
21
7
=
=
6
6
2
AK
çıkar.
Beklenen değerin özellikleri: Beklenen değer hesabı yukarıdaki örnekler gibi
sadece bir rasgele değişken ve onun olasılık yoğunluk değerlerinden başka, birden
fazla değişken ve onların fonksiyonları ile bazı sabit sayıları ilgilendirebilir. Bu
yüzden beklenen değere ilişkin aşağıdaki özelliklerin bilinmesi yararlıdır.
Beklenen değerin en önemli özelliği doğrusal operatör olmasıdır. X ve Y bağımsız
rasgele değişkenler, a ve b sabit sayılar olmak üzere aşağıdaki özellikleri geçerlidir:
(3.18)
E(X + a) = E(X) + a
E(aX) = aE(X)
E(aX + bY ) = aE(X) + bE(Y )
(3.19a)
(3.19b)
(3.19c)
TA
SL
E(X + Y ) = E(X) + E(Y )
Bazı uygulamalar, rasgele değişkenin beklenen değerini değil onun fonksiyonunu
ilgilendirir. X rasgele değişkeninin fonksiyonu Y = g(X) ise, Y ’nin beklenen değeri,
ayrık ve rasgele değişkenler için sırasıyla,
X
E(Y ) = E[g(X)] =
g(x)f (x)
(3.20)
ve
E(Y ) = E[g(X)] =
Z
+∞
g(x)f (x)dx
(3.21)
−∞
olur. Eşitliklerden anlaşılacağı üzere X rasgele değişkene ilişkin olasılık fonksiyonu
değerleri, türetilen Y rasgele değişkeni için de geçerli olmaktadır.
Örnek 3.9
Örnek 3.7’de X rasgele değişkeni ve olasılık değerlerini kullanarak Y = 2X 2 ’nin beklenen
değerini hesaplayalım.
Olasılık ve İstatistik
i X = xi P (X = xi ) Y = 2X 2 = 2x2i yi P (X = xi )
1
0
1/8
0
0
2
1
3/8
2
3/4
3
2
3/8
8
3
4
3
1/8
18
9/4
P
6
s.2014.02.21
34
RASGELE DEĞİŞKENLER ve OLASILIK DAĞILIMLARI
Örnek 3.10
f (x) yoğunluk fonksiyonu ile verilen bir kürenin yarıçapı X rasgele değişkeni olsun.
Kürenin hacmi için beklenen değeri (µY ) hesaplayalım.
+∞
AK
Kürenin yarıçapı (X) ve beklenen değeri,
Z
µX =
xf (x)dx
−∞
integral eşitliğiyle tanımlanır. Buna karşılık hacminin beklenen değeri, (3.21) göz önüne
alınarak,
Z
Z +∞
4π +∞ 3
4 3
πx f (x)dx =
x f (x)dx
µY =
3 −∞
−∞ 3
biçiminde yazılabilir.
Varyans ve Standart Sapma
TA
SL
3.3.2
Rasgele değişkenin genel eğilimini ortaya koymak, ağırlık değerlerini göz önüne
alarak olası tüm sonuçları tek bir değere dönüştürmek istediğimizde beklenen değer
veya ağırlıklı ortalama en uygun büyüklük olarak değerlendirilebilir. Ancak bu
sayı, olası değerlerin (verilerin) nasıl saçıldığı veya ortalamadan ne kadar saptıkları
hakkında bilgi içermez. Verilerin istatistik yöntemlerle analizinde bir kalite ölçütü
olarak varyans, rasgele değişkenin ortalamadan ne kadar uzaklaştığını açıklar.
Sapma miktarının karesel biçimi X’in fonksiyonu yeni bir değişken olacaktır. Söz
konusu değişkenin beklenen değeri,
Var(X) = E[(X − µ)2 ] = E(X 2 ) − 2µE(X) + µ2
= E(X 2 ) − µ2
= E(X 2 ) − [E(X)]2
(3.22)
varyans olarak tanımlanır ve karesel biçimi ifade edebilmek amacıyla σ 2 ile gösterilir.
(3.22)’deki varyans hesabının, rasgele değişkeninin bir fonksiyonu olarak X ile
aynı dağılıma dayandığı kolayca anlaşılabilir. f (x), X rasgele değişkenin yoğunluk
fonksiyonu ise (3.20) ve (3.21)’den varyans için, sırasıyla,
X
σ 2 = E[(X − µ)2 ] =
(x − µ)2 f (x)
(3.23)
ve
2
2
σ = E[(X − µ) ] =
Z
+∞
−∞
(x − µ)2 f (x)dx
(3.24)
yazılabilir.
Olasılık ve İstatistik
s.2014.02.21
35
Rasgele Değişkenin Beklenen Değeri ve Momenti
Varyansın karekökü,
σ=
p
Var(X)
(3.25)
f (x)
AK
standart sapma olarak adlandırılır. Büyük standart sapma değerleri, X rasgele
değişkenin µ’ye göre daha geniş alana yayıldığını (tanım aralığının genişlediğini),
küçük olanlar ise saçılmanın daraldığını (olası değerlerin µ’ye yaklaştığını) gösterir.
Buradan hareketle, bir ölçme uygulamasında standart sapma, sonuçların düşük ya
da yüksek duyarlık (İngilizce precision) olarak yorumlanmasında kullanılır. Farklı
σ1 ve σ2 değerlerinin olasılık yoğunluk fonksiyonu ve ölçme kalitesi ile ilişkisi Şekil
3.4’te anlatılmıştır.
Yüksek duyarlık
σ1
σ2 > σ1
Düşük duyarlık
TA
SL
σ2
µ − σ2 µ − σ1
µ
µ + σ1 µ + σ2
x
Şekil 3.4: σ1 ve σ2 standart sapma değerlerinin beklenen değer µ’ye göre olasılık
yoğunluk fonksiyonuna etkisi
Örnek 3.11
Örnek 3.7’nin devamı olarak varyans ve standart sapma değerlerini bulalım. Çözüm için
iki yol izlenebilir:
a) (3.22) eşitliği kullanılarak. Öncelikle,
E(X 2 ) =
4
X
i
x2i P (X = xi ) = 02 ·
1
1
3
3
24
+ 12 · + 22 · + 32 =
=3
8
8
8
8
8
hesaplanır; µ = E(X) = 1.5 olarak bilindiğine göre,
σ 2 = E[(X − µ)2 ] = E(X 2 ) − [E(X)]2 = 3 − 1.52 = 0.75
çıkar.
b) İkinci çözüm yolu doğrudan (3.23)’ü kullanmaktır:
X
3
3
1
1
σ2 =
(X −µ)2 f (x) = (0−1.5)2 +(1−1.5)2 · +(2−1.5)2 · +(3−1.5)2 = 0.75
8
8
8
8
Her iki hesaptan aynı varyans değeri σ 2 = 0.75 çıkmaktadır. Buradan standart sapma
σ = 0.866 olarak elde edilir.
Olasılık ve İstatistik
s.2014.02.21
36
RASGELE DEĞİŞKENLER ve OLASILIK DAĞILIMLARI
Varyans hesabının özellikleri: Beklenen değerin aksine karesel biçime
dayandığından, varyans operatörü doğrusal değildir. X ve Y bağımsız değişken,
a ve b sabit katsayılar olsun. Varyans hesabı için aşağıdaki eşitlikler geçerlidir:
(3.26a)
(3.26b)
(3.26c)
Var(X + Y ) = Var(X) + Var(Y )
(3.27)
AK
Var(b) = 0
Var(X + b) = Var(X)
Var(aX + b) = a2 Var(X)
Standartlaştırılmış rasgele değişken birim standart sapma (σ = 1) ve sıfır
beklenen değere sahip µ = 0 rasgele değişeni ifade eder. Bilinen σ > 0 ve µ değerleri
yardımıyla X rasgele değişkeni,
Z=
X −µ
σ
(3.28)
TA
SL
standartlaştırılabilir. Z rasgele değişkenin olası değerlerine z-sayıları veya normal
sayılar denir. Örneklem dağılımının normal dağılımla karşılaştırılmasını gerektiren
uygulamalarda z-sayıları (birimsiz) kullanılır.
3.3.3
Moment
İstatistikte moment kavramı, X rasgele değişkeni ve aldığı değerler hakkında
ayrıntılı analizler yapılması istendiğinde gündeme gelir. Moment belli bir kitlenin
(veri yığının) şekilsel görünümü için ölçüt tanımlar. İstatistiksel çıkarımın ön
planda olduğu ve karar verme amacı taşıyan analizlerde momentler anlam kazanır.
Örneğin, istatistikte merkezsel ikinci moment varyansa karşılık gelir ve yoğunluk
fonksiyonunun genişliğini ortaya koyar.
Genel olarak, olasılık yoğunluk fonksiyonun sıfır etrafındaki n. momenti,
n
mn = E(X ) =
Z
+∞
xn f (x)dx
(3.29)
−∞
X n fonksiyonunun beklenen değerini verir.
Sıfır yerine X’in beklenen değeri µ kullanılırsa merkezsel moment,
n
µn = E[(X − µ) ] =
Z
+∞
−∞
(x − µ)n f (x)dx
söz konusu olur. Ayrık rasgele değişken için merkezsel moment,
X
µn = E[(X − µ)n ] =
(x − µ)n f (x)
Olasılık ve İstatistik
(3.30)
(3.31)
s.2014.02.21
37
Rasgele Değişkenin Beklenen Değeri ve Momenti
f (x)
f (x)
Pozitif çarpıklık
Negatif çarpıklık
Yüksek
basıklık
AK
Düşük
basıklık
x
x
Şekil 3.5: Dağılımın çarpıklığı (sol) ve basıklığı (sağ)
TA
SL
ile tanımlıdır. Sıfır etrafındaki moment ve merkezsel moment değerlerine, genel
eşitlikler yardımıyla ulaşılabilir (Papoulis, 1984, s. 110):
n X
n
mk (−µ)n−k
(3.32)
µn =
k
k=0
n X
n
µk µn−k
(3.33)
mn =
k
k=0
Beklenen değer ve varyans özel moment büyüklükleri arasında yer alır:
µ0 = m0 = 1 ,
m1 = µ ,
µ1 = 0 ,
µ2 = σ 2
Çarpıklık üçüncü merkezsel momente karşılık gelen ve dağılımın simetrik
olmaktan ne kadar uzak olduğunu gösteren bir ölçüttür. Çarpıklığı sıfır olan dağılım
simetriktir. Standartlaştırılmış üçüncü merkezsel moment,
α3 =
E[(X − µ)3 ]
µ3
= 3
3
σ
σ
(3.34)
kısaca çarpıklık (skewness) adı ile anılır. Sol kuyruğu daha uzun dağılım negatif
çarpıklığı, sağ kuyruğu daha uzun dağılım pozitif çarpıklığı işaret eder (Şekil 3.5).
Basıklık (kurtosis) olarak adlandırılan standartlaştırılmış dördüncü merkezsel
moment,
E[(X − µ)4 ]
µ4
α4 =
= 4
(3.35)
4
σ
σ
ikinci merkezsel moment (varyans) gibi artı değerlidir. Ancak, basıklığı 3 olan
normal dağılım baz alınarak eksi ve artı değerli yeni bir basıklık tanımı yapılabilir.
Yoğunluk fonksiyonu grafiğinin yanlardan ne kadar basık olduğunu açıklar. Basıklığı
yüksek dağılımların en dikkat çekici özelliği sivri tepeleri ve uzun kuyruklarıdır (Şekil
3.5).
Olasılık ve İstatistik
s.2014.02.21
38
3.4
RASGELE DEĞİŞKENLER ve OLASILIK DAĞILIMLARI
Diğer Merkezi Eğilim ve Saçılım Ölçütleri
AK
istatistikte, beklenen değer ya da başka bir deyişle ortalama değer merkezi eğilim
ölçütüdür. Örneklem kümesinin, anakütlenin ya da olasılık yoğunluk fonksiyonunun
nerede konumlandığını gösterir. Geometrik anlamda, µ’nün x ekseni üzerindeki
yerini tanımlar. Rasgele değişkenin yerini tanımlamak için başka ölçütler de
kullanılabilir. Değişik merkezi eğilim ölçütleri dağılımın özellikleri hakkında bazı
ipuçları verdiğinden uygulamada sadece ortalama (µ) ile yetinilmez. Medyan ve
mod µ’ye seçenek iyi bilinen merkezi eğilim araçlarıdır.
Medyan ortanca veya orta değer anlamına gelir. Sıralı bir biçimde düzenlenmiş
dağılımı kütlesel olarak iki eşit parçaya ayırır. Buna göre; dağılım fonksiyonu için,
F (µ1/2 ) = 0.5
(3.36)
koşulunu sağlayan x = µ1/2 değerine medyan denir. Medyan değeri, ayrık rasgele
değişken için aşağıdaki olasılık eşitsizliklerini sağlamalıdır:
1
1
ve P (X > µ1/2 ) ≤
2
2
TA
SL
P (X < µ1/2 ) ≤
(3.37)
X rasgele değişkeninin alacağı değerler küçükten büyüğe x1 ≤ x2 ≤ · · · ≤ xn
sıralanmış olsun. n ölçü sayısına bağlı olarak medyan,
(
n tek ise
x n+1
µ1/2 = 1 2
(3.38)
(x n2 + x n2 +1 ) n çift ise
2
eşitliğinden bulunur.
(3.36)’ya göre sürekli rasgele değişkenin olasılık fonksiyonu eğrisi altında kalan alan,
µ1/2 = sb. doğrusu ile sınırlıdır. Bu durum,
Z x=µ1/2
1
P (X < µ1/2 ) = P (X > µ1/2 ) =
f (x)dx =
(3.39)
2
−∞
integral eşitliği ile tanımlanır.
Normal dağılım gibi simetrik (unimodal) dağılımlarda medyan ortalama değere
eşittir: µ1/2 = µ. Buradan hareketle dağılımın çarpıklığı ortaya çıkarılabilir.
µ1/2 < µ sonucu pozitif çarpıklığı, tersi negatif çarpıklığı tanımlar. Medyan
için geçerli en önemli özelliklerden biri rasgele değişkenin mutlak sapmalarını en
küçükleştirmesidir: E[|X − µ1/2 |] = min. Ortalama değer ise sapmaların karelerini
en küçükleştirir: E[(X − µ)2 ] = min.
Mod dağılım kümesinde olasılığı en yüksek değerdir:
µ̂ = arg max(f (x)) := {x | ∀y : f (y) ≤ f (x)}
Olasılık ve İstatistik
(3.40)
s.2014.02.21
39
Diğer Merkezi Eğilim ve Saçılım Ölçütleri
AK
Burada f (x) olasılık yoğunluk fonksiyonudur. (3.40) ayrık durum için en çok tekrar
eden veriyi işaret eder. Dağılımda en yüksek olasılık değeri birden fazla nokta ile
temsil ediliyorsa, mod bu değerlerin hepsine karşılık geldiğinden sonuç tek anlamlı
olmaktan çıkar. Böylesi durumlarda dağılımın bimodal, trimodal ya da multimodal
olduğundan söz edilir. Unimodal başka bir deyişle tek global maksimuma sahip
simetrik dağılımlarda (örneğin normal) mod, medyan ve ortalama değer birbirlerine
eşittir (Şekil 3.6). Genel olarak unimodal dağılımlar için hesaplanan ortalama,
medyan ve mod değerleri aşağıdaki eşitsizlikleri sağlar:
TA
SL
|µ̂ − µ| √
≤ 3
σ
|µ1/2 − µ| √
≤ 0.6
σ
|µ̂ − µ1/2 | √
≤ 3
σ
(3.41a)
(3.41b)
(3.41c)
f (x)
µ = µ1/2 = µ̂
µ̂1
µ̂2
µ1/2
µ
µ̂
µ = µ1/2
x
Şekil 3.6: Simetrik unimodal (mavi), çarpık unimodal (kırmızı) ve simetrik bimodal
(yeşil) dağılım için ortalama, medyan ve mod hesabı
Örnek 3.12
Test sınavına giren 98 öğrencinin aldığı notlar aşağıda listelenmiştir. Veri kümesine ilişkin
ortalama, medyan ve mod değerlerini hesaplayınız.
Olasılık ve İstatistik
s.2014.02.21
40
RASGELE DEĞİŞKENLER ve OLASILIK DAĞILIMLARI
12
24
36
28
32
52
76
36
40
8
40
24
40
56
36
60
56
52
48
32
44
44
40
28
36
56
32
48
44
44
24
56
72
48
64
28
24
24
48
36
28
64
52
44
20
48
32
48
36
44
40
56
28
40
36
60
60
40
28
52
40
32
32
52
60
52
36
36
52
52
28
20
56
40
48
64
36
48
24
36
44
28
60
56
44
56
32
52
AK
40
48
32
36
36
48
24
56
40
68
Çözüm: Verilen notlara ilişkin olasılık yoğunluğu ve dağılım çizelgelerini oluşturalım:
i
xi
ni
f (xi )
F (xi )
1
8
1
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
12 20 24 28 32 36 40 44 48 52 56 60 64 68 72 76
1 2 7 8 8 13 11 8 10 9 9 5 3 1 1 1
1
98
1
98
1
98
2
98
2
98
4
98
7
98
11
98
8
98
19
98
8
98
27
98
13
98
40
98
11
98
51
98
8
98
59
98
10
98
69
98
9
98
78
98
9
98
87
98
5
98
92
98
3
98
95
98
1
98
96
98
1
98
97
98
1
98
98
98
Yukarıdaki çizelgeye göre; dağılımın ortalaması ya da beklenen değeri,
17
X
TA
SL
µ = E(X) =
xi f (xi ) = 42.12
i=1
çıkar. Medyan değerini bulmak için toplam n = 98 ölçü küçükten büyüğe sıralanmalıdır.
(3.38) eşitlikleri göre medyan 49 ve 50. sıradaki başarı notunun ortalamasıdır. Yukarıdaki
yoğunluk ve dağılım çizelgesinden bu değerlerin 40 olduğu anlaşıldığından,
1
1
µ1/2 = (x49 + x50 ) = (40 + 40) = 40
2
2
bulunur. Mod değeri ise 13 kez tekrar edilen,
µ̂ = 36
sonucunu göstermektedir. Hesaplanan merkezi eğilim ölçütlerinin konumu Şekil 3.7’deki
sıklık-dağılım grafiğinde gösterilmektedir. Şekilde medyan değerinin kümülatif dağılımın
0.5 seviyesine çıktığı konuma çok yakın olduğuna dikkat edilmelidir.
Ortalama sapma verilen bir merkezi eğilim ölçütüne göre rasgele değişkenin
mutlak sapmalarının beklenen değeridir; bir saçılım ölçütü olarak standart sapmaya
seçenektir. Genel eşitlik,
(P
|xi − m(X)|f (xi ) Ayrık durum
md(X) = E[|X − m(X)|] = R
(3.42)
|x − m(X)|f (x)
Sürekli durum
biçiminde yazılabilir. Burada m(X) merkezi eğilim ölçütünü tanımlar; ortalama,
medyan veya mod değerlerinden birine karşılık gelir.
Örnek 3.13
Olasılık ve İstatistik
s.2014.02.21
41
Diğer Merkezi Eğilim ve Saçılım Ölçütleri
14
12
0.875
0.750
0.625
8
0.500
6
0.375
4
2
0
AK
10
Dağılım (F (xi))
Sıklık (ni)
1.000
Mod
Medyan
Ortalama
16
0.250
0.125
0
0 4 8 12 16 20 24 28 32 36 40 44 48 52 56 60 64 68 72 76 80 84 88 92 96 100
Notlar
Şekil 3.7: Başarı notlarının sıklık-dağılım grafiği
TA
SL
Son örnekte verilenleri kullanarak;
• Standart sapmayı
• µ, µ1/2 , µ̂ değerlerine göre ortalama sapmayı
hesaplayınız.
Çözüm: Başarı notlarının varyansı
σ 2 = E[(X − µ)2 ] = E(X 2 ) − [E(X)]2
ile hesaplanabilir. Bunun için
E(X 2 ) =
17
X
= x2i f (xi ) = 1948.1
i=1
elde edilir ve yukarıda yerine yazılırsa varyans,
σ 2 = E[(X − µ)2 ] = E(X 2 ) − [E(X)]2 = 1948.1 − 42.122 = 173.78
çıkar. Dağılımın standart sapması,
σ=
bulunur.
p
Var(X) = 13.183
Dağılımın ortalaması, medyanı ve modu için önceki örnekten bilinen değerler sırasıyla
Olasılık ve İstatistik
s.2014.02.21
42
RASGELE DEĞİŞKENLER ve OLASILIK DAĞILIMLARI
(3.42)’de yerine konularak ortalama sapma için,

17

X



|xi − µ|f (xi ) = 10.862
E[|X
−
µ|]
=




i=1



17

X
md(X) = E[|X − µ1/2 |] =
|xi − µ1/2 |f (xi ) = 10.776


i=1




17

X



|xi − µ̂|f (xi ) = 11.510
E[|X
−
µ̂|]
=


AK
i=1
sonuçlarına ulaşılır.
3.5
Birleşik Rasgele Dağılımlar
TA
SL
Şimdiye kadar anlatılan konularda olasılık dağılımını tek değişkenli (univaryat)
ele aldık.
Olasılık değerini iki (bivaryat) ya da daha fazla (multivaryat)
rasgele değişkene bağlı olarak hesaplamak istediğimizde, birleşik dağılım kavramı
önümüze gelir. Bir grup insanın kilosu ve boyu iki ayrı rasgele değişken olarak
görülebilir. Öte yandan bu iki rasgele değişken birbirini etkileyen büyüklükler olduğu
değerlendirildiğinde, grup elemanlarının fiziksel gelişimi, sağlık durumu gibi değişik
olayların olasılıklarının bu iki parametreye bağlı olması gerektiği sonucu ortaya çıkar.
Gerektiğinde bu örnek cinsiyet, yaş gibi başka parametrelerle (değişkenlerle) de
genişletilebilir. Konunun kolay anlaşılması açısından, bu bölümde tanım alanı iki
boyutlu rasgele değişken ile belirtilen olasılık uzayları açıklanacaktır. Kovaryans, iki
boyutlu birleşik dağılımın en önemli uygulamasıdır.
Olasılık yoğunluk fonksiyonu,
f = f (x, y)
(3.43)
iki değişkene bağlı olarak ifade edilen dağılımlara, kısaca (iki boyutlu) birleşik
dağılım denir. Aynı anda gerçekleşmesi istenen {X ≤ x} ve {Y ≤ y} olaylarının
olasılığını gösteren birleşik dağılım fonksiyonu,
F (x, y) = P (X ≤ x, Y ≤ y) = P (D) ,
pozitif tanımlı, artan fonksiyondur:
lim F (x, y) = lim F (x, y) = 0
x→−∞
y→−∞
D = {X ≤ x, Y ≤ y} ∈ R2
(3.44)
,
(3.45)
lim F (x, y) = 1
x,y→∞
(3.44)’de R2 iki boyutlu düzlem uzayı, D bu uzayın içinde X ve Y ’ye ilişkin
olayların kesişim alanını gösterir. Bölge tanımı Şekil 3.8’daki gibi birkaç değişik
şekilde yapılabilir. D1 , D2 , D3 , D4 bölgeleri için sırasıyla, aşağıdaki olasılık eşitlikleri
geçerlidir:
P (X ≤ x, Y ≤ y)
= F (x, y)
(3.46a)
P (X ≤ x, y1 ≤ Y ≤ y2 )
= F (x, y2 ) − F (x, y1 )
(3.46b)
P (x1 ≤ X ≤ x2 , y1 ≤ Y ≤ y2 )
= F (x2 , y2 ) − F (x1 , y2 ) − F (x2 , y1 ) + F (x1 , y1 ) (3.46d)
P (x1 ≤ X ≤ x2 , Y ≤ y)
Olasılık ve İstatistik
= F (x2 , y) − F (x1 , y)
(3.46c)
s.2014.02.21
43
Birleşik Rasgele Dağılımlar
y
y
y2
b
y
y1
x
b
y1
b
x
b
b
b
b
y
y2
x
x
x1
b
b
x
b
x2
b
b
x1
x2
x
AK
y
y
D1 = {X ≤ x, Y ≤ y}
D3 = {x1 ≤ X ≤ x2 , Y ≤ y} D4 = {x1 ≤ X ≤ x2 , y1 ≤ Y ≤ y2 }
D2 = {X ≤ x, y1 ≤ Y ≤ y2 }
G
Şekil 3.8: İki boyutlu rasgele değişken (R2 ) uzayında olay (alan) tanımı (Papoulis,
1984, s. 124)
0.
02
−0.15 −0.10 −0.05 0.00
0.05
0.10
0.15
TA
SL
İki boyutlu birleşik dağılımların geometrik yorumu x, y, z üç boyutlu koordinat
sistemi içinde kolayca yapılabilir. İlgili tanım bölgesi için z = f (x, y) noktaları
üç boyutlu koordinat sisteminde bir yüzeyi (kesikli ya da sürekli), (3.46) eşitlikleri
de bu yüzeyin altındaki hacim miktarını verir. z = sabit noktaları eşit olasılıklı
noktalar kümesini, kısaca eş-olasılık eğrilerini tanımlar. Şekil 3.9 D = {−2.5 ≤
X ≤ 2.5, −2.5 ≤ Y ≤ 2.5} ∈ R2 alanında (iki boyutlu) Gauss’un olasılık dağılımını
bir yüzey ile göstermektedir. Eş yükseklik eğrileri aynı olasılık değerlerinin düzleme
izdüşümünü temsil etmektedir.
0.0
6
0.0
12
0.
.5
−2
4
−2
0.
.0
−1
0.14
0.08
0.
0.1
.5
−1
0.02
12
06
0.0
4
0.0
2
08
0.
.0
0.1
.5
−0
0.0
0.06
4
0.5
0.0
02
1.0
0.
1.5
2.0
2.5
−2.5
−2.0
−1.5
−1.0
−0.5
0.0
0.5
1.0
1.5
2.0
Şekil 3.9: İki değişkenli Gauss (normal) olasılık fonksiyonu f (x, y) =
2.5
1 −x
e
2π
2 +y 2
2
Tek değişkenli olasılık fonksiyonlarına benzer biçimde birleşik dağılımlar da ayrık ve
sürekli olmak üzere iki ayrı başlık altında incelenir.
Olasılık ve İstatistik
s.2014.02.21
44
RASGELE DEĞİŞKENLER ve OLASILIK DAĞILIMLARI
Çizelge 3.2: Ayrık rasgele değişken X ve Y için marjinal ve birleşik olasılıklar
P
X\Y
y1
y2
y3
···
ym
x1
f (x1 , y1) f (x1 , y2 ) f (x1 , y3 ) · · · f (x1 , ym) fX (x1 )
x2
f (x2 , y1) f (x2 , y2 ) f (x2 , y3 ) · · · f (x2 , ym) fX (x2 )
x3
f (x3 , y1) f (x3 , y2 ) f (x3 , y3 ) · · · f (x3 , ym) fX (x3 )
..
..
..
..
..
..
..
.
.
.
.
.
.
.
3.5.1
f (xn , y1 ) f (xn , y2 ) f (xn , y3 ) · · · f (xn , ym )
fY (y1 )
fY (y2 )
fY (y3 ) · · · fY (ym )
fX (xn )
1
AK
xn
P
Ayrık Durum
X ve Y ayrık rasgele değişkenlerin birleşik olasılık fonksiyonu,
f (x, y) = P (X = x, Y = y)
(3.47)
TA
SL
eşitliği ile verilir. X’in n ve Y ’nin m sayıdaki olası değerine karşılık f (xi , yj )’nin
alacağı değerler Çizelge 3.2’deki gibi gösterilebilir. Değişkenlerden biri gözardı
edildiğinde veya değişkenlerden biri ile çalışmak istenildiğinde marjinal olasılıklar
P (X = xi ) ve P (Y = yj ) ortaya çıkar. Burada, {X = xi } ve {Y = yj } birleşik
rasgele olayların alt-kümeleridir. Bu olaylara karşılık gelen olasılıklar (çizelgede
satır-sütun toplamları),
P (X = xi ) = fX (xi ) =
m
X
f (xi , yj )
(3.48a)
f (xi , yj )
(3.48b)
j=1
P (Y = yj ) = fY (yj ) =
n
X
i=1
ile gösterilirler. Olasılık yoğunluk fonksiyonlarının özelliklerine uygun olarak
marjinal olasılıklar,
n
X
fX (xi ) =
i=1
m
X
j=1
fY (yj ) =
m
n X
X
f (xi , yj ) = 1
(3.49)
i=1 j=1
eşitliğini sağlar.
D ∈ R2 tanım bölgesinde konumu x, y ile belli herhangi bir noktanın birleşik dağılım
fonksiyonu,
XX
F (x, y) = P (X ≤ x, Y ≤ y) =
f (x, y)
(3.50)
x
y
ve aynı noktadaki marjinal dağılım fonksiyonları,
X
X
FX (x) =
fX (x) , FY (y) =
fY (y)
x
Olasılık ve İstatistik
(3.51)
y
s.2014.02.21
45
Birleşik Rasgele Dağılımlar
toplamlarından çıkar.
Örnek 3.14
Aynı boyutlarda 3 kırmızı, 2 mavi ve 5 yeşil top arasından 3’ü rasgele seçilsin.
X rasgele değişkeni kırmızıların, Y mavilerin sayısını göstersin. Dağılımın yoğunluk
fonksiyonu çizelgesini oluşturalım ve birleşik dağılımın F (2, 1), FX (2) ve FY (1) değerlerini
belirleyelim.
AK
Verilen bilgilere göre X ve Y rasgele değişkenlerinin alacağı değerler,
X = {0, 1, 2, 3}
Y = {0, 1, 2}
olur. X = xi ve Y = yj (i = 1, 2, 3, 4, j = 1, 2, 3) için olasılık yoğunluk fonksiyonu
değerleri,
f (xi , yj ) = P (X = xi , Y = yj )
önceki bölümde Örnek 2.21’de anlatıldığı gibi (2.27)’ye göre hesaplanabilir. Bu örnekte,
n = n1 + n2 + n3 = 3 + 2 + 5 = 10
r=3
TA
SL
olduğuna göre X = x ve Y = y olaylarının olasılığı,
n2 n1
n3
P (X = x, Y = y) =
r1 =x
r2 =y r3 =r−x−y
n
r
=
3
x
2
y
5
3−x−y
10
3
eşitliğiyle genelleştirilebilir. Yukarıdaki eşitlikten hesaplanacak olasılık değerleri çizelgede
gösterilecek olursa,
P
X = xi \Y = yj
0
1
2
0
10/120 20/120 5/120 35/120
1
30/120 30/120 3/120 63/120
2
15/120 6/120
0
21/120
3
1/120
0
0
1/120
P
56/120 56/120 8/120
1
sonuçları elde edilir.
Paydadaki 120 değeri 10’un 3’lü 10
kombinasyonlarını
3
göstermektedir. Çizelgedeki sıfır değerleri xi + yj > 3 eşitsizliğinin sağlandığı durumlara
karşılık gelmektedir (en fazla üç top seçilebildiği için). Son satır ve son sütun, sırasıyla Y
ve X rasgele değişkeninin marjinal yoğunluk fonksiyonu değerleridir.
F (2, 1), FX (1) ve FY (2) dağılım fonksiyonu değerleri, (3.50) ve (3.51) eşitliklerinden,
F (2, 1) = P (X ≤ 2, Y ≤ 1)
çıkar.
Olasılık ve İstatistik
=
3 X
2
X
f (xi , yi ) =
i=1 j=1
FX (2) = P (X ≤ 2)
=
FY (1) = P (Y ≤ 1)
=
3
X
i=1
2
X
j=1
111
120
fX (xi )
=
119
120
fY (yj )
=
112
120
s.2014.02.21
46
3.5.2
RASGELE DEĞİŞKENLER ve OLASILIK DAĞILIMLARI
Sürekli Durum
Birleşik sürekli rasgele değişkenler X ve Y için D ∈ R2 bölge tanımı yapılsın.
ZZ
P (D) =
f (x, y)dxdy
(3.52)
D
AK
integrali D bölgesi içindeki olası raslantısal olayların olasılığını verir. Buna göre
(3.45)’den, birleşik dağılım fonksiyonu,
Z x Z y
F (x, y) =
f (x, y)dxdy
(3.53)
−∞
−∞
yazılabilir. Ayrık durumda olduğu gibi, birleşik dağılımdan marjinal yoğunluk ve
dağılım fonksiyonlarına geçiş,
Z ∞
Z ∞
fX (x) =
f (x, y)dy
fY (y) =
f (x, y)dx
(3.54)
−∞
−∞
Z x
Z y
FX (x) =
fX (x)dx
FY (y) =
fY (y)dy
(3.55)
−∞
−∞
TA
SL
integral eşitlikleriyle sağlanır.
Marjinal yoğunluk fonksiyonu hangi değişken
için tanımlanmak isteniyorsa integralin diğer değişken için (−∞, ∞) aralığında
uygulandığına dikkat edilmelidir.
Bu işlem Çizelge 3.2’de satır veya sütun
toplamlarına karşılıktır. İkiden fazla değişkenin olduğu multivaryat dağılımlarda
(3.54) integrali, seçilenin dışındaki değişkenlerin hepsi için uygulanır.
Birleşik yoğunluk ve dağılım fonksiyonları arasındaki ilişkiyi,
f (x, y) =
∂F (x, y)
∂x∂y
(3.56)
diferansiyel eşitliği tanımlar. Benzer diferansiyel eşitlikler marjinal fonksiyonlar
arasında da oluşturulabilir:
fX (x) =
∂FX (x)
∂x
,
fY (x) =
∂FY (y)
∂y
(3.57)
Örnek 3.15
X ve Y rasgele değişkenin birleşik olasılık yoğunluk fonksiyonu ve tanım alanı,
(
2e−x e−2y
0 < x < ∞, 0 < y < ∞
f (x, y) =
0
Diğer
olsun. Aşağıdaki olasılık değerlerini bulunuz (Ross, 1999, s. 99):
a) P (X > 1, Y < 1)
Olasılık ve İstatistik
s.2014.02.21
47
Birleşik Rasgele Dağılımlar
b) P (X < Y )
c) P (X < a)
Çözüm:
a)
y=1 Z x=∞
y=0
= e−1
−1
=e
P (X < Y ) =
y=0
∞
=
Z
Z0 ∞
e
2e−2y dy = e−1
1 − e−2
0
=
1
∞ 2e−2y −e−x 1 dy
1 −e−2y 0
2e−x e−2y dxdy
x=0
y 2e−2y −e−x 0 dy
−2y
2e
−y
1−e
0
=
dxdy =
Z
0
dy =
TA
SL
=
1
y=∞ Z x=y
Z
2e
x=1
Z
b)
−x −2y
AK
P (X > 1, Y < 1) =
Z
∞
−e−y 0
1
3
Z
∞
−2y
2e
0
dy −
∞
2
2
+ e−y 0 = 1 −
3
3
Z
∞
2e−3y dy
0
c)
P (X < a) =
Z
y=∞ Z x=a
y=0
2e
e
dxdy =
x=0
= 1 − e−a
= 1 − e−a
3.5.3
−x −2y
Z
0
∞
Z
∞
0
2e−2y dy = 1 − e−a
a 2e−2y −e−x 0 dy
∞ −e−y 0
Bağımsız Rasgele Değişkenler
Rasgele olayların bağımsızlığı, daha önce Bölüm 2.3.3’te açıklanmıştı. Bağımsızlık
kavramı, küme elemanlarının gerçek sayılardan seçildiği X ve Y rasgele değişkenleri
için de incelenebilir. A ∈ R ve B ∈ R, sırasıyla X ve Y rasgele değişkeni için gerçek
sayılar kümesini belirtsin. X ve Y bağımsız rasgele değişkenler ise, (2.13)’e göre,
P (X ∈ A ∩ Y ∈ B) = P (X ∈ A)P (Y ∈ B)
(3.58)
eşitliği geçerli olur. Olasılık yoğunluk fonksiyonları cinsinden yukarıdaki eşitlik,
f (x, y) = fX (x)fY (y)
Olasılık ve İstatistik
(3.59)
s.2014.02.21
48
RASGELE DEĞİŞKENLER ve OLASILIK DAĞILIMLARI
biçiminde ifade edilir. Söz konusu ilişki, aynı anlamda marjinal dağılım fonksiyonları
arasında da yazılabilir:
F (x, y) = FX (x)FY (y)
(3.60)
Verilen eşitliklerden {X ≤ x} olaylarının {Y ≤ y} olaylarından (ya da tersi)
etkilenmediği şeklinde algılanmalıdır.
AK
Örnek 3.16
Para (X) ve zar (Y ) atışı nasıl bağımsız olaylar ise bu olaylar için kullanılan rasgele
değişkenlerin olası değerleri arasında da bir ilişki yoktur:
fX (x = 0) = fX (x = 1) =
1
2
fY (y = 1) = fY (y = 2) = · · · = fY (y = 6) =
1
6
Herhangi bir xi (i = 1, 2) ve yj (j = 1, 2 . . . , 6) değeri, (3.59)’ye göre;
11
1
=
26
12
TA
SL
f (xi , yj ) = fX (x = xi )fY (y = yj ) =
sonucunu verir.
3.5.4
Koşullu Olasılık Dağılımları
(2.11) ve (2.12) koşullu olasılık ve ona bağlı olarak bağımsız olayları tanımlayan
eşitliklerdir. A ve B olaylarına karşılık olarak X ve Y rasgele değişikenlerinin
birbirlerine bağımlılığı koşullu olasılık dağılımları yardımıyla açıklanabilir. X ve
Y rasgele değişkenleri için,
f (y|x) =
f (x, y)
fX (x)
,
f (x|y) =
f (x, y)
fY (y)
(3.61)
eşitliklerinden elde edilen olasılık fonksiyonlarına koşullu olasılık fonksiyonları adı
verilir. Bu eşitliklerde, örneğin f (y|x) bilinen X rasgele değişkeni için Y ’nin olasılığı
diye okunur. (3.62)’te marjinal olasılık değerlerinin fX (x) > 0 ve fY (y) > 0
eşitsizliklerinin sağlanması gerektiği açıktır.
Koşullu olasılık dağılımlarından söz edildiğinde, sürekli fonksiyonlar için,
F (y|x) =
Ry
f (x, y)dy
fX (x)
−∞
,
F (x|y) =
Rx
∞
f (x, y)dx
fY (y)
(3.62)
eşitlikleri yazılabilir (Koch, 1999, s. 91).
Olasılık ve İstatistik
s.2014.02.21
49
Birleşik Rasgele Dağılımlar
3.5.5
Kovaryans ve Korelasyon
Olasılık yoğunluk fonksiyonu f (x, y) ile verilen birleşik dağılımda, X ve Y rasgele
değişkenlerine bağımlı g(X, Y )’nin beklenen değeri,
Z ∞Z ∞
E[g(X, Y )] =
g(x, y)f (x, y)dxdy
(3.63)
−∞
−∞
AK
genel eşitliği ile ifade edilir. g(X, Y ) için değişik fonksiyonlar öngörülebilir. Olasılık
ve istatistik kuramında, bunlardan bazılarının önemi büyüktür. İlk olarak,
g(X, Y ) = X
ve g(X, Y ) = Y
TA
SL
eşitliklerini ele alalım ve yukarıdaki genel eşitlikte yerine yazılım. (3.54) göz önüne
alınırsa,
Z ∞Z ∞
Z ∞Z ∞
E(X) =
xf (x, y)dydx
E(Y ) =
yf (x, y)dxdy
−∞ −∞
−∞ −∞
Z ∞ Z ∞
Z ∞ Z ∞
=
x
f (x, y)dydx
=
y
f (x, y)dxdy
−∞
−∞
−∞
−∞
Z ∞
Z ∞
µX =
xfX (x)dx
µY =
yfY (y)dy
(3.64)
−∞
−∞
sonuçları çıkar. Benzer şekilde bu kez,
g(X, Y ) = (X − µX )2
ve g(X, Y ) = (Y − µY )2
fonksiyonlarını inceleyelim:
2
σX
= E[(X − µX )2 ]
Z ∞Z ∞
=
(x − µX )2 f (x, y)dydx
−∞
Z−∞
∞
=
(x − µX )2 fX (x)dx
−∞
σY2 = E[(Y − µY )2 ]
Z ∞Z ∞
=
(y − µY )2 f (x, y)dxdy
−∞
Z−∞
∞
=
(y − µY )2 fY (y)dy
(3.65)
−∞
(3.64) ve (3.65) eşitlikleri X ve Y rasgele değişkenleri için µX , µY beklenen
2
değerleri ve σX
, σY2 varyanslarının birleşik dağılımlardan da türetilebileceğini ortaya
koymaktadır. Son olarak, rasgele değişkenlerin ortalama değerlerinden sapmalarının
çarpımını,
g(X, Y ) = (X − µX )(Y − µY )
(3.66)
oluşturalım. Yazılan fonksiyon eşitliğinin beklenen değerini bulmak istediğimizde,
σXY
Cov(X, Y ) = E[(X − µX )(Y − µY )]
Z ∞Z ∞
= Cov(X, Y ) =
(x − µX )(y − µY )f (x, y)dxdy
−∞
(3.67)
−∞
eşitliği söz konusu olur.
Olasılık ve İstatistik
s.2014.02.21
50
RASGELE DEĞİŞKENLER ve OLASILIK DAĞILIMLARI
Kovaryansın özellikleri: (3.66) eşitliğinin sağı için beklenen değer operatörü,
Cov(X, Y ) = E[(X − µX )(Y − µY )]
= E[XY − XµY − µX Y + µX µY ]
= E(XY ) − µY E(X) − µX E(Y ) + µX µY
= E(XY ) − E(X)E(Y )
(3.68)
AK
kovaryans değerinin farklı bir yoldan hesaplanabileceğini gösterir. (3.22) ve (3.68)
karşılaştırıldığında, varyansın kovaryansın özel bir durumu,
2
σX
= Var(X) = Cov(X, X)
olduğu anlaşılır ve aralarındaki ilişki genellikle Cauchy-Schwarz eşitsizliği,
p
|Cov(X, Y )| ≤ Var(X)Var(Y ) ⇒ |σXY | ≤ σX σY
(3.69)
(3.70)
ile açıklanır. Bu özelliklerin dışında, X ve Y rasgele değişkenler, a ve b sabit sayılar
olmak üzere aşağıdaki eşitlikler geçerlidir:
TA
SL
Cov(X, a) = 0
Cov(aX, bY ) = abCov(X, Y )
Var(X ± Y ) = Var(X) + Var(Y ) ± 2Cov(X, Y )
(3.71)
(3.72)
(3.73)
Birleşik dağılımın varyansı olarak değerlendirilebilecek kovaryans σXY , X ve
Y rasgele değişkenlerinin birbirlerinden nasıl etkilendiklerini, kısaca aralarındaki
bağımlılık bilgisini verir. Deneysel uygulamalarda ölçülen bir büyüklük çoğu kez
dış (çevresel) koşullardan etkilenir. Jeodezik ölçmelerde uzunluk ve doğrultu
ölçmelerinin hemen hepsi gözlem ışınlarının içinden geçtiği atmosferin az ya da çok
etkisi altındadır. Gözlem büyüklüğü (ölçü) ve atmosferik etki arasındaki bağımlılık
deneysel yöntemler ile ortaya konulabilir. Genellikle eş zamanlı toplanmış, iki farklı
rasgele değişkene (örneğin uzunluk ve atmosferik sıcaklığa) ait ölçüler kovaryans
değerinin hesaplanmasına yeterlidir.
Örneklem sayısının sonlu ya da sayılabilir nitelikte olduğu birleşik dağılımlarda
beklenen değer, varyans ve kovaryans büyüklüklerinin hesabı için ayrık durum göz
önünde alınmalıdır. Böylesi veri türünde kovaryans hesabı,
XX
XX
µX =
xf (x, y)
µY =
yf (x, y)
x
=
X
y
xfX (x)
=
x
2
σX
=
x
=
x
Olasılık ve İstatistik
y
yfY (y)
(3.74)
y
XX
X
x
X
y
(x − µX )2 f (x, y)
2
(x − µX ) fX (x)
σY2 =
XX
x
=
X
y
y
(y − µY )2 f (x, y)
(y − µY )2 fY (y)
(3.75)
s.2014.02.21
51
Birleşik Rasgele Dağılımlar
0.8
0.4
0
-0.4
-0.8
-1
1
1
1
0
-1
-1
-1
0
0
0
0
0
0
0
AK
1
Şekil 3.10: X, Y rasgele değişkenleri bazı birleşik dağılım örnekleri ve dağılımın
korelasyon değerleri (Wikipedia, 2011)
σXY =
XX
x
toplam eşitlikleriyle ifade edilir.
y
(x − µX )(y − µY )f (x, y)
(3.76)
TA
SL
2
Varyans değerlerinin (σX
, σY2 > 0) aksine, kovaryans değerleri −∞ < σXY <
∞ değer aralığındadır. Artı değerli kovaryans, X ve Y ’nin aynı yönlü, eksi
değerli kovaryans zıt yönlü eğilimlerini açıklar. Kovaryans değerinin büyümesi
değişkenler arasındaki bağımlılığın artması, sıfıra yaklaşması bağımlılığın azalması
olarak yorumlanabilir. Ancak, bu konuda kesin bir yargıda bulunabilmek için
σXY ’nin standartlaştırılması gerekir.
X ve Y ’ye ilişkin standart sapma değerleri yardımıyla standartlaştırılan kovaryans
değerine,
σXY
− 1 ≤ ρXY ≤ 1
(3.77)
ρXY =
σX σY
korelasyon adı verilir. Bağımsız değişkenler arasındaki ilişkinin anlamlılığı, en
iyi şekilde korelasyon değeriyle yorumlanabilir. Bire yakın korelasyon değişkenler
arasındaki yüksek bağımlılığı; öte yandan,
ρXY = σXY = 0
(3.78)
sonucu bağımsız rasgele değişkenleri işaret eder. Kovaryans birimini, X · Y
ile değişkenlerin birimi belirlerken; korelasyon değeri birimsizdir. Şekil 3.10
korelasyonun, iki boyutlu X ve Y değişkenlerinin dağılım özelliklerine göre hangi
değerleri aldığını göstermektedir.
Örnek 3.17
X ve Y rasgele değişkenleri için Örnek 3.14’de elde edilen yoğunluk çizelgesini kullanarak
aşağıdaki soruları cevaplandırınız.
a) X ve Y ’nin bağımlı değişkenler olduğunu gösteriniz.
Olasılık ve İstatistik
s.2014.02.21
52
RASGELE DEĞİŞKENLER ve OLASILIK DAĞILIMLARI
b) µX , µY =?
2 , σ 2 =?
c) σX
Y
d) σXY , ρXY =?
Çözüm:
a) X ve Y bağımsız değişkenler ise,
AK
P (X = xi , Y = yj ) = P (X = xi )P (Y = yj )
eşitliği sağlanmalıdır. Örneğin i = 3, j = 1 ve i = j = 1 için
1
56
×
120 120
30
63
56
P (1, 1) = P (x = 1)P (y = 1) ⇒
6=
×
120
120 120
eşitsizlikleri sağlandığından X ve Y bağımlı değişkenlerdir.
P (3, 1) = P (x = 3)P (y = 1)
b) (3.74) eşitlikleri yardımıyla,
4
X
xi fX (xi )
=0
µY =
0 6=
63
21
1
35
+1
+2
+3
120
120
120
120
=
108
120
56
56
8
+1
+2
120
120
120
=
72
120
i=1
3
X
yi fY (yj )
=0
4
X
x2i fX (xi )
= 02
63
21
1
35
+ 12
+ 22
+ 32
120
120
120
120
=
156
120
yi2 fY (yj )
= 02
56
56
8
+ 12
+ 22
120
120
120
=
88
120
TA
SL
µX =
⇒
j=1
c) E(X 2 ) ve E(Y 2 )
2
E(X ) =
i=1
E(Y 2 ) =
3
X
j=1
beklenen değerlerini kullanarak (3.22) eşitliği yardımıyla,
156
108 2
2
σX
= E(X 2 ) − [E(X)]2 =
−
120
120
72 2
88
−
σY2 = E(Y 2 ) − [E(Y )]2 =
120
120
=
7056
14400
=
5376
14400
bulunur.
d) (3.68)’den,
E(XY ) =
4 X
3
X
xi yi f (xi , yi )
i=1 j=1
20
5
30
10
+0·1
+0·2
+1·0
+
120
120
120
120
3
15
6
1
48
30
+1·2
+2·0
+2·1
+3·0
=
+1·1
120
120
120
120
120
120
=0·0
Olasılık ve İstatistik
s.2014.02.21
53
Birleşik Rasgele Dağılımlar
kovaryans
σXY = E(XY ) − E(X)E(Y ) = −
108 72
2016
48
−
=−
120 120 120
14400
ve (3.77) yardımıyla korelasyon,
ρXY =
− 2016
3
σXY
2016
= q 14400
=− √
= −√
σX σY
7056 5376
7056 · 5376
2 21
TA
SL
çıkar.
AK
14400 14400
Olasılık ve İstatistik
s.2014.02.21
RASGELE DEĞİŞKENLER ve OLASILIK DAĞILIMLARI
TA
SL
AK
54
Olasılık ve İstatistik
s.2014.02.21
AK
Bölüm 4
TA
SL
BAŞLICA OLASILIK DAĞILIMLARI
Rasgele deneyin olası tüm sonuçları için tanımlı olasılık değerleri belirli bir olasılık
yoğunluk ya da dağılım fonksiyonundan türetilen sayılardır. Rasgele değişkenin
alacağı değerler gibi dağılım fonksiyonları da ayrık ve sürekli olarak sınıflandırılırlar.
Olasılık kütle fonksiyonu ve olasılık yoğunluk fonksiyonu bu sınıflara ait türleri işaret
eder. Değişken (parametre) sayısı bir başka sınıflandırma yöntemidir: tek değişkenli
veya çok değişkenli dağılımlar.
Literatürde yüzden fazla olasılık dağılımı biliniyor olmasına rağmen bunların çok
azının uygulamada bir önemi vardır. Binom dağılımı, normal dağılım, t-öğrenci
dağılımı, ki-kare dağılımı bunlardan bazılarıdır.
4.1
4.1.1
Ayrık Dağılımlar
Bernaulli ve Binom Dağılımları
Bir kez tekrar edilen deneyin olumlu/olumsuz, başarılı/başarısız veya evet/hayır’a
benzer iki sonucu varsa Bernaulli dağılımından söz edilir. İsviçreli bilim adamı Jacob
Bernaulli’nin kendi adıyla anılan deneylerine atfen dağılıma bu isim verilmiştir.
Bernaulli deneylerinde, yeni doğan bebeğin kız ya da erkek olması, para atışı (bir
kez), sonuçları arasında eşitlik olmayan spor türleri (örneğin basketbol), bir hastaya
uygulanan ilaç tedavisinin sonucu gibi benzer olaylar ele alınır. Bu olayların olasılık
değerleri Bernauli dağılımından elde edilir. X rasgele değişken değeri için öngörülen
56
BAŞLICA OLASILIK DAĞILIMLARI
1 (istenen) ve 0 değerlerine karşılık olasılık değerleri,
f (x) = P (X = x) =
(
p
x = 1 için
q = 1 − p x = 0 için
(4.1)
veya
f (x) = px (1 − p)1−x
x ∈ {1, 0}
(4.2)
AK
eşitlikleriyle gösterilen olasılık (kütle) fonksiyonundan hesaplanır.
Bernaulli
dağılımının olasılık ve dağılım fonksiyonları Şekil 4.1’de gösterilmektedir.
f (xi ) = P (X = xi )
F (xi )
+∞
1
1
p
1−p
1−p
−∞
TA
SL
xi
−1
0
1
2
−1
0
1
2
xi
Şekil 4.1: Bernaulli dağılımı
Dağılımın beklenen değeri ve varyansı için
µ = E(X)
=p
2
2
σ = E[(X − µ) ] = pq = p(1 − p)
eşitlikleri geçerlidir. Medyan ve modu ise


0
µ1/2 = 1/2


1


0
µ̂ = 0, 1


1
(4.3)
(4.4)
q > p için
q = p için
p > q için
(4.5)
q > p için
q = p için
p > q için
(4.6)
değerlerini alır.
Bernaulli deneyi n kez yinelensin. Her biri bağımsız bu deneyler için p olasılıklı
başarılı (Xi = 1) sonuçların sayısı,
X=
n
X
i=1
Olasılık ve İstatistik
Xi ∼ Bin(n, p)
(4.7)
s.2014.02.21
57
Ayrık Dağılımlar
AK
Binom dağılımlıdır. X’in olası x = 0, 1, . . . , n değerleri için olasılık kütle fonksiyonu,
n x
p (1 − p)n−x
f (x) = P (X = x) =
x
n!
=
px (1 − p)n−x
(4.8)
x!(n − x)!
ile tanımlıdır. (4.8) (p+q)n ’ye uygulanan (2.23) binom açılımının terimlerini, nx ise
bunların katsayılarını başka bir deyişle Paskal üçgeni elemanlarını temsil etmektedir.
p + q = 1 nedeniyle dizi toplamının da bizi,
n X
n x n−x
n
p q
=1
(4.9)
(p + q) =
x
x=0
sonucuna götüreceği açıktır. Dağılımın beklenen değerini,
n
X
n x n−x
p q
E(X) =
x
x
x=0
(4.10)
TA
SL
eşitliği verir. Sonucu bulmak için daha kolay bir yöntem, beklenen değeri (4.7) için
açık yazmaktır:
E(X) = E(X1 ) + E(X2 ) + · · · + E(Xn )
(4.11)
Bağımsız n sayıda Bernaulli deneyinin her biri için beklenen değer, (4.4)’den, p’ye
eşit olduğuna göre Binom dağılımının beklenen değeri,
µ = E(X) = E[Bin(n, p)] = np
(4.12)
çıkar. Benzer bir yaklaşımla varyans değeri,
σ 2 = E[(X − µ)2 ] = npq
(4.13)
olarak bulunur.
Örnek 4.1
Para atışının 5 kez yapıldığı bir şans oyununda X gelen turaların sayısı olmak üzere olasılık
dağılımı,
x n−x
n
1
1
f (x) =
,
x = 0, 1, 2, 3, 4, 5
x
2
2
eşitliğinden aşağıdaki gibi elde edilir:
x
0
1
2
3
4
5
f (x) 0.03125 0.15625 0.3125 0.3125 0.15625 0.03125
(3.15)’den veya (4.12)’den beklenen değer,
µ=
n=5
X
xf (x) = np = 2.5
x=0
Olasılık ve İstatistik
s.2014.02.21
58
BAŞLICA OLASILIK DAĞILIMLARI
ve varyansı,
n=5
X
σ2 =
x=0
(x − µ)2 f (x) = npq = 1.25
sonucunu verir.
P (X = x)
AK
Daha yüksek deney sayıları için dağılımın nasıl bir görünüm alacağı Şekil (4.2)’de
görülmektedir. Sırasıyla 25, 50 ve 75 ardışık atışın dağılımları iki olasılık değeri
(p = 0.5 ve 0.8) için elde edilmiş ve beklenen değerleri şekilde kesik çizgilerle
gösterilmiştir. p = 0.8 için bile, dağılımın simetrik görünüm sergilediği ve normal
dağılıma çok yaklaştığı anlaşılmaktadır.
P (X = x)
b
b
b
p = 0.5
b
b
b
b
n = 25
0.15
0.15
n = 50
b
b
p = 0.8
n = 25
b
b
b
b
n = 50
b
b
0.10
b
b
b
b
b
b
b
n = 75
b
b
b
b
b
0.10
n = 75
b
b
b
b
b
b
b
TA
SL
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
0
b
0
b
b
b
b
10
b
20
b
b
b
b
b
b
b
40
b
x
50
b
b
0
b
10
b
b
b
20
b
b
b
b
b
b
b
b
b
b
b
b
30
b
b
b
b
b
b
b
b
b
0.05
b
b
b
b
b
b
b
0.05
b
b
b
30
b
b
b
b
b
40
b
b
b
b
b
50
b
60
b
b
b
b
b
b
x
70
Şekil 4.2: Değişik deney ve olasılık sayıları altında Binom dağılımları
4.1.2
Ayrık Üniform Dağılım
Ayrık üniform dağılım, rasgele değişken değerlerinin belirli bir aralıkta düzenli ve
eşit olasılıkla gösterildiği parametrik olmayan bir dağılım türüdür. Olasılık kütle
fonksiyonu,
1
f (x) =
,
x ∈ {x1 , x2 , . . . , xn }
(4.14)
n
X’in tüm değerleri için eşittir. Örneğin {1, 2, 3, 4, 5, 6} değerlerine sahip hilesiz bir
zarın tüm sonuçları aynı olasılıktadır ( 61 ).
Beklenen değer,
E(X) =
n
X
i=1
n
1X
1
xi
xi =
n
n i=1
(4.15)
basit aritmetik ortalama ile gösterilir.
Olasılık ve İstatistik
s.2014.02.21
59
Ayrık Dağılımlar
X zar örneğindeki gibi 1, 2, . . . , n sıralı tamsayı dizilerinden oluşuyorsa (4.15)
kümülatif olasılık fonksiyonu,
F (x) = P (X ≤ xi ) =
xi
n
(4.16)
ve beklenen değer,
1 n(n + 1)
n+1
=
n
2
2
eşitliğine dönüşür. Benzer yaklaşımla varyans için,
E(X) =
AK
(4.17)
σ 2 = E(X 2 ) − [E(X)]2 =
bulunur.
Örnek 4.2
n2 − 1
12
(4.18)
Zar atışının beklenen değerini ve varyansını hesaplayalım:
7
n+1
=
2
2
σ2 =
,
n2 − 1
35
=
12
12
TA
SL
µ=
4.1.3
Poisson Dağılım
Belirli bir zaman diliminde, belirli bir bölgede ya da miktarı belli yığın olaylar
içerisinde bazı olayların gerçekleşme olasılığı Poisson dağılımı ile hesaplanır. Burada,
olaylar dizisinin ardışık gerçekleşmeleri raslantısal olmalıdır. Örneğin, bir bölgedeki
deprem olaylarının ya da bir kavşaktaki trafik kazalarının veya bir hastanedeki
doğum sayılarının birim zaman içerisindeki sıklığı Poisson dağılımının konusudur.
Binom ve üniform dağılımdan sonra en uygulamada sık kullanılan ayrık dağılım
türüdür.
λ artı değerli (λ > 0) gerçek sayı olmak üzere olasılık fonksiyonu,
f (x) =
λx −λ
e
x!
,
xi = 0, 1, 2, . . .
(4.19)
ile tanımlı X rasgele değişkeni Poisson dağılımlıdır. Dağılımın beklenen değeri ve
varyansı λ, birim zamanda gerçekleşen olay sayısı olsun ve
λt = λ = np
eşitliği oluşturulsun. p = nλ olasılığı n →
fonksiyonunda yerine yazılırsa,
" x
λ
n
lim
1−
n→∞
x
n
Olasılık ve İstatistik
(4.20)
∞ limit durumu için Binom olasılık
λ
n
n−x #
=
λx −λ
e
x!
(4.21)
s.2014.02.21
60
BAŞLICA OLASILIK DAĞILIMLARI
bulunur. (4.21)’den, Poisson dağılımının Binom dağılımının özel durumu (n →
∞) olduğu anlaşılır. Bu koşullar altında Poisson dağılımının, Binom dağılımına
yaklaşmak için kullanılabileceği sonucu çıkar:
Bin(x; n, p) ≈
λx −λ
e
x!
(4.22)
AK
Şekil 4.3 beklenen değeri birim olay sayısı üzerinden beklenen değeri λ = 12.5 olan
rasgele değişkenin dağılımını göstermektedir. Verilen örnek 25 para atışına ilişkin
dağılıma (bkz. Şekil 4.2) karşılık gelmektedir.
P (X = x)
0.15
λ = pn = 12.5
0.10
TA
SL
0.05
x
0
0
5
10
15
20
25
Şekil 4.3: Poisson dağılımı
Örnek 4.3
Yükseklik farklarını geometrik nivelman tekniği ile ölçen bir nivelman ekibinin her 100
ölçüsünden yaklaşık 6’sı kaba hatalı (uyuşumsuz) çıkmaktadır. 25 yükseklik farkının
ölçüleceği bir nivelman ağında, söz konusu ekibin ağı (kaba) hatasız ölçme olasılığını
hesaplayınız. Beş uyuşumsuz ölçüye kadar olasılıkları Poisson ve binom dağılımı için elde
ediniz ve sonuçları karşılaştırınız.
Çözüm: Değişik birimler (ölçü sayıları) özerinden uyuşumsuz oranları,


6
λ = 0.06


1.5
n = 100 ölçü için
n = 1 ölçü için
n = 25 ölçü için
ile tanımlanabilir. Birim ölçü sayısı 25 olduğuna göre λ = 1.5 olur. Uygulamayı Bernaulli
deneyleri ile açıklamak için birim ölçü sayısının 1’e indirgenmesi gerekir. Bu durumda
para atışında olduğu gibi bir ölçü için iki seçenek vardır ve hatalı ölçü (aranan) oranı
p = λ = 0.06’dır. X rasgele değişkeni 25 ölçüdeki kaba hatalı ölçü sayısı ise, nivelman
Olasılık ve İstatistik
s.2014.02.21
61
Sürekli Dağılımlar
ağının hatasız ölçülmesi (x = 0) olasılığı, sırasıyla Poisson ve Binom dağılımlarından,
λ0 −1.5
e
= 0.22313
0! 25
Bin(0; 25, 0.06) =
0.060 (1 − 0.06)25 = 0.21291
0
f (x) =
sonuçları ile bulunur.
AK
Ölçme ekibinin 25 ölçü arasında 5 ölçüye kadar uyuşumsuz ölçü yapma olasılıkları
aşağıdaki çizelgede gösterilmiştir:
x
0
1
2
3
4
5
f (x)
0.223130 0.334695 0.251021 0.125511 0.047067 0.014120
Bin(x; 25, 0.06) 0.212910 0.339750 0.260234 0.127349 0.044708 0.011985
Örnek 4.4
TA
SL
Türkiye’de her ay büyüklüğü 4’ten fazla ortalama 4 deprem olmaktadır. Önümüzdeki ay
ülkemizde (büyüklüğü 4’ten fazla) deprem olmama olasılığını hesaplayınız.
Çözüm: Birim zamanda gerçekleşen deprem sayısı X rasgele değişkeni ve onun dağılımın
beklenen değeri,
xi ∈ {0, 1, 2, ...} ⇒ λ = 4
olduğuna göre aynı sürede deprem olmama olasılığı,
Pois(0; 4) = P (X = 0) =
λ0 −4
e = 0.018316
0!
en az bir deprem olma olasılığı,
P (X ≥ 1) = 1 − P (X = 0) = 0.98168
sonucuna karşılık gelir.
4.2
4.2.1
Sürekli Dağılımlar
Normal Dağılım
Normal ya da Gauss dağılımı çan eğrisi adıyla bilinen fonksiyon,
(x−µ)2
1
f (x) = √ e− 2σ2
σ 2π
,
−∞ < x < +∞
(4.23)
ile tanımlıdır.
İstatistik, bilim ve mühendislikte en sık kullanılan olasılık
dağılımıdır. Uygulamada normal dağılımı bu kadar önemli kılan, çok sayıda tekrar
Olasılık ve İstatistik
s.2014.02.21
62
BAŞLICA OLASILIK DAĞILIMLARI
içeren birbirinden bağımsız gözlemlerin veya onların hatalarının normal dağılım
fonksiyonuna uyumlu olmasıdır. Gerçek değerli sürekli rasgele değişken X bir
deneyin (ölçme) sonucu olarak normal dağılımlı ise
X ∼ N(µ, σ 2 )
(4.24)
AK
biçiminde ifade edilir. µ ve σ 2 dağılımın parametreleridir; sırasıyla X rasgele
değişkeninin beklenen değerini ve varyansını gösterir. Değişken değerlerinin belirli
bir x değerinden küçük (ya da ona eşit) değerler alma olasılığını veren birikimli
dağılım fonksiyonu için,
Z x
(x−µ)2
1
(4.25)
F (x) = P (X < x) = √
e− 2σ2 dx
σ 2π −∞
integral eşitliği geçerlidir. Şekil 4.4, µ ve σ 2 paremetreleri farklı X1 , X2 , X3 , X4
rasgele değişkenlerinin olasılık yoğunluk ve dağılım grafiklerini ortaya koymaktadır.
Bu sonuçlara göre normal dağılım hakkında aşağıdaki saptamalarda bulunulabilir:
f (x)
Xi
X1
X2
X3
X4
0.8
F (x)
σi2
1
0.25
0.25
0.5625
1.00
TA
SL
0.6
µi
0
0
1
−1.5
0.4
0.2
−3
−2
−1
0
1
2
3
x
−3
−2
b
0.75
0.50
b
b
0
1
0.25
−1
2
3
x
Şekil 4.4: Değişik dağılım parametreleri altında normal dağılım eğrileri
• µ’ye göre simetrik ve unimodal (tek modlu) dağılım özelliğine sahip olmasının
sonucu olarak, dağılımın beklenen değeri, medyanı ve modu eşittir.
• Dağılımın x ekseni üzerindeki konumunu µ belirler. X’in alacağı değerlerde
artı yönlü sistematik değişim dağılımı sağa, eksi değerli değişim dağılımı sola
kaydırır:
µ4 < µ1 = µ2 < µ3
Ölçülerde başka bir deyişle deney sonuçlarında sistematik hatalar varsa, bu
durum kendini µ’de belli eder.
• Daha küçük varyans değerleri birbirine daha yakın (beklenen değerden daha
az uzaklaşan, saçılan veya daha duyarlı) sonuçlar üretir:
σ22 = σ32 < σ42 < σ12
• Normal dağılımdan çıktığı varsayılan gözlem hataları (µ = E(X) = 0) için,
büyük hata yapma olasılığı küçük hata yapma olasığından daha düşüktür.
Olasılık ve İstatistik
s.2014.02.21
63
Sürekli Dağılımlar
Dağılımın parametreleri X rasgele değişkenini standartlaştırmak için kullanılabilir:
Z=
X −µ
σ
,
Z ∈ N(0, 1)
(4.26)
Normal ya da standartlaştırılmış rasgele değişkenin beklenen değeri 0, varyansı
1’e eşittir. Bu durumda Z’nin olasılık yoğunluk ve dağılım fonksiyonu daha basit
eşitliklere,
z2
1
f (z) = √ e− 2
2π Z
z
1
z2
F (z) = √
e− 2 dz
2π −∞
AK
(4.27)
(4.28)
dönüşür. (4.27) ve (4.28) normal dağılım için olasılık hesaplarını kolaylaştıran
eşitliklerdir. (4.25) integralinde X = σZ + µ eşitliği göz önüne alınırsa,
TA
SL
P (X < x) = P (σZ + µ < x)
x−µ
= P (Z <
)
σ
F (x) = P (Z < z) = F (z)
(4.29)
sonucu ortaya çıkar. Benzer biçimde rasgele değişkenin belirli [x1 , x2 ] aralığındaki
olasılığı için,
P (x1 < X < x2 ) = F (x2 ) − F (x1 )
x1 − µ
x2 − µ
) − F(
)
= F(
σ
σ
= F (z2 ) − F (z1 )
(4.30)
veya doğrudan standart dağılım üzerinden,
1
P (z1 < Z < z2 ) = √
2π
Z
z2
z2
e− 2 dz
(4.31)
z1
integral eşitliği geçerli olur. Buradan dağılımın simetrik özelliği sayesinde,
F (z) = 1 − F (−z)
(4.32)
yazılabilir.
(4.28)-(4.32) eşitlikleri için aranan F (z) değerleri genellikle çizelgelerden ya da sınırlı
yaklaşım sağlayan polinom eşitliklerinden sağlanır (Abramovitz ve Stegun, 1972;
Koch, 1999).
Örnek 4.5
X normal dağılımlı rasgele değişken olsun: X ∼ N (µ, σ 2 ). Aşağıdaki aralıklara karşılık
gelen olasılık değerlerini hesaplayınız, sonuçları normal dağılım grafiği üzerinde irdeleyiniz.
Olasılık ve İstatistik
s.2014.02.21
64
BAŞLICA OLASILIK DAĞILIMLARI
• P (X < µ + 0.75σ)
• P (µ − σ < X < µ + σ)
• P (µ − 2σ < X < µ + 2σ)
• P (µ − 3σ < X < µ + 3σ)
AK
Çözüm: Z = X−µ
σ doğrusal dönüşümünden sonra z’nin (4.29)’daki değerleri Çizelge ??’dan
alınabilir. Buna göre x, z ve F (z),
x
µ − 3σ µ − 2σ µ − σ
µ
µ + 0.75σ µ + σ µ + 2σ µ + 3σ
z
−3
−2
−1
0
0.75
1
2
3
F (z) 0.0013 0.0228 0.1587 0.5000
0.7734
0.8413 0.9772 0.9987
değerlerini alır.
Yukarıdaki çizelgeye göre P (X < µ + 0.75σ) olasılığı için,
P (X < µ + 0.75σ) = P (Z < 0.75)
TA
SL
F (z = 0.75) = 0.7734
sonucu çıkar. Elde edilen sonuç z’nin 0.75’den küçük değerlerinin toplam olasığını verir;
geometrik anlamda Şekil 4.5’de eğri altında kalan alan ile açıklanır.
f (z)
0.4
0.2
−3
−2
−1
0
z
1
2
3
z
Şekil 4.5: z = 0.75 için birikimli olasılık: P (Z < 0.75)
X rasgele değişkeninin belli aralıklardaki olasılık seviyelerine genel olarak 1 − α ile güven
düzeyi ; bunu sınırlandıran x değerlerine de güven sınırları adı verilir. Çoğu zaman bu
sınırlar arasındaki alana, sonucu istenmeyenlerden (yanılma) arta kalan olasılıklar gözüyle
bakılır. Güven sınırlarının dışındaki olasılıklara ise α yanılma olasılığı denir. Normal
dağılım için X = µ ± σ, µ ± 2σ, µ ± 3σ veya standart normal dağılım için bunlara karşılık
gelen Z = ±1, ±2, ±3 sınırları kuramsal açıdan anlamlıdır. Yukarıda verilen çizelgeye göre
bu aralıklardaki güven düzeyleri,
P (µ − zσ < X < µ + zσ) = P (−z < Z < z)
= F (z) − F (−z)
Olasılık ve İstatistik
s.2014.02.21
65
Sürekli Dağılımlar
eşitliklerinden hesaplanabilir. z = 1, 2, 3 değerleri için,
P (µ − σ < X < µ + σ) = F (1) − F (−1) = 0.6827
P (µ − 2σ < X < µ + 2σ) = F (2) − F (−2) = 0.9545
P (µ − 3σ < X < µ + 3σ) = F (3) − F (−3) = 0.9973
AK
elde edilir. Şekil 4.6 ile bu sonuçların geometrik yorumu sunulmaktadır. Yüzdelik sayılar
X’in alacağı değerlerin aralık veya tekrarlanma anlamında olasılığını temsil etmektedir.
Örneğin, normal dağılımdan çıktığı bilinen bir gözlem dizisinde her 1000 ölçüden 997’sinin
µ ± 3σ aralığında kalması beklenmelidir.
f (z)
%34.1
TA
SL
%34.1
%13.6
%13.6
%2.1
−3
µ − 3σ
−2
µ − 2σ
−1
µ−σ
%2.1
0
µ
1
µ+σ
2
µ + 2σ
3
µ + 3σ
z
x
%68.3
%95.4
%99.7
Şekil 4.6: Standart normal dağılım ve belli aralıklar için güven olasılığı düzeyleri
4.2.2
Chi-Kare Dağılımı
Z1 , Z2 , . . . , Zν standart normal dağılımlı bağımsız rasgele değişkenler Zi ∈ N(0, 1)
olsun. Karelerinin toplamından türetilen,
X = Z12 + Z22 + · · · + Zν2
(4.33)
rasgele değişkeni, ν serbestlik derecesiyle, χ2 (okunuşu: ki-kare) dağılımlıdır ve χ2ν
biçiminde gösterilir. Dağılıma ilişkin olasılık yoğunluğu,
f (x) = cν x
fonksiyonu ile verilir. Burada,
ν−2
2
x
e− 2
,
(4.34)
ν
2− 2
cν = ν
Γ( 2 )
Olasılık ve İstatistik
x>0
(4.35)
s.2014.02.21
66
BAŞLICA OLASILIK DAĞILIMLARI
serbestlik derecesinin bir fonksiyonu olarak sabit katsayıdır. Gama fonksiyonunun
pozitif tam ve yarı sayılı argümanlara karşılık gelen değerleri,
Γ(ν)
= (ν − 1)!
√ (2ν)!
1
+ν = π ν
Γ
2
4 ν!
(4.36a)
(4.36b)
eşitliklerinden hesaplanır.
AK
(4.34) istatistikte önemli bazı dağımların kökeni Gama dağılımının özel durumudur.
χ2ν dağılımının beklenen değeri ve varyansı,
µ = E(χ2ν ) = ν
σ 2 = Var(χ2ν ) = 2ν
değerlerine eşit çıkar.
f (x)
0.5
TA
SL
0.4
(4.37a)
(4.37b)
0.3
0.2
0.1
0
0
1
2
3
4
5
6
7
8
9
x
Şekil 4.7: ν = 1, 2, . . . , 10 serbestlik derecelerine karşılık gelen χ2ν dağılımları (açıktan
koyuya)
χ2ν dağılımını standart normal dağılımdan ayıran en önemli özellik; rasgele değişkenin
artı değerli başka bir deyişle, f (x)’in x > 0 bölgesi için tanımlı olmasıdır.
Bunun dışında, serbestlik derecesinin düşük kaldığı durumlarda dağılım belirgin bir
çarpıklık ve basıklığa sahiptir. ν arttıkça yoğunluk fonksiyonu daha basık, buna
karşılık daha simetrik bir görünüm alır (Şekil 4.7). ν → ∞ için rasgele değişken X
normal dağılımlıdır.
Teorem 4.1 X1 , X2 , . . . , Xn rasgele değişkenleri ν1 , ν2 , . . . , νn serbestlik dereceleriyle bir dizi bağımsız deneyin Xi ∈ χ2 dağılımlı rasgele değişkenleri olsun. Söz
konusu değişkenlerin toplamı da χ2 dağılımlıdır:
X1 + X2 + · · · + Xn =
Olasılık ve İstatistik
n
X
i=1
Xi = V
⇒
V ∼ χ2v
(4.38)
s.2014.02.21
67
Sürekli Dağılımlar
Burada v toplamın serbestlik derecesidir:
v = ν1 + ν2 + · · · + νn
χ2ν dağılım fonksiyonu,
F (x) = cν
Z
x
u
ν−2
2
u
e− 2 du ,
u>0
(4.39)
4.2.3
AK
0
t Dağılımı
TA
SL
İngiliz istatistikçi William S. Gosset (1876–1937) çalıştığı bira fabrikasında bira
üretim ve kalite ölçüm süreçlerinde kullanılmak üzere, görünümü ve özellikleri
normal dağılıma çok benzeyen ancak küçük hacimli örneklem kümelerine dayalı bir
dağılım türetti. Şirketin çalışanlarına koyduğu yasak nedeniyle öğrenci takma adıyla
yayımlanan makalesinde Gosset, T rasgele değişkenli dağılımı serbestlik derecesinin
bir fonksiyonu olarak tanımladı. Herhangi bir rasgele değişken için f = n − 1
serbestlik derecesine bağlı sonsuz sayıda t-dağılımı ortaya konulabilir. Dağılımın
en önemli özelliği n ölçü sayısı ve buna bağlı serbestlik derecesi arttıkça standart
normal dağılıma yaklaşmasıdır.
Uygulamada normal dağılımın varyansına doğrudan ulaşmak olanaklı değildir; sınırlı
sayıda veri ile tüm uzayın parametrelerine yaklaşılmaya çalışılır. X1 , X2 , . . . , Xn
bağımsız, öte yandan aynı normal dağılım parametrelerine sahip rasgele değişkenler
olsun: Xi ∈ N(µ, σ 2 ). Örneklem ortalaması,
n
1X
Xi
X=
n i=1
ve onun varyansı,
(4.40)
n
1 X
S =
(Xi − X)2
n − 1 i=1
2
(4.41)
ile hesaplanır (yukarıdaki toplamın neden n − 1’e bölündüğü Bölüm ??’de
açıklanacaktır). X ve S 2 , toplumun parametrelerine (µ, σ 2 ) yaklaşan deneysel
(örneklem) parametrelerdir:
µ = E(X)
σ 2 = E(S 2 )
(4.42a)
(4.42b)
Örneklem ortalamasını standart normal değere dönüştüren,
Z=
X −µ
√
σ/ n
(4.43)
eşitliğinde σ yerine yukarıdaki deneysel varyans kullanılırsa t-dağılımlı,
T =
Olasılık ve İstatistik
X −µ
√
S/ n
(4.44)
s.2014.02.21
68
BAŞLICA OLASILIK DAĞILIMLARI
rasgele değişken ortaya çıkar. Dağılımın olasılık yoğunluk fonksiyonunu f serbestlik
derecesi belirler:
− f +1
2
t2
−∞<t<∞, f >0
(4.45)
f (t) = cf 1 +
f
Burada cf katsayısı Γ(·) gama fonksiyonu üzerinden,
f +1
1 Γ 2
cf = √
f π Γ f2
AK
(4.46)
eşitliğiyle tanımlanabilir. f ’nin tek ve çift sayı durumuna göre (4.46),
(
4·2 1
f tek ise
1 (f − 1)(f − 3)
π
cf = √
· · · 5·3
5·3 1
f (f − 2)(f − 4)
f çift ise
4·2 2
değerlerini alır.
(4.47)
f (x)
N (0, 1)
0.4
T (f = 4)
TA
SL
0.3
T (f = 1)
0.2
0.1
−4
−3
−2
−1
0
1
2
3
4
x
Şekil 4.8: Standart normal dağılım ve f = 1, 4 için t-yoğunluk dağılımı
Şekil 4.8’den görüldüğü gibi µ = 0 göre simetrik dağılımının varyansı,
σ 2 = Var(T ) =
f
f −2
f ≥3
(4.48)
her zaman 1’den büyüktür. Bu olasılık yoğunluğun, normal dağılıma kıyasla
kuyruklara daha fazla yayıldığı anlamına gelir (Şekil 4.8). Serbestlik derecesi
arttıkça yoğunluk fonksiyonu standart normal dağılıma yaklaşır; limit durum f →
∞ için varyansı 1’e eşitlenir. Çizelge 4.1 değişik serbestlik dereceleri altında tdağılımlarının standart normal dağılım N(0, 1) ile ilişkisini göstermektedir. f > 30
için normal ve t yoğunluk değerleri arasındaki fark 10−2 ’den küçüktür.
t-dağılımının kullanım biçimi standart normal dağılıma benzerdir. Dağılımın α
yanılma olasılığı ve f serbestlik derecesine bağlı tek yanlı güven sınırları (tf,1−α )
Ek ??’de verilmektedir.
4.2.4
Fisher Dağılımı
Olasılık ve İstatistik
s.2014.02.21
69
AK
Sürekli Dağılımlar
Çizelge 4.1: Standart normal dağılıma karşılık değişik serbestlik dereceleri için tdağılımı yoğunluk değerleri
N (x; 0, 1)
0.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
0.39894
0.35207
0.24197
0.12952
0.05399
0.01753
0.00443
0.00087
0.00013
t-dağılımı: T (x; f )
f = 10 f = 30
0.38911 0.39563
0.33970 0.34788
0.23036 0.23799
0.12744 0.12896
0.06115 0.05685
0.02694 0.02106
0.01140 0.00678
0.00478 0.00196
0.00203 0.00052
TA
SL
x
Olasılık ve İstatistik
f =1
0.31831
0.25465
0.15915
0.09794
0.06366
0.04390
0.03183
0.02402
0.01872
f =5
0.37961
0.32792
0.21968
0.12452
0.06509
0.03333
0.01729
0.00924
0.00512
f = 100
0.39795
0.35080
0.24077
0.12937
0.05491
0.01863
0.00513
0.00116
0.00022
f = 1000
0.39884
0.35194
0.24185
0.12950
0.05409
0.01764
0.00450
0.00090
0.00014
s.2014.02.21
70
TA
SL
AK
BAŞLICA OLASILIK DAĞILIMLARI
Olasılık ve İstatistik
s.2014.02.21
AK
Kaynaklar
Abramovitz, M. ve Stegun, I. A. (1972). Handbook of Mathematical Functions with
Formulas, Graphs and Mathematical Tables. Dover Publications, New York.
TA
SL
Koch, K. R. (1999). Parameter Estimation and Hypothesis Testing in Linear Models.
Springer, 9th edition.
Papoulis, A. (1984). Probability, Random Variables, and Stochastic Processes.
McGraw Hill, New York, 2nd edition.
Ross, S. M. (1999). Introduction to Probability and Statistics for Engineers and
Scientists. Academic Press, 2nd edition.
Speigel, M. R., Schiller, J., ve Srinivasan, R. A. (2009). Probability and Statistics.
McGraw Hill, New York, 3rd edition.
Wikipedia
(2011).
Pearson
product-moment
correlation
coefficient
—
Wikipedia,
the
free
encyclopedia.
http://http://en.wikipedia.org/wiki/Pearson_coefficient
[Erişim:
06.04.2012].

Benzer belgeler

Ali Nesin Okura Not: Henüz bitmemis ve gözden geçirilmemis kitap

Ali Nesin Okura Not: Henüz bitmemis ve gözden geçirilmemis kitap Analiz ise mesafelerle, yani sayılarla yapılır. Sayılarda da toplama, çıkarma, çarpma, bölme gibi işlemler vardır. İşte cebirin başlangıcı bu işlemlerdir. Cebir sayılarla başlar, ama sayıl...

Detaylı

Pazar Sepet Analizi için Örneklem Oluşturulması ve - CEUR

Pazar Sepet Analizi için Örneklem Oluşturulması ve - CEUR Bankacılık veritabanlarının çok büyük olması nedeniyle birliktelik işlemi zaman ve bellek tüketimi açısından çok maliyetli bir süreç haline gelmiştir. Zaman ve bellek performansını artıra...

Detaylı

˙Ingilizce – Türkçe Sözlük

˙Ingilizce – Türkçe Sözlük softmax (function) sort spam span sparse spatial specific specificity spectral spectrum spline split

Detaylı

Buradan - Matematik Olimpiyat Okulu • Ana sayfa

Buradan - Matematik Olimpiyat Okulu • Ana sayfa sırayla tayin edildiği bir işlem olarak düşünülebilir. Her adım için m farklı yol bulunduğundan, tüm fonksiyonların sayısı mn olarak elde edilir. Çembersel Permütasyonların Sayısı. Elimi...

Detaylı