Yokluk Hipotezi Anlamlılık Testi ve Etki Büyüklüğü Tartışmalarının

Transkript

Yokluk Hipotezi Anlamlılık Testi ve Etki Büyüklüğü Tartışmalarının
Yokluk Hipotezi Anlamlılık Testi ve
Etki Büyüklüğü Tartışmalarının
Psikoloji Araştırmalarına Yansımaları
İdil Işık*
Psikoloji araştırmalarında nicel verinin analizi için kullanılan istatistiksel testlerin temel mantığı “Yokluk Hipotezi Anlamlılık Testi” (Null Hypothesis Significance TestingNHST1) üzerine kuruludur. Ancak bir karar verme sistematiği olarak NHST, pek çok
araştırmacı tarafından yıllardır ciddi şekilde eleştirilmektedir (örn., Cohen, 1994; Gigerenzer, 1998a ; Rosnow ve Rosenthal, 1989; Thompson, 1999).
Psikoloji araştırma yöntemleri ve istatistiksel analiz konularında, lisans ve lisansüstü
eğitiminde NHST temel öğretilerden birisidir. Pek çok psikoloji öğrencisi için NHST
şu sürecin işlemesine neden olur: Veriye ve hipoteze uygun istatistiksel analizi yap;
istatistik test değeri ile birlikte ortaya çıkan p değerine bak; sonucun “sıfır nokta sıfır
beş”ten2 küçük olup olmadığına bak; küçük ise istatistiksel olarak anlamlıdır. Sonuç
anlamlı ise, değişkenler arasında bir ilişki vardır ya da bağımlı değişken açısından
gruplar arasında fark vardır ve “sevinç” hissedilir; eğer sonuç anlamlı değil ise, genelde “ben şimdi ne yapacağım?” düşüncesi ve hayal kırıklığı belirir. Sadece öğrenciler
değil, deneyimli araştırmacılar da benzer bir yaklaşım ile veri analizi yapabilmektedir
(Gigerenzer, 2004).
Bu süreç istatistik test değerinden ziyade p değerine odaklanılmasına neden olur ve
iki değişken arasındaki ilişkinin büyüklüğü hakkında fazla kafa yormadan, çoğu zaman da aslında istatistiksel anlamlılığın gerçekten bize ne söylediğini kesin olarak
kavramadan sürüp gidebilir. NHST’yi eleştiren literatür, psikoloji araştırmaları sonucunda elde edilen bulguların sunduğu bilgiyi kavramak için bu mekanik sürecin dışına çıkılması gerektiğini söylemektedir. Bu alanda basılı önemli eserlerden birisinin
yazarı olan Kline’nin söylediği gibi bu yöntem “alışıldığı şekilde ve üzerinde fazla dü* İstanbul Bilgi Üniversitesi Psikoloji Bölümü
1 Bu makaleye konu olan ana kavramlar için, İngilizce literatürde aşina olduğumuz NHST, ES, CI kısaltmalarını kullanmayı tercih ettim.
2 Özellikle lisans öğrencileri arasında %5 kesme değeri için kullanılan söylem yaygın olarak budur. Öğretim ortamlarında kimi öğrencilerin bu ifadeyi tam anlamlandıramadan kullandığını gözlemleyebiliyoruz.
56 ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014
şünmeksizin” kullanılmaktadır (kişisel iletişim, 2013)3. Bunun dışına çıkmak için veri
analizinde, p değeri yanında, istatistik test değerinin büyüklüğüne (t, F, r vb.) bakılması; istatistiksel güç (Statistical Power), etki büyüklüğü (Effect Size-ES) ve güven aralığı
(Confidence Interval-CI) gibi ek değerlerin incelenmesi önerilmektedir.
NHST konusunda çok geniş uluslararası eleştirel literatür mevcut olmasına rağmen,
araştırma bulgularının raporlamasında ağırlık halen istatistiksel anlamlılık üzerindedir. Ancak farklı disiplinlerden ve ülkelerden araştırmacıların, NHST tartışmalarını
kendi alanlarına entegre etmeye çalıştıkları, bu amaçla NHST konusunu temel alan
teorik makaleler yayımladıkları görülmektedir. Bu girişimler neticesinde, özellikle ES
ve CI raporlaması konusunda zaman içinde gelişme kaydedilmektedir. Önümüzdeki
günlerde bu konunun daha fazla sayıda araştırmacının dikkatini çekeceği de anlaşılmaktadır. Örneğin, anlamlılık testi tartışmalarına işaret eden NHST kısaltmasının
yanında EST (Effect Size Testing; etki büyüklüğü analizi) kısaltmasının da karşımıza
çıkması bu eğilimin bir işaretidir (Cortina ve Landis, 2011).
Uluslararası literatürde NHST’ye dair kapsamlı tartışmalar sürerken, ülkemizde araştırma bulgularını istatistiksel anlamlılığının ötesinde ve olguları açıklayıcı gücü açısından irdeleyen psikoloji bilimi özelinde yeterli bir tartışma ortamının olmadığını
söyleyebiliriz. Psikoloji alanındaki araştırmaların basılabileceği yerel akademik dergiler kısıtlıdır; bunlarda da etki büyüklüklerinin raporlanmasına dair ortak bir politikadan bahsedemeyiz. Türk Psikoloji Dergisi yazım kurallarına göre, derginin Haziran
2013 tarihli, 71. Sayısında da belirtildiği gibi “Tüm yazılar Amerikan Psikologlar Birliği tarafından yayımlanan ‘Publication Manual of American Psychological Association4
(5. Baskı), 2001’ adlı kitapta belirtilen yazım ilkelerine uygun olarak yazılmalıdır.” (s.
120). APA, NHST tartışmalarının sonucunda, araştırmaların bilimsel katkısını arttırmak için bulguların raporlamasında esas alınacak ilkeleri zaman içinde değiştirmiş;
örneğin, etki büyüklüğünü raporlama gereği altıncı basımda (2010) kesinlik kazanmıştır. Dolayısıyla TPD’nin APA yazım rehberinin 5. Basımını (2001) rehber olarak
kullanmaya devam etmesi, güncel gelişmelerin yeni yayınlara aktarılmasında yönlendirme eksikliğine neden olmaktadır. Ayrıca, TPD yazım kurallarına göre etki düzeyinin raporlanmasının gerekli olduğu, “Sıklıkla kullanılan istatistiksel teknikler, metin içinde rapor edilirken aşağıda belirtilen şekilde olmalıdır: Varyans analizi: ....yaş
değişkeninin temel etkisi anlamlıdır (F(1,123) = 5.43, p < .05, η2= .05)” ifadesinde,
sıklıkla kullanılan bir etki büyüklüğü ölçütü olan eta-kare (η2= .05) teriminden anlaşılmaktadır (TPD, 2013, s. 20). Ancak burada sadece ANOVA testi için örnek verilmesi,
ancak bu terimin ne olduğunun açıklanmaması, araştırmacıların diğer istatistik analizlerine ve raporlarına etki düzeyi bakışını yerleştirmeleri açısından bir yönlendirme
sağlamamaktadır.
NHST eleştirel yazınının araştırmalara yansıma sürecini incelediğimizde, meta-analiz çalışmalarının araştırmacıların p değerine odaklanarak çalışma eğilimini değiştirmek için bir tetikleyici olduğu görülmektedir. Ülkemizde psikolojinin çeşitli araştırma
alanlarında basılı meta-analiz çalışmalarına da nadiren rastlanmaktadır. ULAKBIM
sosyal bilimler veritabanında “meta analiz” anahtar kelimesi ile tarama yapıldığında
29 adet eser listelenmektedir5. Bunlardan 14 tanesi ilgili araştırma alanındaki mevcut
araştırmaların harmanlandığı meta analiz çalışmalarıdır; iki makale meta analiz teknikleri ile ilgilidir. Ampirik meta analiz araştırmalarından 10 tanesi eğitim bilimleri
alanıyla ilgili dergilerde yayımlanmıştır. Geri kalan dört çalışma “Polis Bilimleri Dergi-
3 Bu makalede Rex B. Kline’den yapılan ve tırnak içinde verilen alıntılar, kendisi ile yaptığım yüz yüze
görüşmeden alınmıştır. Rex B. Kline ile İstanbul’da 9 Temmuz 2013 tarihinde NHST hakkında yüz yüze
yarı yapılandırılmış mülakat yaptım; yaklaşık 1.30 saat süren görüşmenin ses kaydını yaptım. Görüşmeyi
deşifre ettikten sonra kendisi ile paylaştım ve bu makalede görüşlerine yer vermek üzere bilgilendirilmiş
onayını aldım. Bu görüşmeden alıntılar, metin içinde ilk kez “kişisel iletişim” olarak verildikten sonra,
metinde okuma kolaylığı yaratmak için “k.i., 2013” olarak verilmiştir.
4 Bu eser makalenin kalan kısmında “APA yazım rehberi” adıyla verilecektir.
5 9.1.2014 tarihinde yaptığım tarama sonucudur.
ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 57
si”, “Çocuk ve Gençlik Ruh Sağlığı Dergisi”, “Dokuz Eylül Üniversitesi İşletme Fakültesi
Dergisi” ve İstanbul Üniversitesi İşletme Fakültesi İşletme Dergisi”nde yayımlanan
makalelerdir. Bu meta analiz eserlerinin ilgilendiği konular farklı hedef kitlelerdeki
psikolojik süreçlere işaret etmekle birlikte, “Türk Psikoloji Yazıları” ya da “Türk Psikoloji Dergisi”nde meta analiz çalışmasına rastlanmamış olması, psikoloji alanında etki
büyüklüklerini harmanlayan bilginin eksik kaldığına işaret ediyor.
Ülkemizdeki psikoloji yazınında var olduğunu düşündüğüm bu eksikliklerden yola çıkarak bu makalede amacım, NHST’nin ne olduğunu, NHST sistematiği ile araştırmacının hangi bilgilere ulaşabildiğini ya da ulaşamadığını, bu sistematiğin hangi yönlerden
eleştirildiğini ve NHST’nin eksiklikleri ile başa çıkmak için atılması gereken adımların
neler olduğunu özetlemektir. Bu çerçevede takip eden bölümlerde mevcut literatürü
özetledikten sonra, bu makale için Türk Psikoloji Dergisi’nde yayımlanan makaleler
üzerinde yaptığım sistematik taramaya dayalı gözlemlerimi sunacağım ve NHST tartışmalarının ülkemizdeki araştırmalara entegre edilmesi için yapılabilecekler konusunda öneriler getireceğim.
NHST İkili Karar Sistematiği
Yokluk Hipotezi Anlamlılık Testi’ne göre, yokluk hipotezinde (H0), ilgilendiğimiz değişkenler arasında anlamlı bir ilişki olmadığını ya da bağımsız değişkenin oluşturduğu alt gruplarda bağımlı değişken açısından farklılık olmadığını iddia etmekteyiz.
Yokluk hipotezine alternatif olarak ortaya attığımız hipotezde (H1) ise, anlamlı ilişki
ya da farklılık olduğunu tahmin etmekteyiz. Bu modele göre, bu iki hipotezden birisini
reddederken, yapılan hata düzeyi, araştırmanın sonunda ulaşacağımız yargıyı belirler.
Bu karar sırasında, iki temel hata yapmamız mümkündür. Yokluk hipotezi doğru iken
reddedebiliriz (Hata Tipi I) ya da yokluk hipotezi yanlış iken reddetmeyebiliriz (Hata
Tipi II).
I.Tip hata, istatistiksel anlamlılık düzeyi ile ilgilidir. Eğer araştırmacı, yokluk hipotezini reddederken hata olasılığı %5’ten fazla ise yokluk hipotezini desteklemiş oluruz;
dolayısıyla fark olduğunu iddia ettiğimiz alternatif hipotezi devre dışı bırakmaktayız
(Tablo 1). Araştırma geleneğinde, araştırmacılar I. Tip hatanın ortadan kaldırılmasını
daha fazla önemsemektedir; çünkü bu hata türünde araştırmacı var olmayan bir etkinin var olduğunu iddia ederek, bazı araştırmacıların belirttiği gibi “kolayca aldatılabilen kişi” durumuna düşmekte (gullibility, Rosenthal ve Rosnow, 2008) ya da “kusurlu”
(error of commission) bir davranış sergilemektedir (Ellis, 2010). Bu sebeple araştırmacıların yöntem eğitiminde bu hataya daha fazla atıf vardır.
Tablo 1.
NHST Karar sistematiği ve hata türleri
H0 hipotezini
Reddet
H0 hipotezini
Reddetme
H0 Doğru
H0 Yanlış
İsabetli karar
(1-alfa)
Hata Tipi II
(Beta)
Kabul edilebilir en yüksek hata düzeyi: .20
Hata Tipi I
(Alfa)
Kabul edilebilir en yüksek
hata düzeyi: .05
İsabetli karar
(1-Beta)
İstatistiksel Güç
58 ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014
II.Tip hata ise, iki değişken arasındaki nedensel ya da korelatif bir bağ bulunmasına
rağmen, bu ilişkinin var olmadığı yönünde bir karar verildiğini gösterir. “Körlük” (Rosenthal ve Rosnow, 2008) ya da “ihmal” (error of omission; Ellis, 2010) olarak isimlendirilen bu hatanın en fazla %20 düzeyinde olması kabul edilebilir (Cohen, 1988).
Bu hata türü, araştırmada bir etki var iken, mevcut araştırma örneklemi ve tasarımı
ile ne düzeyde gözden kaçırılabildiğine dair bilgi vermektedir.
Görüldüğü gibi, NHST iki hipotez üzerine kuruludur; bu hipotezlerden birisi doğru
olduğunda, diğeri doğru olamaz. Veriyi analiz etmek için kullanılan istatistik testleri,
örneklemden elde edilen değer ile H0 hipotezinde tanımlanan evrene dair parametre
arasındaki farkı, örneklemden kaynaklanan hatayı dikkate alarak hesaplar. Araştırmacı iki hipotez arasında seçim yaparken ortaya çıkma olasılığı olan iki farklı hatadan
kaçınmak durumundadır.
İşte NHST’nin bu ikili yapısı içinde karşımıza çıkan istatistiksel anlamlılık ve istatistiksel güç olgularını takip eden bölümde daha detaylı açıklayacağım. Ayrıca NHST
sistematiğine dair eleştirilere geçmeden önce, etki büyüklüğü olgusunun ne olduğuna
da kısaca değineceğim, çünkü etki büyüklüğünün anlaşılmasının NHST’nin eleştirilen
yönlerini kavramak açısından yardımcı olacağını düşünüyorum.
İstatistiksel Anlamlılık
İstatistiksel anlamlılık önceki bölümde belirtilen hatalardan birincisi ile ilgilidir; burada alfa ve p değeri olmak üzere iki kavram gündeme gelmektedir6 (Gigerenzer, 2004).
Alfa, I. Tip hatayı sergileme olasılığıdır; yani H0 doğru kabul edilecek olursa, H0 hipotezinin reddedilmesinin koşullu olasılığıdır. Bu koşullu olasılık araştırmanın aynı evrenden örneklemlerle tekrarlanması halinde ortaya çıkabilecek hata düzeyidir. Standart
bir değer olarak genelde 0.01 ya da 0.05 olarak seçilir. Eğer farklı bir değer seçilecek
olursa genellikle 0.05’ten daha düşük olan değerler seçilir. Alfa değeri, analizler yapılmadan seçilen kıstastır.
p değeri ise H0 hipotezinin doğru olduğu koşul kabul edilerek, aynı araştırmanın tekrarlanması halinde, gözlenen test değeri ve daha uç bir değerin ortaya çıkma olasılığını gösterir. Bu olasılık da H0 hipotezinin doğru olduğu sayıltısı7 altında hesaplandığı
için, koşullu olasılık düzeyidir. Gözlenen olasılık değeri olarak p, Gigerenzer’in (1993,
2004) de isimlendirdiği gibi “anlamlılığın tam seviyesi” dir. NHST sürecinde, p değerinin alfa değerinden düşük olmasını bekleriz. Yani, I. Tip hatanın replikasyonlarda
ortaya çıkması beklenen en yüksek düzeyini gösteren alfa değerinin, gerçek veriden
elde edilen gözlenen bulgunun replikasyonlarda ortaya çıkma olasılığını gösteren p
değeri ile karşılaştırılması istatistiksel anlamlığa dair çıkarım imkânı verir.
NHST eleştirel literatürüne katkıda bulunan yazarlar, alfa ve p değerinin sıklıkla karıştırıldığını söylemektedir (Hubbard, 2004; Mulaik, Raju ve Harshman, 1997). Bunun
neticesinde istatistiksel anlamlılığın ne olduğuna dair pek çok yanlış tanımın ortaya
çıktığını ve bu yanlış anlamaların öğrenciler, deneyimli araştırmacılar ve hatta istatistik ve yöntem dersi veren öğretim üyeleri arasında dahi görüldüğünü söylemektedir.
Bu konuyla ilgili olarak ilerleyen bölümlerde daha fazla bilgi vereceğim.
Dolayısıyla, p< .05 olması halinde, istatistiksel anlamlılık şuna işaret eder: Aynı araştırmanın, benzer özelliklerdeki örneklemlerde tekrarlanması halinde, elde edilen ilişki ya da farka ilişkin istatistik test değerlerinin %5’inden daha azı, gözlenen bulgular-
6 Alfa ve p değeri olasılık değeri olarak iki temel teorik yaklaşıma dayalıdır: (1) H0 hipotezinin doğru
olduğu sayıltısı altında hesaplanan, koşullu olasılık düzeyleridir. (2)“Sıklıkçı” (frequentist) istatistiksel
kestirime dayalıdır; yani, tekrarlı random denemeler sonucunda bir çıkarıma varılabilir ve ilgilenilen
olgunun bu tekrarlarda ne sıklıkla gözlendiği, olgunun olasılığını verir.
7 Sayıltı: İngilizce “Assumption” kelimesi için ön kabul anlamında kullanılmaktadır.
ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 59
dan daha uçlarda (düşük ya da yüksek) bir sonuç verecektir. Bu sonuç elde edildiğinde
H0 reddedilir ve alternatif hipotez için destek elde edilmiş olur.
Görüldüğü gibi istatistiksel anlamlılığın ne olduğunu açıklamaya çalışırken gözlenen
ilişki ya da farkın ne düzeyde olduğuna dair atıf yer almadı. Tek vurgu I. Tip hatanın
ve gözlenen bulgunun ortaya çıkma olasılığıdır. Oysa araştırmacıların esas amacı, ilgilendiği araştırma sorusunun içinde yer alan değişkenler arasında ne tür bağıntılar
olduğu ve bu bağıntıların ne kadar güçlü olduğunu anlamak ve açıklamaktır. Yani etki
büyüklüğünü anlamaktır; ancak istatistiksel anlamlılık bu konuda bilgi vermez. Daha
da ötesinde NHST’deki p değeri vurgusu esasen ilişkilerin önemsenecek düzeyde olup
olmadığı sorusundan da araştırmacıları uzaklaştırmaktadır.
İstatistiksel Güç
İki değişken arasında korelasyonel ya da nedensel bir ilişki, dolayısıyla bir etki var
olmasına rağmen, yapılan araştırma sonucunda bu etki fark edilemeyebilir. Daha önceki bölümde de bahsedildiği gibi bu hata II.Tip hata türüdür ve beta değeri olarak
bilinmektedir. Bunun tamamlayıcısı olan doğru karar, yani 1-beta ise, bir etkinin doğru şekilde tespit edilebilme ihtimalini vermektedir ki bu da “İstatistiksel Güç” olarak
isimlendirilmektedir. İşte, eleştirel literatür, araştırmacıların bulgularını istatistiksel
güç açısından da yorumlaması gerektiğini söylemektedir. Yani araştırmamızda eğer
bir etki var ise, yaptığımız ölçüm ya da inceleme, bu etkinin varlığını tespit etmek
ve göstermek açısından ne kadar güce sahiptir sorusuna cevap bulunmalıdır. Araştırmanın istatistiksel gücünün düşük olması, örneklemden hareketle evrene dair hatalı
çıkarımlar yapılmasına neden olmaktadır.
Bir analizin istatistiksel gücünü şu faktörler belirlemektedir ve bir analizin gücü bu
dört unsur yüksek olduğunda en yüksek düzeye ulaşır (Ellis, 2010; Murphy ve Myors,
2004):
(a) Araştırmanın ölçüm araçlarının ve tasarımının bir etkiyi tespit etmekteki hassasiyet
düzeyi: Geçerliliği yüksek ölçüm araçları ve karıştırıcı değişkenlerden kaynaklanan istenmeyen varyansın en aza indirildiği araştırma tasarımları ölçüm hassasiyetini yükseltecektir; böylelikle istatistiksel güç artacaktır.
(b) Var olan etkinin büyüklüğü: Gerçek yaşamda var olan etki büyük ise istatistik testler tarafından da kolaylıkla tespit edilecektir.
(c) Örneklem büyüklüğü: Örneklemin büyük olması, evrene ilişkin daha doğru kestirim yapılmasını sağlar; dolayısıyla, analizin etkiyi tespit etmesini sağlayan hassasiyeti
de yükselecektir. Geniş örneklem, istatistik testlerin gücünü de yükseltmektedir. Araştırmanın örneklemi büyüdükçe, istatistik test değeri büyüyecek, p değeri küçülecektir.
(d) H0 hipotezinin reddedilmesi için konulan kesme değerinin ne kadar tutucu olduğu:
H0 hipotezinin reddedilmesi için seçilen p değeri çok tutucu olmadığında, yani %5 ve
daha büyük olduğunda, testin istatistik gücü de yükselmektedir. p değerinin %5’ten
daha düşük olması etkinin tespitini zorlaştırmaktadır. Bu sebeple araştırmacı, araştırma sorusunun gereklerine göre farklı bir alfa değeri seçebilmelidir. Örneğin, etki
düzeyi ve bu etkiyi tespit etme hassasiyeti yüksek deneysel tasarım kullanan bir araştırmacı alfa değerini %5 seçmek zorunda olmamalıdır.
Sonuç olarak, istatistiksel güç kavramı, araştırmacıların NHST mantığı içinde sadece
I. Tip hataya odaklanarak, mekanik bir şekilde H0 hipotezini “destekle” ya da “reddet”
kararına sıkışmasının önüne geçmektedir. Çünkü araştırmacı, ilgilendiği olgular arasındaki etkinin büyüklüğünün taşıdığı önem, bu etkiyi tespit edebilmek için kullandığı
araçlar ve araştırma tasarımının hassasiyeti, gereken örneklem büyüklüğü ve standart p değerleri yerine araştırmanın gerektirdiği bir p değerini bilinçli şekilde seçmek
durumundadır. Yani bu süreçte araştırmacılar, tek bir p değeri üzerinden mekanikle-
60 ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014
şen bir karar yerine, analitik ve aktif bir rol üstlenmeye başlayacaktır.
Etki Büyüklüğü
Etki büyüklüğü, incelediğimiz olgu çerçevesinde, değişkenler arasındaki korelasyonel
ya da kestirimsel ilişkinin ne kadar kuvvetli olduğunu gösteren standart ölçüttür (Kelley ve Preacher, 2012; Murphy ve Myors, 2004). İstatistiksel anlamlılığın daha önceki
bölümlerde detaylı şekilde verilen tanımından yola çıktığımızda, p değerinin ilgilendiğimiz olguyla ilgili değişkenler arasında gözlenen bağların gücü ve önemi konusunda
bilgi vermediğini biliyoruz. İşte NHST’ye eleştirel yaklaşan araştırmacılar bu kısıttan
yola çıkarak ek bir ölçüt ile elde edilen bulgunun ne düzeyde önemsenmesi gerektiği
hakkında fikir elde etme çabasına girmiştir; araştırmacıları da bu yönde teşvik etmektedirler (Fritz, Scherndl ve Kühberger, 2013). Yani istatistiksel anlamlılığa sahip olan
bir korelasyon ya da farkın büyüklüğü, iki değişken arasındaki etki hakkında ne söylemektedir? Etki büyüklüğü bu sorunun cevabını veren standart bir değerdir (Murphy
ve Myors, 2004).
NHST ELEŞTİRİLERİ
Fark edildiği gibi önceki bölümde NHST karar sistematiği içinde yer alan ana kavramları tanıtırken dahi, istatistiksel anlamlılığın eleştirilen yönleri ile istatistiksel güç
hesaplamalarının NHST’nin kısıtlılıkları ile başa çıkmak için katkısından bahsetmek
durumunda kaldım. Bu bölümde, NHST eleştirilerini daha sistematik şekilde özetleyeceğim. Takip eden bölüm ise bu sorunlarla başa çıkmak için sunulan öneriler üzerine
odaklanacak.
1. NHST’nin bir model olarak taşıdığı sorunlar
NHST’nin karmaşık yapısı, bunun sonucu olarak mekanik bir araç olarak kurgulanması, modelde iki farklı hata olasılığı söz konusu iken I.Tip hataya vurgu olması, örneklem genişliğinden etkilenmesi ve istatistiksel kestirim açısından katkı sağlamaması,
NHST’nin bir model olarak sorunlu yönleridir.
a. NHST’nin araştırmacıları mekanik karar vermeye iten yapısı
NHST’nin mekanik yapısına dair eleştirileri NHST’nin tarihçesinden yola çıkarak tartışabiliriz.
Harlow, Mulaik ve Steiger (1997), NHST’nin güncel kullanımının, R. Fisher’in 1920’li
yıllardaki yaklaşımı (Robinson ve Wainer, 2001) ile 1930’lu yıllarda J. Neyman ve E. S.
Pearson’un ortaya attığı görüşlerin hibrid şekli olduğunu söyler. Fisher modeli (p modeli), sadece yokluk hipotezini ortaya atar, alternatif hipotez yoktur (Morgan, 2003).
Yokluk hipotezinin altında, verinin koşullu olasılığıyla ilgili bir tahmin yapmaya çalışır
ve istatistik test sonucunda ortaya çıkan olasılığı p değeri olarak isimlendirir. Bugün
geleneksel olarak Fisher’e atfedilen 0.05 ve 0.01 anlamlılık düzeylerinin bütün çalışmalarda kullanılması gerektiği konusunda aslında Fisher’in bir yönlendirmesi olmadığı söylenmektedir (Inman,1994; Kline, 2004). Bu değerin alfa değeri olarak vurgulanışı, tüm araştırmalar için karar kriteri olarak kabul edilişi ve modele alternatif
hipotezin eklenişi Neyman-Pearson yaklaşımının sonucudur (Hubbard, 2004; Hubbard ve Armstrong, 2006) .
Hubbard ve Ryan (2000), 1940-1960 tarihleri arasında, istatistiksel analizlerin kullanımının yaygınlaştığını ve NHST’nin standart bir prosedür olarak yerleştiğini söylemektedir. Bu standartlaşma kestirim süreçlerindeki öznel yargıları ortadan kaldırmak
açısından yararlı olmakla birlikte, NHST araştırmacılar tarafından ikili (dichotomous)
karar aracı olarak giderek mekanikleşerek kullanılmaya başlanmış ve 1970’lerden iti-
ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 61
baren özellikle bu yönüyle eleştirilmeye başlanmıştır.
Bu bilgiler ışığında NHST karar sistematiği sürecinde araştırmacıların mekanikleşen
yaklaşımlarının şu aşamaların hepsinde olduğunu söyleyebilirim: (a) I. Tip hata düzeyinin en fazla %5 olarak seçilmesi; (b) istatistik testlerin, bir analizin gerektirdiği
koşullara (temel sayıltılar) bakılmaksızın kullanılması; (c) elde edilen test istatistik
değerinin büyüklüğüne bakmadan sadece p değeri nin %5’ten büyük ya da küçük oluşuna göre istatistiksel anlamlılık ile ilgili karar verilmesi, (d) bu kararın H0 hipotezini
red ya da kabul ilkesi ile rapor edilmesi; (e) bu bulgunun taşıdığı anlam hakkında
derinlemesine ve analitik bir değerlendirme yapılmaması. Bu sürecin ürünü olan makalelere bakıldığında, ifadelerin ve sayısal değerlerin adeta bir şablona yerleştirilerek
yazıldığı hissi uyanmaktadır. Gigerenzer (2004) bunu “yokluk ritueli” (null ritual, s.
588) olarak isimlendirmektedir.
b. NHST’nin Tip I hatasına ağırlık vermesi
“İstatistiksel Güç” bölümünde de belirtildiği gibi, NHST karar sistematiğinde II.Tip
karar hatası ve bu karardan kaçınma seviyesini veren güç olgusu modelin temel yapı
taşları arasındadır. Ancak lisans ve lisansüstü eğitimde izlenen araştırma yöntemleri,
istatistik ve veri analizi öğretim teknikleri ağırlıklı olarak I.Tip hataya vurgu yapmaktadır. Örneğin, sosyal bilimlerde yaygın olarak kullanılan istatistik programı SPSS son
yıllara kadar istatistik güç hesaplamasını kapsam içine almamıştır; bugün ise belli
başlı istatistik analiz teknikleri için gözlenen güç hesaplamaları yapılabilmektedir.
Tüm bunlar, araştırmacıların da temel kaygısının I.Tip hataya yoğunlaşmasına neden
olmaktadır (Nickerson, 2000).
c. NHST’nin örneklem genişliğinden etkilenmesi ve etki büyüklüğü ile ilgili yanılsamaya neden olması
Daha önce de belirtildiği gibi NHST sistematiğinde, eğer örneklem geniş ise küçük
bir etki dahi istatistiksel anlamlılık gösterecektir. İstatistiksel anlamlılık düzeyini8,
etkinin büyüklüğü ile örneklemin büyüklüğü belirler (Rosenthal ve Rosnow, 2008).
Örneklem büyüdükçe istatistiksel anlamlılık da büyüyecektir; bu etki büyüklüğü sıfır
olmadığı sürece doğrudur. Örneğin, geniş örneklemlerle çalışan kamuoyu yoklamaları
ya da epidemiyoloji araştırmalarında her türlü sonuç anlamlı çıkmaktadır (Nickerson, 2000). Küçük örneklemlerle yapılan çalışmalarda aynı büyüklükteki bir etki ise
istatistiksel olarak anlamlı çıkmayacaktır. Özellikle araştırma tasarımı ve ölçüm araçlarının doğru seçilmesi ile gerekli deneysel kontrollerin sağlandığı küçük örneklemli
deneysel çalışmalarda etkinin büyük olduğunun gözlenmesine rağmen, bulgunun istatistiksel anlamlılık vermediği için önemsenmemesi araştırmacıların sıklıkla yaptığı
hatalardan birisidir.
Burada NHST eleştirilerinin odak noktalarından birisi ortaya çıkmaktadır. Küçük örnekleme sahip ve tutucu p değerini tercih eden araştırmaların istatistiksel gücü de düşüktür; dolayısıyla, küçük de olsa var olan bir etkinin var olmadığı kararı verilecektir.
Oysaki küçük bir etkinin pratik ve klinik anlamlılığı yüksek olabilir.
d. Yokluk hipotezinin evrende her zaman yanlış olduğu gerçeğinin göz ardı edilmesi
Aslında iki değişken arasındaki ilişki ve fark düzeyinin sıfır olması neredeyse
imkânsızdır (Nickerson, 2000); yani H0 gerçek hayat ve insanla ilişkili olgular için her
zaman yanlıştır. Bu sebeple iki değişkenin birbiriyle ilişkisi her durumda sıfırdan daha
büyük olacaktır. Araştırmalarda, bireysel ve gruplar arası farklılıkların her zaman var
olduğunu bilmemize rağmen bu farklılıkların sıfır (nil) olduğunu iddia ederek analizlere başlanmış olması eleştirilmektedir. Cohen (1994), “istatistiksel güç analizine
8 İstatistiksel Anlamlılık Düzeyi= Etkinin Büyüklüğü x Örneklem Büyüklüğü
62 ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014
dair çalışmaları sırasında sıfır hipotezinin her zaman yanlış olduğunu fark ettiğini”
yazmaktadır (s. 1000). Yani aslında yokluk hipotezi, hemen her zaman, hatta küçük
örneklemlerde dahi reddedilecek bir iddiadır. Cohen (1990), “Eğer H0 her zaman yanlış ise, bunu reddetmeyi bu kadar önemli kılan nedir?” diye sormaktadır (s. 1308).
Kısacası, küçük bir örneklemde gözlenen küçük bir fark, geniş bir örneklemle çalışıldığında kesinlikle istatistiksel olarak anlamlı çıkacaktır. Bunun sağduyu ile öngörülebildiği durumda, istatistiksel olarak desteklendiğini göstermenin pek bir esprisi
yoktur. Önemli olan bulunan farkın açıklayıcı etkisinin gösterilebilmesidir.
Buna bağlı olarak, özellikle büyük örneklemle yapılan çalışmalarda sonucun istatistiksel olarak anlamlı çıkması, araştırmacıların bu bulgudaki etkinin ne kadar büyük
olduğu konusunda kafa yormamasına neden olmaktadır. Aslında istatistiksel anlamlılıktan daha önemli olan, iki değişkenin ilişkisinin önemsenmeye değer büyüklükte
olup olmadığıdır.
2. NHST’nin araştırmacıların kullanımına bağlı sorunlu yönleri
Bakan, 1966 yılında yayımlanan makalesinde psikologların anlamlılık testini bir “yemek kitabı” (s. 428) gibi kullanma eğiliminde olduğunu, eğitimleri sürecinde anlamlılık testinin dayandığı matematiksel ve felsefi temellerin farkına varamadıkları için
de NHST sistematiğini pek çok yanlış anlamayla kullandıklarını belirtmiştir. Bakan
(1966) makalesinin girişinde, sunacağı eleştirilerin ve uygulamada rastlanan yanlış
yorumlar konusundaki gözlemlerinin aslında bir orijinalliği olmadığını, literatürde bu
konuda kaynakların olduğunu, ancak kendisine “kral çıplak” (s. 423) diyen kişi rolünü
biçtiğini söylemektedir. Dolayısıyla bu bölümde özetleyeceğim “kullanıcı hataları”nın
yaklaşık yarım asır önce Bakan’ın makalesinde de verildiğini (hatta öncesi de olduğunu Bakan söylüyor), ardından farklı araştırmacıların teorik ya da ampirik çalışmalar
yaptığını görüyoruz.
a. İstatistiksel anlamlılığın tanımına dair bilişsel çarpıtmalar
NHST’nin karmaşık yapısı nedeniyle, istatistiksel anlamlılığın ne olduğuna dair pek
çok yanlış anlama ortaya çıkmaktadır. Bakan’ın “yanlış yorumlama” (1966), Kline’nin
(2013) ise “bilişsel çarpıtma” (cognitive distortion) olarak isimlendirdiği bu yanlış anlamalar aşağıda özetlenmektedir:
i. p değeri elde edilen sonucun şansa bağlı olarak ortaya çıkma olasılığını gösterir: Bu
bilişsel çarpıtmayı anlayabilmek için önce “şans”ın ne demek olduğuna karar vermek gerekir. Araştırmacılar elde ettiği bulguların ortaya çıkmasında şansın etkisini
azaltmak ister; çünkü, bulgunun sadece bir “rastlantı”ya bağlı olmadığı ya da “kazara”
gerçekleşmediğine kanıt elde etmek ister. Böylelikle p< 0.05 olduğunda, bulgunun ortaya çıkmasında şansın payının en fazla %5 olduğu yönünde bir anlayış gelişmektedir. Eğer “şans” kavramı ile bu rastlantısallık anlatılmaya çalışılıyorsa, elde edilen bulgunun ortaya çıkma nedeni olarak sadece rastlantı faktörü üzerinde durulmaktadır.
Oysa bir olgunun ortaya çıkması tek bir nedene bağlı olamaz. Diğer taraftan “şans”
kavramı eğer “olasılık” yerine kullanılıyorsa; bu durumda NHST karar sistematiğinin
bütününün zaten bir olasılık sistemi olduğu unutuluyor demektir. NHST’ye eleştirel
yaklaşanlar p değerinin şans ile ilişkilendirilerek tanımlanmasının, kullanıcının p değerinin örnekleme hatasına bağlı olarak ortaya çıktığı yönündeki yanlış inanışından
kaynakladığını söylemektedir (Falk, 1998; Falk ve Greenbaum, 1995). Oysaki örneklemden kaynaklanabilecek hataların yanında ölçüm hataları, tasarım ve analiz sürecinin kendisi de açıklayıcı nedenler arasındadır (Kline, 2013).
ii. p değeri I.Tip hatanın ortaya çıkma olasılığını gösterir: Daha önceki bölümde p değeri ile alfa değerinin aynı şey olmadığını söylemiştik. Bu çarpıtmada alfa ile p değeri
karıştırılmaktadır.
iii. p değeri H0 hipotezinin doğru olma olasılığını gösterir: Bu çarpıtma, aslında NHST’nin
ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 63
kesinlikle cevap veremeyeceği bir soruya atıfta bulunmaktadır. İstatistiksel anlamlılığın cevap verebileceği soru şudur: “Etkinin var olmadığı doğru kabul edildiğinde, elimizdeki verinin ortaya çıkma olasılığı nedir?” Olasılık olarak bu soru şu şekilde ifade
edilir: P(D| H0)9. Eleştirel literatür bu soru neticesinde araştırmacıların hipotez testi
yaptığı yanılsaması içine düştüğünü söylemektedir. Yani, “Elimizdeki veriye göre, yokluk hipotezinin doğru olma olasılığı nedir?” sorusunun cevaplandığı sanılmaktadır.
Oysaki P(H0|D)10 olasılığına dayalı bu ikinci soruya, p değeri cevap veremez.
Olasılık çalışmaları yapan teorisyenler bu iki sorunun farklı olasılık yöntemlerine dayalı olduğunu belirtiyor. Birincisi koşullu olasılıktır ve NHST’nin dayalı olduğu olasılık
hesaplaması budur. Diğeri ise Bayes olasılık perspektifi ile test edilebilecek bir sorudur. NHST’nin sorunları ile başa çıkmak için bu olasılık perspektifine geçiş önerileri
bulunsa da (örn., Kruschke, 2010) bu istatistik testlerine dair radikal bir yapılanma
gerektirdiği için pek de mümkün gözükmemektedir. Sonuç olarak, p değeri, H0 doğru
kabul edildiğinde, elimizdeki verinin ve bu verinin sunduğu bulgu ile bundan daha
ekstrem değerlerin ortaya çıkma olasılığıdır.
iv. p< 0.05 olduğunda, H1 hipotezinin doğru olma olasılığı %95’ten büyüktür: Burada p değerinin tamamlayıcısı olan 1-p değeri üzerinden bir hata yapılmakta ve yine
NHST’nin koşullu olasılık üzerine kurulu olduğu unutulmaktadır. Yani, NHST, elimizdeki veriye göre H0 hipotezinin doğru olma olasılığını vermiyorsa, H1 hipotezinin doğru olduğu konusunda da bilgi vermesi mümkün değildir. İstatistiksel anlamlılık, H0
hipotezinin reddedilip reddedilmediği bilgisini verir, ama H1 hipotezinin ne düzeyde
doğru olduğu konusunda olasılık bilgisi vermez.
v. p< 0.05 olduğunda, replikasyon çalışmalarında istatistiksel olarak anlamlı sonuç elde
etme olasılığı %95’ten büyüktür: Tanımı ve dayandığı sıklıkçı (frequentist) bakış gereği, p değeri replikasyona dolaylı yoldan işaret etmektedir; ama bir bulgunun replikasyonla doğrulanma olasılığı genelde 1-p değildir. Bir evrenden seçilmiş benzer
örneklemle yapılan çalışmaların ilgilendiğimiz değişkenle alakalı sunacağı bulgu örneklemler arası bir varyansa sahiptir. Ayrıca Greenwald, Gonzalez, Harris ve Guthrie
(1996), p < 0.05 koşulu altında evrendeki etki düzeyi ile bir örneklemdeki etki düzeyi
aynı olduğunda, aynı H0 hipotezinin replikasyon çalışmasında reddedilme olasılığının
%50 seviyelerinde olduğunu göstermiştir.
Görüldüğü gibi istatistiksel anlamlılığa dair bilişsel çarpıtmalardan ilk üçü p değeri
ile diğer ikisi ise p’nin tamamlayıcısı olan 1-p değeri ile ilgilidir. NHST eleştirisi yapan
araştırmacılar bu çarpıtmaların, NHST’nin karmaşık yapısından kaynaklandığı kadar,
araştırmacıların aslında esas anlamak ve sormak istedikleri şeyin bu çarpıtmalarda
yattığını, ama NHST’nin bu sorulara yanıt verme gücü olmadığını söylemektedir.
Rosenthal ve Gaito (1963), Nelson, Rosenthal ve Rosnow (1986), Oakes (1986), Zuckerman, Hodgins ve Rosenthal (1993), Poitevineau ve Lecoutre (2001), psikoloji araştırmacıları, öğrencileri, istatistikçiler, araştırma yöntemleri ve istatistik dersi verenler
arasında bu bilişsel çarpıtmaların ne oranda sergilendiğini incelemişlerdir. Bulgular,
istatistiksel anlamlılığın ne olduğu konusunda tüm hedef kitlelerde az ya da çok bilişsel çarpıtmalara rastlandığını göstermektedir.
b. Akademik arenada istatistiksel anlamlılığa sahip bulgulara verilen abartılı
önem
NHST sistematiği, kullanıcılarda “anlamlı olmayan bir sonucun bilimsel değerinin de
olmayacağı” algısını uyandırmaktadır. Bu algının yaratılmasında bilim camiası ve dergilerin eğiliminin de önemi büyüktür. Rosenthal (1979), istatistiksel anlamlılığı yaka9 D: Data, P: Probability
P(D| H0): H0 koşulu altında datanın ortaya çıkma olasılığı.
10 P(H0|D): Dataya dayalı olarak ya da data koşulu altında H0 hipotezinin ortaya çıkma olasılığı.
64 ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014
lamış çalışmaların akademik dergilerde basılma olasılığının daha yüksek olduğuna,
diğerlerinin ise çekmecelerde unutulup gittiğine (File Drawer Problem) işaret etmektedir. Bu durum meta-analiz çalışmalarının da sonuçlarını etkilemektedir. Dergilerde
basılan, dolayısıyla meta-analize dâhil edilen araştırmaların çoğunluğu istatistiksel
anlamlılık düzeyini yakalamış bulgulara sahiptir. İlgilenilen olguya dair çoğunluğu
anlamlı çıkan sonuçlar üzerinden meta- analiz yapılması yanlı genel değerlendirmelere ulaşılmasına neden olmaktadır.
c. NHST’nin sayıltılarının karşılanmadan kullanılması
Eleştirel literatür, NHST’nin kendi sayıltılarına uyularak kullanılması halinde işlevi
olabileceğini söylemektedir. Örneğin, Kline’ye göre (k.i., 2013), “p değeri ancak bir
analizin temel sayıltıları karşılandığı durumlarda doğrudur. İstatistiksel yazılımlardan elde edilen sonuçlarda yer alan p değerleri yanlıştır; çünkü bizler bu analizleri,
anlamlılık testinin temel sayıltılarını hiçe sayarak kullanmaktayız”. Bu görüşü t-testi
örneği üzerinden açıklayabiliriz. t-test için sayıltılar şunlardır:
i. Katılımcılara seçkisiz örnekleme yöntemi ile ulaşılmış olması gerekmektedir. Oysa gerçek olasılıklı örnekleme tekniğinin kullanıldığı ve evrende her bir katılımcıya örnekleme girmek açısından eşit şans veren çalışmaların sayısı çok azdır. Araştırmacıların en
sık kullandığı yöntem, en kolay ulaşabildikleri kişilerle çalışmaktır.
ii. Örneklemlerin bilinen evrenlerden elde edilmesi, iki grubun dağılımının normallik göstermesi ve her iki grubun varyansının eşit olması gerekmektedir. Bu sayıltıdan
küçük bir sapma, özellikle de küçük örneklemle çalışırken ve de seçkisiz örnekleme
yapılmadı ise t-test sonucunun ve p değerinin doğruluk düzeyine çok etki yapar. Wilcox ve Keselman (2003) Student’s t-test, standart ANOVA, Pearson product-moment
korelasyonu ve regresyon testlerinin normal dağılımdan küçük sapmalar gösteren
bir veri üzerinde uygulanması halinde elde edilen bulguların araştırmacıları yanlış
yönlendirdiğini, testin istatistiksel gücünü düşürdüğünü, etki büyüklüğünün ve güven
aralığının yanlış hesaplanmasına neden olduğunu söylemektedir. Modern robust istatistik teknikleri ile normallikten sapmaların ve uç değerlerin (outliers) test istatistiklerini daha az etkilemesini sağlayan istatistiksel prosedürler geliştirilmekle birlikte,
bu uygulamalar psikoloji araştırma pratiğine henüz tam olarak yansımamıştır. Wilcox
(1998) modern istatistik teknikleri ile psikoloji araştırmacıları tarafından kullanılan
teknikler arasındaki makas aralığının her gün biraz daha açıldığını söylemektedir.
iii. t-test, araştırmada yapılan ölçümlerin mükemmel şekilde güvenilir olduğunu varsayar. Yani hiçbir ölçüm hatası yoktur; oysaki insanla yapılan çalışmalarda ölçümden
elde edilen puanların hata içermemesi mümkün değildir. Bu hemen hemen hiçbir zaman sağlanamaz.
Araştırmacılar olarak bizler bir hipotezi test ederken uygun istatistik teste karar vermek için değişken sayısı, değişkenlerin içinde barındırdığı grupların sayıları ve değişkenlerin ölçümünde kullanılan ölçeklerin türüne bakarız. Ancak, verinin kaynağının
seçkisiz olarak elde edilmesi, ölçümlerin güvenilirliği ve dağılıma dair sayıltıların uygunluğu genellikle atlanan, bakılıyorsa dahi pek raporlanmayan yönleridir. Kline’ye
göre;
“Psikoloji araştırmalarında bu sayıltılar çok nadir karşılanır ve çoğu araştırmacı raporlarında örneğin t-test bulgularını sunarken bu sayıltılara yer vermez. Verinin bu
sayıltılar açısından ne durumda olduğuna dair kelime edilmez. Böylece, istatistik analizin sayıltıları ihlal edilir, bulgular hatalı hale gelir, p değeri en basit dille yanlış olur.
Yani anlamlılık testi, bu sayıltıların sunulduğu koşullar içinde çok nadir kullanılır.”
(k.i., 2013).
Bu da araştırma tasarımı ile istatistik arasındaki potansiyel uyumsuzluğu göz ardı
ederek, analiz tekniğinin otomatikleşerek kullanılması anlamına gelmektedir. Bu
ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 65
uyumsuzluk, istatistiksel analizlerin yanlış sonuçlar vermesine neden olmaktadır. Bu
sayıltıların karşılanmaması durumunda p değerinin hatalı olacağını dikkate alarak bu
aşamaya da gereken önem verilmelidir.
d. Araştırmacılar tarafından yapılan hatalı yorumlar
Daha önce p değerine dair yanlış tanımlar ve bunların doğurduğu bilişsel çarpıtmaları
özetlemiştim. Bir diğer hata grubu ise NHST’den elde edilen bulguların yorumlanması
sırasında sergilenir. Esasen bu yanlış yorumlar, istatistiksel anlamlılığın tam olarak
ne olduğunu anlayamamaktan kaynaklanmaktadır. Dolayısıyla, önceki bölümde verilen bilişsel çarpıtmalarla aynı temel üzerine oturmaktadır. Bu bölümün aslında, bilişsel çarpıtmaların yorumlara nasıl yansıdığını özetlediğini söyleyebiliriz.
i. Düşük p değeri, büyük etki demektir: İstatistiksel olarak anlamlı çıkan sonuçlar, elde
edilen test değerine ve mevcut araştırmalarda raporlanan etki büyüklüklerine bakılmaksızın, büyük etkiye işaret ediyormuş gibi yorumlanmaktadır. p değeri etkinin büyüklüğü hakkında bilgi vermez.
ii. H0 hipotezinin reddedilmesi demek, H1 hipotezinin doğrulandığı anlamına gelir: Tek
bir çalışmada H0 hipotezinin reddedilmesi, H1 hipotezinin her durumda doğru olduğunu göstermez; çünkü H0 karşısındaki alternatif iddia aslında tek değildir. Örneğin
iki grup arasında fark olduğu desteklendiğinde, bu fark bir birim de olabilir; beş birim
de olabilir. Bağımlı değişkende gözlenen fark ilgilendiğimiz bağımsız değişken tarafından kısmen açıklanırken, araştırma tasarımına dâhil edilmeyen pek çok değişken,
kalan varyansın ve hatta iyi bir deneysel kontrol sağlanmadı ise açıklandığı söylenen
varyansın da esas belirleyicisi durumundadır. Yani H1 durumu için mantıksal pek çok
alternatif açıklama vardır. Spesifik bir H1 hipotezinin doğrulanabilmesi için tüm alternatiflerin test edilerek reddedilmesi gerekir. Dolayısıyla H1 hipotezinin kabul edilmesi
mümkün değildir; ancak H0 hipotezinin reddedilmesi mümkündür. Bu yanılsama genelde araştırmacıların istatistiksel olarak anlamlı çıkan bir sonucun nedensellik hakkında da bilgi verdiğine inanmasına yol açmaktadır.
iii. İstatistiksel anlamlılık araştırmanın kaliteli ve başarılı olduğunu gösterir: H0 hipotezi, gerçekten bir etki olduğu için değil, aslında tasarım ve ölçüm problemleri sonucunda yanlış şekilde de reddedilebilir. İstatistiksel anlamlılık kaliteyi garantilemez.
iv. İstatistiksel olarak anlamlı olmayan sonuçlar araştırmayı “başarısız” kılar: Bazı durumlarda H0 hipotezinin reddedilmemesi bilinçli şekilde tercih edilir; bu bulgunun
“değeri” tamamen araştırma sorusuyla ve alandaki diğer araştırmaların bulgularıyla
gösterdiği tutarlılıkla alakalıdır. Alternatif hipotez için destek elde etmeye çalışırken
H0 hipotezinin reddedilememesi durumunda, araştırılan olgunun başka faktörlerden
etkilenebildiğine dair fikir üretilebilecektir; alternatif H1 iddialarının ortaya atılmasına zemin yaratması bir başarıdır.
v. Bir replikasyon çalışmasında iki çalışma istatistiksel olarak anlamlı olan ve olmayan
bulgular verirse doğrulama sağlanamadığı anlaşılır: İki çalışma farklı istatistiksel güç
ve örneklem büyüklüklerine sahipse, istatistiksel anlamlılık seviyeleri üzerinden karşılaştırılamazlar. Etki büyüklüklerinin birbirine yakınlığı replikasyonun işlediğini gösterir.
vi. Bir analiz p=.051 sonucunu veriyorsa istatistiksel olarak anlamlı değildir: NHST
öğretisi sonucunda alfa değeri kesinlikle uyulması gereken bir kesme değeri olarak
algılanmaktadır. Bunun sonucunda örneğin p=.049 istatistiksel olarak anlamlı kabul
edilirken, p=.051 istatistiksel olarak anlamlı değildir. Oysaki etki büyüklüklerine bakılacak olsa eşit oldukları görülecektir. Diğer taraftan kimi zaman p değerindeki belirgin
farklar, örneğin p değerinin bir araştırmada 0.03, diğerinde 0.07 olmasına rağmen,
etki büyüklükleri açısından hiçbir fark olmayabilir. Genellikle 0.05 üzerine çıkan yakın değerler, bulgunun marjinal ya da istatistiksel anlamlılığa yaklaştığını belirterek
66 ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014
raporlanmaktadır. Oysa bulgular alfa değerine bu kadar önem atfetmeden de yorumlanmalı ve raporlanabilmelidir.
Gordon (2001), Haller ve Krauss (2002) ve Lecoutre, Poitevineau ve Lecoutre (2003),
p değerine dair yanlış yorumlara odaklanan ampirik çalışmalarında, psikologların ve
hatta istatistikçilerin istatistiksel anlamlılık değerini yanlış yorumlayabildiğini göstermişlerdir. Yani Lecoutre ve diğerlerinin (2003) diliyle NHST’nin yanlış yorumları
karşısında “bağışıklığın olmadığı” (s. 42) anlaşılmaktadır.
Çözüm Önerileri
NHST’nin şu ana kadar özetlenen tüm kısıtlarıyla başa çıkmak için, literatürde bir dizi
önerinin sunulduğunu görüyoruz. Bu öneriler araştırmacılar tarafından kısmen uygulama pratiklerine de geçirilmiş olmasına rağmen psikoloji eğitiminin parçası haline
getirilmeleri ve yaygınlaştırılmaları gerekmektedir.
1. Etki Büyüklüğünün Raporlanması
Daha önce de tanımladığımız etki büyüklüğü, bağımsız değişkenin bağımlı değişken
üzerinde ne düzeyde etkiye sahip olduğunu gösteren standart bir ölçüttür (Murphy ve
Myors, 2004). APA yazım rehberi altıncı basımı (2010), istatistik analiz sonucunda anlamlı p değeri elde edilmediği durumlarda dahi etki büyüklüğünü gösteren standart
ilişki ya da fark (burada Cohen’in d puanı örnek olarak verilmiştir) indeksi ile raporlama yapılmasını istemektedir. Etki büyüklüğünün raporlanması iki işleve sahiptir:
(a) Etki büyüklüğünün araştırmalar arası karşılaştırmalardaki rolü: Aynı alanda gerçekleştirilen farklı araştırmalardan elde edilen test istatistik değerleri (t, F, r ya da x2
gibi), farklı örneklem büyüklükleri ve örneklem özellikleri nedeniyle karşılaştırılabilir sonuçlar vermemektedir. Bu karşılaştırmayı yapabilmek için gruplar arası farkları
ya da ilişki düzeyini veren standart bir puanlamaya ihtiyaç vardır. Rosenthal ve Rosnow (2008), bu ihtiyacı şu örnekle açıklıyor: Örneğin bir araştırmacı 80 katılımcı ile
gerçekleştirilen bir çalışmada, liderlik tarzının verimlilik üzerindeki etkisini araştırmış ve Tarz A’nın, Tarz B’den iyi olduğunu bulmuş olsun (t(78)=2.21, p< 0.05). Diğer
araştırmacı da aynı deneyin bir replikasyonunu 20 kişinin katılımı ile yapıp anlamlı
bir sonuç elde etmemiş olsun (t(18)=1.06, p=0.30). Bu bulguya göre ikinci çalışma,
birincinin sonuçlarını elde edilen t-test değeri ve p değeri açısından tekrarlamamaktadır. İki çalışmanın da sonuçları şu prosedürlere göre etkileri açısından karşılaştırılabilir: r, R-kare, eta, eta-kare, Cohen’s f gibi “ilişkinin standartlaştırılmış ölçümü” veya
Cohen’s d, Glass’s g ve Hedge’s d gibi “ortalamalar arasındaki standart fark”. Eğer bu
iki araştırmanın bulgularının standart ilişki düzeyi (r) ile karşılaştırması yapılacak
olsa aynı sonuçları elde ettikleri gösterilebilir (Rosenthal ve Rosnow, 2008, s. 56)11.
(b) Etki büyüklüklerinin yorumlanması: Bu standart etki büyüklüğü ölçütü, bulguları
“küçük”, “orta” ve “büyük” etkiye sahip şeklinde yorumlamaya imkân vermektedir. Cohen, “Statistical Power Analysis for the Behavioral Sciences” başlıklı kitabında (1988),
psikoloji araştırmalarının veri analizinde sıklıkla kullanılan d, r, R, R-kare, Cohen’s
f, eta ve eta-kare gibi ölçütleri, büyüklükleri açısından yorumlamaya rehberlik edecek, kendi deyimiyle “operasyonel tanımlar” vermiştir. Ancak, kitabın bütününde bu
tanımların “sadece birbirine göre değil, aynı zamanda davranış bilimlerinin belirli bir
alanı, belirli bir içerik ve araştırma kapsamında seçilen yöntem açısından da göreceli”
olduğunu belirtmektedir (Cohen, 1988, s. 25). Yani, konu ve yöntem açısından çok
geniş bir çeşitliliğe sahip davranış bilimleri gibi bir alanda, bulgunun etkisinin küçük,
orta ya da büyük olduğuna karar vermek için standart bir tanım yaratmanın riskli
olduğunu söylemektedir. Ancak, bu tanımların yine de geleneksel bir referans oluş11
.24 vermektedir.
formulü ile t değeri r değerine dönüştürüldüğünde her iki araştırma bulgusu r =
ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 67
turma avantajı olduğunu belirterek operasyonel tanımlarına kitabında örneklerle yer
vermiştir. Bu kapsamda Tablo 2, farklı etki büyüklüklerinin yorumlanmasında kullanılabilecek değerleri vermektedir. Cohen kitabında (1988) sadece küçük, orta ve büyük etki değerlerini vermiş; bazı yazarlar ise tipik olarak gözlemlenebilecek düzeyin
üzerindeki etki büyüklüğünü de eklemişlerdir (örn. Leech, Barrett ve Morgan, 2008).
Küçük etki düzeyi kabul edilebilir en düşük etkiye işaret etmektedir.
Tablo 2.
Farklı Etki Büyüklüğü Endeksleri ve Yorumlanması (Cohen, 1988)
Ortalamalar arasındaki farkın
standartlaştırılması
d
1 ve
r
İlişkinin standartlaştırılmış ölçümü
R2
Cohen's
f
eta
eta-kare
Çok
Büyük
üzeri
.70 ve
üzeri
.49 ve
üzeri
.50
.45 ve
üzeri
.20
Büyük
.80
.50
.26
.40
.37
.1379
Orta
.50
.30
.13
.25
.24
.0588
Küçük
.20
.10
.0196
.10
.10
.0099
Cohen (1988) etki düzeyinin yorumlanması için verdiği kesme değerlerinin, araştırılan konuda fazla çalışmanın olmadığı yeni alanlarda işe yarayacağını söylemiştir. Yani,
kendi çalışmanızdan bir etki gözlemlediğinizde bunun büyüklüğünü anlayabilmek
için elinizde karşılaştırma yapacağınız hiçbir çalışma yoksa bu durumda işlevseldir.
Farklı araştırma alanları ve araştırma tasarımlarına göre ES düzeylerinin büyük ya da
küçük olarak yorumlanmasında ciddi bir değişkenlik olacaktır. Örneğin, eğer boylamsal bir çalışma yapıyorsak, 3-5 yıl sonrasına dair kestirimlerimiz açısından ES düzeyi
küçük olacaktır. Araştırmamız deneysel bir tasarıma sahipse, kontrollü veri toplama
imkânı varsa ES çok daha büyük olacaktır.
Bir araştırmada, elde edilen etki büyüklüğünün ne kadar önemseneceği araştırma konusuna, kullanılan araştırma tasarımına ve bu bulgunun gerçek hayata yansımalarına
bağlıdır. Elde edilen etkinin büyüklüğü üzerinde yorum yapabilmek için, araştırılan
konu ile ilgili olarak daha önce yapılmış çalışmalarda raporlanan etki büyükleri bir
rehberdir. Yani yeni çalışmada elde edilen etki, önceki etki büyüklüklerine göre ne düzeydedir? Etki küçük gözükse dahi, diğer araştırma bulgularına göre göreceli düzeyi,
ilgilenilen bağımlı değişkenin insan hayatı açısından etkisi nedeniyle önemsenmesi
gereken bir sonuç olabilir. Örneğin, insan hayatını riske atan çok çeşitli tehlike kaynağının bulunduğu bir üretim ortamında, iş ortamında yapılacak teknik iyileştirmeler ve
çalışanlara güvenli davranışları kazandırmayı hedefleyen eğitimler ile iş kazalarının
oranı arasındaki ilişkiyi inceleyen bir araştırma gerçekleştirdiğimizi düşünelim. Yapılacak teknik bir iyileştirme ve verilen eğitimler neticesinde beş yıllık zaman dilimi
içinde ölümlü kaza oranı %15’ten, %11’e düşmüş olsun. % 4 düzeyinde bir iyileşme
yaşandığını gösteren bir bulgunun ne kadar önemsenmesi gerektiği mevcut litera-
68 ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014
türdeki etki büyüklükleri ile karşılaştırılarak yorumlanabilir. Teknik iyileştirmeler ve
eğitimlerin etki büyüklüğü bu çerçevede yorumlanabilir. Ancak bunun daha ötesinde,
bu araştırmanın 1000 işçinin çalıştığı bir işletmede yapıldığını düşünecek olsak, bu
iyileştirici yaklaşımlar sonunda beş yılda en az 40 çalışanın hayatta kalacağını söyleyebiliriz. Aslında bir iyileştirici müdahale değil kırk, sadece iki kişinin dahi hayatta
kalmasını sağlıyorsa önemsenmesi gereken bir etkiye sahip olarak yorumlanmalıdır.
Bu örnek ayrıca bizi istatistiksel anlamlılığın kısıtları ile başa çıkmak için önerilen
pratik ve klinik anlamlılık kavramlarına getirmektedir.
2. Bulguların taşıdığı önem açısından değerlendirilmesi
Bilim insanları, uygulayıcılar, tüketiciler, yöneticiler, hastalar ve öğrenciler gibi bir
araştırma alanı ya da konusuyla ilgili kişiler acaba bir bulguyu önemi ve ne kadar
dikkate değer olduğu açısından nasıl yorumlamaktadır? Bu bulguya güvenerek bir
aksiyon almak konusunda ne düşünmektedir? Bu sorular Türkçeye “Dikkate Değer
Anlamlılık” (substantive significance) diye çevirebileceğimiz, bulguların klinik süreçlerde ve uygulamada taşıdığı öneme işaret eden anlamlılık ile ilişkilidir (Kelley ve Preacher, 2012).
a. Bulguların pratik anlamlılık açısından yorumlanması
Bir araştırmada etkinin büyüklüğü sadece ES indeksinin sayısal değeriyle ilişkili değildir. Etki büyüklüğü değerinden yola çıkarak çalışmanın ne kadar önemli olduğu ve
gerçek hayatta taşıdığı anlam hakkında bilgi ihtiyacı vardır (Kirk, 1996). Örneğin, cinsiyet ile liderlik yetkinliği arasındaki r = 0.40 düzeyinde istatistiksel olarak anlamlı
orta düzeyde bir korelasyon değeri, yani cinsiyet değişkeninin liderlik yetkinliğinin
%16’sını açıklıyor olması (R2), liderleri seçerken cinsiyete göre karar vermeye başlamak için yeterli olamaz. Yani bu bulgunun pratik bir anlamlılığı yoktur.
Pratik anlamlılık konusunu tartışmaya açan teorisyenler, bir bulgunun önemi açısından yargıya varması gereken kişilerin, bu bilginin “tüketicisi” durumundaki kişiler
olduğunu söyler. Bu kişilerin bir bulgunun gerçek hayata yansımaları ve bu bulguya
dayalı olarak alınan kararların sonuçları hakkındaki yargıları, bulgunun pratik anlamlılığını verir (Aguinis, Werner, Abbott, Angert, Park ve Kohlhausen, 2010). Liderlik
yetkinliği ile ilgili örnekten hareket edersek, bir işletmedeki insan kaynakları yöneticisinin, istatistiksel olarak anlamlı olan, ama ortalama etki büyüklüğüne sahip bu
bulgu ile ilgili yorumları ve bu bulgudan yola çıkarak aldığı aksiyonlar bu bulgunun
pratik anlamlılığını gösterir.
b. Bulguların klinik anlamlılık açısından yorumlanması
Klinik anlamlılık ise terapi teknikleri, ilaçla tedavi ya da eğitim uygulaması gibi bir müdahale yönteminin sonuçları açısından taşıdığı değer, bu yöntemin uygulandığı kişinin ve bu kişi ile ilişki içinde olan kişilerin gündelik hayatında gerçekten fark edilebilir
bir değişim yaratıp yaratmadığının göstergesidir (Kazdin, 1999). Jacobson, Roberts,
Berns ve McGlinchey (1999), örneğin psikolojik bir soruna dair tedavi sürecinde olan
bir danışanın, uygulanan müdahale yöntemi sonunda, bu sorun öncesindeki işlevselliğine dönmüş olmasını klinik anlamlılık için kıstas olarak almaktadır. Bauer, Lambert
ve Nielsen (2004), klinik anlamlılıktan bahsetmek için, tedavinin uygulandığı birey
için anlam taşıyan bir değişimin yaşanması gerektiğini vurgular.
İstatistik anlamlılık yapısı gereği grup ya da örneklem ölçeğinde karşılaştırmalara dayalıdır. Peterson (2008) klinik anlamlılığa yapılan vurgu sayesinde, birey ölçeğindeki
gelişme ya da iyileşmelerin, grup düzeyindeki gelişmeler kadar dikkat çekmeye başlayacağını söylemektedir. Örneğin, ilaç tedavisi sonucunda yaşanan değişim istatistiksel olarak anlamlılığa ulaşmasa dahi, az sayıda vakada etki gözlenmesi ve vakaların
bu değişimi önemsemesi, araştırmaya devam etme kararı verilmesine neden olabilir;
yani bulgu klinik açıdan anlamlıdır (Peterson, 2008; Thompson, 2002).
ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 69
3. İstatistiksel Gücün araştırma sürecine ad-hoc ya da post-hoc kullanımla entegre edilmesi
Örneklem büyüklüğü, etki düzeyi ve istatistiksel anlamlılık arasındaki fonksiyonel
bağlılık, araştırmacıların istatistiksel güç olgusunu planlama ya da teşhis amacıyla
kullanmasına imkân vermektedir. Bunlardan birincisi, yani planlama, araştırmaya
başlamadan önce örneklemin genişliğine karar verilmesidir. Cohen (1988,1992), Rosnow, Rosenthal ve Rubin (2000), Rosenthal ve Rosnow (2008) tarafından sunulan
dönüşüm tablolarından yola çıkarak, gözlenmesi tahmin edilen bir etki büyüklüğü ve
hipotez testi için seçilen kesme değeri kullanılarak örneklem büyüklüğüne karar verilebilir.
İkinci kullanımı ise, araştırmanın hangi etkileri tespit etmekte daha fazla güce sahip
olduğunu teşhis etme amaçlı kullanımıdır. Genelde istatistik programlarına entegre
edilmiş olan “gözlenen güç” değerleri ile, farklı hipotez testlerinden elde edilen bulgular istatistik güçleri açısından karşılaştırılabilir. Böylelikle, araştırmanın gücü düşükse, bunun örneklem büyüklüğü, ölçüm hassasiyeti ya da gerçekte var olan etkinin
zaten küçük olması gibi unsurlardan hangisi ile ilgili olduğu konusunda analitik bir
değerlendirmeye başlanabilir.
4. Güven Aralığının Raporlanması
Bildiğimiz gibi araştırmalarda seçilmiş örneklemden elde edilen değerlerle evrene
dair çeşitli parametreler hakkında tahminde bulunmaya çalışıyoruz. Örneğin seçtiğimiz parametre, grup ortalaması gibi bir “tek değer tahmini” (point estimate) olabilir. Bu kapsamda, geleneksel pratiklere bakıldığında, ortalama ile standart sapmanın
raporlandığını görmekteyiz. Ancak, APA yazım rehberi (2010), bu değerin doğruluğu
hakkında fikir veren “aralıklı kestirim”in (interval estimate) raporlanmasını “bulguların raporlanmasındaki stratejilerin en iyisi” olduğunu belirtmektedir (s. 34). İstatistik analizlerden elde edilen parametre değerleri, ortalamalar arasındaki fark gibi
parametre değerlerinden türetilmiş değerler ve etki büyüklüklerinin güven aralıkları
ile birlikte raporlanması kuvvetle önerilmektedir. Örneğin %95 güven aralığı, sunulan değerin hangi hata aralığı içinde gözlenebileceğini göstererek, bulgunun doğruluk
(precision) düzeyi hakkında (Cumming ve Finch, 2005), yani ortalamanın hangi alt ve
üst sınırda gözlenebileceği hakkında bilgi vermektedir. Bulguların hem tek değer tahmini hem de aralıklı tahmini üzerinden tartışılması tercih edilmektedir (APA, 2010).
Güven aralığı tanımına göre, bir araştırmanın çeşitli seferler tekrarı halinde, örneklemden elde edilen değerin, evrende gözlenebilecek gerçek değeri kapsaması beklenmektedir. Genelde %95 ya da %99 güven aralığı içinde yapılan hesaplamalar ile
örneklemden örnekleme belirli düzeyde sapma beklense dahi, bizim çalışmamızdaki
aralığın evrende var olan gerçek değeri içerme ihtimalinin %95 ya da %99 olduğunu
söylemekteyiz. Çalışmaların %5 ya da %1’inde ise aralık tahmininin evren değerini
kapsamayacağı tahmin edilmektedir. Cumming ve Finch (2005) güven aralığını “gözlenme olasılığı olan, evrene dair akla yakın değer yelpazesidir; güven aralığının dışında kalan değerler mantıksızdır” şeklinde tanımlamaktadır (s. 174). Güven aralığında
yer alan ortalama değer, evren parametresi için en yüksek olasılığa sahip değerdir;
güven aralığının üst ve alt sınır değerlerine yaklaşıldıkça, evren parametresinin bu
düzeyde gözlenme olasılığı düşmektedir (Kalinowski, 2010).
Güven aralığının dar olması, yaptığımız ölçümün daha az hata payı ile gerçekleştirildiğini ve bulgunun daha güvenilir olduğunu göstermektedir. Güven aralığı değerleri,
istatistik test değerinin anlamlılık düzeyine ilişkin çıkarım imkânı vermektedir. Güven
aralığı araştırmanın istatistiksel gücünden etkilenir. Eğer bir araştırmanın, tasarımı
gereği istatistiksel gücü düşük ise, bulguların güven aralığı da daha geniş olacaktır;
yani örneklemden elde edilen bulguların güvenilirliği konusunda bir belirsizlik söz
konusu olacaktır. Gücü ve hassasiyeti yüksek çalışmalar, daha dar güven aralığı ve de
daha güvenilir sonuçlar verecektir (Murphy ve Myors, 2004).
70 ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014
5. Replikasyona ağırlık ve önem verilmesi
Eleştirel yazın, istatistiksel olarak anlamlı ve hatta büyük bir etkiyi yakalayabilecek
güçte bir çalışma olsa dahi tek bir araştırmanın bilimsel katkısının yeterli olmadığını
vurgulamaktadır (Cohen, 1994; Falk, 1998; Kline, 2013). Bu sebeple replikasyon çalışmaları yapılması, araştırmacıların bulgularını aynı alandaki diğer araştırmalarla etki
büyüklükleri açısından karşılaştırması önerilmektedir. Bir araştırma alanında daha
bütünsel bir perspektif yaratılması için bu yaklaşımın şart olduğu söylenmekte; özellikle doğa bilimlerinde var olan replikasyon geleneğinin psikoloji için de yerleştirilmesi önerilmektedir. Ancak, replikasyon çalışmaları, genellikle araştırmalardan beklenen “orijinallik” şartını karşılamadığı için, araştırmacılar pek istekli olmamaktadır;
bu isteksizlikte bu tür çalışmaların dergilerde basılma şansı yakalayamaması da bir
etkendir (Neuliep ve Crandall,1990, 1993). Bir araştırma sistematik olarak tüm yönleri ile tekrarlanabileceği gibi, örneklem ve ölçüm araçları aynı tutularak kısmî bir tekrar çalışması da yapılabilir ya da ilgilenilen olgu aynı tutularak farklı örneklem ya da
ölçüm araçları ile de tekrarlanabilir. Her bir replikasyon yaklaşımı ilgilenilen olguyla
ilgili ek bilgi sağlayacaktır. Daha önce belirtildiği gibi H0 hipotezinin reddedilmesi halinde, H1 hipotezi aslında pek çok alternatif açıklamayı içinde barındırmaktadır. Replikasyon işte bu çeşitliliği daraltarak, daha kesin yargılara ulaşılmasını sağlayacaktır.
6. Meta-analiz çalışmalarının yaygınlaşması
Aynı araştırma alanında basılmış yayınlarda gözlemlenen etki büyüklüklerinin sistematik şekilde karşılaştırılması, farklı araştırmalardan elde edilen etki büyüklüklerinin ortalamalarının ve varyansının değerlendirmeye alınması, alanda yapılan çalışmalara büyük bir resim olarak bakmak için son derece yararlıdır. NHST eleştirmenleri
(Ellis, 2010; Mulaik, Raju ve Harshman, 1997; Kline, 2013) meta-analiz çalışmalarını,
p değerine yapılan vurgunun ES’ye kaydırılmasına şans tanıdığı için önemsemektedir.
Meta-analiz çalışmaları sayesinde, tek bir araştırmadan yola çıkarak genelleme yapma eğiliminin azalması beklenmektedir.
Meta-analiz perspektifinin NHST’nin kısıtları ile başa çıkmak açısından katkısı sadece
bağımsız meta-analiz projelerinin yürütülmesi ile sınırlı değildir. Aslında her araştırmanın literatür tarama aşamasına meta-analitik bir perspektif yerleştirilmesi önerilmektedir (Kline, k.i., 2013). İlgilenilen araştırma alanı ve araştırma sorusuna dair yapılmış çalışmalar ES değerlerini hesaplamamış olsa dahi, araştırma geleneğine ES ve
meta-analizin yerleşmesi halinde, yeni araştırma üzerinde çalışan araştırmacı, önceki
araştırmalarda sunulan betimleyici istatistikleri kullanarak ES hesaplaması yapabilir.
Böylelikle yeni araştırmadan elde edilen ES düzeyleri, önceki çalışmalarda gözlenen
ortalama ES düzeyleri ile karşılaştırılarak, etkinin büyüklüğüne dair analitik değerlendirme yapılabilir.
APA yazım rehberi (2010), araştırmacıların raporlarında istatistik değerleri detaylarıyla vermesi ve ES bulgularını raporlaması halinde, araştırmaların meta-analiz çalışmalarına dâhil edilme şansı yakalayabileceğini, böylelikle alandaki bilgi birikiminin
bir parçası haline gelebileceğini belirtmektedir. Bu katkıyı yükseltmek için, p değerinin alfa değerinden düşük ya da yüksek olduğunu (örn., p<0.05 ya da p>0.05) belirten yazım yerine, p tam değeri yazılmalıdır (Aguinis ve ark., 2010). Ayrıca, ES sadece
nokta değeri olarak değil, güven aralıkları ile birlikte raporlanmalıdır (Fritz, Scherndl
ve Kühberger, 2013).
Türkiye’de NHST
Bu bölüme kadar özetlenen literatür, bize uluslararası akademik alanda NHST konusunda zengin bir tartışma ortamının olduğunu gösteriyor. Bu makale için yaptığım
taramada, ülkemizde NHST tartışmalarını teorik olarak bir araya getiren bir yayına
psikoloji alanında rastlayamadım.
ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 71
Bu konuda Doğan Kökdemir’in 2000 yılında V. Türkiye’de Internet Konferansı ve XI.
Ulusal Psikoloji Kongresi’ndeki bildirilerinde, istatistiksel güç, etki büyüklüğü ve hipotez testi olgularını ele aldığını görüyoruz. Ben ve Ali Tekcan (2010), XVI. Ulusal Psikoloji Kongresi’nde, 1995-2009 yılları arasında Türk Psikoloji Dergisi’nde yayımlanan
makalelerde istatistiksel anlamlılığın ötesine geçen raporlama pratikleri ile ne sıklıkla
karşılaşıldığı konusunda bir bildiri sunduk. Ancak bu üç bildiri bir makale olarak basılmamıştır; dolayısıyla NHST’nin psikoloji araştırmaları açısından ülkemizde kalıcı
bir esere dönüşmediğini söyleyebiliriz.
NHST konusunda ülkemizde basılı iki yayının, eğitim bilimleri alanından olduğunu
görüyoruz (Özsoy ve Özsoy, 2013; Yıldırım ve Yıldırım, 2011). Yıldırım ve Yıldırım
(2011) çalışmalarında yokluk hipotezi anlamlılık testi ile ilgili temel yanılgıları özetlemektedir. Özsoy ve Özsoy (2013) ise eğitim bilimleri alanında SSCI’da taranan dört
dergide 2007-2011 tarihleri arasında yayımlanan 480 makale üzerinde çalışmışlar;
makalelerin sadece %7.2’sinde (35 makale) etki büyüklüklerinin raporlandığını göstermişlerdir.
NHST konusunu ele aldığım bu teorik özet üzerindeki çalışmalarım devam ederken,
bir taraftan da NHST’nin ülkemizde psikoloji araştırmalarındaki yansımalarını anlayabilmek için, daha önce XVI. Ulusal Psikoloji Kongresi için yapmış olduğumuz taramayı (Işık ve Tekcan, 2010), 2009 sonrasında basılan makaleleri de ekleyerek güncelledim. Böylelikle Türk Psikoloji Dergisi’nde (TPD) 1995 (Cilt 10, Sayı 34) ile 2013 (Cilt
28, Sayı 71) tarihleri arasında basılan 38 sayıda yer alan toplam 208 makale üzerinde
tarama yaptım. Bunlardan 12 tanesinde birden fazla deney yer almaktaydı. Her bir
deneyi de bağımsız bir çalışma olarak kabul ederek taramaya dahil ettiğim için incelenen çalışma sayısı N=238 oldu. Bu yayınlardan, teorik, derleme ve test standardizasyonu türünde olanları (n=44) tarama kapsamı dışında bıraktım. Deneysel ya da
deneysel olmayan ampirik çalışmalardan oluşan 194 çalışma üzerinde yaptığım taramanın etki büyüklüklerine dair tamamlanan kısmından elde edilen bulgulara göre,
bu araştırmaların % 34’ü (n=66) etki büyüklüklerini raporlamıştır. 2001’den itibaren
ise etki büyüklüğü raporlamasının arttığı görülmektedir. Etki büyüklüğü raporlaması
yapılan çalışmaların oranı, 1995-2000, 2001-2005, 2006-2010 beş yıllık dilimleri için
sırasıyla; %1, % 6.2 ve %18’dir. 2011-2013 arasında yayımlanan beş sayıda ise etki
büyüklüğü raporlamasının oranı %8.8’dir.
Etki büyüklüğü raporlanmış makalelerde, bulguların bu etki açısından yorumuna
araştırmaların sadece % 6.2’sinde rastlanmaktadır. Sadece iki çalışmada Cohen’e referans verilmiş; ancak bunlardan bir tanesinde Cohen’in (1988) operasyonel tanımlarına göre (Tablo 2) yorum yapılmıştır. En sık kullanılan etki büyüklüğü ölçümü etakaredir (%82.06).
Daha önce de belirtildiği gibi NHST eleştirilerinde ön plana çıkan noktalardan birisi,
sabit bir alfa değeri ile çalışma alışkanlığının olmasıdır. Rosnow ve Rosenthal (1989)
“Tanrı 0.06 anlamlılık düzeyini de 0.05 kadar sevmektedir” (s. 1277) vurgusu ile Tip I
hatası açısından seçilen bu kesme değerinin, keskin bir ikili karar verme zorunluluğu
yarattığına ve bu değerin zaman içinde yerleşen keyfi bir değer olduğuna işaret etmektedir. Buradan hareketle, taradığım makalelerde sınırda anlamlılık düzeyleri kapsamında 0.05 ile 0.10 arasındaki anlamlılık düzeylerini yorumlarken izlenen stratejiyi
de baktım. TPD dergisinde yayımlanan makalelerde bulgular geleneksel olarak %5
ve altındaki p değerleri ile analiz edilmekte ve raporlanmaktadır. %5 kesme değerinin üzerindeki bulguları, “sonucun istatistiksel açıdan anlamlı olmadığını” söylemenin ötesinde yorumlayan makaleler sayıca azdır. Standart p değerinin üzerinde sonuç
veren analizlerde araştırmacıların kullandığı yorumlarda örneğin, bir araştırmada
0.061 değerinin anlamlılığa yakın olması nedeniyle F değerleri verilmiş ve grup ortalamaları tartışılmıştır. Yaygın olmasa da 0.051-0.060 aralığındaki p değerleri elde edildiğinde, bulguya dair bir yorum yapma eğilimi gözlenmektedir. Çalışmalardan bazılarında p<0.08, p<0.07, p<0.09, p<0.10 marjinal düzeyde anlamlı kabul edilmektedir.
72 ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014
Bu örnekler, araştırmacıların %5 p değerini keskin bir karar sınırı olarak kullanmanın
ötesine geçme eğiliminde olduğunu göstermektedir.
Bu bulgulardan da anlaşıldığı gibi NHST açısından, en azından etki büyüklüklerini
raporlama açısından, ülkemizde yakın dönemde bazı gelişmeler olduğu söylenebilir.
Ancak, araştırmaların bulgularının taşıdığı etkinin büyüklükleri, bu büyüklüklerin taşıdığı klinik ve pratik anlamlılık halen önceliğe sahip değildir.
Sonuçlar ve Öneriler
Eleştirel yazın, NHST’ye tümüyle karşı olan yazarlar kadar gerekli şartlar altında kullanılması halinde NHST’nin işe yaradığını düşünen yazarları da içeren bir yelpazeye
sahiptir. İkinci gruptaki yazarlar, istatistiksel anlamlılık testlerinin, kullanılan analiz
yönteminin öngördüğü koşullar karşılandığı sürece bir geçerliliğe sahip olduğunu
söyler (Abelson, 1997; Mulaik, Raju ve Harshman, 1997). Oysa çoğu zaman bu sayıltılar karşılanamamaktadır ve araştırma raporlarında bu sayıltılara yer verilmemektedir. Daha da ötesinde NHST sistematiğinin karmaşık yapısına bağlı olarak ortaya
çıkan bilişsel çarpıtmalar ve yanılsamalar, araştırmacıların aslında yürüttükleri çalışmada gerçekten merak ettikleri sorunun cevabını bulduklarını sanmalarına neden
olmaktadır; NHST’nin teorik yapısı ise çoğu zaman buna elvermemektedir.
Önceki bölümde yer alan tüm eleştiriler neticesinde pek çok araştırmacı NHST’nin
psikoloji biliminin gelişimine, bilimin getirdiği kümülatif birikimin oluşumuna ve güçlü teorilerin üretilmesine ket vurduğu çıkarımına ulaşmaktadır (Meehl, 1978; Rossi,
1997; Schmidt,1996). NHST sistematiğinin doğurduğu bilişsel çarpıtmalar ve yanılsamalar sonucunda, Kline “Kendi bulgularımızı anlayamaz hale geliyoruz. Bulgular güvenilir olsa dahi, eğer biz bu bulguların ne anlama geldiğini anlayamıyorsak, bu tekniğin bilim açısından oynadığı rol nedir?” (k.i., 2013), diye sormaktadır. Gigerenzer’e
(1998b) göre güçlü teorilerin yerini teorisiz veri, tekil kavramlar ve ikili sınıflamalar
almaktadır; bunları “vekil teori” (surrogates for theories; s. 196) olarak isimlendirmekte ve bunların ortaya çıkışındaki temel tetikleyicilerden birisinin NHST olduğunu
söylemektedir. Teorisiz verinin “ebeveynsiz bebek” gibi olduğunu, “beklenen yaşam
süresinin kısa olduğunu” belirtmektedir (s. 202). Yani, psikoloji araştırmalarında
NHST geleneğinin etkisi altında veri analizi yapılması, bulguların teorik bağlamına ve
diğer araştırmalarla bir arada yarattığı kümülatif bilgiye yeteri kadar zaman ayrılmamasına neden olmaktadır.
Bakan’a göre (1966) psikolojide “bilimsel kestirimde tam otomatikleşme sağlama rüyası, fantezisi ve ideali” (s. 430) vardır; NHST de bir karar aracı olarak, araştırmacının
kestirimde bulunma ve çıkarım yapma sorumluluğunu, kendi omuzlarından atması
için bir fırsat sunmaktadır. Rozeboom (1960) ise istatistiksel yöntemlerin, ham verinin işlenmesini sağlayan bir araştırma enstrümanı olduğunu ve araştırmacıların
bilimsel süreçler için ihtiyaç hissettikleri bu tür araçlara ulaşabilmesinin bir avantaj olduğunu söylemektedir. Diğer taraftan araştırmacının, özel bir uzmanlık alanının
ürettiği bir aracın yeterliliğini sorgulayabilecek teknik donanıma sahip olmaması, bu
araçları ezbere kullanmaya başlamasına yol açmaktadır. Bu da kullanıcıyı bir yöntem
ya da aracın kısıtlılıkları karşısında, daha da kırılgan hale getirmektedir. NHST bir karar aracı olarak gerek Bakan, gerekse Roseboom’un altmışlı yıllarda dile getirdiği dezavantajları taşımaktadır.
NHST’ye getirilen eleştiriler neticesinde psikoloji nicel analiz yaklaşımlarında yavaş
da olsa bir yenilenme gözlendiğini söyleyebiliriz. Fritz ve arkadaşları (2013) tarafından yürütülen kapsamlı tarama bu konuda destekleyici bulgular sunmaktadır. Fritz ve
arkadaşları, 1990-2010 aralığında Web of Knowledge veritabanında yer alan, psikoloji araştırmalarında istatistiksel güç, etki büyüklüğü ve güven aralığı analizlerinin kullanım sıklığını araştıran makaleler üzerinde çalışmışlardır. İstatistiksel güç analizinin
sıklığını tarayan 11 adet çalışmaya rastlamışlar ve bunların kapsadığı toplam 1164
makaleden sadece %2.9’unun istatistiksel güç analizi yaptığını tespit etmişlerdir. Gü-
ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 73
ven aralığının kullanım sıklığını tarayan dokuz çalışma bulmuşlar; bunların kapsadığı
1064 adet psikoloji araştırmasının % 10.4’ünün güven aralıklarını raporladığını gözlemlemişlerdir. Etki büyüklüğü ile ilgili tarama yapan 29 çalışmanın ise 6366 adet psikoloji araştırmasını içerdiği ve bunların %38.4’ünün etki büyüklüklerini raporladığı
görülmüştür. Fritz ve arkadaşlarının bulgularına göre, NHST tartışmalarının ardından
önerilen raporlama stratejilerinin hayata geçirilmesinde, etki büyüklüklerinin raporlanması en belirgin yere sahiptir; ardından güven aralıkları gelmektedir. İstatistiksel
güç analizi ise nadiren yapılmaktadır. Fritz ve arkadaşları etki büyüklüğünü hesaplama eğiliminin geliştiğini, ancak alandaki diğer araştırmalarla karşılaştırıldığında bu
etkinin ne düzeyde önemseneceği açısından yorumlamalara rastlanmadığını söylemektedir. Ayrıca, ES’nin etkili şekilde raporlanabilmesi için güven aralıkları ile birlikte
verilmesi gerektiği, ancak makalelerde buna rastlanmadığı belirtilmektedir.
Türk Psikoloji Dergisi’nde yayımlanan makaleler üzerindeki yaptığım taramaya göre
araştırmaların % 34’ünün etki büyüklüklerini raporladığını gözlemlemiştim. Bu bulgunun Fritz ve arkadaşlarının etki büyüklüğünün raporlanma sıklığına dair elde ettiği bulgu ile tutarlı olduğunu görüyoruz. Benzer şekilde, ES ölçütleri raporlansa da
yorumlanmadığı da görülmektedir. APA yazım rehberi (2010), test istatistiklerinin
anlamlı çıkmadığı durumlarda da etki düzeyinin raporlanması gerektiğini söylemektedir. TPD makalelerinde bu konuda bir tutarlılık gözlenememiştir; bazı araştırmacıların F testinde istatistiksel anlamlılık elde etmediği durumlarda da etki büyüklüğünü
raporladığı görülmektedir. Ancak bunun bilinçli bir tercih mi yoksa derginin yazım
ilkeleri gereği eta-kare raporlaması yapılmasını istediği için mi olduğu konusunda bir
değerlendirme yapmak mümkün değildir.
NHST literatüründeki en temel eleştirilerden birisi, NHST yaklaşımın bulguların mekanik bir şekilde değerlendirilmesine yol açması, araştırmacının elde edilen bulguyu
taşıdığı önem ve etki açısından yorumlamasına ket vurmasıdır. Etki büyüklüğünü dergilerin yazım ilkeleri gereği belirli istatistik testler için raporlamak, diğer analizlerde
bu yönüyle analiz yapmamak ve bulguları etki büyüklükleri açısından yorumlamamak
da mekanikleşen raporlama eğiliminin bir başka örneği olabilir.
NHST’nin Türkiye’deki durumu ile ilgili sunulan bilgiler ışığında, ülkemizde yürütülen
araştırmaların uluslararası ve akademik standartlara ulaşması için çeşitli adımların
atılması gerektiğini söyleyebiliriz. Uluslararası literatürde, NHST tartışmalarının, psikoloji araştırmalarında bir değişim yaratmasında çeşitli inisiyatiflerin rol oynadığını
görüyoruz. Bunlardan belki de en önemlisi, meslek kuruluşlarının, istatistiksel kestirim konusunda üyelerini bilgilendirmek ve yönlendirmek için yaptığı çalışmalardır.
Bu konuda psikoloji alanındaki en önemli inisiyatif APA tarafından alınmıştır. İstatistiksel Kestirim Çalışma Grubunun hazırladığı rapor (Wilkinson ve Task Force on
Statistical Inference, 1999), veri analizi, yorumlaması ve raporlaması için kalite standartlarını sunmaktadır. Bu standartların ardından güncellenen APA yazım rehberi de
(2001, 2010) özellikle etki büyüklüğü ve güven aralığı raporlamasını kalite açısından
temel gereklilikler olarak sunmaktadır.
Diğer bir etken, akademik dergilerin yayın politikalarıdır. Dergilerin ve editörlerinin
p değerine ait etki büyüklüklerinin raporlanmasını zorunlu hale getirmesi araştırmacıların ES hesaplamalarını araştırma sürecine entegre etmeleri için önemli bir rol
oynamaktadır. Diğer taraftan dergilerin, NHST tartışmalarına dair makaleleri ve bu
tartışmaların çeşitli disiplinler ya da bilim dallarına etkilerini inceleyen eserlere de
yayın şansı vermesi gerekir. Dergilerde NHST konusundaki özel sayılar ve bölümler
de bilimsel araştırma ve yazım yöntemleri konusunda ortak bir bakış yaratmak açısından önemli bir rol üstlenecektir.
Etki büyüklüğü, istatistiksel güç, güven aralığı hesaplamalarının psikoloji lisans ve lisansüstü yöntem derslerinin müfredatına dâhil edilmesi gerekmektedir. Öğrenciler
NHST’nin bir karar aracı olduğunu anlamalı, psikoloji araştırmalarında tasarımdan
74 ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014
analize kadar giden tüm aşamalarda analitik bir yaklaşımın gerektiğini fark etmeleri
sağlanmalıdır.
Öğrencilerin ilgilenilen alandaki mevcut meta-analiz çalışmaları ile de tanıştırılması
gerekmektedir. Böylelikle, kendi araştırmalarında bekleyebilecekleri etki büyüklüklerini tahmin edebilirler; hipotezlerini bu bilgiye dayalı olarak formüle edebilirler. Etki
büyüklüğünün öneminin fark edilmesinde meta-analiz çalışmaları önemli bir işleve
sahiptir.
Öğrencilere replikasyon çalışmalarının önemi de anlatılmalıdır. Frank ve Saxe (2012),
replikasyon çalışmalarına, deneyimli araştırmacıların maliyet ve orijinallik kaygısı
nedeniyle pek ilgi göstermediği gerçeğinden hareketle, bu çalışmaları psikoloji müfredatına entegre etmeyi önermektedir. Bu amaçla, öğrencilerin güncel araştırmaların
replikasyonlarını yapmak üzere yönlendirilmesi bir öğretim tekniği olarak sunulmaktadır.
Sonuç olarak, bu inisiyatiflerin ülkemizde de alınması gerektiğini söyleyebiliriz. Hyde
(2001) şu vurguyu yapıyor: “Etki büyüklüklerini raporlamanın bir ihtilaf (controversy)
olarak tanımlanması yazıktır. Etki büyüklüklerinin raporlanması en basit anlamda iyi
bir bilimsel uygulamadır. Tek soru sosyalleşme sürecimizi ders kitaplarından, saygın
bilim adamlarına kadar nasıl değiştireceğimizdir.” (s. 228). Bu görüşten yola çıkarak,
ülkemizde de sosyalleşme adımları atılması gereğinden bahsedebiliriz. Ülkemiz araştırmacılarının bir araya geleceği bilimsel tartışma ortamları yaratılmalıdır. Bu amaçla,
çeşitli sempozyumlar, atölye çalışmaları, platformlar düşünülebilir. NHST konusunda
özel olarak akademik bir yayına imza atmamış, ancak bu tartışmaları merakla takip
eden, kendi araştırmalarına bilinçli şekilde dahil eden araştırmacıların ve öğrencilerini ES, CI gibi ölçütlerle tanıştıran öğretim üyelerinin bir araya gelerek ülkemizdeki
araştırma pratiğini güncellemeye dönük bilinç yaratmak için inisiyatif alması gerekmektedir.
Yazar Notu/Teşekkür
Bu çalışmanın ortaya çıkması ve görüşlerinin bu makalede paylaşılması konusunda
verdiği destek nedeniyle Rex B. Kline’ye ve makalenin olgunlaşmasını sağlayan yapıcı
eleştirileri nedeniyle Ersin Aslıtürk ve Bahar Tanyaş’a teşekkür ederim.
Kaynaklar
Abelson, R. P. (1997). A retrospective on the significance test ban of 1999 (If there
were no significance tests, they would be invented). L. L. Harlow, S. A. Mulaik, and J. H.
Steiger, (Ed.), What if there were no significance tests? içinde (117-141). N.J., Mahwah,:
Lawrence Erlbaum Associates.
Aguinis, H., Werner, S., Abbott, J. L., Angert, C., Park, J. H., ve Kohlhausen, D. (2010).
Customer-centric science: Reporting significant research results with rigor, relevance,
and practical impact in mind. Organizational Research Methods, 13, 515-539.
American Psychological Association. (2001). Publication manual of the American
Psychological Association (5. baskı). Washington, DC: Author.
American Psychological Association. (2010). Publication manual of the American
Psychological Association (6. baskı.). Washington, DC: Author.
ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 75
Bakan, D. (1966). The test of significance in psychological research. Psychological Bulletin, 66(6), 423-437.
Bauer,S., Lambert, M.J. ve Nielsen, S.L. (2004). Clinical significance methods: A comparison of statistical techniques. Journal of Personality Assessment, 82(1), 60–70
Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2. baskı). Hillsdale, NJ: Erlbaum.
Cohen, J. (1990). Things I have learned (so far). American Psychologist, 45, 1304-1312.
Cohen, J. (1992). A power primer. Psychological Bulletin, 112, 155-159.
Cohen, J. (1994). The earth is round (p < 0.05). American Psychologist, 49, 997-1003.
Cortina, J.M. ve Landis, R.S. (2011). The earth is not round (p = .00). Organizational
Research Methods, 14(2), 332-349.
Cumming, G. ve Finch, S. (2005). Inference by eye: Confidence intervals, and how to
read pictures of data. American Psychologist, 60, 170–180.
Ellis, P.D. (2010). The essential guide to effect sizes: Statistical power, meta-analysis,
and the interpretation of research results. USA: Cambridge University Press.
Falk, R. (1998). Replication:A step in the right direction: Commentary on Sohn. Theory
and Psychology, 8, 313–321.
Falk, R. ve Greenbaum, C.W. (1995). Significance tests die hard: The amazing persistence of a probabilistic misconception. Theory and Psychology, 5, 75-98.
Frank, M. ve Saxe, R. (2012). Teaching Replication. Perspectives on Psychological Science, 7(6), 600– 604.
Fritz , A., Scherndl, T. ve Kühberger, A. (2013). A comprehensive review of reporting
practices in psychological journals: Are effect sizes really enough? Theory and Psychology, 23(1), 98–122.
Gigerenzer, G. (1993). The superego, the ego, and the id in statistical reasoning. G.
Keren ve C.A. Lewis (Ed.), A handbook for data analysis in the behavioral sciences: Methodological issues içinde (311–339). Hillsdale, NJ: Erlbaum.
Gigerenzer, G. (1998a). We need statistical thinking, not statistical rituals. Behavioral
and Brain Sciences, 21(2), 199-200.
Gigerenzer, G. (1998b). Surrogates for theories. Theory and Psychology, 8, 195-204.
Gigerenzer, G. (2004). Mindless statistics. The Journal of Socio-Economics, 33, 587–606.
Gordon, H.R.D. (2001). American vocational education research association members’
perceptions of statistical significance tests and other statistical controversies. Journal
of Vocational Education Research, 26 (2), 244-271.
Greenwald, A. G., Gonzalez, R., Guthrie, D. G., ve Harris, R. J. (1996). Effect sizes and
p-values: What should be reported and what should be replicated? Psychophsysiology,
33, 175-183.
Haller, H. ve Krauss, S. (2002). Misinterpretations of significance: A problem students
share with their teachers? Methods of Psychological Research Online, 7(1). Erişim tarihi: Kasım 2009, http://www.dgps.de/fachgruppen/methoden/mpr-online/issue16/
76 ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014
art1/haller.pdf
Harlow, L.L., Mulaik, S.A. ve Steiger, J.H. (1997) What if there were no significance tests?
N.J. : Lawrence Erlbaum Associates Publishers.
Hubbard, R. (2004). Alphabet soup: Blurring the distinctions between p’s and alpha’s
in psychological research. Theory and Psychology, 14, 295–327.
Hubbard, R. ve Armstrong, J.S. (2006). Why we don’t really know what statistical
significance means: A major educational failure. Journal of Marketing Education, 28,
114–120.
Hubbard, R. ve Ryan, P. A. (2000). The historical growth of statistical significance testing in psychology and its future prospects. Educational and Psychological Measurement, 60, 661-681.
Hyde, J.S. (2001). Reporting effect sizes: The roles of editors, textbook authors, and
publication manuals. Educational and Psychological Measurement, 61, 225-228.
Inman, H.F. (1994). Karl Pearson and R. A. Fisher on statistical tests: A 1935 exchange
from Nature. The American Statistician, 48, 2-11.
Işık, İ. ve Tekcan, A. (2010, Nisan). Türkiye’deki Psikologların Yokluk Hipotezi Anlamlılık Testi Tartışmalarına Yaklaşımı. 16.Ulusal Psikoloji Kongresi, Mersin, Türkiye.
Jacobson, N.S., Roberts, L.J., Berns, S. B. ve McGlinchey, J. B. (1999). Methods for defining and determining the clinical significance of treatment effects: Description, application, and alternatives. Journal of Consulting and Clinical Psychology, 67(3), 300-307.
Kalinowski, P. (2010). Understanding confidence intervals (CIs) and effect size estimation. Observer, 23(4). Erişim tarihi: 23 Ocak 2013, http://www.psychologicalscience.
org/ index.php/publications/observer/2010/april-10/understanding-confidenceintervals-cis-and-effect-size-estimation.html
Kazdin, A. E. (1999). The meanings and measurement of clinical significance. Journal
of Consulting and Clinical Psychology, 67, 300-307.
Kelley, K. ve Preacher, K. J. (2012). On effect size. Psychological Methods, 17, 137–152.
Kirk, R.E. (1996). Practical significance: A concept whose time has come. Educational
and Psychological Measurement, 56, 746-759.
Kline, R.B. (2004) . Beyond significance testing: Reforming data analysis methods in
behavioral research. Washington, DC: APA books.
Kline, R.B. (2013) . Beyond significance testing: Reforming data analysis methods in
behavioral research (2. baskı). Washington DC: APA books
Kökdemir, D. (2000, Kasım). Cohen’in dünyası yuvarlak mı? İstatistiksel güç, etki büyüklüğü ve hipotez testi. V. Türkiye’de Internet Konferansı, Ankara, Türkiye.
Kökdemir, D. (2000, Eylül). Cohen’in dünyası yuvarlak mı? İstatistiksel güç, etki büyüklüğü ve hipotez testi. XI. Ulusal Psikoloji Kongresi, Ege Üniversitesi, İzmir, Türkiye.
Kruschke, J. K. (2010). What to believe: Bayesian methods for data analysis. Trends in
Cognitive Sciences, 14(7), 293-300.
Lecoutre, M.P., Poitevineau, J. ve Lecoutre, B. (2003). Even statisticians are not immune to misinterpretations of Null Hypothesis Significance Testing. International Journal
of Psychology, 38(1), 37-45.
ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 77
Leech, N.L., Barrett, K.C. ve Morgan, G.A. (2008). SPSS for intermediate statistics: Use
and interpretation (3.baskı). NJ: Lawrence Erlbaum Associates.
Meehl, P.E. (1978). Theoretical risks and tabular asterisks: Sir Karl, Sir Ronald, and
the slow progress of soft psychology. Journal of Consulting and Clinical Psychology, 46,
806-834.
Morgan, P.L. (2003). Null hypothesis significance testing: Philosophical and practical
considerations of a statistical controversy. Exceptionality, 11, 209–221.
Mulaik, S. A., Raju, N. S. ve Harshman, R. A. (1997). There is a time and place for significance testing. Lisa A. Harlow, Stanley A. Mulaik, ve James H. Steiger , (Ed), What
if there were no significance tests? içinde (65-116). Mahwah, NJ: Lawrence Erlbaum
Associates.
Murphy, K.R. ve Myors, B. (2004). Statistical power analysis: A simple and general
model for traditional and modern hypothesis tests (2.baskı). USA: Laurance Erlbaum
Associates,Inc.
Nelson, N., Rosenthal, R. ve Rosnow, R. L. (1986). Interpretation of significance levels
and effect sizes by psychological researchers. American Psychologist, 41, 1299-1301.
Neuliep, J. W. ve Crandall, R. (1990). Editorial bias against replication research. J. W.
Neuliep, (Ed.), Replication research in the social sciences içinde (85–90). London: Sage.
Neuliep, J. W. ve Crandall, R. (1993). Reviewer bias against replication research. Journal of Social Behavior and Personality, 8, 1–8.
Nickerson, R.S. (2000). Null hypothesis significance testing: A review of an old and
continuing controversy. Psychological Method, 5, 241–301.
Oakes, M. (1986). Statistical inference: A commentary for the social and behavioral sciences. Chichester: John Wiley & Sons.
Özsoy, S. ve Özsoy, G. (2013). Eğitim araştırmalarında etki büyüklüğü raporlanması.
İlköğretim Online, 12, 334-346.
Peterson, L.S. (2008, Şubat). Clinical significance and practical significance are not the
same things. The annual meeting of the Southwest Educational Research Association,
Bildiri Sunumu, New Orleans. http://files.eric.ed.gov/fulltext/ED499990.pdf, Erişim
Tarihi: Ocak, 2014.
Poitevineau J. ve Lecoutre B. (2001).Interpretation of significance levels by psychological researchers: The .05-cliff effect may be overstated. Psychonomic Bulletin and
Review, 8, 847‑850.
Robinson, D.H. ve Wainer, H. (2001). On the past and future of null hypothesis significance testing. (Report No. RR-01-24). NJ: ETS Educational Testing Services: Statistics
& Research Division.
Rosenthal, R. (1979). The file drawer problem and tolerance for null results. Psychological Bulletin, 86(3), 638-641.
Rosenthal, R. ve Gaito, J. (1963). The interpretation of level of significance by psychological researchers. Journal of Psychology,55, 33-38.
Rosenthal, R. ve Rosnow, R. L. (2008). Essentials of behavioral research: Methods and
78 ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014
data analysis (3. baskı.). NY: MacGraw-Hill Companies.
Rosnow, R. L. ve Rosenthal, R. (1989). Statistical procedures and the justification of
knowledge in psychological science. American Psychologist, 44, 1276–1284.
Rosnow, R. L., Rosenthal, R. ve Rubin, D.B. (2000). Contrast and effect sizes in behavioral research. A correlational approach. USA: Cambridge University Press.
Rossi, J.S. (1997). A case study in the failure of psychology as a cumulative science: The
spontaneous recovery of verbal learning. L. A. Harlow, S. A. Mulaik, and J. H. Steiger ,
(Ed), What if there were no significance tests? içinde (175-197). Mahwah, NJ: Lawrence
Erlbaum Associates.
Rozeboom, W.W. (1960). The fallacy of the null-hypothesis significance test. Psychological Bulletin, 57, 416-428.
Schmidt, F.L. (1996). Statistical significance testing and cumulative knowledge in
psychology: Implications for training of researchers. Psychological Methods, 1, 115129.
Thompson, B. (1999). Improving research clarity and usefulness with effect size indices as supplements to statistical significance tests. Exceptional Children, 65, 329–337.
Thompson, B. (2002). “Statistical”, “practical”, and “clinical”: How many kinds of significance do counselors need to consider? Journal of Counseling and Development, 80,
64-71.
Türk Psikologlar Derneği (2013). TPD yazım kuralları. Türk Psikoloji Dergisi, 71, 120121.
Wilcox, R. R. (1998). How many discoveries have been lost by ignoring modern statistical methods? American Psychologist, 53,300–314.
Wilcox, R. R. ve Keselman, H. J. (2003). Modern robust data analysis methods: Measures of central tendency. Psychological Methods, 8, 254–274.
Wilkinson, L., ve the Task Force on Statistical Inference (1999). Statistical methods
in psychology journals: Guidelines and explanations. American Psychologist, 54, 594604.
Yıldırım, H. H. ve Yıldırım, S. (2011). Hipotez testi, güven aralığı, etki büyüklüğü ve
merkezi olmayan olasılık dağılımları üzerine. İlköğretim Online, 10, 1112-1123.
Zuckerman, M., Hodgins, H.S., Zuckerman, A. ve Rosenthal, R. (1993). Contemporary
issues in the analysis of data: A survey of 551 psychologists. Psychological Science, 4,
49-53.
Yokluk Hipotezi Anlamlılık Testi Tartışmalarının Psikoloji Araştırmalarına Yansımaları
İdil Işık
Bu yazı nicel psikoloji araştırmalarının çatısını teşkil eden “Yokluk Hipotezi Anlamlılık Testi”ne (Null
Hypothesis Significance Testing, NHST) getirilen eleştirileri tartışmaktadır. NHST araştırmalarda sunulan hipotezlerin istatistiksel olarak analiz edilmesinde, en temel nicel araştırma yöntemi öğretisi olarak
gelenekselleşmiş bir modeldir ve analiz sonucunun değerlendirilmesinde anlamlılık seviyesini gösteren
ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014 79
p (olasılık) değerine odaklanma eğilimi yaratmaktadır. NHST hem psikoloji bilimi genelinde hem de
araştırmacılar özelinde zaman içinde giderek mekanikleşen bir kullanım kazanmış ve önemli eleştirilerin hedefi olmuştur. Bağımlı değişkenin yordanma düzeyi hakkında yeterli bilgi sunamaması ve II. Tip
yordama hatasının (yani, bir etki gerçekte varken, bulunamaması) görece göz ardı edilmesi bu eleştiriler
arasındadır. Bu eleştirilerin özellikle yoğunluk kazandığı 1990’lardan bugüne NHST’nin eksiklik ve sınırlılıkları ile başa çıkabilmek için, NHST sonuçları yanında, etki büyüklüğü (Effect Size, ES) ve güven aralığı
(Confidence Interval, CI) bilgilerinin raporlanmasını minimum gereklilik olarak veren kaynaklar ortaya
çıkmıştır. Ayrıca, istatistiksel güç (Statistical Power) olgusu da, araştırmacıların dikkatini NHST’nin yapısı
içinde yer alan II.Tip yordama hatasına çekmek için literatürdeki yerini almıştır (Cohen, 1988). Bu çalışma kapsamında Türkiye özelinde yapılan bir tarama göstermektedir ki ülkemiz psikoloji yazınında NHST
konusundaki tartışmalar yeterince dikkat çekmemiştir. Yayınlanmış araştırmalarda NHST’nin sınırlılıkları ile başa çıkmak için önerilen etki büyüklüğü ve istatistiksel güç değerlendirmelerinin kullanımına
ilişkin baskın bir tutum da gözlenmemektedir. Psikoloji eğitimi almış kişilerin NHST eleştirilerine dair
ne kadar bilgi sahibi olduğu hakkında kesin bir fikir elde etmemizi sağlayacak veri de bulunmamaktadır.
Bu çerçeveden hareketle bu makalede, NHST üzerinde teorik düzeyde devam eden tartışmaların genel
bir özeti ve değerlendirmesi yapılarak, araştırmacılar için kaynak yaratacak bir derleme sunulmaktadır.
Anahtar sözcükler: yokluk hipotezi anlamlılık testi, etki büyüklüğü, güven aralığı, istatistiksel güç.
Bandora Nîqaşên Testa Watedariyê ya Hîpoteza Tunebûnê ya li ser Lêgerînên Psîkolojîk
İdil Işık
Ev nivîs, rexneyên ku li Testa Watedariyê ya Hîpoteza Tunebûnê (NHST) ya ku bingeha lêgerînên çendanî
yên psîkolojiyê pêk tîne nîqaş dike. NHST’ê wekî modela sereke ya rêbaza dahûrandina hîpotezên
îstatîstîkî yên ku di lêgerînan de têne pêşkêşkirin bi awayekî kevneşopî cihê xwe girtiye.
NHST di analîzkirina îstatîstîkî ya hîpotezên ku di lêgerînan de têne pêşkêşkirin, modeleke bi awayekî
kevneşopî wekî rêbaza lêgerînên çendanî ya sereke cihê xwe girtiye û di nirxandina encama dahûrandinê
de mirov han dide da ku bi hûrbînî bala xwe bidin ser p (dibetî) ya ku asta watedariyê nîşan dide.
NHST di teveka zanista derûnînasiyê de hem jî bi taybetî di nav lêgerîneran de bi domana demê re
rengekî mekanîk wergirtiye û dûçarî gelek rexneyan bûye. Di nav van rexneyan de tiştên mîna der barê
asta pêşbînîkirina guherîneya girêdayî de têra xwe nedana agahiyan û li ber çavan negirtina çewtiya
pêşbînîkirinê ya cureya duyemîn (wate, karîgeriyek di rastiya xwe de heye, lê belê nayê dîtin) hene. Di
salên 1990’î de ku ev cur rexne gelekî zêde bûn, ji bo serederîkirina bi kêmasî û tengasiyên NHST’ê
re, hinek çavkaniyên wisa derketin holê ku wan wekî pêwîsteke hêrî kêm dixwest ku digel encamên
NHST’ê, agahiyên mezinatiya karîgeriyê (Effect Size, ES) û hewana pêbaweriyê (Confidence Interval, CI)
bên raporkirin. Her wiha hêza îstatîstîkî jî ji bo bala lêgerîneran bikêşe ser çewtiya pêşbînîkirina cureya
duyemîn a ku berhemeke pêkhatînî ya NHST’ê di nav lîteratûrê de cihê xwe girt (Cohen 1988).
Vekolan û lidûvçûneke ku bi taybetî di çarçoveya vê xebatê de li Tirkiyeyê hatiye kirin, nîşan dide ku
li Tirkiyeyê di lîteratûrê derûnînasiyê de nîqaşên der barê NHST’ê de têra xwe bal nekişandiye. Di
lêgerînên ku hatine weşandin de ji bo sûdwergirtina ji mezinatiya karîgeriyê û hêza îstatîstîkî ku ji bo
serederîkirina ji dortengiyên NHST’ê re tên pêşniyarkirin, helwesteke berbiçav nehatiye dîtin. Li aliyê
din têra xwe dane jî nîn in ku em bizanin ka kesên ku di warê derûnînasiyê de hatine perwerdekirin der
barê rexneyên li NHST’ê de çendî xwedan agahî ne. Lewma jî, di vê xebatê de, ji bo ku ji lêgerîneran bibe
çavkaniyeke gelemperî û pûxteyî, der barê nîqaşên ku di asteke teorîk de li ser NHST’ê de berdewam
dikin, tê pêşkêşkirin.
Peyvên sereke: testa watedariyê ya hîpoteza tunebûnê, mezinahiya bandorê, navbera pêbaweriyê, hêza
îstatîstîkî
80 ELEŞTİREL PSİKOLOJİ BÜLTENİ, SAYI 5, NİSAN 2014
The Null Hypothesis Significance Testing Debate and Its Implications for Psychological Research
İdil Işık
This paper discusses the critics on Null Hypothesis Significance Testing (NHST) which is eventually the
base of the quantitative research methodology in psychology. NHST is a conventional method in the process of statistical analysis of quantitative data during hypothesis testing that directs the researchers to
focus on the p (probability) value. Over time NHST has created a mechanical approach to the data analysis both at the overall level of psychology and the individual level of researchers and it has been a target
for the crucial critics. It is criticized with respects that NHST does not provide information about the
predictive capacity of independent variables on dependent variable and it overlooks the Type II error
(i.e., as there is an effect it is not recognized). These critics have gained prevalence by 1990s and scientific
studies emerged that advised reporting of Effect Size measures (ES), and Confidence Intervals (CI) as the
minimum requirements to deal with the limitations of NHST. Moreover, statistical power calculations
were proposed as the way to shift the focus of researchers to Type II error (Cohen, 1988). The review
conducted specific to Turkey as part of this article shows that NHST debate does not get attention in the
psychology literature of our country. We do not recognize a dominant attitude in the use of effect size
measures and statistical power calculations in the articles that were published. We do not have data
to evaluate how knowledgeable the people with psychology education are on the NHST debate, either.
Within this framework in this paper, a resource on general review and evaluation of the theoretical discussions on NHST is provided for the researchers.
Keywords: null hypothesis significance testing, effect size, confidence interval, statistical power.