ODTU Istatistik e

Transkript

ODTU Istatistik e
ODTÜ İstatistik e-bülten
Ocak-Mart 2016
Zeynep Kalaylıoğlu
Hoşgeldiniz...
Son e-bültenden beri üç ay geride kaldı. Bu üç ay içerisinde çok şeylerin hızla olduğuna,
değiştiğine, başladığına, bittiğine tanık olduk, oluyoruz...
herşeyi, bilincimizde
farkında
olarak
İnsan beyni ise olan
hissettiğimiz
kederlerden
kaygılardan bağımsız, kaydediyor sürekli. Bize düşen sadece, "yaşamak". Doğanın ve evrenin
ritmiyle uyum içerisinde yaşamak. Matematik ile klasik müzik ve şiir bu ritmde yaşayan
beyinlerin eseri. Ve ünlü matematikçi Gelfand'ın dediği gibi matematik ile klasik müzik ve
şiirin, ortak özellikleri: güzellik, yalınlık, kesinlik, ve çılgın düşünceler (kendisinin kullandığı
tam kelimelerle; beauty, simplicity, exactness, and crazy ideas). Merkezi limit teoreminin de,
bir Tschaikovsky keman konçertosunun da, ve bir Mevlana Celaleddin Rumi şiirinin de insanda
uyandırdığı aynı arılıktaki engin hislerin benzerliği başka nasıl açıklanabilirdi ki ..İnsan beyni,
bu müthiş elektrokimyasal organ, bizi bugün, dünyamızdan bir milyar ışık yılından daha
uzak iki kara deliğin birleşmesi ile ortaya çıkan muazzam çekimle uzay-zamanda oluşan
dalgayı ölçebildiği bir çağa getirdi. Bu sayıda, okuma kısmında, bu ölçümlerin yapıldığı LİGO
Projesin'de, bu müthiş ve Şubat ayında hepimizi yerinden hoplatan sonuçların ardında yatan
istatistiksel veri analizlerinden bahsedeceğiz. Ayrıca geçen sayımızda da olduğu gibi, bu sayıda
da bölümümüzde çalışılan doktora araştırmalarından birisine yer verdik. Ve yine bu sayıda da,
geçtiğimiz
üç
ayda
bölümümüzde
gerçekleşen
araştırma-eğitim-topluma
hizmet
faaliyetlerinden oluşan bir örneklem sunacağız.
Doç. Dr. Zeynep Kalaylioglu
ODTÜ İstatistik Bölümü
Bölüm Başkan Yardımcısı
2
Kısa Kısa...
•
Mezunlarımızdan Dr.Timur Hülagü (T.C.Merkez Bankası) "İstatistik Dünyasında Son
Eğilimler: Büyük Veri, Veri Paylaşımı ve Üniversite-Kamu İşbirliği" konulu bir seminer
vermiştir.
•
Mezunlarımızdan Dr. Pınar Erdem (T.C. Merkez Bankası) "Are Macroprudential Policies
Effective Tools to Reduce Credit Growth in Emerging Markets?" başlıklı bir seminer
vermiştir.
•
Öğretim üyelerimizden Doç.Dr. Vilda Purutçuoğlu'nun, 23 Mart 2016 tarihinde düzenlenen
“European Cooperation for Statistics of Network Data Science” adlı COST Projesinde
Türkiye adına yönetim komitesi üyesi olarak Yönetim Komitesi 1.Toplantısı’na katılmak
üzere Belçika’ya gitmesi planlanmıştı (22 Mart Brüksel terör olayı ile ertlendi).
•
İstatistik Topluluğu’nca, psikolog ve yazar Azra Kohen'in konuşmacı olarak katıldığı bir
söyleşi düzenlenmiştir.
•
İstatistik Topluluğu’nun bu yıl başlattığı 1 ay 1 mezun etkinlikleri kapsamında, Mart
ayında, 1989 Mezunu Hakan Şahin iş hayatındaki tecrübelerini içeren bir sunum ve ardından
söyleşide bulundu.
•
Matematiksel İstatistik dersi öğrencilerimiz, mezunlarımızdan Cem Şen (Türk Tuborg) ile bir
söyleşiye katılmışlardır.
•
ODTÜ Rektörlük Bilimsel Araştırma Projeleri Koordinatörlüğün'den destekli birinci
İstatistik Kampüs Projes'ni hayata geçirdik. Proje konusu ODTÜ kampüsünde çöp kutularının
içerisine girmeyen katı atıkların analizi ve çözüm önerileri. Lisans öğrencilerinden oluşan 20
kişilik araştırma ekibimiz ve konuyla ilgili olarak Çevre Mühendisligin'den bir akademik
danışman ile çöp kutularının dışında yerlerde bulunan geri dönüştürülebilecek atıklar ve gıda
atıklarının mekansal ve zamansal dağılmı modellenecek, analizlerle birlikte proje sonucunda,
çevre kirliliği, hijyen ve çevre estetiğini korumak için çöp kutularının ve konteynırlarının
3
sayıları ve lokasyonlarına dair bir model oluşturulacaktır.
Araştırma.
Zaman Serilerinde Kümeleme Analizi ve Kümelerin Zamansal Bağımlılığı
Sipan Aslan,
ODTÜ İstatistik Bölümü Doktora öğrencisi
İktisat, sosyoloji, işletme, arkeometri, biyoloji, meteoroloji, bilgisayar bilimleri, sinir bilimleri
gibi pek çok ve farklı disiplinlerde oldukça yaygın uygulama alanı bulunan kümeleme
(clustering) analizi, etiket(label) ya da taksonomik bilgileri bilinmeyen gözlemler arasından
türdeş özellikte ki gözlem gruplarının belirlenmesi amacına yönelik geliştirilen istatistiki
yöntemler bütünü olarak tanımlanabilir. Kümeleme analizi, gözlemlerin gerçekte ait
olabileceği taksonomik (class) bilgileri bilinmediği için öğreticisiz(unsupervised) öğrenmeye
dayalı olmak durumundadır. Diğer bir deyişle, elimizdeki gözlemlerin sınıflarını tanımlayan
niteliksel bilgiler mevcut olsaydı (yani bir öğretici araca sahip olabilseydik) gözlemlerin bu
taksonomik bilgilerle uyumluluğunu belirlemek ve sınıflamak (classification) öğreticili
(supervised) öğrenmeyle ve neredeyse matematiksel bir kesinlikle mümkün olabilecekti.
Örneğin, bir fabrika üretim sürecinde bozuk ürün ve sağlam ürün sınıflarını betimleyen bilgilere
tümüyle sahip olduğumuzu düşünelim. Üretim bandından çıkan son ürünün bu iki sınıftan
hangisine ait olduğunu belirlemek pek zor olmayacaktır. Bu açıdan bakıldığında, kümeleme
analizinde, sınıflamadan farklı olarak, bilimsel (belirli bir amaca yönelik ve sınanabilir) bir
nitelik taşıyan, kendi içinde türdeş(homojen) birbirleri arasındaysa türdeş olmayan (heterojen)
grupların elde edilmesi amacıyla yönelebileceğimiz ve araştırabileceğimiz tek şeyin sadece
gözlemlerin sahip olduğu değişkenlikler olduğunu görmekteyiz. Bu inceleme, istatistik
biliminin konusu olmakla birlikte, analizlerden elde edilen bilgilerin birbiriyle kıyaslanması
için de yine istatistiki özellikte bir ölçeğe ihtiyacımız olacaktır.
4
Literatürde, kümeleme analizleri için kullanabilecek pek çok yöntem mevcut olmakla birlikte,
tartışmamız, kümeleme analizine konu olacak verilerin zamana bağımlı (dinamik) olması ya da
zamana bağımlı olmaması (statik) gibi temel ve belirleyici doğal durumları üzerine
derinleştirilebilir. Burada akla gelen temel sorulardan biri, kümeleme analizinde
kullanacağımız yöntemlerin, zamana bağımlı veri yapılarını (zaman serisi verilerini) incelemek
söz konusu olduğunda ne derece etkin olabilecekleridir. Çünkü zamana bağlı verilerin dizisel
korelasyon (autocorrelation) içermesi ve yine zaman serisi değişkenlerinin birbiriyle olan
ilişkilerinin zamana bağımlı değişkenlikler sergileyebilmesi analiz aşamasında çözümleri
araştırılması gereken olgulardır. Kısaca belirtmek gerekirse, kümeleme probleminde zaman
serileri söz konusu olduğunda, zaman boyutundan bağımsız bir analiz yöntemi uygun bir
yaklaşım olmayacaktır. Doktora çalışmamızın hedeflerini bu sorunsal üzerinde kurgulayıp,
zaman serisi kümeleme literatürüne bu yönüyle katkıda bulunmayı amaçlamaktayız. Konuya
ilişkin ayrıntılı bilgi ve literatür taraması için Liao (2005); Fu (2011) ve Aghabozorgi vd.
(2015) örnek olarak verilebilir.
Doktora tez çalışmamızda, zaman serilerinde kümeleme analizi üzerine önerdiğimiz
yaklaşımdan bahsetmeden önce, tezimizde tartıştığımız konun daha kolay anlaşılması
bakımından, üzerinde çalıştığımız uygulama alanlarından birisi üzerine okuyucunun dikkatini
çekmek isteriz.
Uygulama örneği olarak vermek istediğimiz problem, Türkiye iklim bölgelerinin kümeleme
analiziyle belirlenmesi problemi olarak adlandırılabilir. Bu uygulamada incelediğimiz veriler,
ülke geneline yayılmış meteorolojik gözlem istasyonlarından elde edilen sıcaklık, yağış, basınç
vb. gibi meteorolojik değişkenlerin geçmişe dayalı yer gözlemleridir. Burada, kümeleme
analizine esas teşkil eden gözlem istasyonları, çok değişkenli zaman serileriyle ifade
edilmektedirler. İstasyonları, gözlemledikleri zaman serilerini baz alarak, birbiriyle olan
benzerlikleri ya da türdeşlikleri bakımından gruplara ayırmayı hedeflemekteyiz. Grup içi
benzerlik düzeyinin en yüksek olduğu ve aynı zamanda gruplar arası benzerlik düzeylerinin en
düşük olduğu durumda ortaya çıkan sonuç (harita) iklimsel açıdan değerlendirilebilecek ve
farklı iklim bölgelerinin ayrıştırılıp tartışılabileceği bilgiyi üretecektir. Örneğin, Şekil 1 de,
1950 – 1980 yılları arası sadece aylık toplam yağış değişkenin değerlendirildiği kümeleme
analizine ilişkin sonuçları görmekteyiz. Bu örnek haritada, daireyle gösterilen noktalar istasyon
lokasyonlarını, farklı renkte gösterilen bölgeler (12 bölge) ise analiz sonucunda aynı
grupta/kümede yer alan istasyonları göstermektedir.
5
Çalışmamızda üzerinde durduğumuz ve tartışmak istediğimiz diğer önemli bir konu ise küme
yapılarının da zamana bağımlı olabilecek yapılarını belirleyebilmektir. Zaman periyodu
değiştikçe küme yapılarında da değişkenlik beklenebilir. Dolayısıyla kümeleme analizinde
kullanılan yöntemin bu türden değişkenlikleri dikkate alacak şekilde belirlenmesi önemlidir.
Örneğin, Şekil 2 de gördüğümüz üzere, yağış değişkeni için analize tabi tutulan zaman periyodu
1981 – 2010 olarak alındığında, küme yapılarında 1950 – 1980 dönemine göre bazı değişimler
gözlemlenmektedir.
Tezimizde önerdiğimiz zaman serileri kümeleme yaklaşımının geçerliliğini sınadıktan sonra,
yukarıda verdiğimiz örnek özelinde, küme yapılarında gözlemlediğimiz zamana bağlı
değişimlerin iklim değişikliği açısından yorumlanabilecek sonuçlar olduğunu söylemek
mümkün olabilecektir.
Türkiye iklim bölgelerinin kümeleme yöntemiyle belirlenmesi probleminde kısaca
örneklediğimiz ve doktora tez çalışmamızda konu edindiğimiz soruları iki ana başlık altında
genelleştirilebiliriz. (I) - Zaman serilerinde kümeleme analizi için uygun yaklaşımın
araştırılması. (II) - Önerilen yaklaşımın zamana bağlı küme yapılarının elde edilmesine elverişli
olup olmadığının incelenmesi.
Zaman serilerinde kümeleme problemine önerdiğimiz yaklaşım, temel olarak, serileri meydana
getiren ve gerçek yapısını bilemeyeceğimiz veri üretim mekanizmaları hakkında ayırt edici
bilgiler edinmeye dayanmaktadır. Diğer bir deyişle, zaman serilerinin birbirlerine
benzerliklerinin doğru bir şekilde belirlenmesi ve gruplanması için, serileri üreten “kaynak”
yapılar hakkında model bazlı yaklaşımlar ile ayırt edici bilgilere ulaşmak gereklidir. İdeal
durum, yukarıda verilen fabrika örneğinde olduğu üzere, serileri üreten mekanizmaların
tümüyle biliniyor olduğu durumdur ve incelenen serilerin bu mekanizmalara uygunluğunun
araştırılmasıyla sınıflandırılmaları mümkündür. Gerçekte karşılaştığımız durum çoğunlukla
ideal durumun tam tersidir. Örneğin, zaman serileri analizinde yapılan uygulamalar, seriyi
meydana getiren asıl mekanizmanın bilinmesi mümkün olmadığı için, genellikle seriyi üreten
veri mekanizmasına istatistiksel zaman serisi modelleri aracılığıyla yaklaştırımda
(approximation) bulunmaya dayanmaktadır. Burada ancak kullanışlı işe yarar modellerden
bahsetmek mümkündür ki, bu da önerdiğimiz kümeleme yaklaşımın temel dayanağını
oluşturmaktadır. Bu bağlamda, önerdiğimiz kümeleme yaklaşımının model bazlı kümeleme
analizi sınıfına dâhil olduğunu ifade edebiliriz ve yaklaşımın aşamalarını 4 adımda
genelleştirebiliriz;
6
• Yaklaşımda kullanılacak zaman serisi modellerinin belirlenmesi.
• Kümeleme analizinde incelenen serilerin belirlenen modellerle olan ortaklıklarının belirlenip
özellik (feature) vektörlerine/matrislerine dönüştürülmesi.
• Her bir seriye ilişkin özellik vektörlerinin/matrislerinin karşılaştırılması ve gruplanması.
• Özellik vektörlerinin/matrislerinin zamana bağlı değişimlerini göz önüne alarak zamana
bağlı küme yapılarının belirlenmesi.
Önerdiğimiz yaklaşımın etkinliği bir dizi simülasyon senaryosuyla sınanarak ve gerçek veriler
üzerine (EEG sinyalleri ve Emtia fiyat serileri) uygulamalarla örneklendirilerek
değerlendirilmektedir.
Kaynaklar:
1. Liao, T. W. (2005). Clustering of time series data survey. Pattern recognition 38
(11), 1857-1874.
2. Fu, T.C. (2011). A review on time series data mining. Engineering Applications of
Artificial Intelligence 24 (1), 164-181.
3. Aghabozorgi, S., A. S. Shirkhorshidi, and T. Y. Wah (2015). Time-series clusteringa decade review. Information Systems 53, 16-38.
________________________
Sipan Aslan, doktorasına ODTÜ İstatistik Bölümün'de, Yrd. Doç. Dr. Ceylan Yozgatlıgil ve
Doç. Dr. Cem İyigün (ODTÜ Endüstri Mühendisliği Bölümü) danışmanlığında devam
etmektedir
7
Ligo Projesi: Gözlemevlerinden elde edilen sinyal verilerinin istatistiksel analizleri ve iki kara
deliğin birleşmesi ile uzay-zamanda ortaya çıkan dalganın keşfi
Doç. Dr. Zeynep Kalaylioglu
Şubat ayında Ligo Projesin'de çalışan bilim insanları (astrofizik, matematik, istatistik vb. alanlarındaki
araştırmacılardan oluşan 127 kişilik bir araştırma ekibi), Physical Review Letters dergisinde bir makale
yayımladılar. Makalenin başlığı "İkili kara delik birleşiminden gelen çekimsel dalga gözlemleri Observations of gravitational waves from a binary black hole merger" idi. Bu yayınla birlikte dünyadaki
yaygın haber kanalları (başta BBC olmak üzere), bu haberi bilimsel dergiden çıkarıp dünyadaki bütün
insanlara ulaştırdılar. Bulgular çok önemliydi. Çünkü: uzay-zamandaki çekimsel dalgalara dair (yani
birşeylerin muazzam bir çekim gücü ile boşlukta yarattığı dalgalanma) ilk gözlemdiler; kara deliklerin
varlığına dair ilk bulguydular; ve Einstein'in genel izafiyet teorisini destekliyorlardi. Einstein 100 yıl
önce kara deliklerin karakteristik özelliklerini tahmin etmişti ve bulunan bu bulgular bu özelliklerle
tutarlılık içerisinde.
Ligo Projesi çerçevesinde, Washington (yukarıdaki fotoğraf) ve Louisianaeyaletlerinin kuş uçmaz
kervan geçmez yörelerinde kurulan gözlemevlerinde kaydedilen zaman serisi verileri (sinyaller) analiz
8
ediliyordu 1995'lerden beri. Bu gözlemevlerinin her birinde 4'er km. uzanan 2 kol var. Bu kollar,
uzaydan gelen sinyalleri kaydederken, aynı zamanlarda görülmesi beklenen sinyalleri de simüle edip
kaydediyor. Yani hem gerçek hem de simüle edilen sinyaller var. Ve herşey yolunda gittiğinde gerçek
ve simüle edilen sinyallerin aynı olması bekleniyor. Arada fark olması, uzaydan gelen verilerde
uzaydaki çekimsel dalgalanmadan kaynaklı bir bozukluk (distortion) olmasına işaret ediyor.
Verilerin 1995'lerden beri yapılan analizlerindeki amaç parametre tahminleri ve diğer istatistiksel
çıkarımlarda bulunmak idi. Bunun için Bayesci tahmin yöntemleri ve bu yöntemleri uygulamak
için Markov zinciri Monte Carlo (Markov chain Monte Carlo) algoritmaları kullanıldı.Bu analizlerin
sonucunda %90 güven aralıkları (Bayesci felsefede bunlara güven aralığı-confidence interval yerine
credible interval diyoruz) oluşturuldu. %10'luk hata payı bu kadar ses getiren sonuçların ardında yatan
büyük bir hata payı gibi görünüyor ancak, LİGO projesindeki araştırmacılar, bu sinyallerden elde edilen
verilerin yanlış alarm verme oranını 203,000 yılda bir olarak hesapladılar. %10'luk hata payını bu
çerçeveden değerlendirmek gerek.
Bu analizlerde kullanlan istatistiksel modellerden birisi, Yeni Zelanda Üniversitesi İstatistik
Bölümün'den, bizim de birebir tanıdığımız bir meslektaşımızın, Physical Review dergisinde basılan
Bayesci modeli. Çekimsel dalga gözlemlerinin olasılık yoğunluk fonksiyonunu tahmin icin yarıparametrik bir model. Bunun için daha önce kullanılan modeller Student t dağılımına dayalı modellerdi.
Bu dağılımın avantajı, kuyruklarının Normal dağılıma kıyasla daha uzun olması ve böylece merkezdan
daha uzaktaki verileri de anlamlandırabilme avantajı. Ancak bu dağılımın çekimsel dalga verileri
analizlerinde bias yarattığı ortaya çıktı. Bernstein polinomlarının önsel dağılım olarak kullanıldığı
Bayesci yarı-parametrik yöntemde ise bu biasin sözkonusu olmadığı görüldü.
İnsanoğlunun kumarda kazanma arzusuyla doğan İstatistik biliminin 21. yy'da bizleri getirdiği yer
gerçekten heyecan verici....
9
10
11