k - Eskişehir Osmangazi Üniversitesi
Transkript
k - Eskişehir Osmangazi Üniversitesi
Eskiúehir OsmangaziÜniversitesiMühendislikMimarlõkFakültesiDergisiCilt : XXIV, Sayõ : 2, 2011 Journal of Engineeringand Architecture Faculty of Eskiúehir Osmangazi University, Vol : XXIV, No: 2, 2011 Makalenin Geliú Tarihi : 31.05.2011 Makalenin Kabul Tarihi : 05.06.2011 VøDEO DøZøLERøNDE HAREKET TANIMA Celal Murat KANDEMøR1, Nihat ADAR2 ÖZET: Bu çalõúmada, video dizilerinden insan hareketlerinin tanõnmasõ için yapay sinir a÷õ (YSA) ve saklõmarkov modelini (SMM) temel alan insan hareket tanõma sistemleri modellenmiútir. Hareket tespit ve tanõma sistemi üç aúama içermektedir. Birinci aúamada, video çerçevelerinde insan pozu tespit edilmektedir. økinci aúamada, hareketlere ait poz dizileri elde edilmektedir. Üçüncü aúamada, YSA ve SMM tabanlõ tanõma modelleri hareket tanõma için kullanõlõr. Önerilen YSA modeli yüksek tanõma oranlarõna sahiptir. Bununla birlikte, SMMmodeliiçinyenieylemleröncekie÷itimliSMM’lerdeherhangi birde÷iúiklikyapmadankolaycaeklenebilir. ANAHTAR KELøMELER: HareketTanõma, PozSembolü, PozDizisi, YSA, SMM. ACTION RECOGNITION IN VIDEO SEQUENCE ABSTRACT:In this study, human activity recognition systems based on Artificial Neural Networks (ANN) and Hidden Markov Model (HMM) are modeled for recognition of the human activities from video sequences. The action recognition system models consist of three stages. At the first stage, human pose is detected in video frames. At the second stage, the pose sequences are obtained. At the third stage, ANN, and HMM based recognition models are used for action recognition. Sugested ANN model has higher recognition rate. However, for the HMM models new actions can be easily added without making any changes in the previous trained HMM. KEYWORDS: Action Recognition, Pose Symbols, Pose Sequence, ANN, HMM. 1 2 Eskiúehir Osmangazi Üniversitesi, E÷itim Fakültesi, Bilgisayar Ö÷retim Teknolojileri Bölümü, Meúelik Kamp., ESKøùEHøR Eskiúehir Osmangazi Üniversitesi, Mühendislik Mimarlõk Fakültesi, Bilg.Müh.Böl.,26480 Meúelik Kamp., ESKøùEHøR 102 Celal Murat KANDEMøR, Nihat ADAR I. GøRøù Günümüzde video görüntülerinden oluúan veri miktarõ güvenlik ve izleme kamera kayõtlarõ gibi yaygõn kullanõm nedeniyle çok artmõútõr. Bu kadar çok verinin gerçek zamanlõ ve do÷ru olarak anlamlandõrõlabilmesi ancak bilgisayar tabanlõ aktivite tanõma sistemleri ile mümkün olabilmektedir. Aktivite tanõma yöntemlerinin zamansal ve yersel küçük de÷iúiklere karúõ gürbüz bir davranõú sergilemesi için ihtiyaç duydu÷u iki önemli gereksinimi ö÷renme ve tanõma algoritmalarõdõr. Yapay sinir a÷larõ, zamanla de÷iúen verilerin analizinde sõklõkla kullanõlan bir yöntemdir. Bununla birlikte a÷larõn e÷itilmesi için genellikle çok büyük veri kümelerine ihtiyaç duyulmaktadõr. Zamangecikme iúlevselli÷inin dahil edilebilmesi amacõyla çalõúmalar yapõlmõútõr. YangveAhuja zaman- gecikmeli yapay sinir a÷larõnõ el hareketi tanõmada uygulanmõú ve yüksek tanõma oranlarõ elde etmiútir [1]. Video dizisindeki imgeler ile ilgilenildi÷inde test ve referans çerçeveler arasõndaki birbiriyle uyuúmayan zaman ölçe÷inde çalõúõlabilmesi bir avantaj sa÷lamaktadõr. Myersvd. Q uzunlu÷undaki test örüntüsü ve P úablonun referans örüntüleri verildi÷inde test ve referans örüntüleri arasõnda en iyi eúleúmenin dinamik programlama ile bulunulabilece÷ini ileri sürmüútür [2]. Raovd. çalõúmasõnda, video dizisindeki hareketli nesnelere ait yörüngelerin yer-zaman e÷rilerini hesaplamõú ve dinamik zaman e÷ritmesi yöntemi kullanarak bunlarõ eúleútirmiútir [3]. Genel anlamda dinamik zaman e÷ritmesi, iki farklõ iúaret arasõndaki örüntü benzerli÷inin, kesin kõsõtlamalar altõnda dinamik eúleúmesi yoluyla hesaplanmasõnda kullanõlmaktadõr. Bu yöntem ses tanõmadan sonra insan aktivitelerinin tanõnmasõnda uygulanmõútõr [4]. Fourier dönüúümü, temel bileúenler analizindeki gibi veri ayrõútõrmak için kullanõlabilmektedir. Cunadovd. yürümeyi gösteren imge dizisindeki insan bacak hareketine ait e÷rileri Hough dönüúümü yardõmõyla çõkarmõútõr. Bu e÷rilerin e÷imi basit bir harmonik hareketi takip etti÷i görülmüú ve bu harmonik hareketler yürüyüú parametreleri olarak kullanõlmõútõr. E÷rilerdeki kayõp noktalar en küçük kareler yöntemiyle birleútirilerek bacak e÷rilerinin e÷im de÷iúikliklerini göstermek hareketleri tanõmak için Fourier dönüúümden yararlanõlmõútõr [5]. Di÷er bir çalõúmada ise insan siluetinin uç noktalarõndan faydalanõlarak çõkartõlan yõldõz gösterime fourier dönüúüm uygulanmasõyla yürüyüú çevrimlerinin sezimi ve tanõnmasõ sa÷lanmõútõr [6]. ùablon eúleme tekni÷inde, bir imge dizisi dura÷an úekil örüntülerine dönüútürülür ve bu örüntüler önceden tanõma için hazõrlanmõú örüntü úablonlarõ ile karúõlaútõrõlarak uygun eúleúmenin bulunmasõ sa÷lanõr. ùablon eúleme yöntemi, harekete ait dinamik karakteristiklerin kaybolmasõna sebep olabilmekte ve hareketin süresindeki bir de÷iúime çok hassas olmaktadõr. Bobick vd. insan hareketini tanõmak için hareket geçmiúi imgeleri ve hareket enerji imgeleri olmak üzere iki zamansal úablon yaratmõútõr. Hareket Video Dizilerinde Hareket Tanõma 103 enerji imgeleri (HEø), ikilik imgeler olup imge dizisi içinde hareketin oluútu÷u yeri göstermektedir. Hareket geçmiúi imgeleri (HGø) ise yerel hareket geçmiúinin bir fonksiyonu olarak her bir bölgedeki õúõk úiddetinin gösterildi÷i skalar imgelerdir [7]. Bazõ durumlarda hareket enerji imgeleri ile ayrõlmasõ kolay olmayan hareketler için her iki úablonun birlikte de÷erlendirilmesi gerekebilmektedir Collinsvd. test dizilerinden anahtar çerçeveleri çõkararak döngüsel yürüyüú analizini gerçekleútirmiútir. Bu çerçeveler, e÷itilmiú çerçevelerle normalleútirilmiú ba÷lõlaúõm yöntemi kullanõlarak karúõlaútõrõlmõú ve nesne sõnõflandõrmasõ bu karúõlaútõrma sonucunda elde edilen de÷erler üzerinden en yakõn komúuluk yöntemiyle gerçekleútirilmiútir [8]. Hareketi gösteren imge dizileri gürültülü olabilmektedir. Aktiviteler kõsmen veya tamamen örtülmüú veya arkaplan iyi bir bölütlemeye imkân tanõmayacak kadar parazitli olabilir. Benzer durumlar için tanõmda kullanõlmak için olasõlõksal yapõlar geliútirilmiútir. Bu yapõlarda, tanõma kararõ en yüksek gerçekleúme olasõlõ÷õna sahip aktivitenin tercih edilmesi temeline dayanmaktadõr. Bu yapõlar içerisinde en yaygõn kullanõlanõ ve bilineni saklõ markov modelleridir. Saklõ markov modeli, e÷itim tabanlõ tanõma tekni÷i olarak ses tanõmada baúarõ ile kullanõlmaktadõr. Saklõ markov modeli yardõmõyla hareket tanõma problemi bir örüntü tanõma problemine dönüútürülmektedir. Yamatovd. saklõ markov modeli kullanõlarak insan hareketinin tanõnmasõ konusundaki ilk çalõúmalardan birini gerçekleútirmiútir [9]. Bregler, insan hareketlerini de÷iúik soyutlama seviyelerinde olasõlõksal parçalarõna ayõrmõú ve olasõlõk da÷õlõmõnõn uzay, zaman ve soyutlama seviyeleri üzerindeki yayõlõmlarõnõn nasõl oldu÷unu göstermiútir [10]. Yürüyüú stili ve insan aktivitesi tanõma için farklõ saklõ markov modelleri araútõrmalarda kullanõlmõútõr [11]. Bregler’in çalõúmasõnda, beklenti enbüyükleme algoritmasõ ile elde edilen birbiriyle uyumlu hareket alanlarõnõ, dinamik sistemlerle ifade etmiú ve karmaúõk insan hareketleri saklõ markov modeli ile gösterilmiútir. Saklõ markov modelinde art arda gelen her bir faz basit hareketleri göstermektedir ve bunlar “movemes” olarak adlandõrõlmõútõr. IvanovveBobick, tanõma problemini iki seviyeye ayõrdõklarõ stokastik bir ayõrma yöntemi geliútirmiúlerdir. Birinci seviyede, saklõ markov modelleri gibi ba÷õmsõz olasõlõksal olay sezicileri yardõmõyla mümkün olan düúük-seviye olay öznitelikleri tahmin edilerek stokastik ba÷lama-duyarsõz ayrõútõrma mekanizmasõna girdi sa÷lanõyordu. Bu mekanizma ile tanõma sürecine önsel bilgi ve zamansal kõsõtlarõn aktarõlabilmesine olanak sa÷lamõútõr [12]. Arkaplan çõkarma, vücut pozu bulma ve hareket tanõma olmak üzere üç adõmdan meydana gelen çalõúmada yer-zaman boyutunda tanõmlanmõú olan insan pozlarõ “movelet” olarak adlandõrõlmõútõr [13]. Bir movelet, vücudun ana bölümlerine ba÷lõ imge parçalarõnõn, birbirini izleyen çerçevelerdeki úekli, hareketi ve örtüúmesinden elde edilmiú bir koleksiyondur. Movelet’lerin bulunmasõ için veri kümesi içindeki kiúilere her bir vücut parçasõ farklõ renkte olacak úekilde özel kõyafetler giydirilerek farklõ hareketler yaptõrõlmõútõr. Tanõma iúlemi, video dizisi içinde yaralan en uygun aktivite ve kod kelimeleri dizisinin saklõ markov modeli kullanõlarak tahmin edilmesiyle gerçekleútirilmektedir. Chenvd. insan pozlarõ için tanõmlayõcõ olarak 104 Celal Murat KANDEMøR, Nihat ADAR yõldõz iskeleti yapõsõnõ kullandõklarõ saklõ markov modeli tabanlõ bir aktivite tanõma sistemi önermiúlerdir [14]. Hatun ve Duygulu’nun gerçekleútirdi÷i çalõúmada her bir video çerçevesindeki pozlar yönlü gradyanlarõn histogramõ (histogram of orientedgradients) olarak tanõmlanmaktadõr. Hareketlerin sõnõflandõrõlõp tanõnmasõ için çok büyük boyutlu poz uzayõnda poz kelimelerinin kümelenerek hareketleri oluúturan pozlarõn daha az boyutlu uzaylarda temsil edilmesine yarayan kelime çantasõ (Bag of Words) yöntemi kullanõlmaktadõr. Bu yöntem pozlarõn hareket içerisindeki dizilimleri yerine hareket içerisinde bulunup bulunmadõ÷õna göre tanõma gerçekleútirmektedir [15]. Ancak pozlarõn dizilimi hareketi tanõmlamanõn önemli bir verisidir. Bu çalõúmada önerilen sõralõ poz dizilimi ile çalõúõlan SMM yöntemi, Güçlü ve Adar’õn yaptõklarõ çalõúmada kelime çantasõ yöntemi ile kõyaslanmõútõr. Kelime çantasõ yöntemi ile yapõlan çalõúmada %60, sõralõ poz dizilimi ile yapõlan SMM yönteminde %90 baúarõlõ tanõma gerçekleútirildi÷i gösterilmiútir [16]. ønsan hareketleri, bir dizi pozun zaman düzleminde arka arkaya gelmesiyle gösterilebilmektedir. Konuúma dilinde seslerin heceleri, hecelerin de birleúerek kelimeleri oluúturmalarõna benzer yapõda insan pozlarõ da bir araya gelerek insanõn gerçekleútirdi÷i hareketleri oluúturmaktadõr [17]. Bu çalõúmada, hareketi oluúturan pozlarõn tanõmlanmasõnda resimsel yapõ modeli kullanõlmõútõr. Kenartabanlõ biçim de÷iútirir model yaklaúõmlõ algoritma yardõmõyla insan pozlarõna ait öznitelik vektörleri bulunur. Tüm çerçevelere ait öznitelik vektörlerinden oluúan öznitelik matrisi K-ortalama yöntemi ile sõnõflandõrõlarak poz kod kitabõ oluúturulur. Video dizisindeki çerçevelerde elde edilen öznitelik vektörleri kod kitabõndaki kendisine en çok benzeyen (en düúük mesafeye sahip) kod kelimesini ifade eden sembollere eúlenmesi sonucunda harekete ait poz sembol dizisi elde edilir. Her bir çerçevede bulunan pozlar ile elde edilmiú olan poz dizileri ile hareketi tanõmak için iki yöntem önerilmiútir. Bu yöntemlerden saklõ markov modelinde her bir hareket için ayrõ model kullanõlmakta ve bu modellerin sonucuna göre tanõma kararõ üretilmektedir. Bu yaklaúõmda her bir hareket farklõ alt model ile tanõndõ÷õndan tanõma iúlemi paralel ve gerçek zamanlõ gerçekleútirilebilir. Çalõúmada, tanõma için önerilen di÷er yöntem olan Yapay sinir a÷õ modelinde ise poz dizileri ile öncelikle e÷itim uygulanmakta, daha sonra test poz dizileri ile hareket tanõma baúarõmõ sorgulanmaktadõr. Bu yöntemde, test aúamasõ çok hõzlõ çalõúmakla beraber yeni hareketlerin sisteme tanõtõlmasõ sürecinde önceki e÷itim setinde yapõlmõú tüm iúlemler baútan tekrar edilmek zorundadõr. 105 Video Dizilerinde Hareket Tanõma II. HAREKETE AøT POZ SEMBOL DøZøLERøNøN BULUNMASI Kenar-tabanlõ biçim-de÷iútirir modelde, insan vücudu her bir parçanõn sabit büyüklükte yönlü dörtgenler ile gösterildi÷i K parçadan oluúmaktadõr. Temel olasõlõksal model, a÷aç-yapõlõ koúullu rastsal alandõr. Her bir parça, imgedeki yeri ve yönü cinsinden li=[xi,yi,Ϊi] olarak gösterilmektedir. Parçalarõn sabit büyüklükte en üst noktasõ (xi,yi) verilmiú olan yönlü dörtgenlerden oluútu÷u varsayõlmaktadõr. Buna göre K parçalõ model L=(l1, l2, …,lk) ile gösterilebilir. K=10 adet parçadan oluúmuú insan modeli ùekil 1 (a)’da görüldü÷ü gibi ifade edilebilmektedir [18]. lk=[ xi,yi, ui,vi]úeklindeki ifadede (xi,yi) parçalarõn üst son noktasõnõ gösterirken (ui,vi) vücut içinde yukarõdan aúa÷õ yönü gösteren birim vektördür. Video dizilerindeki çerçevelerde insan resimsel yapõ modelini elde etmek için bir araç geliútirilmiútir. Video dizilerinde resimsel yapõyõ oluúturan lk yönlü dörtgenlerinin yerleri ilk çerçevede tespit edilmektedir. Resimsel yapõyõ oluúturan parçalar, bir sonraki çerçevede daha önce bulundu÷u bölgeden piksel bazõnda çok uzak mesafede bulunamayaca÷õ için, hareket vektörleri elde etme yaklaúõmlarõnda kullanõlan üç adõm arama metodu yardõmõyla [19] bu parçalar belli yakõnlõktaki piksel mesafelerinde aranarak her bir çerçevedeki insan resimsel modeli bulunmaktadõr. Bu araç yardõmõyla resimsel yapõyõ oluúturan parçalar otomatik olarak bulunmaktadõr. ùekil 1. ønsan vücut modeli(a) insan vücudunun 10 parça ile ifade edilmesi, (b) parçalarõn a÷aç yapõsõndaki yönsüz çizgesi. II.1. Öznitelik Vektörleri Video dizisini oluúturan çerçevelerde insan pozlarõnõn resimsel yapõ modelleri, öznitelik vektörleri olarak ifade edilmektedir. Farklõ hareketlere ait video dizilerindeki tüm öznitelik vektörleri F = f1 , f 2 , f 3 ,....., f T k-ortalamalar kullanõlarak sõnõf merkezleri hesap edilir. Bu sõnõf merkezlerine 106 Celal Murat KANDEMøR, Nihat ADAR P = P1 , P2 , P3 ,....., PN poz sembolleri atanarak poz sembollerinden (kod kelimeleri) oluúmuú bir kod kitabõ elde edilir. Resimsel yapõ modelinde l k , k. vücut parçasõnõ göstermek üzere her bir parça eúitlik (1) ile ifade edilmektedir. l k = [x k , y k , u k , v k , tip k ]; k = 1..10 Buna ba÷lõ olarak i. (1) çerçevedeki poza ait f i , öznitelik vektörü de eúitlik (2)’de belirtildi÷i úekilde gösterilebilir. f i = [l1 l2 l3 l4 l5 l6 l7 l8 l9 l10 ] T (2) ønsan figürüne ait resimsel yapõyõ oluúturan parçalarõn ( x, y ) de÷erleri çerçeveden çerçeveye de÷iúebildi÷i için resimsel yapõda bulunan kafaya ait parçanõn ( x, y ) de÷erleri merkez alõnarak di÷er parçalarõn ( x, y ) de÷erleri kafaya göre tekrar hesaplanõr. l10 , kafayõ ifade eden resimsel yapõ modeli parçasõ olmakla birlikte her bir parça için ∆x, ∆y de÷erleri eúitlik (3) ve (4) ile hesaplanõr. ∆xk = x10 − xk (3) ∆y k = y10 − y k (4) Eúitlik (3) ve (4) kullanõlarak gerçekleútirilen normalizasyondan sonra resimsel yapõ modeline ait vücut parçalarõna ait bileúenler eúitlik (5) ile verilen vektör ile ifade edilebilir. l k = [∆x k , ∆y k , u k , v k , tip k ] (5) II.2. Öznitelik Vektörleri øle Sembol Eúleúmesi Hareket tanõma için günlük hayattaki beú temel harekete ait videolardan oluúturulmuú bir veritabanõndan yararlanõlmõútõr. Video veritabanõndaki farklõ hareketlere ait 5000 çerçevede insan pozlarõ tespit edilerek pozlara ait öznitelik vektörleri çõkarõlmõútõr. Bu öznitelik vektörleri K-ortalama yöntemi kullanõlarak n adet kod kelimesine sahip kod kitaplarõ oluúturacak úekilde sõnõflandõrõlmõúlardõr. Farklõ kod kelimesi sayõlarõ belirlenirken kol ve bacak gibi insan vücudunun eklemli bölgelerinin 180o’lik bir yay boyunca 6o’lik, 4,5o’lik ve yaklaúõk olarak 3,6 o’lik bir açõyla çerçeveden çerçeveye de÷iúti÷i varsayõmõna göre Kortalama sõnõflandõrma yöntemi kullanõlarak 30, 40 ve 50 kod kelimesine sahip kod kitaplarõ elde edilmiútir. Video çerçevelerinde bulunan öz nitelik vektörleri, K-ortalama ile oluúturulan kod kitabõnda 107 Video Dizilerinde Hareket Tanõma yer alan kod kelimelerinden en çok benzeúenine vektör niceleme tekni÷i kullanõlarak atanarak, karúõlõk gelen poz sembolleri ile eúleútirilmektedir. (a) ùekil 2. Vektör nicemleme için, (b) gj ∈R n merkezli n adet kod kelimesine sahip kod kitabõ. Rn öznitelik uzayõnda sõnõflarõn merkezini temsil eden g j ∈ R n kod kelimeleri ùekil 2’ (a)’da görülmektedir. ùekil 2 (b)’de de görülece÷i gibi bir video dizisini oluúturan çerçevelere ait farklõ öznitelik vektörleri, merkeze olan uzaklõklarõnõn birbirlerine yakõn olmasõndan dolayõ kod kitabõnda aynõ poz sembolü ile eúleúebilirler. Video dizilerini oluúturan çerçevelerden elde edilen her bir f i öznitelik vektörü, öznitelik uzayõnda bu vektöre en yakõn kod kelimesine atanmõú sembole dönüútürülür. Bunun anlamõ, f i öznitelik vektörü e÷er j = arg min d ( f i , g j ) ise P j poz sembolüne dönüútürülmesidir. d ( f i , g j ) öznitelik vektörü ile sõnõf j merkezinde bulunan kod kelimesi arasõndaki mesafedir ve eúitlik (6) ile hesaplanmaktadõr. (6) 10 d ( f i k , g kj ) = arg min ∑ ( f i k − g kj ) 1≤ j ≤ J k k =1 Eúitlikte g j kod kelimesi vektörü ve f i öznitelik vektörleri, insan vücudunun resimsel yapõsõnõ oluúturan k adet (k=10) alt vektörden oluúmaktadõr. J :k-ortalama ile elde edilen sõnõf sayõsõnõ gösterir. 108 Celal Murat KANDEMøR, Nihat ADAR Vektör nicemleme sonrasõ her bir harekete ait video dizisi hareket gözlem vektörüne dönüútürülmektedir. Eúitlik (7)’deki ohareket vektörü bir kiúiye ait gerçekleútirdi÷i hareket için elde dilmiú olan hareket gözlem vektörüdür. o hareket = P1 P1 P1 P1 P2 P2 P2 P3 P3 P3 P3 P4 P4 P4 P5 P5 P6 P6 P6 P5 P5 P5 P3 P3 P3 P3 P3 P2 P2 P2 (7) Elde edilen bu vektörün gerçekleútirdi÷i hangi tip harekete karúõlõk geldi÷inin (yürüme, tempolu yavaú koúma TYK, koúma, alkõúlama, el sallama) bulunmasõ ise bir sonraki poz dizilerinden anlam çõkarma bölümünde ele alõnacaktõr. III. POZ DøZøLERøNDEN ANLAM ÇIKARMA Önerdi÷imiz tanõma modelinde, hareketlerin tamamõnda elde edilen öznitelik vektörlerinin birlikte sõnõflandõrõlmasõ ile tek bir hareket kod kitabõ oluúturularak farklõ hareket sõnõflarõnda aynõ cins öznitelik vektörlerinin kod kelimesi olarak bulunmasõ engellenmektedir. Bu nedenle testlerde tanõma amaçlõ olarak birbirinden farklõ kod kelimeleri içeren hareketlere ait video dizileri kullanõlmõútõr. Hareketlere ait gözlem vektörleri boyutlarõnõ normalize etmek amacõyla en büyük boyuta sahip olan gözlem vektörünün boyutuna eúitlenmektedir. Bu amaçla, gözlem vektörlerine ortak poz ve tekrarlõ poz gözlem vektörü ekleme olmak üzere iki farklõ yöntem kullanõlmõútõr. Ortak poz gözlem vektörü ekleme yönteminde P0 eklenmektedir. poz sembolü gözlem vektörlerinin sonuna Tekrarlõ poz gözlem vektörü ekleme yönteminde ise hareketin devam etti÷i varsayõmõndan yola çõkõlarak harekete ait gözlem vektöründeki ilk elemandan itibaren semboller tekrar girilmektedir. Her bir hareket için normalize edilmiú poz dizi vektörleri, e÷itim ve test hareket gözlem vektörleri olarak gruplandõrõlmõúlardõr. E÷itim hareket gözlem vektörleri önerilen SMM ve YSA’na uygulanarak her bir hareket için modeller e÷itilerek, modeller için hareket tanõmada gerekli olan parametre ve a÷õrlõklar hesaplanmõútõr. E÷itimi tamamlanarak oluúturulmuú olan modele test hareket gözlem vektörleri uygulanarak e÷itimlerin baúarõmõ ölçülmüútür. III.1. SMM Hareket Tanõma Gerçekleútirilen saklõ markov modeli tabanlõ hareket tanõma sisteminde yürüme, koúma, TYK, el sallama ve alkõúlama için ayrõ birer saklõ markov modeli e÷itilmekte ve hareket tanõnacak video dizisindeki insan pozlarõ hareket gözlem vektörüne dönüútürülerek e÷itilmiú olan saklõ markov modellerine uygulanmaktadõr. 109 Video Dizilerinde Hareket Tanõma N durum ( Q = {q1 , q 2 ,..., q N }) ve M çõkõú poz sembollerine ( O = {x1 , x2 ,..., x M }) sahip bir SMM, üç parametre ( λ k = ( A, B, π ) ) ile tamamen ifade edilebilmektedir. Önerilen SMM modelinde durum sayõsõ N = 5 ve M gözlem sembol sayõsõ ise sõrasõyla 30, 40 ve 50 alõnmaktadõr. A = {amn | amn = Pk ( st +1 = qn | st = qn )} Eúitlik (8) (8) amn , q m durumundan q n durumuna geçiú olasõlõ÷õnõ göstermektedir. b n (m) , x m sembolünün q n durumundaki olasõlõ÷õnõ t de video dizisindeki çerçeve anõnõ göstermek B matrisi aúa÷õdaki eúitlik (9)’da verilmektedir. B = {bn (m) | bn (m) = Pk (x m | st = q n )} π ise ilk kullanõm için baúlangõç durum da÷õlõmõ vektörüdür ve (9) π = {π m | π m = Pk ( s1 = q m )} ifadesiyle tanõmlanmaktadõr. SMM tabanlõ tanõma iúlemi Pk (λ | O) de÷erinin hesaplandõ÷õ e÷itim iúlemi ve e÷itim sonucu elde edilen λk modelinin üretti÷i O gözlem dizisine ait olasõlõ÷õn hesap edildi÷i tanõma iúleminden meydana gelmektedir. Tanõnmasõ istenen K adet hareket için elde edilmiú hareket gözlem vektörlerinin kullanõlmasõyla ( A, B , π ) model parametrelerinin bulunmasõ ileri-geri arama ve Baum-Welch Tahmin algoritmalarõ ile gerçekleútirilir. O gözlem dizisinin hangi hareket oldu÷unun tanõnmasõ ve hareketi en iyi temsil eden kod kelimesi dizisinin ne oldu÷unun bulunmasõ için izleyen SMM çözümü uygulanmõútõr. Her bir hareket k ∈ (1...K ) için en uygun durum (kod kelimesi) dizisini aramak amacõyla eúitlik (10)’daki olasõlõk eúitli÷ini en büyükleyecekviterbi algoritmasõ uygulanarak sonuç elde edilmektedir. * q k*1 , q k* 2 ,..., q kT = max q k 1 , q k 2 ,... q kT P ( q k 1 , q k 2 ,..., q kT | O k , Ak ) , q kt ∈ ( P1 ,..., Pi ) (10) 110 Celal Murat KANDEMøR, Nihat ADAR ùekil 3.Hareket tanõmada kullanõlan SMM yapõsõ. Her bir hareket için yukarõda anlatõldõ÷õ úekilde e÷itilen SMM modeli ùekil 3’te görüldü÷ü gibi paralel kullanõlarak, her bir SMM modelden gelen tanõma olasõlõklarõ hesaplanmakta ve hesaplanan bu de÷er eúitlik (11)’de verilen karar ölçütü karúõlaútõrõlarak hareketin tanõnmasõ iúlemi gerçekleútirilmektedir. arg max Log ( P(O | λi ) (11) SMM ile hareket tanõma sisteminin ilk aúamasõ olan e÷itim aúamasõnda, her bir hareketi gerçekleútiren 125 kiúi-hareketten 75 kiúi-hareket (yaklaúõk 3000 çerçeve) ile e÷itim yapõlarak hareketlere ait ( A, B , π ) model parametreleri hesap edilmektedir. Model parametreleri hesap edilirken saklõ katmanlardaki durum sayõsõ beú, gözlem sembolleri ise de÷iúik sayõda kod kelimesi içeren kod kitaplarõna ba÷lõ olarak sõrasõyla 30, 40 ve 50 olarak alõnmaktadõr. SMM ile hareket tanõma sisteminin ikinci aúamasõ olan test aúamasõnda ise her bir hareketi gerçekleútiren 125 kiúi-hareketten e÷itimde kullanõlmayan 50 kiúi-hareket (yaklaúõk 2000 çerçeve) kullanõlarak sistem baúarõmõ incelenmektedir. III.2. øleri Beslemeli Yapay Sinir A÷õ Modeli øle Hareket Tanõma Elde etti÷imiz poz dizilerinden, bu dizilerin hangi harekete ait oldu÷unun bulunmasõnda kullandõ÷õmõz di÷er yöntem de yapay sinir a÷larõdõr. Bu seçimi yapmamõzõn nedenleri arasõnda, e÷itim aúamasõnõn uzun sürmesine ra÷men test aúamasõnõn oldukça hõzlõ gerçekleúmesi ve hata yüzeyi üzerinde minimum hatayõ bulmaya çalõúõrken bölgesel minimumlara takõlma oranõnõn çok düúük olmasõ sayõlabilir. Poz dizilerinden hareket tanõmada kullanõlan ileri besleme YSA modeli bir adet gizli katmandan oluúmaktadõr. Hareket veritabanõnda bulunan beú temel harekete ait video dizilerinde hareketlerin Video Dizilerinde Hareket Tanõma 111 baúlangõç ve bitiúleri arasõnda en fazla 38 çerçeve (tempolu yavaú koúu) bulunmaktadõr. Her çerçevede bulunan insan resimsel yapõ modeline ait öznitelik vektörü boyutu 50 olmaktadõr. Bu yüzden giriú ve gizli katmandaki yapay nöron sayõsõ 38 x 50 = 1900adet olarak alõnmaktadõr. Transfer fonksiyonu olarak Tan-sigmoit transfer fonksiyonu kullanõlmõútõr. Veri setinin büyüklü÷ü ve yavaú bir ö÷renme hõzõ olmasõna ra÷men daha az bellek isteyen ölçekli-eúlenik gradyan yöntemi (Scaled Conjugate Gradient) ile e÷itim gerçekleútirilmiútir [20]. Çõkõú katmanõ ise 5 adet nörondan oluúmakta olup her biri e÷itim ve testlerde kullanõlacak olan hareketlere karúõlõk gelmektedir. E÷itim esnasõnda e÷itimi yapõlan harekete ait çõkõú vektör satõrõ 1 di÷er satõrlar 0 olarak e÷itilmiútir. Test aúamasõnda uygulanan poz dizisine ba÷lõ olarak elde edilen çõkõú vektörü satõrõnda 1’e en yakõn de÷eri veren satõr, poz dizisinin hangi harekete ait oldu÷unu göstermektedir. IV. TEST SONUÇLARI Yapõlan test sonuçlarõ Çizelge 1 – 4 ‘te verilmiútir. Çizelge 1-3 ‘te farklõ kod kelime sayõsõ için; 5 hareketin Ortak poz (O), Tekrarlõ poz (T), SMM ve YSA baúarõm yüzdeleri verilmiútir. Örne÷in Çizelge 1 satõr 1 de test edilen yürüme poz dizimleri hem Ortak pozlu SMM yöntemi ile hem de Tekrarlõ poz SMM yöntemi ile %80 do÷rulukla yürüme olarak tanõnmõútõr. Test için kullanõlan yürüme poz dizimleri di÷er hareketlerden sadece TYK için Ortak poz SMM ve Tekrarlõ poz SMM yöntemlerinde %20 oranõnda hatalõ olarak tanõnmõútõr. “-” iúareti ile verilen yüzdeler ise testlerde ilgili seçenekte tanõma gerçekleúmedi÷ini gösterir. Çizelgelerden de görüldü÷ü gibi, normalizasyon yöntemi olarak ortak veya tekrarlõ poz ekleme yöntemlerinden hangisi kullanõlõrsa kullanõlsõn, YSA modelleri yüzde olarak en iyi tanõma oranlarõnõ vermiúlerdir. E÷itim ve testlerin yapõldõ÷õ model bazõnda sonuçlar incelendi÷inde ise ortak poz kullanõlan modellerdeki hareket tanõma iúlemlerinin baúarõmlarõ, tekrarlõ poz kullanõlan modellerdekine göre daha baúarõlõ oldu÷u görülmektedir. Kod kelimeleri kullanma yöntemi sayesinde (yeterli sayõda poz kelimesi oluúturulmasõ halinde, tüm hareketlerdeki tüm pozlar sõnõrlõ sayõda olacaktõr) yeni hareketlerin her iki yönteme göre tanõma sistemine eklenmesinde sadece ilave e÷itim süreçlerinin çalõúõlmasõ yeterli olacaktõr. Yeni hareketi YSA tanõma yöntemine eklemek için tüm e÷itim setini tekrar uygulamak gerekecektir. SMM tanõma yönteminde ise di÷er e÷itilmiú hareketlerde herhangi yenileme yapmaksõzõn sadece yeni hareketin SMM parametrelerini oluúturarak sisteme eklemek yeterli olacaktõr. Bu özelli÷i sayesinde genel kod kelimeleri tanõmlanmõú SMM yönteminin gömülü sistem olarak, gerçek zamanlõ ve geniúletilebilir yapõsõ ile tanõma aracõ olarak geliútirilmesinin daha uygun olaca÷õ de÷erlendirilmektedir. 112 Celal Murat KANDEMøR, Nihat ADAR Çizelge 1. Kod kelime sayõsõ n=30 için model baúarõmlarõ. Yürüme Koúma TYK El Sallama Alkõú SMM YSA SMM YSA SMM YSA SMM YSA SMM YSA Yürüme (%) O T 80 80 90 90 10 20 10 - Koúma (%) O T 10 10 80 70 100 90 40 50 10 - TYK (%) O 20 10 40 100 - T 20 30 10 40 90 - El Sallama (%) O T 100 100 90 80 10 - Alkõú (%) O 10 100 100 T 20 90 100 Çizelge 2. Kod kelime sayõsõ n=40 için model baúarõmlarõ. Yürüme Koúma TYK El Sallama Alkõú SMM YSA SMM YSA SMM YSA SMM YSA SMM YSA Yürüme (%) O T 90 90 90 90 10 10 - Koúma (%) O T 10 10 80 80 100 90 30 40 20 - TYK (%) O 10 10 70 100 - T 10 10 10 60 80 - El Sallama (%) O T 100 100 90 90 10 - Alkõú (%) O 10 100 100 T 10 90 100 113 Video Dizilerinde Hareket Tanõma Çizelge 3. Kod kelime sayõsõ n=50 için model baúarõmlarõ. Yürüme Koúma TYK El Sallama Alkõú SMM YSA SMM YSA SMM YSA SMM YSA SMM YSA Yürüme (%) O T 90 90 100 90 - Koúma (%) O T 10 100 90 100 80 20 20 30 - TYK (%) O 10 80 100 - T 10 10 20 80 70 - El Sallama (%) O T 100 100 90 90 - Alkõú (%) O 10 100 100 T 10 100 100 Birbirine uzak olan hareketlerde tekrarlõ poz kullanõmõ ortak poz kullanõmõna göre bir olumsuzluk yaratmazken; birbirine yakõn hareketlerde özellikle tekrar eklenen pozlar içinde yakõn olan hareketteki pozlarla benzer olan pozlarõn çoklu÷u tanõmayõ olumsuz yönde etkilemektedir. Kod kitabõnõn büyüklü÷ü ise tanõma oranlarõyla do÷ru orantõlõdõr ve kod kelime sayõsõ arttõkça poz dizilerindeki benzer poz sayõsõ azaldõ÷õndan hatalõ hareket tanõma oranlarõ, do÷ru tanõnma yönünde iyileúmeye sebep olmaktadõr. Çizelgelerde izlendi÷i gibi; test amaçlõ kullanõlan video dizilerindeki 5 temel hareketin tanõnma oranlarõna göre kendi içinde de gruplandõ÷õ görülmüútür. Birbirine yakõn olan, yürüme, koúma ve TKY bir grupken, el sallama ve alkõúlama di÷er bir grubu oluúturmaktadõr. Bu yüzden de hatalõ tespit edilen hareket dizileri sadece ilgili bulunduklarõ grup içinde hatalõ tanõnmaktadõrlar. Örne÷in videoda gerçekleúen hareket yürüme ise bu hareket e÷er do÷ru tanõnmadõ ise koúma veya TKY hareketlerinden biri olarak hatalõ tanõnmõútõr. Benzer durum el sallama ve alkõúlama hareketleri için de geçerlidir. Çalõúmada önerilen SMM yönteminin bir di÷er uygulama avantajõ da modele uygulanan hareket vektörlerinin YSA modellerde oldu÷u gibi aynõ uzunlukta olmalarõ gerekmemektedir. Bu yüzden test hareket videolarõndan elde edilen poz dizileri herhangi bir normalizasyona gerek kalmadan da SMM modellere uygulanabilmektedir. Çizelge 4’te test pos dizilerinin normalizasyon yapõlmadan SMM modele uygulanmasõnõn sonuçlarõ verilmiútir. Bu testlerde hareketlerin tanõnmasõ için kullanõlan SMM modellerinden en düúük tanõma oranlarõ, normalize edilmemiú poz dizileri ile e÷itimi ve testleri yapõlmõú olan SMM modeli ile elde edilmektedir. El sallama ve alkõúlama hareketlerinde ortak ve tekrarlõ poz eklenerek e÷itim ve testlerin yapõldõ÷õ SMM modelleri ile yaklaúõk aynõ do÷ru tanõma sayõlarõna sahipken, yürüme, koúma ve TYK hareketlerinde tanõma oranlarõ ortak ve tekrarlõ poz eklenerek e÷itim ve testlerin yapõldõ÷õ SMM modellerine göre daha kötüdür. 114 Celal Murat KANDEMøR, Nihat ADAR Kod kelime sayõsõnõn artmasõ, ortak poz ve tekrarlõ poz eklenerek e÷itim ve testlerin yapõldõ÷õ SMM modellerinde tanõma oranlarõnõ iyileútirici yönde katkõ sa÷larken, normalizasyon yapõlmadan poz dizilerinin uygulanarak e÷itim ve testlerinin yapõldõ÷õ SMM modelinde tanõma oranlarõ arasõndaki fark, özellikle birbirine yakõn hareketler arasõnda azaldõ÷õ için hareketlerin hatalõ algõlanmasõ yönünde olumsuz katkõda bulunmaktadõr. Çizelge 4.Poz dizilerinin normalizasyon yapõlmadan SMM modele uygulanmasõ. Yürüme (%) Kod Kitabõ Büyüklü÷ü Yürüme Koúma TYK El Sallama Alkõúlama Koúma (%) TYK (%) El Sallama (%) Alkõúlama (%) 30 40 50 30 40 50 30 40 50 30 40 50 30 40 50 100 10 - 100 - 80 - 90 40 - 80 40 - 70 40 - 10 50 - 20 60 - 20 30 60 - 100 - 100 - 100 - 100 100 100 V. SONUÇ VE ÖNERøLER Önerilen YSA ve SMM modellerinde öznitelik vektörü olarak insan resimsel yapõ ifadesindeki vücut parçalarõnõn birbirlerine olan uzaklõklarõ ve vücut parçalarõnõn yönleri kullanõlmaktadõr. Her bir hareket için ayrõ kod kitabõ oluúturarak bu kod kitaplarõnõn bir arada kullanõlmasõyla model e÷itimi ve testlerinin yapõldõ÷õ çalõúmalarda yeni bir hareketin model tarafõndan tanõnabilmesi için o hareketin kod kelimeleri elde edilerek model kod kitabõna eklenmesi gerekmektedir. Kod kelimelerinin hareket temelli üretilmesi farklõ hareketlere ait kod kitaplarõnda aynõ kod kelimelerinin bulunmasõna sebep olabilmektedir. Önerdi÷imiz tanõma modelinde, hareketlerin tamamõna ait pozlar sõnõflandõrõlmak suretiyle kod kitabõ oluúturuldu÷undan, yeni bir hareket modele uygulandõ÷õnda mevcut kod kitabõna ba÷lõ olarak yeni bir poz dizisi elde edilip, modelin e÷itimi bu yeni poz dizisiyle yapõlarak yeni hareketlerin de tanõnmasõna olanak sa÷lanmaktadõr. Yeni hareketlere ait pozlar elde edildi÷inde e÷er pozlara ait öznitelik vektörleri kod kitabõnda bulunan kod kelimelerinden tolerans dõúõnda bir mesafede ise yeni kod kelimesi model kod kitabõna eklenmektedir. Böylelikle kod kitabõnõn dinamik bir úekilde güncellenmesi sa÷lanmaktadõr. Hareketlerin video içerisindeki gerçekleúme süreleri farklõlõk göstermektedir. Bu yüzden bu hareketlere ait poz dizi vektörlerinin tüm hareketlerde aynõ uzunlukta olabilmesi için girdi vektör boyutlarõnõn normalize edilmesi gerekmektedir. Çalõúmalarõmõzda ortak poz ekleme ve tekrarlõ poz ekleme olmak üzere iki farklõ yöntem önerilmiú ve kullanõlmõútõr. YSA e÷itimlerinde ortak poz ekleme yöntemiyle e÷itim verileri oluúturulmuú olan model, tekrarlõ poz ekleme yöntemiyle e÷itim verileri oluúturulmuú olan modele göre daha hõzlõ bir úekilde e÷itilebilmektedir. Video Dizilerinde Hareket Tanõma 115 E÷itim ve testlerin yapõldõ÷õ model bazõnda sonuçlar incelendi÷inde görüldü÷ü gibi, normalizasyon yöntemi olarak ortak veya tekrarlõ poz ekleme yöntemlerinden hangisi kullanõlõrsa kullanõlsõn, YSA modelleri yüzde olarak en iyi tanõma oranlarõnõ vermiúlerdir. Ayrõca, ortak poz kullanõlan modellerdeki hareket tanõma iúlemlerinin baúarõmlarõ, tekrarlõ poz kullanõlan modellerdekine göre daha baúarõlõ oldu÷u görülmektedir. Her iki yöntem kullanõlarak yapõlan tanõma iúlemlerinde hatalõ olarak tanõnan hareketlerin birbirine yakõn hareket grubu içinde hatalõ tanõndõ÷õnõ göstermiútir. Önerilen SMM tanõma yöntemi gerçek zamanlõ tanõma yapabilen, kolayca geniúletilebilir gömülü sistem olarak gerçekleútirmek mümkündür. Yeni bir hareket tanõtmak için önceki e÷itilmiú hareketlerde de÷iúiklik yapmaya gerek kalmadan sadece yeni hareket için yeni bir SMM eklenebilmesi kolayca geniúletilebilir olmasõnõ sa÷lamaktadõr. Gerçek zamanlõ hareket tanõma için ise her bir hareket farklõ bir gömülü sistem ile gerçekleyerek tanõma kararõ tüm hareketler için paralel olarak üretilmiú sonuçlara göre verilebilir. Bu avantajlarõ nedeniyle gerçek zamanlõ tanõma yapabilen geniúleyebilir, paralel sistem mimarisinde gömülü mimarili SMM tanõma makinesi geliútirilmesi gelecek çalõúma olarak planlanmaktadõr. VI. KAYNAKLAR [1] M. H. Yangand, N. Ahuja, “Recognizing hand gesture using motion trajectories”, Proceedings of the IEEE Conference on Computer Vision and Image Understanding, Fort Collins, Colorado, June 1999, pp. 468-472. [2] C. Myers, L. Rabinierand A. Rosenberg, ‘Performance tradeoffs in dynamic time warping algorithms for isolated word recognition’, IEEE Trans. on Audio Speech Lang. Process., pp.623635, 1980. [3] C. Rao, A. Yilmazand M. Shah, “View-invariant representation and recognition of actions”, Int. J.. of Computer Vision, Vol. 50, No.2, pp. 203-226, 2002. [4] N. Cuntoor, A. Kale and R. Chellappa, ‘Combining multiple evidences for gait recognition’, Proceedings of International Conference on Acoustics, Speech and Signal Processing, 2003, Vol. 3, pp. 113-116. [5] D. Cunado, M. S. Nixonand J. N. Carter, ‘Using gait as a biometric, via phase-weighted magnitude spectra,’ Proceedings of 1st International Conference on Audio and Video Based Biometric Person Authentication, 1997, pp. 95-102. [6] H. Fujiyoshi, A. J. Liptonand T. Kanade, “Real time human motion analysis by õmage skeletonization”, IEICE Trans Inf Sys, pp. 113-120, Vol. E87-D, No.1, 2004. 116 [7] Celal Murat KANDEMøR, Nihat ADAR A. F. Bobickand J. W. Davis, “The recognition of human movementusing temporal templates”, IEEE Trans. on Pattern Anal. Mach. Intell., Vol. 23 (3), pp. 257-267, 2001. [8] R. T. Collins, R. Grossand J. Shi, ‘Silhouette based human identification from body shapeand gait’, 5th International Conference on Automatic Face and Gesture Recognition, May 2002. [9] J. Yamato, J. Ohyaand K. Ishii, “Recognizing human action in time sequential images using hidden markov models”, Proceedings Computer Vision and Pattern Recognition, 1992, pp. 379385. [10] C. Bregler, “Learning and Recognizing Human Dynamics in Video Sequences’, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, June 1997, pp. 568-574. [11] A. Kale, A.N. Rajagopalan, N. Cuntoorand V. Krueger, ‘Gait based Recognition of Humans Using Continuous HMMs’, Proceedings of the IEEE International Conference on Automatic Face and Gesture Recognition, May 2002, pp. 336-341. [12] Y. A Ivanovand A. F. Bobick, “Recognition of visual activities and õnteractions by stochastic parsing”, IEEE Trans. on Pattern Anal. Mach. Intell.,Vol.22, No.8, pp.852-872, 2000. [13] X. Feng and P. Perona,“Human action recognition by sequence of movelet code words”, Proceedings of 1th International Symposium on 3D Data Processing Visualization and Transmission, 2002, pp. 717–721. [14] H. S. Chen, H. T. Chen, Y. W. Chen, and S. Y. Lee, “Human action recognition using star skeleton”, Proc. of 4th ACM International Workshop on Video Surveillanceand Sensor Networks 2006 (VSSN-2006) ,in conjunction with ACM Multimedia 2006, Santa Barbara, CA, USA, October 27, 2006. [15] K. Hatun, P. Duygulu, “A new representation for action recognition using sequence of posewords”, 19th International Conference on Pattern Recognition, 2008. [16] Güçlü T., Adar N., “Recognizing human actions by using visual posewords”, Int. Symposium on Innovations in Inteligent Systems and Applications (INISTA 2010), Haziran 2010 Kayseri. [17] Kandemir C.M., “Yüksek Baúarõmlõ, Bilgisayarla Görü Uygulamalarõ Programlamasõ”, Doktora Tezi, Eskiúehir Osmangazi Üniversitesi Fen Bilimleri Enstitüsü, 125s., 2009. [18] D. Ramanan, C. Sminchisescu, “Training deformable models for localization”, IEEE Conference on Computer Vision and Pattern Recognition, 2006, Vol. 1, 206–213. [19] T. Koga, K. Iinuma, A. Hirano, Y. Iijima, and T.Ishiguro, “Motion compensated interframe coding for video conferencing,” Proc. Nat. Telecommun. Conf., New Orleans, LA, Nov. 29– Dec. 3 1981, pp. G5.3.1–G5.3.5. [20] H. Demuth, M. Beale, Neural Network Toolbox for use with MATLAB, 2002.