Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile

Transkript

Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile
Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile Yazılandırılması
Turkish Broadcast News Transcription with Open-Source Software
Doğan Can, Murat Saraçlar
Elektrik Elektronik Mühendisliği Bölümü
Boğaziçi Üniversitesi, 34342, Bebek, İstanbul, Türkiye
{dogan.can,murat.saraclar}@boun.edu.tr
Özetçe
Bu bildiride, 187 saatlik Türkçe haber bültenleri verisi ile
Türkçe haber portallarından toplanan 184 milyon kelimelik
metin verisi kullanılarak açık kaynak kodlu yazılımlar (HTK,
SRILM) vasıtasıyla hazırladığımız Türkçe Geniş Dağarcıklı
Sürekli Konuşma Tanıma (GDSKT) sistemi sunulmaktadır. Sistem dahilinde ML, MMI ve MPE kriterlerini eniyilemeye dayalı
üç farklı akustik model hazırlanmış, ayırıcı akustik modellemenin Türkçe GDSKT başarımına katkısı incelenmiştir. 50 bin
kelime dağarcıklı üçlü (tri-gram) dil modeli ile yapılan tanıma
deneylerinde ML modelleri ile %25.8’lik, MMI modelleri ile
%24.3’lük, ve son olarak MPE modelleri ile %23.7’lik kelime
hata oranlarına ulaşılmıştır.
Abstract
In this paper, we present our Turkish Large Vocabulary Continuous Speech Recognition (LVCSR) system, which is based
on open-source software (HTK, SRILM) and which utilizes 187
hours of Turkish broadcast news data as well as a 184 millionword text corpus collected from various Turkish news portals.
Within this system, three different acoustic models optimizing
ML, MMI and MPE criteria were developed and the contribution of discriminative acoustic modeling to Turkish LVCSR
was investigated. Recognition experiments utilizing a tri-gram
language model with 50 K vocabulary give word error rates of
25.8% with ML, 24.3% with MMI and finally 23.7% with MPE.
1. Giriş
Otomatik konuşma tanıma sistemleri verilen ses sinyalinden en
olası kelime dizilimini bulmak için istatistiksel akustik modeller ve dil modelleri kullanır. Geleneksel akustik model eğitiminde, en iyi olabilirlik kestirimi (Maximum Likelihood Estimation - MLE) vasıtasıyla üretici modeller oluşturulur. Bu
yöntem sadece eğitim verisinin olabilirliğini arttırmayı hedeflediğinden, üretici modeller ile belirlenen en olası kelime dizilimi
her zaman kelime hata oranını en aza indirgemez.
Ayırıcı model eğitimi, yeterli miktarda veri sağlandığında,
diğer makine öğrenme uygulamalarında olduğu gibi otomatik
konuşma tanıma sistemlerinde de performans artışı sağlar.
Ayırıcı modeller, eğitim verisinin iyi temsil edilmesinden çok
tanıma performansını doğrudan artırmayı hedefler. Bu modellerin eğitiminde, üretici model eğitiminde kullanılan olumlu
örneklerin yanısıra olumsuz örnekler de kullanılarak, modeller
arası ayrım arttırılmaya çalışılır. Konuşma tanımada referans
metinler olumlu örnekleri oluşturur. Eğitim verisi eldeki modeller vasıtasıyla otomatik olarak tanınır, tanıma örülerindeki
hatalı hipotezler de olumsuz örnekler olarak ayırıcı eğitime
katılır. Ayırıcı model eğitiminde kullanılan kestirim yöntemleri hem doğru modellerin olasılığını arttırmayı hem de yanlış
modellerin olasılığını azaltmayı hedefler. Bu sayede ayırıcı modeller ile daha düşük kelime hata oranlarına ulaşılır.
En Yüksek Karşılıklı Bilgi (Maximum Mutual Information
- MMI) [1, 2] ve En Düşük Sesbirimi Hatası (Minimum Phone
Error - MPE) [3] ayırıcı akustik model eğtiminde en sık kullanılan eniyileme kıstaslarıdır. MMI kıstası referans metinlerin
sonsal olasılıklarını mümkün olduğunca arttırmayı, MPE kıstası
ise sesbirim seviyesindeki tanıma çıktıları ile referans metinler
arasındaki Levenshtein uzaklıklarını en aza indirmeyi hedefler.
Genişletilmiş Baum Welch Algoritması [4, 5] akustik modellerin ayırıcı kıstaslar vasıtasıyla eğitiminde en sık kullanılan yöntemdir. Kelime örüleri (lattices) ise ayırıcı istatistiklerin toplanması için oldukça verimli bir yapı sağlar [6].
Son yıllarda, Türkçe Geniş Dağarcıklı Sürekli Konuşma
Tanıma (GDSKT) uygulamalarında kullanılmak üzere kelimelere alternatif tanıma birimlerinin geliştirilmesini hedefleyen pek çok çalışma yayınlanmıştır [7, 8, 9, 10, 11].
Türkçe haber bültenlerinin yazılandırılmasını hedefleyen çalışmalar [12, 13] ise, model uyarlama yöntemlerinin ve çeşitli
kelime-altı tanıma birimleriyle oluşturulan dil modellerinin
başarımını incelemiştir.
Bu bildiride açık kaynak kodlu yazılımlar vasıtasıyla hazırladığımız Türkçe GDSKT sistemi sunulmaktadır. Sistem
dahilinde ML, MMI ve MPE kriterlerini eniyilemeye dayalı
üç farklı akustik model hazırlanmış, ayırıcı akustik modellemenin Türkçe GDSKT’ye katkısı incelenmiştir. Bildirinin bir
amacı da Türkçe GDSKT uygulamaları için yol gösterici olmaktır. Bildirinin içeriği şu şekildedir: 2. kısımda akustik modellerin eğitiminde kullanılan yöntemler, 3. kısımda ise kullanılan veritabanının istatistiksel özellikleri anlatılmıştır. Açık
kaynak kodlu Türkçe GDSKT sisteminin detayları 4. kısımda
verilmiştir. 5. kısım konuşma tanıma deneylerini, 6. kısım ise
bildirinin sonuçlarını içermektedir.
2. Konuşma Tanıma Modelleri
Akustik model ve dil modeli konuşma tanıma sisteminin en
temel iki öğesidir. Simgelemimizde A bir konuşma işareti için
akustik öznitelik vektörünü, s kelime dizilimini belirtmektedir.
Akustik model M kelime dizilimi verildiğinde öznitelik vektörünün olasılıksal kestirimini (p(A|Ms )), dil modeli (p(s)) ise
gerekli dilbilimsel bilgiyi sağlamaktadır. Bu durumda konuşma
tanıma problemi Denklem 1 ile özetlenebilir:
ŝ = argmax p(A|Ms )p(s)
çalışılan ölçütü vermektedir.
FM M IE (λ)
(1)
=
R
X
≈
R
X
s
log
r=1
2.1. Dil Modeli
Denklem 2’de matematiksel olarak ifade edilen N ’li dil modeli her kelimenin (wk ) kendinden önceki N − 1 kelimeyi takip
k−N+1
etmesi olasılığını (p(wk |wk−1
)) kestirmeye dayanır.
p(s) = p(w1 , w2 , ..., wn ) ≈
n
Y
k−N+1
p(wk |wk−1
)
(2)
k=1
Eğer dil modeli eğitiminde kullanılan veritabanı yeterince
büyük değilse, olası birçok kelime dizilimine çok küçük
olasılıklar atanacaktır. Bu durumu bertaraf etmek için ham modeller yumuşatılarak büyük olasılığa sahip dizilimlerin olasılıkları azaltılır, elde edilen olasılık kütlesi çok küçük olasılıklı
dizilimlere dağıtılır.
2.2. Akustik Model
Saklı Markov Modelleri (Hidden Markov Models - HMMs)
konuşma tanıma için hem basit hem de başarılı akustik modeller
oluşturmada kullanılır. Bu modellerin temel varsayımı konuşmanın kaynağının birinci dereceden Markov zincirleri ile modellenebileceğidir. Konuşmanın kaynağı gerçekten HMM’ler
tarafından varsayılan yapıda, eğitim verisi de sonsuz miktarda
olsaydı, MLE ile eğitilen modeller tarafsız olma ve en küçük
sapmaya sahip olma özelliklerini taşıyan en iyi modeller olurdu.
Ancak, HMM tabanlı bir akustik modelin parametrelerinin kestirimi esnasında, eğitim verisi ne HMM varsayımına uyan bir
kaynaktan gelir ne de sonsuz miktardadır.
ML eğitimi esnasında, model parametreleri, akustik veriye
karşılık gelebilecek olası kelime dizilerini görmezden gelerek,
referans metinlerdeki kelime dizilerinin olabilirliğini arttıracak
şekilde ayarlanır. Ayırıcı eğitimde ise, MLE’nin aksine, olası
kelime dizileri göz önüne alınarak hatalı hipotezlerin olabilirliği
(ya da tanıma hataları) doğrudan azaltılmaya çalışılır [2].
2.2.1. MLE
MLE, R cümleden oluşan referans metinler ({sr }) eldeyken,
eğitim verisinin olabilirliğini (pλ (Ar |Msr )) arttırmaya çalışır.
Olası diğer kelime dizileri parametre kestirimine katılmaz.
Denklem 3, ML eğitimi esnasında arttırılmaya çalışılan ölçütü
vermektedir.
FM LE (λ) =
pλ (Ar |Msr )P (sr )
log P
s pλ (Ar |Ms )P (s)
r=1
R
X
log pλ (Ar |Msr )
(3)
r=1
2.2.2. MMIE
MMIE referans metinlerin sonsal olasılığını doğrudan arttırmaya çalışır. Denklem 4, MMI eğitimi esnasında eniyilenmeye
pλ (Ar |Msr )P (sr )
pλ (Ar |ML )
(4)
Denklem 4’te verilen ölçütün en iyilenmesi için eş zamanlı
olarak paydaki terimin (pλ (Ar |Msr )) arttırılması, paydadaki
terimin (pλ (Ar |ML )) ise azaltılması gerekir. Paydaki terimin
arttırılması ML eğitiminde yapılmaya çalışılandan farksızdır.
Olası kelime dizilimlerini yaklaşık olarak temsil eden tanıma
örüsü L ile simgelenmektedir.
MMI kıstası referans kelime dizilimleri eldeyken düşük
sonsal olasılık veren eğitim sözcelerine daha fazla ağırlık verir.
ML eğitiminde ise tüm eğitim sözceleri eşit ağırlıklandırılır.
Bu açıdan bakıldığında, Denklem 4’te verilen ölçüt, koşullu en
yüksek olabilirlik (Conditional Maximum Likelihood - CML)
kriteri olarak da yorumlanabilir.
2.2.3. MPE
MPE eğitimi referans metinler (sr ) ile eğitim sözcelerine
karşılık gelen olası kelime dizileri arasındaki Levenshtein uzaklıklarını en aza indirmeye çalışır. MPE ölçütü, bir eğitim sözcesine (r) karşılık gelen tüm olası kelime dizilerine (S) ait ham
ses doğruluğu oranlarının (D(s, sr )), doğru modelden her kelime dizisine (s) atanan sonsal olasılıkla (pλ (s|Ar )) ağırlıklandırılmış bir ortalamasıdır. Denklem 5, MPE eğitimi esnasında eniyilenmeye çalışılan ölçütü vermektedir.
FM P E (λ) =
R
X
log
r=1
X
pλ (s|Ar )D(s, sr )
(5)
s∈S
Denklem 5’te:
pλ (s|Ar ) =
pλ (Ar |Ms )P (s)
,
pλ (Ar |ML )
D(s, sr ) = sr ’daki sesbirim sayısı−s’deki hatalı sesbirim sayısı.
3. Veritabanları
Boğaziçi Üniversitesi’nde, 2006 yılından beri Türkçe haber bültenlerinden (Broadcast News - BN) oluşan bir veritabanı oluşturmaktayız. Her gün dört televizyon, bir de radyo kanalından kaydedilen haber programları veritabanına ekleniyor. Bu
kayıtlar içerik ve ses kalitesi kontrolünün ardından, bölütlenip,
yazılandırmaya gönderiliyor. Konu, konuşmacı ve arkaplan
bilgilerini de içeren yazılandırmaların, Hub4 BN yazılandırma
yönergelerinden uyarlanan kurallara uyup uymadığı denetlenip,
gerektiğinde hataları düzeltiliyor. Bu çalışmada veritabanımızdan kabaca 187 saatlik akustik veri (184 saat eğitim + 3
saat sınama) kullanıldı. Tablo 1’de kullanılan verinin akustik
koşullara göre dağılımı görülüyor. Tablodaki akustik koşullar
Hub4 sınıflandırmasına göre verilmiştir: (f0) temiz konuşma,
(f1) doğal konuşma, (f2) telefon konuşması, (f3) arkaplan müziği, (f4) kötü akustik koşullar ve (f5) diğerleri.
Kullanılan akustik verinin referans metinleri kabaca 1.3
milyon kelime içermektedir. Bunun yanısıra genel bir dil modeli oluşturmak icin haber portallarından toplamda 184 milyon
Tablo 1: Çeşitli koşullardaki veri miktarı (saat)
Kısım
Eğitim
Sınama
f0
65.7
0.9
f1
15.5
0.1
f2
8.3
0.1
f3
19.4
0.7
f4
71.9
1.3
fx
3.2
0.04
Toplam
184
3.1
kelime içeren bir metin derlemi toplanmıştır [14]. Bu derlem,
metin normalizasyonunun yanısıra biçimbilimsel bir çözümleyici [14] ve buluşsal yöntemler kullanılarak süzülmüştür.
Tablo 2’de metin derleminin içerdiği kelime, işaret (kelimeler
ve noktalama işaretleri) ve çeşit (ayrık işaretler) sayıları
görülmektedir. Metin normalizasyonu ve süzmenin ardından,
toplamda kelime sayısı 182.3 milyona, çesit sayısı da 1.8 milyona düşmektedir.
Tablo 2: Derlemin içerdiği kelime, işaret, çeşit sayıları ile
biçimbilimsel çözümleyiciden başarıyla geçen kelime oranları.
Kelime
184M
İşaret (Çözümlenen %)
212M (96.7%)
Çeşit (Çözümlenen %)
2.2M (52.2%)
4. HTK/SRILM Tabanlı Türkçe GDSKT
Sistemi
Türkçe GDSKT Sistemi açık kaynak kodlu HTK (Hidden
Markov Toolkit) [15] yazılımı kullanılarak oluşturuldu. Temel
akustik modeller önceki kısımda detayları anlatilan 184 saatlik eğitim verisi kullanılarak MLE ile eğitildi. SRILM [16]
yazılımı kullanılarak 50 bin kelime dağarcıklı üçlü (trigram)
bir dil modeli hazırlandı. Bahsedilen sistemin sınama verisi
üzerindeki başarımı ölçüldü. Bu aşamaların ardından temel
sistem tüm eğitim verisinin otomatik olarak tanınması için
kullanıldı. Her eğitim sözcesine karşılık bir tanıma örüsü
çıkarıldı. Bu örüler zayıf bir dil modeli ile yeniden ağırlıklandırılarak, farklı hipotezler arasındaki karışıklık arttırıldı.
Yeniden ağırlıklandırılan örüler vasıtasıyla, MMI ve MPE kıstaslarını eniyileyen ayırıcı akustik modeller oluşturuldu. Bu
modellerin sınama verisi üzerindeki başarımı ölçülerek, en iyi
model parametreleri belirlendi.
4.1. Temel Akustik Model Eğitimi
1. İlk olarak 10 milisaniye ile ötelenen 25 milisaniyelik
her ses çerçevesi için 12 MFCC ve 1 enerji özniteliği,
daha sonra bunların birinci ve ikinci zaman türevleri hesaplandı. Bu öznitelik vektörleri kullanılarak, 30 sesbirime (29 harf ve 1 sessizlik) ait her durumda tek Gauss
bileşeni içeren akustik modeller MLE ile eğitildi.
2. Bağlama dayalı model eğitimi için ses üçlüleri (triphones) Türkçe’nin ses yapısına uyarlanmış karar
ağaçları yardımıyla kümelendi. Öncelikle her ses üçlüsü
ortadaki sesin modeliyle temsil edildi. Daha sonra
üçlü modeller MLE ile tekrar eğitildi. Karar ağaçları
ve eğitim esnasında toplanan istatistikler kullanılarak
yapılan kümeleme sonucunda toplamda 13243 HMM
durumu içeren 27871 üçlü sesbirim modeli elde edildi.
3. Bu aşamada her durumdaki Gauss bileşenlerinin sayısı
1 → 2 → 3 → 4 → 6 → 8 → 11 (sessizlik durum-
larında 1 → 2 → 4 → 7 → 10 → 15 → 21) bileşen
şeklinde arttırıldı. Her arttırımın ardından akustik modeller MLE ile tekrar eğitildi.
4.2. Dil Modelinin Oluşturulması
1. Öncelikle 184 milyon kelime içeren Türkçe Genel Veri
Tabanı (GVT) ile 1.3 milyon kelime içeren Türkçe Haber
Veri Tabanı (HVT) birleştirildi ve bu metinde en sık
geçen 50 bin kelime tanıma dağarcığı olarak seçildi.
2. Tanıma dağarcığındaki kelimeler kullanılarak, GVT’den
veri budama eşiği 5 × 10−8 olan üçlü bir dil modeli
çıkarıldı. Yine tanıma dağarcığındaki kelimeler kullanılarak, HVT’den budanmamış üçlü bir dil modeli
çıkarıldı. Iki model de SRILM araçları ile Kneser-Ney
yumuşatıcı model yöntemiyle oluşturuldu.
3. Dil modeli GVT’den ve HVT’den çıkarılan dil modellerinin SRILM araçları ile eşit ağırlıklı doğrusal
aradeğerlenmesiyle oluşturuldu. HTK sisteminin tüm
sınamalarında ve ayırıcı akustik modellerin eğitiminde
1343711 üçlü, 3515826 ikili, 50002 tekli içeren bu dil
modeli kullanıldı.
4.3. Ayırıcı Akustik Modellerin Eğitimi
1. Temel akustik modeller ve önceki bölümde anlatılan
dil modeli vasıtasıyla tüm eğitim verisi otomatik olarak
tanındı ve her sözce için en olası tanıma hipotezlerini
içeren kelime örüleri oluşturuldu.
2. Daha önceden belirlenen kelime dağarcığına HVT’de
geçip de dağarcıkta bulunmayan kelimeler eklenerek
yeni bir dağarcık oluşturuldu.
Bu dağarcık kullanılarak önceki bölümde anlatilan yöntemle 105088
unigram içeren oldukça zayıf bir dil modeli oluşturuldu. Kelime örüleri bu zayıf model ile yeniden ağırlıklandırılarak farklı hipotezler arasındaki karmaşıklık arttırıldı. Böylece ayırıcı eğitim öncesinde farklı hipotezler
arasındaki olabilirlik farkı azaltılmış oldu.
3. Yeniden ağırlıklandırılmış kelime örüleri kullanılarak
temel akustik modeller iki farklı ayrım kıstasını (MMI
ve MPE) eniyileyecek şekilde güncellendi.
5. Konuşma Tanıma Deneyleri
Oluşturulan üçlü dil modeli kullanılarak, temel ve ayırıcı
akustik modellerin sınama verisi üzerindeki başarımı ölçüldü.
Sınama verisi üzerindeki sistem başarımının (kelime hata oranı
- KHO) tanıma hızına (gerçek zaman çarpanı - GZÇ) karşılık
değişimi Şekil 1’de görülmektedir.
6. Sonuçlar
Bu bildiride Türkçe için geniş dağarcıklı bir konuşma tanıma
sistemi tasarlanmıştır. 50 bin kelimelik bir sözlük ve üçlü dil
modeli ile farklı akustik modeller kullanılarak yapılan konuşma
tanıma deneyleri sonucunda, kelime hata oranları ML eğitiminde %25.8 (9.4xGZ), MMI eğitiminde %24.3 (9.9xGZ),
MPE eğitiminde %23.7 (8.0xGZ) değerine kadar düşmüştür.
Şekil 1: Farklı akustik modeller ile yapılan tanıma deneylerinde sistem başarımının tanıma hızına göre değişimi
55
ML
MMI
MPE
50
45
KHO
40
35
30
25
20
0
1
2
3
4
5
6
7
8
9
10
GZÇ
7. Teşekkür
Bu araştırma kısmen 105E102 numaralı TÜBİTAK Projesi ve
05HA202 numaralı Boğaziçi Üniversitesi Bilimsel Araştırma
Projesi tarafından desteklenmiştir. Doğan Can TÜBİTAK
BİDEB tarafından desteklenmiştir.
8. Kaynakça
[1] L. R. Bahl, P. F. Brown, P. V. deSouza, and R. L. Mercer, “Maximum mutual information estimation of hidden markov model parameters for speech recognition,” in
Proc. ICASSP, 1986, pp. 49–52.
[2] D. Povey and P. C. Woodland, “Large-scale MMIE training for conversational telephone speech recognition,” in
Proc. NIST Speech Transcription Workshop, College Park,
MD, 2000.
[3] D. Povey and P. C. Woodland, “Minimum phone error
and i-smoothing for improved discriminative training,” in
Proc. ICASSP, Orlando, FL, 2002.
[4] P. S. Gopalakrishnan, D. Kanevsky, A. Nadas, and D. Nahamoo, “An inequality for rational functions with applications to some statistical estimation problems,” IEEE
Transactions on Information Theory, vol. 37, no. 1, pp.
107–113, 1991.
[5] Y. Normandin, Hidden Markov models, maximum mutual
information estimation, and the speech recognition problem, Ph.D. thesis, Department of Electrical Engineering,
McGill University, Montreal, 1991.
[6] V. Valtchev, J. J. Odell, P. C. Woodland, and S. J. Young,
“MMIE training of large vocabulary recognition systems,”
Speech Communication, vol. 22, no. 4, pp. 303–314, 1997.
[7] K. Çarkı, P. Geutner, and T. Schultz, “Turkish LVCSR:
Towards better speech recognition for agglutinative languages,” in Proc. IEEE ICASSP, 2000.
[8] E. Mengüşoğlu and O. Deroo, “Turkish LVCSR: Database
preparation and language modeling for an agglutinative
language,” in Proc. IEEE ICASSP, 2001.
[9] K. Hacıoğlu, B. Pellom, T. Çiloğlu, O. Öztürk, M. Kurimo, and M. Creutz, “Word splitting for Turkish,” in
Proc. IEEE SIU, 2003.
[10] T. Çiloğlu, M. Çömez, and S. Şahin, “Language modelling for Turkish as an agglutinative language,” in Proc.
IEEE SIU, Kuşadası, Turkey, 2004, pp. 461–462.
[11] H. Erdoğan, O. Büyük, and K. Oflazer, “Incorporating
language constraints in sub-word based speech recognition,” in Proc. ASRU, San Juan, Puerto Rico, 2005.
[12] E. Arısoy and M. Saraçlar, “Speech recognition for Turkish broadcast news,” in Proc. IEEE SIU, 2007.
[13] T. Aksungurlu, S. Parlak, H. Sak, and M. Saraçlar, “Comparison of language modeling approaches for Turkish
broadcast news,” in Proc. IEEE SIU, 2008.
[14] H. Sak, T. Güngör, and M. Saraçlar, “Turkish language
resources: Morphological parser, morphological disambiguator and web corpus,” in Proc. 6th International Conference on Natural Language Processing, GoTAL, 2008.
[15] S. Young, G. Evermann, M. Gales, T. Hain, D. Kershaw, X. Liu, G. Moore, J. Odell, D. Ollason, D. Povey,
V. Valtchev, and P. Woodland, “The HTK book (for HTK
version 3.4), Cambridge University Engineering Department,” 2006.
[16] A. Stolcke, “SRILM – An extensible language modeling
toolkit,” in Proc. ICSLP, Denver, 2002, vol. 2, pp. 901–
904.

Benzer belgeler