İNGİLİZCE TELAFFUZ DEĞERLENDİRME İÇİN

Transkript

İNGİLİZCE TELAFFUZ DEĞERLENDİRME İÇİN
2014 IEEE 22nd Signal Processing and Communications Applications Conference (SIU 2014)
İNGİLİZCE TELAFFUZ DEĞERLENDİRME İÇİN TABLET UYGULAMASI
A TABLET APPLICATION FOR ENGLISH PRONUNCIATION ASSESSMENT
Mustafa Erden1, Mehmet Emin Erük1,2, Gökhan Şevkin1,2, Mert Yücel Bayram1, Mert
Büyüktuncay1, Ali Haznedaroğlu1,2, Levent M. Arslan1,2
1. Sestek, İstanbul, TÜRKİYE
2. Elektrik ve Elektronik Mühendisliği
Bölümü, Boğaziçi Üniversitesi
{mustafa.erden,emin.eruk,gokhan.sevkin,yucel.bayram,
mert.buyuktuncay,ali.haznedaroglu,levent.arslan}
@sestek.com
{emin.eruk,gokhan.sevkin,ali.haznedaroglu,arslanle}
@boun.edu.tr
öğretme ve öğrenmede bilgisayar uygulamalarının
araştırılması ve bu konuda çalışma yapılması” olarak
tanımlanır[1]. Başlangıçta web tabanlı uzaktan öğrenim
popülerleşmişken günümüzde -akıllı telefonlar ve tabletler
dünya çapında bir popülerlik kazandıkça- mobil yardımlı dil
öğrenme alanına doğru bir kayma oluştu [2].
Bilgisayar yardımlı dil öğrenme, ülke ya da dünya
genelindeki öğrencilerin eğitimini, gelir düzeyleri ve
bulundukları yerden bağımsız olarak, hissedilir biçimde
destekleme potansiyeline sahip olduğu için özellikle ilgi
çekici bir alandır. Aynı zamanda yaştan ve kariyerden
bağımsız olarak yabancı dil eğitimine duyulan bir talep
vardır.
Bu çalışmada otomatik İngilizce telaffuzunun
skorlanması incelenmiştir. Özellikle yabancı dil öğrenenler
için İngilizce konuşma ve okuma pratiği yapmak üzere
tasarlanmış bir uygulamanın yadsınamaz bir ilgi çekiciliğe
sahip olabileceği düşünülmüştür.
Son zamanlarda çeşitli dillerde otomatik telaffuz
skorlama üzerine farklı açılardan yaklaşan birçok çalışma
yapıldı. Örneğin Cucchiarini ve arkadaşları [3] yaptıkları
çalışmada Flemenkçe için makine ve bilirkişiler tarafından
yapılan değerlendirmeler arasındaki ilişkiyi incelemişlerdir.
Bu çalışmada otomatik değerlendirme için temel akustik
öznitelik olarak konuşma tanıma modellerinden elde edilen
akustik olasılık ve süre bilgisini kullanmışlardır. Sonuç
olarak bilirkişi skorları ve makine skorları arasında yüksek
bir korelasyon bulmuşlardır. Neumayer ve arkadaşları [4]
tarafından yapılan bir çalışmada ise Amerikan
konuşmacıların Fransızca konuşmaları incelenmiş ve insan
algısı ve otomatik öznitelikler (akustik olasılık ve
zamanlama) arasında güçlü bir korelasyon bulunmuştur.
Telaffuz skorlamadaki önceki çalışmalar daha çok
konuşma tanıma ve fonetik hizalama sonuçlarına
dayanmaktadır [5, 6]. Referans akustik modeller anadilde
alınan konuşma kayıtlarıyla eğitilirken, [7]’de fonemlerin
doğru ve yanlış telaffuzları ayrı ayrı modellenmiştir. Bu
çalışmada ise bilinen özniteliklere -tonlama ve zamanlamaek olarak eğitim verilerinin manüel analiz yerine otomatik
olarak gruplandırıldığı bir denetimsiz adaptasyon (DA)
tekniği önerildi. DA metodu için cümlelerin doğru ve yanlış
telaffuzundan elde edilen iki farklı akustik modelin
logaritmik olasılık farkları kullanıldı.
ÖZETÇE
Mobil ve çevrimiçi uygulamaların popülerliği arttıkça
otomatik telaffuz skorlama daha ilgi çekici bir çalışma
alanına dönüşmeye başladı. Bu bildiride, Amerikan
İngilizcesi telaffuzunun skorlanması için tasarlanan bir tablet
uygulamasının araştırılması ve geliştirilmesi üzerine
çalışılmıştır. Bu çalışmada telaffuz; fonetik söyleyiş, tonlama
ve zamanlama olmak üzere 3 temel boyutta incelenmiştir.
Araştırma için kullanılan veritabanı 527 kayıttan
oluşmaktadır ve bu kayıtlar anadilleri ve İngilizce bilgi
düzeyleri değişiklik gösteren 100 farklı kişiden, gerçek
ortamlarda ve mobil cihazlar kullanılarak alınmıştır. Bu
çalışmada telaffuzu değerlendirmek için kelime ve cümle
bazında bir skorlama algoritması geliştirilmiştir. Bu
algoritmanın skorları, İngilizce telaffuz konusunda bilgili
kişilerin yaptığı değerlendirme ile karşılaştırılmıştır. Farklı
insanların kendi içlerindeki korelasyonu 0,83 iken ortalama
İnsan değerlendirmeleri ve algoritma skorları arasındaki
korelasyon 0,73 olarak bulunmuştur. Ayrıca geri bildirim
olarak değerlendirilmek üzere 10 farklı kişiden uygulamanın
arayüzü ve kullanım kolaylığı hakkında düşünceleri
istenmiştir. Bu kişilerin tatmin oranı 4,2/5 ile sonuçlanmıştır.
ABSTRACT
Automatic pronunciation scoring is becoming an interesting
field of study as on-line tools and mobile applications are
becoming more popular. In this paper, we will investigate
research and development of a pronunciation scoring tool
for American English designed for tablets. We have
investigated mainly three dimensions in pronunciation
namely phonetic articulation, intonation and timing. We
worked with real data recorded from mobile devices in real
environments. We analyzed 527 recordings from 100
different speakers with varying degrees of knowledge of
American English and with different first language
backgrounds. We developed a scoring algorithm for the
pronunciations at the sentence and word levels and then
compared our results with human ratings. We have found a
correlation value of 0.73 for agreement between our
proposed method and human ratings while the inter-labeler
agreement was 0.83. We also asked the opinion of 10
subjects regarding the user interface and ease of use for the
feedback given in three dimensions. Average user
satisfaction for the application was 4.2/5.
1.
2.
VERİTABANI
Uygulama için üç farklı veri alt kümesi kullanıldı. İlk küme,
akustik modelin eğitimi için kullanıldı. Bu küme 270 saatlik
16kHz ile örneklenmiş 16 bit PCM formatında, ana dili
İngilizce
olan
kullanıcılardan
alınan
kayıtlardan
oluşmaktadır.
GİRİŞ
Bilgisayarlar son yıllarda daha küçük, daha hızlı ve daha
ucuz hale gelmiştir. Bu ve bunun gibi diğer hızlı teknolojik
gelişmeler sonucunda bilgisayarlar günlük yaşamımızda
çeşitli görevler almaya başlamışlardır. Bu görevlerden biri
olan bilgisayar yardımlı dil öğrenme Levy tarafından “dil
Uzunlukları 2 ile 17 kelime arasında değişen 100 farklı
cümle,
Telaffuz
Skorlama’nın
değerlendirmesinde
978-1-4799-4874-1/14/$31.00 ©2014 IEEE
951
2014 IEEE 22nd Signal Processing and Communications Applications Conference (SIU 2014)
kullanıldı. Bu
bulabilirsiniz:
kümeden
iki
örnek
cümleyi
aşağıda
Burada N cümledeki kelime sayısını
kelimedeki fonem sayısını göstermektedir.
Fonetik söyleyiş skorunu hesaplayabilmek için Sphinx
yazılımı [9] kullanılarak bir konuşma tanıma sistemi
uygulandı. Sphinx kodçözücüsü bir akustik modele ve bir dil
modeline ihtiyaç duyar. Kodçözücü için kullanılan akustik
model Carnegie Mellon Üniversitesi’nin (CMU) ARPAbet
sembol setine göre oluşturduğu 39 fonemlik veri sözlüğü ile
oluşturulmuştur.
Değerlendirmede kullanılan ikinci veri kümesi doğal
ortamda kaydedilmiştir. Bu veri kümesi, Sestek tarafından
üretilmiş “Articulator” adındaki iOS uygulaması [8] ile
toplanmıştır. Kayıt esnasında kullanıcıların, uygulama
ekranında okuyacakları cümleleri görmeleri sağlanmıştır.
Uygulamayı kullanan insanlar üzerinde hiç bir sınırlama
olmadığından, tüm veri kümesini tamamlamayan kullanıcılar
mevcuttur. 527 kayıt, bu seti oluşturan 100 farklı cümlenin
hepsinden kayıt bulunacak şekilde ve 100 farklı kullanıcı
bulunacak şekilde seçilmiştir. Böylece fonem ve konuşmacı
çeşitliliğini sağlamak amaçlandı. Aynı amaçla bir kişiden en
fazla 7 kayıt alınmıştır.
Bunlara
ek
olarak,
Denetimsiz
Adaptasyon
Sınıflandırması’nın
eğitiminde
kullanılmak
üzere
“Articulator” kayıtlarından iki veri kümesi daha seçildi.
Burada toplam süresi 105 dakika olan 1852 kayıt
bulunmaktadır. Denetimsiz Adaptasyon Sınıflandırması’nın
eğitim kümesi ile Telaffuz Skorlamanın değerlendirme
kümesinde hiçbir ortak kullanıcı bulunmamaktadır.
Ayrıca, bazı kayıtlarda çevreden gelen gürültünün ve
arkadan başka insan seslerinin karıştığı gözlemlenmektedir.
Bu kayıtlar, kullanıcının sesi açık şekilde duyulduğu müddetçe
veritabanından çıkartılmamıştır. Ek olarak, bazı kelimelerin
eksik söylendiği kayıtlar da veritabanından çıkartılmamıştır.
Böylece sistemin gürbüzlüğünün denenmesi amaçlanmıştır.
Değerlendirme kümesi üç bilirkişiye dinletildi, bu
bilirkişilerden kümeyi, yüksek puan daha iyi telaffuz anlamına
gelecek şekilde 1’den 5’e kadar skorlamaları istendi.
Korelasyon katsayıları, bu bilirkişilerin birbirleriyle
tutarlılıklarını ölçmek adına hesaplandı.
∑
,
∑
∑
3.1.1
3.1.2
Korelasyon
0,524
0,726
0,535
YÖNTEM
Telaffuz skorlama için geliştirilen bu tablet uygulamasında
konuşma kaydının üç farklı özelliğinin analizi yapıldı. Bu
uygulamanın amacı telaffuzu hem kelime düzeyinde hem de
cümle düzeyinde inceleyebilmek için her bir cümle
kelimelerden, her bir kelime de fonemlerden oluşacak şekilde
formüle edilmiştir:
,
Denetimsiz Adaptasyon Sınıflandırıcısı
Telaffuz ölçme gibi bir çalışmada kullanıcıların ne gibi hatalar
yapabileceklerini tahmin etmek problemi daha iyi incelemeye
yardımcı olabilir. [11]’de el ile etiketlenmiş kayıtlar
kullanılmış ve fonemlerin doğru ve yanlış telaffuzları ayrı ayrı
modellenmiştir. Ancak bir telaffuz uygulamasında farklı
kelimeler veya tümcecikler ihtiyaca göre farklı ortamlarda
kullanılabilir. Olasılık skorları bu durumdan önemli ölçüde
etkilenebileceği için bu bildiride uygulama verilerinin
denetimsiz şekilde kullanılabileceği bir yöntem öne sürüldü.
Bu yöntem için gelen kayıtlar kelime doğruluk oranlarına göre
sıralandı ve %100 kelime doğruluğuna sahip kayıtlar iyi
telaffuz edilmiş olarak etiketlenirken %30 ve %99 arasında
kelime doğruluğuna sahip kayıtlar kötü telaffuz edilmiş olarak
ve kötü
etiketlendi. Bu yolla eğitim verisinin iyi Λ
Λ
istatistiksel modelleri otomatik olarak üretilmektedir.
Telaffuz dereceleri ise olasılık oranları kullanılarak
hesaplandı. S P O Λ
/P O|Λ
, burada O kullanıcı
Üçüncü veri kümesi olarak aynı 100 cümle Amerikan
aksanlı iki profesyonel spikere okutuldu. Spikerlerden birisi
kadın birisi erkek olarak seçildi. Bu kayıtlar, ana dili İngilizce
olmayan kullanıcıların tonlama ve zamanlama örüntüleri
skorlanırken referans olarak kullanıldı.
…
Kelime ve Fonem Doğruluğu
Akustik modeli oluşturmak için 16 kHz ve 16bit formatta,
anadili İngilizce olan spikerlerden alınan 270 saatlik kayıt
kullanılırken seçilen 100 cümlenin içeriği de 3-gram dil
modeli oluşturmak için kullanıldı. 3-gram dil modelini
oluştururken CMU telaffuz sözlüğünden [10] yararlanılarak
kelimelerin fonem açılımları elde edildi. Bu sözlükte
bulunmayan kelimelerin fonem açılımları da fonem regresyon
ağacı kullanılarak elde edildi. Fonem açılım dizileri
bulunduktan sonra, dil modeli için yapılan işlemler ile kelime
bazlı model için yapılan işlemler birbirine çok benzemektedir.
Ancak dil modeli eğitimi için kullanılan metin kısıtlı olduğu
için yumuşatma (smoothing) işlemi az gözlemlenen
durumların olasılığını düşürmektedir. Bu yüzden tanıma
doğruluğunu arttırmak için yumuşatma işlemi etkisizleştirildi.
Cümle bazlı fonetik söyleyiş skoru kelime doğruluk
oranıyla hesaplanırken kelime bazlı söyleyiş skoru ise fonem
doğruluk oranıyla hesaplandı.
Değerlendirme kümesinin -kelimelerin tamamının
okunduğu cümlelerle oluşturulan- bir alt kümesi ile konuşma
tanıma sistemi denendi ve kelime ve fonem tanıma doğruluk
oranları sırasıyla %79,8 ve % 44,2 olarak bulundu. Göreli
düşük tanıma sonuçları gerçek ortamda kaydedilen verilerin
kalitesine bağlanılabilir. Ayrıca akustik modelinin anadil
verisiyle eğitilmiş olması da bir etkendir. Akustik model
eğitimine anadil olmayan kayıtlar eklemek tanıma oranlarını
arttıracağı gibi telaffuz skor performansını indirgeyebilir.
Tablo 1.Bilirkişilerin Birbirleriyle Korelasyonları.
3.
M
3.1. Fonetik Söyleyiş
“An enormous piece of caramelized chewing gum in the
center of the pit”
“I saw Susie sitting in a shoe shine shop”
Bilirkişiler
Bilirkişi1– Bilirkişi2
Bilirkişi1– Bilirkişi3
Bilirkişi2– Bilirkişi3
gösterirken
…
952
2014 IEEE 22nd Signal Processing and Communications Applications Conference (SIU 2014)
kaydından elde edilen Mel Frekans Kepstrum Katsayıları
(MFKK) vektör dizisine karşılık gelmektedir.
faktörü kullanarak, cümle bazlı toplam zamanlama farkı şu
şekilde hesaplanmıştır:
1
3.2. Tonlama
Tonlama terimi, konuşma sırasında ana frekanstaki değişimi
betimler. Çoğu dilde tonlama, vezinli konuşmak ve edim
bilgisi iletmek için kullanılır. Tonlama ayrıca vurgulamak,
hicivli söylemek ya da soru yöneltmek için de kullanılır.
Önceki çalışmalar, tonlamanın aksana dair görece önemli
bilgiler taşıdığını göstermiştir [12], bu yüzdendir ki vurgu
Otomatik Telaffuz Skorlama için kullanabilir bir özellik
olabilir.
Fonem bazında ses perdelerinin, bizim için ana
frekansların, karşılaştırılmasına dayalı farklı algoritmalar
denendi. İlk olarak fonemlerin hudutları, konuşma tanıma
akustik modeli kullanan cebri hizalama yöntemi ile çıkarıldı.
Sonra ses perdesi değerleri RAPT [13] kullanılarak elde edildi.
Ses perdesi bilgisinin konuşmacının yaşından ve
cinsiyetinden bağımsız olması için, hem kullanıcı hem de
referans ses perdesi bilgisine Sıfır-Normalizasyonu (Z-norm)
uygulandı. Ayrıca cebri hizalama sırasında oluşan ufak hatalar
yüzünden bazı fonemlerin kıyaslanması esnasında hatalar
gözlemlendi. Daha gürbüz bir sisteme sahip olabilmek için
sadece sesli harfler hesaba katıldı.
Yapılan deneylerde en iyi performansı ses perdesindeki
değişimi modelleyen sistem göstermiştir. Bu nedenle harf
bazında ses perdesindeki değişimin referansa uzaklığına göre
tonlama skorları hesaplanmıştır.
1
1
1
Burada N, cümledeki toplam fonem sayısını gösterirken ve
sırasıyla referansın ve kullanıcının fonem sürelerini
göstermektedir.
Kelime bazındaki zamanlama skorunun hesaplanması da
yukardakine benzer bir yöntemle hesaplanır. Buradaki tek
fark, her bir kelime skoru hesaplanırken cümledeki tüm fonem
sürelerinin karşılaştırması yerine sadece ilgili kelimenin
fonem sürelerinin karşılaştırılmasıdır.
1
3.4. Skor Birleştirme
Yukarıda anlatılan çalışmalar sonucunda 3 farklı öznitelikten fonetik söyleyiş, tonlama ve zamanlama- skorlar elde edildi.
Uygulamanın temel amacı kullanıcıya genelleştirilmiş tek bir
skor sunmak olduğu için alternatif skor birleştirme yöntemleri
arasından yapay sinir ağları metodu seçildi. Bu proje için açık
kaynak kodlu AForge yapay sinir ağları kütüphanesi
kullanıldı.
Yapay sinir ağlarını eğitmek için değerlendirme kümesi,
bilirkişilerin ortalama öznel telaffuz puanlarına göre iki gruba
ayrıldı. Her bir bilirkişinin katkısını eşitlemek için
ortalamaları alınmadan önce öznel puanlara sıfırnormalizasyonu uygulandı. Bunun sonucunda -0,5’ten daha
düşük skor alan kayıtlar “kötü”, 0,5’ten daha yüksek skor alan
kayıtlar ise “iyi” olarak etiketlendi. Bu ikili karar çıktısı,
yapay sinir ağının eğitiminde kullanıldı. Yapay sinir ağı için
geri yayınımlı öğrenme ve algılayıcı (percepton) öğrenme
algoritmaları denendi. AForge kütüphanesinin algılayıcı
öğrenme algoritması sadece tek katmanlı olduğundan ve elde
edilen sonuçlar yeterli görülmediğinden geri yayınımlı
öğrenme algoritması kullanıldı. Geri yayınımlı öğrenme
algoritması birden fazla gizli katmanlı yapay sinir ağı için
kullanılabilmektedir. Bu algoritmanın en iyi performansına
alfa değeri 0,2 olan sigmoid fonksiyonuyla ulaşıldı.
Yukardaki yönteme göre veritabanımızda bulunan 527
kayıttan 164’ü iyi telaffuz edilmiş 127’si ise kötü telaffuz
edilmiş olarak etiketlendi. Değerlendirme kümesinde kısıtlı
sayıda kayıt bulunduğundan, çevrimsel sıralı (round robin) test
senaryosu uygulandı. Bu senaryoya göre veritabanı 5 parçaya
ayırıldı. Bu parçalardan 4’ü eğitim için kullanılırken 1’i de test
için kullanıldı ve bu işlem 5 kere tekrar edildi. Başlangıç
deneylerinde gözlemlendiği üzere iyi ve kötü etiketli veri
sayısı farkı önemli ölçüde sapmaya sebep olmaktadır. Bu
nedenle her bir kategoriden eşit sayıda örnek kullanılarak
eğitim yapıldı.
,
,1
1
1
0
1
1
μ
,
burada
i. kelimedeki sesli harf sayısı,
ise referans ve
kullanıcı ses perdelerinin, tüm cümle dikkate alınarak
hesaplanmış uyumsuzluk skorudur.
3.3. Zamanlama
Zamanlama skorları, telaffuzun hem kelime hem de cümle
düzeyinde incelenmesiyle hesaplandı. Öncelikle cümle
bazındaki zamanlama skoru hesaplanırken fonem süreleri
arasındaki farklar dikkate alındı. Her bir fonemin süresi Saklı
Markov Modeli (SMM) tabanlı cebri hizalama yöntemiyle
elde edildi. Bu süreleri referans konuşmacı süreleriyle
karşılaştırmak için ise konuşma hızları normalize edildi. Her
bir fonemin süresi konuşma hız oranı faktörüyle
ölçeklendirildi.
4.
SİMÜLASYON SONUÇLARI
Yapılan deneylerde iki farklı performans ölçütü belirlendi. İlk
ölçüt, sistemin “açık şekilde iyi” ve “açık şekilde kötü” olan
telaffuzları ayırt edebilmesiyken ikinci ölçüt öznel bilirkişi
skorlarının ne kadar iyi tahmin edilebildiği olarak belirlendi.
İlk ölçüt için değerlendirme kümesi, skor birleştirme
bölümünde anlatıldığı şekilde ikiye ayrıldı. Daha sonra
kayıtların %20’si test kümesi ve kalanı da eğitim kümesi
olacak şekilde 5’li gruplamalı test uygulandı. İkili
Burada, µ konuşa hızı faktörünü gösterirken T ve T sırasıyla
kullanıcı ve referans konuşma sürelerini göstermektedir. Bu
953
2014 IEEE 22nd Signal Processing and Communications Applications Conference (SIU 2014)
sınıflandırma bakımından 5 katlı test sonuçları Tablo 2’de eşit
tanıma oranı yüzdesi olarak verilmiştir.
İkincil ölçüt olarak sistem skorları ile öznel bilirkişi
skorları arasındaki korelasyon ölçülmüştür. Test seti üzerinde
bilirkişiler arasındaki ortalama korelasyon 0,83 çıkmıştır.
Burada açık şekilde iyi ve açık şekilde kötü kümeler seçilirken
bilirkişilerin orta seviye olarak değerlendirdikleri örnekler
çıkarıldığı için Tablo 1’de listelenen değerlerden daha yüksek
bir korelasyon gözlemlenmiştir. Sistemin birleştirilmiş skoru
ile bilirkişilerin ortalama skoru arasındaki korelasyon da 0,73
olarak hesaplanmıştır.
Sınıflandırıcılar
ERR
Kelime Sınıflandırıcısı(W)
81,1% 0,63
Fonem Sınıflandırıcısı (Ph)
73,5% 0,57
Zamanlama Sınıflandırıcısı (D)
71,5% 0,51
[7] O. Deroo et al., “Automatic Detection of Mispronounced
Phonemes for Language Learning Tools,” in Proc of
ICSLP, Vol. 1, 2000, pp. 681–684.
[8] Sestek. (undated). [Online]. Viewed 2013 September 2.
Available: http://www.sestek.com/articulator
[9] P. Placeway et al., "The 1996 Hub-4 Sphinx-3 System,"
Proc. of the 1997 ARPA Speech Recognition Workshop,
1997.
[10] Carnegie Mellon University. (undated). CMU
pronouncing dictionary. [Online]. Viewed 2013 August
26.
Available:
http://www.speech.cs.cmu.edu/cgibin/cmudict
[11] J. Tepperman and S. S. Narayanan, "Better nonnative
intonation scores through prosodic theory," in
INTERSPEECH-2008, 2008, pp. 1813-1816.
[12] A. Ikeno and J. H. L. Hansen, “The role of prosody in the
perception of US native English accents,” in Proc. of
Interspeech ICSLP, Pittsburgh, PA, 2006.
[13] D. Talkin, "A Robust Algorithm For Pitch Tracking," in
Speech Coding and Synthesis, 1995, pp.495–518.
[14] AForge. (undated). [Online]. Viewed 2013 October
1.Available:
http://www.aforgenet.com/framework/features/neural_ne
tworks.html
[15] Sestek. (undated). [Online]. Viewed 2013 November 1.
Available: http://sestek.com/pronunciation-scorer
Corr.
Tonlama Sınıflandırıcısı (P)
55,5% 0,15
UA Sınıflandırıcısı (UA)
66,0% 0,33
Birleştirilmiş (W+Ph+D+P)
82,8% 0,72
Birleştirilmiş (W+Ph+D+P+UA) 83,5% 0,73
Tablo 2.Sınıflandırıcıların ERR ve korelasyon değerleri
5.
SONUÇLAR
Tablet uygulaması olarak tasarlanan bu proje çerçevesinde
denetimsiz adaptasyon verilerini kullanarak kendini
güncelleyebilen bir sistem geliştirildi. Tonlama, zamanlama ve
fonetik söyleyiş özniteliklerinden tek bir skor oluşturmak için
yapay sinir ağı kullanıldı. Birleştirilmiş sistem skoru ile
ortalama bilirkişi skoru arasındaki korelasyon 0,73 olarak
hesaplandı. Ayrıca sistemi test etmesi istenen 10 kullanıcının
ortalama puanı 5 üzerinden 4.2 olarak tespit edildi. Uygulama
ile ilgili daha detaylı bilgiye [15]’ten ulaşılabilir.
6.
KAYNAKÇA
[1] M. Levy, "Computer-Assisted Language Learning:
Context and Conceptualization," Oxford, United
Kingdom: Oxford University Press, 1997, pp. 1.
[2] A. Kukulska-Hulme, and L. Shield, "An Overview of
Mobile Assisted Language Learning: From Content
Delivery to Supported Collaboration and Interaction,"
ReCALL, 20(3), 2008, pp. 271–289.
[3] C. Cucchiarini, H. Strik and L. Boves, "Different aspects
of expert pronunciation quality ratings and their relation
to scores produced by speech recognition algorithms,"
Speech Communication, Vol. 30, Issues 2–3, Feb. 2000,
pp. 109–119.
[4] L. Neumeyer et al., "Automatic scoring of pronunciation
quality", Speech Communication, Vol. 30, Issues 2–3,
Feb. 2000, pp. 83–93.
[5] R. Srikanth, B. Li and J. Salsman, “Automatic
Pronunciation Evaluation And Mispronunciation
Detection Using CMUSphinx,” Proc. Of Speech and
Language Processing Tools in Education Workshop,
Coling, Mumbai, India, Dec. 2012, pp. 61–68.
[6] T. Cincarek et al., “Automatic Pronunciation Scoring of
Words and Sentences Independent From the Nonnative’s First Language,” Computer Speech and
Language, Vol. 23, Issue 1, Jan. 2009, pp. 65–88.
954

Benzer belgeler