İNGİLİZCE TELAFFUZ DEĞERLENDİRME İÇİN
Transkript
İNGİLİZCE TELAFFUZ DEĞERLENDİRME İÇİN
2014 IEEE 22nd Signal Processing and Communications Applications Conference (SIU 2014) İNGİLİZCE TELAFFUZ DEĞERLENDİRME İÇİN TABLET UYGULAMASI A TABLET APPLICATION FOR ENGLISH PRONUNCIATION ASSESSMENT Mustafa Erden1, Mehmet Emin Erük1,2, Gökhan Şevkin1,2, Mert Yücel Bayram1, Mert Büyüktuncay1, Ali Haznedaroğlu1,2, Levent M. Arslan1,2 1. Sestek, İstanbul, TÜRKİYE 2. Elektrik ve Elektronik Mühendisliği Bölümü, Boğaziçi Üniversitesi {mustafa.erden,emin.eruk,gokhan.sevkin,yucel.bayram, mert.buyuktuncay,ali.haznedaroglu,levent.arslan} @sestek.com {emin.eruk,gokhan.sevkin,ali.haznedaroglu,arslanle} @boun.edu.tr öğretme ve öğrenmede bilgisayar uygulamalarının araştırılması ve bu konuda çalışma yapılması” olarak tanımlanır[1]. Başlangıçta web tabanlı uzaktan öğrenim popülerleşmişken günümüzde -akıllı telefonlar ve tabletler dünya çapında bir popülerlik kazandıkça- mobil yardımlı dil öğrenme alanına doğru bir kayma oluştu [2]. Bilgisayar yardımlı dil öğrenme, ülke ya da dünya genelindeki öğrencilerin eğitimini, gelir düzeyleri ve bulundukları yerden bağımsız olarak, hissedilir biçimde destekleme potansiyeline sahip olduğu için özellikle ilgi çekici bir alandır. Aynı zamanda yaştan ve kariyerden bağımsız olarak yabancı dil eğitimine duyulan bir talep vardır. Bu çalışmada otomatik İngilizce telaffuzunun skorlanması incelenmiştir. Özellikle yabancı dil öğrenenler için İngilizce konuşma ve okuma pratiği yapmak üzere tasarlanmış bir uygulamanın yadsınamaz bir ilgi çekiciliğe sahip olabileceği düşünülmüştür. Son zamanlarda çeşitli dillerde otomatik telaffuz skorlama üzerine farklı açılardan yaklaşan birçok çalışma yapıldı. Örneğin Cucchiarini ve arkadaşları [3] yaptıkları çalışmada Flemenkçe için makine ve bilirkişiler tarafından yapılan değerlendirmeler arasındaki ilişkiyi incelemişlerdir. Bu çalışmada otomatik değerlendirme için temel akustik öznitelik olarak konuşma tanıma modellerinden elde edilen akustik olasılık ve süre bilgisini kullanmışlardır. Sonuç olarak bilirkişi skorları ve makine skorları arasında yüksek bir korelasyon bulmuşlardır. Neumayer ve arkadaşları [4] tarafından yapılan bir çalışmada ise Amerikan konuşmacıların Fransızca konuşmaları incelenmiş ve insan algısı ve otomatik öznitelikler (akustik olasılık ve zamanlama) arasında güçlü bir korelasyon bulunmuştur. Telaffuz skorlamadaki önceki çalışmalar daha çok konuşma tanıma ve fonetik hizalama sonuçlarına dayanmaktadır [5, 6]. Referans akustik modeller anadilde alınan konuşma kayıtlarıyla eğitilirken, [7]’de fonemlerin doğru ve yanlış telaffuzları ayrı ayrı modellenmiştir. Bu çalışmada ise bilinen özniteliklere -tonlama ve zamanlamaek olarak eğitim verilerinin manüel analiz yerine otomatik olarak gruplandırıldığı bir denetimsiz adaptasyon (DA) tekniği önerildi. DA metodu için cümlelerin doğru ve yanlış telaffuzundan elde edilen iki farklı akustik modelin logaritmik olasılık farkları kullanıldı. ÖZETÇE Mobil ve çevrimiçi uygulamaların popülerliği arttıkça otomatik telaffuz skorlama daha ilgi çekici bir çalışma alanına dönüşmeye başladı. Bu bildiride, Amerikan İngilizcesi telaffuzunun skorlanması için tasarlanan bir tablet uygulamasının araştırılması ve geliştirilmesi üzerine çalışılmıştır. Bu çalışmada telaffuz; fonetik söyleyiş, tonlama ve zamanlama olmak üzere 3 temel boyutta incelenmiştir. Araştırma için kullanılan veritabanı 527 kayıttan oluşmaktadır ve bu kayıtlar anadilleri ve İngilizce bilgi düzeyleri değişiklik gösteren 100 farklı kişiden, gerçek ortamlarda ve mobil cihazlar kullanılarak alınmıştır. Bu çalışmada telaffuzu değerlendirmek için kelime ve cümle bazında bir skorlama algoritması geliştirilmiştir. Bu algoritmanın skorları, İngilizce telaffuz konusunda bilgili kişilerin yaptığı değerlendirme ile karşılaştırılmıştır. Farklı insanların kendi içlerindeki korelasyonu 0,83 iken ortalama İnsan değerlendirmeleri ve algoritma skorları arasındaki korelasyon 0,73 olarak bulunmuştur. Ayrıca geri bildirim olarak değerlendirilmek üzere 10 farklı kişiden uygulamanın arayüzü ve kullanım kolaylığı hakkında düşünceleri istenmiştir. Bu kişilerin tatmin oranı 4,2/5 ile sonuçlanmıştır. ABSTRACT Automatic pronunciation scoring is becoming an interesting field of study as on-line tools and mobile applications are becoming more popular. In this paper, we will investigate research and development of a pronunciation scoring tool for American English designed for tablets. We have investigated mainly three dimensions in pronunciation namely phonetic articulation, intonation and timing. We worked with real data recorded from mobile devices in real environments. We analyzed 527 recordings from 100 different speakers with varying degrees of knowledge of American English and with different first language backgrounds. We developed a scoring algorithm for the pronunciations at the sentence and word levels and then compared our results with human ratings. We have found a correlation value of 0.73 for agreement between our proposed method and human ratings while the inter-labeler agreement was 0.83. We also asked the opinion of 10 subjects regarding the user interface and ease of use for the feedback given in three dimensions. Average user satisfaction for the application was 4.2/5. 1. 2. VERİTABANI Uygulama için üç farklı veri alt kümesi kullanıldı. İlk küme, akustik modelin eğitimi için kullanıldı. Bu küme 270 saatlik 16kHz ile örneklenmiş 16 bit PCM formatında, ana dili İngilizce olan kullanıcılardan alınan kayıtlardan oluşmaktadır. GİRİŞ Bilgisayarlar son yıllarda daha küçük, daha hızlı ve daha ucuz hale gelmiştir. Bu ve bunun gibi diğer hızlı teknolojik gelişmeler sonucunda bilgisayarlar günlük yaşamımızda çeşitli görevler almaya başlamışlardır. Bu görevlerden biri olan bilgisayar yardımlı dil öğrenme Levy tarafından “dil Uzunlukları 2 ile 17 kelime arasında değişen 100 farklı cümle, Telaffuz Skorlama’nın değerlendirmesinde 978-1-4799-4874-1/14/$31.00 ©2014 IEEE 951 2014 IEEE 22nd Signal Processing and Communications Applications Conference (SIU 2014) kullanıldı. Bu bulabilirsiniz: kümeden iki örnek cümleyi aşağıda Burada N cümledeki kelime sayısını kelimedeki fonem sayısını göstermektedir. Fonetik söyleyiş skorunu hesaplayabilmek için Sphinx yazılımı [9] kullanılarak bir konuşma tanıma sistemi uygulandı. Sphinx kodçözücüsü bir akustik modele ve bir dil modeline ihtiyaç duyar. Kodçözücü için kullanılan akustik model Carnegie Mellon Üniversitesi’nin (CMU) ARPAbet sembol setine göre oluşturduğu 39 fonemlik veri sözlüğü ile oluşturulmuştur. Değerlendirmede kullanılan ikinci veri kümesi doğal ortamda kaydedilmiştir. Bu veri kümesi, Sestek tarafından üretilmiş “Articulator” adındaki iOS uygulaması [8] ile toplanmıştır. Kayıt esnasında kullanıcıların, uygulama ekranında okuyacakları cümleleri görmeleri sağlanmıştır. Uygulamayı kullanan insanlar üzerinde hiç bir sınırlama olmadığından, tüm veri kümesini tamamlamayan kullanıcılar mevcuttur. 527 kayıt, bu seti oluşturan 100 farklı cümlenin hepsinden kayıt bulunacak şekilde ve 100 farklı kullanıcı bulunacak şekilde seçilmiştir. Böylece fonem ve konuşmacı çeşitliliğini sağlamak amaçlandı. Aynı amaçla bir kişiden en fazla 7 kayıt alınmıştır. Bunlara ek olarak, Denetimsiz Adaptasyon Sınıflandırması’nın eğitiminde kullanılmak üzere “Articulator” kayıtlarından iki veri kümesi daha seçildi. Burada toplam süresi 105 dakika olan 1852 kayıt bulunmaktadır. Denetimsiz Adaptasyon Sınıflandırması’nın eğitim kümesi ile Telaffuz Skorlamanın değerlendirme kümesinde hiçbir ortak kullanıcı bulunmamaktadır. Ayrıca, bazı kayıtlarda çevreden gelen gürültünün ve arkadan başka insan seslerinin karıştığı gözlemlenmektedir. Bu kayıtlar, kullanıcının sesi açık şekilde duyulduğu müddetçe veritabanından çıkartılmamıştır. Ek olarak, bazı kelimelerin eksik söylendiği kayıtlar da veritabanından çıkartılmamıştır. Böylece sistemin gürbüzlüğünün denenmesi amaçlanmıştır. Değerlendirme kümesi üç bilirkişiye dinletildi, bu bilirkişilerden kümeyi, yüksek puan daha iyi telaffuz anlamına gelecek şekilde 1’den 5’e kadar skorlamaları istendi. Korelasyon katsayıları, bu bilirkişilerin birbirleriyle tutarlılıklarını ölçmek adına hesaplandı. ∑ , ∑ ∑ 3.1.1 3.1.2 Korelasyon 0,524 0,726 0,535 YÖNTEM Telaffuz skorlama için geliştirilen bu tablet uygulamasında konuşma kaydının üç farklı özelliğinin analizi yapıldı. Bu uygulamanın amacı telaffuzu hem kelime düzeyinde hem de cümle düzeyinde inceleyebilmek için her bir cümle kelimelerden, her bir kelime de fonemlerden oluşacak şekilde formüle edilmiştir: , Denetimsiz Adaptasyon Sınıflandırıcısı Telaffuz ölçme gibi bir çalışmada kullanıcıların ne gibi hatalar yapabileceklerini tahmin etmek problemi daha iyi incelemeye yardımcı olabilir. [11]’de el ile etiketlenmiş kayıtlar kullanılmış ve fonemlerin doğru ve yanlış telaffuzları ayrı ayrı modellenmiştir. Ancak bir telaffuz uygulamasında farklı kelimeler veya tümcecikler ihtiyaca göre farklı ortamlarda kullanılabilir. Olasılık skorları bu durumdan önemli ölçüde etkilenebileceği için bu bildiride uygulama verilerinin denetimsiz şekilde kullanılabileceği bir yöntem öne sürüldü. Bu yöntem için gelen kayıtlar kelime doğruluk oranlarına göre sıralandı ve %100 kelime doğruluğuna sahip kayıtlar iyi telaffuz edilmiş olarak etiketlenirken %30 ve %99 arasında kelime doğruluğuna sahip kayıtlar kötü telaffuz edilmiş olarak ve kötü etiketlendi. Bu yolla eğitim verisinin iyi Λ Λ istatistiksel modelleri otomatik olarak üretilmektedir. Telaffuz dereceleri ise olasılık oranları kullanılarak hesaplandı. S P O Λ /P O|Λ , burada O kullanıcı Üçüncü veri kümesi olarak aynı 100 cümle Amerikan aksanlı iki profesyonel spikere okutuldu. Spikerlerden birisi kadın birisi erkek olarak seçildi. Bu kayıtlar, ana dili İngilizce olmayan kullanıcıların tonlama ve zamanlama örüntüleri skorlanırken referans olarak kullanıldı. … Kelime ve Fonem Doğruluğu Akustik modeli oluşturmak için 16 kHz ve 16bit formatta, anadili İngilizce olan spikerlerden alınan 270 saatlik kayıt kullanılırken seçilen 100 cümlenin içeriği de 3-gram dil modeli oluşturmak için kullanıldı. 3-gram dil modelini oluştururken CMU telaffuz sözlüğünden [10] yararlanılarak kelimelerin fonem açılımları elde edildi. Bu sözlükte bulunmayan kelimelerin fonem açılımları da fonem regresyon ağacı kullanılarak elde edildi. Fonem açılım dizileri bulunduktan sonra, dil modeli için yapılan işlemler ile kelime bazlı model için yapılan işlemler birbirine çok benzemektedir. Ancak dil modeli eğitimi için kullanılan metin kısıtlı olduğu için yumuşatma (smoothing) işlemi az gözlemlenen durumların olasılığını düşürmektedir. Bu yüzden tanıma doğruluğunu arttırmak için yumuşatma işlemi etkisizleştirildi. Cümle bazlı fonetik söyleyiş skoru kelime doğruluk oranıyla hesaplanırken kelime bazlı söyleyiş skoru ise fonem doğruluk oranıyla hesaplandı. Değerlendirme kümesinin -kelimelerin tamamının okunduğu cümlelerle oluşturulan- bir alt kümesi ile konuşma tanıma sistemi denendi ve kelime ve fonem tanıma doğruluk oranları sırasıyla %79,8 ve % 44,2 olarak bulundu. Göreli düşük tanıma sonuçları gerçek ortamda kaydedilen verilerin kalitesine bağlanılabilir. Ayrıca akustik modelinin anadil verisiyle eğitilmiş olması da bir etkendir. Akustik model eğitimine anadil olmayan kayıtlar eklemek tanıma oranlarını arttıracağı gibi telaffuz skor performansını indirgeyebilir. Tablo 1.Bilirkişilerin Birbirleriyle Korelasyonları. 3. M 3.1. Fonetik Söyleyiş “An enormous piece of caramelized chewing gum in the center of the pit” “I saw Susie sitting in a shoe shine shop” Bilirkişiler Bilirkişi1– Bilirkişi2 Bilirkişi1– Bilirkişi3 Bilirkişi2– Bilirkişi3 gösterirken … 952 2014 IEEE 22nd Signal Processing and Communications Applications Conference (SIU 2014) kaydından elde edilen Mel Frekans Kepstrum Katsayıları (MFKK) vektör dizisine karşılık gelmektedir. faktörü kullanarak, cümle bazlı toplam zamanlama farkı şu şekilde hesaplanmıştır: 1 3.2. Tonlama Tonlama terimi, konuşma sırasında ana frekanstaki değişimi betimler. Çoğu dilde tonlama, vezinli konuşmak ve edim bilgisi iletmek için kullanılır. Tonlama ayrıca vurgulamak, hicivli söylemek ya da soru yöneltmek için de kullanılır. Önceki çalışmalar, tonlamanın aksana dair görece önemli bilgiler taşıdığını göstermiştir [12], bu yüzdendir ki vurgu Otomatik Telaffuz Skorlama için kullanabilir bir özellik olabilir. Fonem bazında ses perdelerinin, bizim için ana frekansların, karşılaştırılmasına dayalı farklı algoritmalar denendi. İlk olarak fonemlerin hudutları, konuşma tanıma akustik modeli kullanan cebri hizalama yöntemi ile çıkarıldı. Sonra ses perdesi değerleri RAPT [13] kullanılarak elde edildi. Ses perdesi bilgisinin konuşmacının yaşından ve cinsiyetinden bağımsız olması için, hem kullanıcı hem de referans ses perdesi bilgisine Sıfır-Normalizasyonu (Z-norm) uygulandı. Ayrıca cebri hizalama sırasında oluşan ufak hatalar yüzünden bazı fonemlerin kıyaslanması esnasında hatalar gözlemlendi. Daha gürbüz bir sisteme sahip olabilmek için sadece sesli harfler hesaba katıldı. Yapılan deneylerde en iyi performansı ses perdesindeki değişimi modelleyen sistem göstermiştir. Bu nedenle harf bazında ses perdesindeki değişimin referansa uzaklığına göre tonlama skorları hesaplanmıştır. 1 1 1 Burada N, cümledeki toplam fonem sayısını gösterirken ve sırasıyla referansın ve kullanıcının fonem sürelerini göstermektedir. Kelime bazındaki zamanlama skorunun hesaplanması da yukardakine benzer bir yöntemle hesaplanır. Buradaki tek fark, her bir kelime skoru hesaplanırken cümledeki tüm fonem sürelerinin karşılaştırması yerine sadece ilgili kelimenin fonem sürelerinin karşılaştırılmasıdır. 1 3.4. Skor Birleştirme Yukarıda anlatılan çalışmalar sonucunda 3 farklı öznitelikten fonetik söyleyiş, tonlama ve zamanlama- skorlar elde edildi. Uygulamanın temel amacı kullanıcıya genelleştirilmiş tek bir skor sunmak olduğu için alternatif skor birleştirme yöntemleri arasından yapay sinir ağları metodu seçildi. Bu proje için açık kaynak kodlu AForge yapay sinir ağları kütüphanesi kullanıldı. Yapay sinir ağlarını eğitmek için değerlendirme kümesi, bilirkişilerin ortalama öznel telaffuz puanlarına göre iki gruba ayrıldı. Her bir bilirkişinin katkısını eşitlemek için ortalamaları alınmadan önce öznel puanlara sıfırnormalizasyonu uygulandı. Bunun sonucunda -0,5’ten daha düşük skor alan kayıtlar “kötü”, 0,5’ten daha yüksek skor alan kayıtlar ise “iyi” olarak etiketlendi. Bu ikili karar çıktısı, yapay sinir ağının eğitiminde kullanıldı. Yapay sinir ağı için geri yayınımlı öğrenme ve algılayıcı (percepton) öğrenme algoritmaları denendi. AForge kütüphanesinin algılayıcı öğrenme algoritması sadece tek katmanlı olduğundan ve elde edilen sonuçlar yeterli görülmediğinden geri yayınımlı öğrenme algoritması kullanıldı. Geri yayınımlı öğrenme algoritması birden fazla gizli katmanlı yapay sinir ağı için kullanılabilmektedir. Bu algoritmanın en iyi performansına alfa değeri 0,2 olan sigmoid fonksiyonuyla ulaşıldı. Yukardaki yönteme göre veritabanımızda bulunan 527 kayıttan 164’ü iyi telaffuz edilmiş 127’si ise kötü telaffuz edilmiş olarak etiketlendi. Değerlendirme kümesinde kısıtlı sayıda kayıt bulunduğundan, çevrimsel sıralı (round robin) test senaryosu uygulandı. Bu senaryoya göre veritabanı 5 parçaya ayırıldı. Bu parçalardan 4’ü eğitim için kullanılırken 1’i de test için kullanıldı ve bu işlem 5 kere tekrar edildi. Başlangıç deneylerinde gözlemlendiği üzere iyi ve kötü etiketli veri sayısı farkı önemli ölçüde sapmaya sebep olmaktadır. Bu nedenle her bir kategoriden eşit sayıda örnek kullanılarak eğitim yapıldı. , ,1 1 1 0 1 1 μ , burada i. kelimedeki sesli harf sayısı, ise referans ve kullanıcı ses perdelerinin, tüm cümle dikkate alınarak hesaplanmış uyumsuzluk skorudur. 3.3. Zamanlama Zamanlama skorları, telaffuzun hem kelime hem de cümle düzeyinde incelenmesiyle hesaplandı. Öncelikle cümle bazındaki zamanlama skoru hesaplanırken fonem süreleri arasındaki farklar dikkate alındı. Her bir fonemin süresi Saklı Markov Modeli (SMM) tabanlı cebri hizalama yöntemiyle elde edildi. Bu süreleri referans konuşmacı süreleriyle karşılaştırmak için ise konuşma hızları normalize edildi. Her bir fonemin süresi konuşma hız oranı faktörüyle ölçeklendirildi. 4. SİMÜLASYON SONUÇLARI Yapılan deneylerde iki farklı performans ölçütü belirlendi. İlk ölçüt, sistemin “açık şekilde iyi” ve “açık şekilde kötü” olan telaffuzları ayırt edebilmesiyken ikinci ölçüt öznel bilirkişi skorlarının ne kadar iyi tahmin edilebildiği olarak belirlendi. İlk ölçüt için değerlendirme kümesi, skor birleştirme bölümünde anlatıldığı şekilde ikiye ayrıldı. Daha sonra kayıtların %20’si test kümesi ve kalanı da eğitim kümesi olacak şekilde 5’li gruplamalı test uygulandı. İkili Burada, µ konuşa hızı faktörünü gösterirken T ve T sırasıyla kullanıcı ve referans konuşma sürelerini göstermektedir. Bu 953 2014 IEEE 22nd Signal Processing and Communications Applications Conference (SIU 2014) sınıflandırma bakımından 5 katlı test sonuçları Tablo 2’de eşit tanıma oranı yüzdesi olarak verilmiştir. İkincil ölçüt olarak sistem skorları ile öznel bilirkişi skorları arasındaki korelasyon ölçülmüştür. Test seti üzerinde bilirkişiler arasındaki ortalama korelasyon 0,83 çıkmıştır. Burada açık şekilde iyi ve açık şekilde kötü kümeler seçilirken bilirkişilerin orta seviye olarak değerlendirdikleri örnekler çıkarıldığı için Tablo 1’de listelenen değerlerden daha yüksek bir korelasyon gözlemlenmiştir. Sistemin birleştirilmiş skoru ile bilirkişilerin ortalama skoru arasındaki korelasyon da 0,73 olarak hesaplanmıştır. Sınıflandırıcılar ERR Kelime Sınıflandırıcısı(W) 81,1% 0,63 Fonem Sınıflandırıcısı (Ph) 73,5% 0,57 Zamanlama Sınıflandırıcısı (D) 71,5% 0,51 [7] O. Deroo et al., “Automatic Detection of Mispronounced Phonemes for Language Learning Tools,” in Proc of ICSLP, Vol. 1, 2000, pp. 681–684. [8] Sestek. (undated). [Online]. Viewed 2013 September 2. Available: http://www.sestek.com/articulator [9] P. Placeway et al., "The 1996 Hub-4 Sphinx-3 System," Proc. of the 1997 ARPA Speech Recognition Workshop, 1997. [10] Carnegie Mellon University. (undated). CMU pronouncing dictionary. [Online]. Viewed 2013 August 26. Available: http://www.speech.cs.cmu.edu/cgibin/cmudict [11] J. Tepperman and S. S. Narayanan, "Better nonnative intonation scores through prosodic theory," in INTERSPEECH-2008, 2008, pp. 1813-1816. [12] A. Ikeno and J. H. L. Hansen, “The role of prosody in the perception of US native English accents,” in Proc. of Interspeech ICSLP, Pittsburgh, PA, 2006. [13] D. Talkin, "A Robust Algorithm For Pitch Tracking," in Speech Coding and Synthesis, 1995, pp.495–518. [14] AForge. (undated). [Online]. Viewed 2013 October 1.Available: http://www.aforgenet.com/framework/features/neural_ne tworks.html [15] Sestek. (undated). [Online]. Viewed 2013 November 1. Available: http://sestek.com/pronunciation-scorer Corr. Tonlama Sınıflandırıcısı (P) 55,5% 0,15 UA Sınıflandırıcısı (UA) 66,0% 0,33 Birleştirilmiş (W+Ph+D+P) 82,8% 0,72 Birleştirilmiş (W+Ph+D+P+UA) 83,5% 0,73 Tablo 2.Sınıflandırıcıların ERR ve korelasyon değerleri 5. SONUÇLAR Tablet uygulaması olarak tasarlanan bu proje çerçevesinde denetimsiz adaptasyon verilerini kullanarak kendini güncelleyebilen bir sistem geliştirildi. Tonlama, zamanlama ve fonetik söyleyiş özniteliklerinden tek bir skor oluşturmak için yapay sinir ağı kullanıldı. Birleştirilmiş sistem skoru ile ortalama bilirkişi skoru arasındaki korelasyon 0,73 olarak hesaplandı. Ayrıca sistemi test etmesi istenen 10 kullanıcının ortalama puanı 5 üzerinden 4.2 olarak tespit edildi. Uygulama ile ilgili daha detaylı bilgiye [15]’ten ulaşılabilir. 6. KAYNAKÇA [1] M. Levy, "Computer-Assisted Language Learning: Context and Conceptualization," Oxford, United Kingdom: Oxford University Press, 1997, pp. 1. [2] A. Kukulska-Hulme, and L. Shield, "An Overview of Mobile Assisted Language Learning: From Content Delivery to Supported Collaboration and Interaction," ReCALL, 20(3), 2008, pp. 271–289. [3] C. Cucchiarini, H. Strik and L. Boves, "Different aspects of expert pronunciation quality ratings and their relation to scores produced by speech recognition algorithms," Speech Communication, Vol. 30, Issues 2–3, Feb. 2000, pp. 109–119. [4] L. Neumeyer et al., "Automatic scoring of pronunciation quality", Speech Communication, Vol. 30, Issues 2–3, Feb. 2000, pp. 83–93. [5] R. Srikanth, B. Li and J. Salsman, “Automatic Pronunciation Evaluation And Mispronunciation Detection Using CMUSphinx,” Proc. Of Speech and Language Processing Tools in Education Workshop, Coling, Mumbai, India, Dec. 2012, pp. 61–68. [6] T. Cincarek et al., “Automatic Pronunciation Scoring of Words and Sentences Independent From the Nonnative’s First Language,” Computer Speech and Language, Vol. 23, Issue 1, Jan. 2009, pp. 65–88. 954