Türkçe için Kelime Temsillerinin Ö˘grenimi Learning Word

Transkript

Türkçe için Kelime Temsillerinin Ö˘grenimi Learning Word
Türkçe için Kelime Temsillerinin Öğrenimi
Learning Word Representations for Turkish
Mehmet Umut Sen, Hakan Erdogan
Elektronik Mühendisliği Bölümü
Sabancı Üniversitesi
{umutsen,haerdogan}@sabanciuniv.edu
Özetçe —Son yıllarda yüksek kaliteli kelime temsillerinin, bir
çok doğal dil işleme problemlerinin çözümünde performansı artırmada başarılı oldukları görülmüştür. Kelime temsilleri, sözcük
haznesindeki her bir kelimenin Öklit uzayında gerçel bir vektöre
eşlemlenmesidir. Öğrenilen kelime temsillerinin özgül problem
için faydalı olmasının yanında kelimeler arası doğrusal ilişki
kurdukları da gözlemlenmiştir. Yeni tanıtılan atla-gram modeli,
zengin anlamsal ve sözdizimsel kelime temsillerinin güdümsüz
öğrenimini daha hızlı ve başarılı kılmıştır. İngilizce dili için
sıklıkla kullanılmaya başlanan kelime temsillerinin henüz Türkçe
için bir uygulaması bulunmamaktadır. Bu bildiride, atla-gram
modelini büyük miktardaki bir Türkçe veritabanına uyguladık
ve oluşturduğumuz soru bankalarıyla bu temsillerin kelime
anlamları arasında ilişki kurma başarısını nicel olarak ölçtük.
Oluşturduğumuz kelime temsilleri ve soru bankaları web sitemiz
üzerinden akademik kullanıma açılmıştır.
Anahtar Kelimeler—Kelime temsilleri, Doğal Dil İşleme, Derin
Öğrenme
Abstract—High-quality word representations have been very
successful in recent years at improving performance across a variety of NLP tasks. These word representations are the mappings
of each word in the vocabulary to a real vector in the Euclidean
space. Besides high performance on specific tasks, learned word
representations have been shown to perform well on establishing
linear relationships among words. The recently introduced skipgram model improved performance on unsupervised learning of
word embeddings that contains rich syntactic and semantic word
relations both in terms of accuracy and speed. Word embeddings
that have been used frequently on English language, is not applied
to Turkish yet. In this paper, we apply the skip-gram model to
a large Turkish text corpus and measured the performance of
them quantitatively with the "question" sets that we generated.
The learned word embeddings and the question sets are publicly
available at our website.
Keywords—Word embeddings, Natural Language Processing,
Deep Learning
I.
G İR İ Ş
Son yıllarda, derin sinir ağları (DSA) kullanılarak geliştirilen doğal dil işleme (DDİ) yöntemlerinin farklı DDİ problemleri üzerindeki başarısı literatürdeki çeşitli bildiriler ile
gösterilmiştir. Adlandırılmış varlık tanıma, konuşma parçası
etiketleme, metin gövdeleme, anlambilimsel rol etiketlendirme
gibi problemlere uygulanan DSA yöntemleri, çoğunlukla
İngilizce veritabanları üzerine uygulanmıştır. Bu yöntemlerin önemli bir ayağı, büyük metin veritabanlarından kec
978-1-4799-4874-114$31.00 2014
IEEE
limeleri yüksek boyutlu sürekli vektörlere eşlemleyen güdümsüz öğrenme aşamasıdır. Bu şekilde oluşturulan sistemlerde,
her kelime (w) için yoğun, düşük boyutlu (d) ve gerçek bir
vektör (v w ∈ Rd ) öğrenilir ve bu vektör o kelimenin dağıtımlı
temsilini oluşturur. Bu şekilde dağıtımlı kelime temsillerinin
oluşturulmasının faydası bu vektörlerin kelimenin anlambilimsel ve sözdizimsel bilgisini yoğun bir şekilde düşük boyutta
kodlamasıdır. Her bir boyutunun bir öznitelik gibi görülebileceği bu vektörler yüksek sayılardaki kelime gruplarını içlerinde
barındırırlar.
Kelime temsilleri genellikle belirli DDİ problemleri için
ileri beslemeli sinir ağları [1] hiyerarşik modeller [2], [3] ve
özyineli sinir ağları [4], [5] gibi derin öğrenme yöntemleri
içinde kullanıldığı gibi çeşitli alışılagelmiş öznitelik tabanlı
yöntemlerde de [6], [7] kullanılmışlardır. Bir çalışmada [8]
kelime temsilleri aynı anda birden fazla DDİ problemine girdi
olarak verilip temsillerin problemler arasında ortaklaşa öğrenimi sağlanmış ve doğruluk oranlarının arttığı görülmüştür.
Başka bir çalışmada [9] öğrenilen temsillerin anlambilimsel
olarak doğrusal ilişki içinde oldukları görülmüştür. Örneğin
Kral ile Kraliçe vektörlerinin arasındaki fark vektörü Erkek
ile Bayan vektörleri arasındaki fark vektörüne yakındır. Bu
çıkarım ile kelime temsillerinin belirli bir DDİ problemi için
değil ama genel olarak anlambilimsel ve sözdizimsel kalitesini
nicel olarak ölçmek için kelime dörtlülerinden oluşan sorular
hazırlanmıştır. Yeni bir çalışmada, kelime temsillerinin sinir
ağları kullanılarak öğrenilmesinin çok uzun zaman alması
problemine bir çözüm olarak atla-gram modeli geliştirilmiş
[10], [11] ve kelime temsillerinin büyük veritabanlarından çok
hızlı öğrenilmesi sağlanmıştır.
İngilizce dili için sıklıkla kullanılan ve yüksek başarısı
çokça kanıtlanmış kelime temsilleri -bildiğimiz kadarıylaTürkçe için henüz uygulanmamıştır. Çalışmamızda bu eksiği
azaltmak ve DDİ üzerine çalışanların bu konuya ilgisini artırmak amacıyla büyük bir Türkçe veritabanında kelime temsilleri
öğrenilmiştir. Yeni geliştirilen atla-gram modeli kullanılarak
öğrenilen kelime temsillerinin kalitesi, oluşturulan Türkçe soru
kümeleriyle nicel olarak ölçülmüştür. Elde edilen kelime temsil
vektörleri ve oluşturulan soru kümeleri web sitesi üzerinden
paylaşıma açılmıştır 1 .
II.
ATLA-GRAM MODEL İ
Atla-gram modeli [10], [11], cümle içindeki bir kelimeyi
logaritmik-doğrusal sınıflandırıcıya girdi olarak alır ve o kelimenin etrafındaki kelimeleri öngörmeye çalışır. Girdi olarak
1 http://myweb.sabanciuniv.edu/umutsen/research/
verilen kelime bir izdüşüm katmanı ile sürekli bir vektör haline
getirilir ve sınıflandırıcıya verilir. Bu izdüşüm katmanının
parametreleri, kelime temsillerini oluşturur. Matematiksel
olarak göstermek gerekirse, eğer elimizde w1 , w2 , . . . wT şeklinde bir kelime disizi var ise, atla-gram modeli aşağıdaki hedef
fonksiyonunu en-çoklamaktadır:
Φ=
T
1X
T t=1
X
log p(wt+j |wt )
(1)
−c≤j≤c,j6=0
III. bölümde gösterildiği üzere eksi-örnekleme yöntemi
hiyerarşik yumuşak-maksimum yönteminden doğruluk oranı
ve hız olarak daha iyi çalışmaktadır ve sonraki deneyler bu
yöntemle yapılmıştır.
C. Sık Kelimelerin Seyreltilmesi
Burada c verilen bir kelime için öngörülmeye çalışılan
komşu kelime sayısının iki katıdır ve eğitim bağlamının büyüklüğünü temsil etmektedir. c sayısını artırdığımızda doğruluk
oranları daha yüksek vektörler elde edilmesi beklenmektedir,
ancak eğitim süresi uzamaktadır.
Denklem (1)’deki p(wt+j |wt ), yumuşak-maksimum formülasyonunu kullanmaktadır:
exp(y TwO v wI )
p(wO |wI ) = PW
T
w=1 exp(y w v wI )
yöntem, verilen bir girdi ve çıktı kelime ikilisi için sözcük
haznesinden rastgele k adet kelimeyi yanlış çıktı kelimesi
olarak örnekler ve koşullu olasılık formülasyonuna eksili bir
ifadeyle yerleştirir.
(2)
Burada v w ve y w , w kelimesinin girdi ve çıktı temsil
vektörlerini ve W kelime haznesindeki toplam kelime sayısını
göstermektedir. Eğitimden sonra v w vektörü w kelimesinin
temsil vektörü olarak kullanılır. Paydadaki değerin hesaplanması çok uzun zaman aldığı için bu formülasyon ile yapılan
öğrenme elverişsizdir. Bu problemi çözmek için iki farklı
yöntem önerilmiştir:
A. Hiyerarşik Yumuşak-Maksimum
Bu yöntem [3], yumuşak-maksimumun hesapsal olarak etkili bir yaklaşıklamasıdır ve ikili bir ağaçtan oluşmaktadır. Bu
ağaçta, yapraklar kelime haznesindeki kelimelerdir ve yaprak
olmayan düğümlerin de ayrı vektörel temsilleri bulunmaktadır.
Herhangi bir kelimenin (1)’de tanımlanan koşullu olasılığı,
ağacın kökünden çıktı-kelimenin bulunduğu yaprağa kadar her
bir düğüm için vektörel iç çarpım yapılarak ve çarpımsal olarak
birleştirilerek bulunur. Böylece sözcük haznesindeki her bir kelime için W tane ayrı değer bulmak yerine toplamda log2 (W )
tane değer bulunmaktadır, bu da eğitim süresini önemli ölçüde
azaltmaktadır. Bu yöntemin iyi yanlarından bir tanesi her bir
kelimenin sadece bir tane temsil vektörünün bulunmasıdır.
Ağacın yapısı performansı önemli ölçüde etkilemektedir. Bu
bildiride, daha önceki çalışmalarda önerildiği üzere [2], [4],
[11] ikili Huffman ağacı kullanılmıştır. Ayrıntılar referanslarda
bulunabilir.
Oluşturduğumuz veritabanında bazı kelimeler çok sık bulunmaktadır ("ve":10 milyon, "bir":9 milyon). Böyle kelimeler, yüksek bulunma sıklıklarına oranla daha nadir geçen
kelimelerden fazla bilgi vermemektedirler. Başka bir bakış
açısıyla, öğrenme algoritması bir kelimeyi yeterince görmüşse
daha fazla görmesi o kelimenin temsil vektörlerini çok fazla değiştirmeyecektir. Çok sık geçen ve daha nadir geçen
kelimelerin arasındaki dengesizliği gidermek amacıyla daha
önceden önerilen [11] buluşsal şu yöntem kullanılmıştır: her
kelime wi aşağıdaki ihtimal değeriyle orantılı olarak eğitimde
girdi olarak kullanılmamıştır:
s
t
p(wi ) = 1 −
(4)
f (wi )
Burada f (wi ) kelimenin bulunma frekansı ve t, 0.001 olarak
seçtiğimiz bir eşik değerdir. Bu eşik değerin altındaki frekansa
sahip kelimeler seyreltilme kuralına tabi değildir.
III.
D ENEYLER
Kelime temsil vektörlerinin eğitilmesi için 2 farklı metin
veritabanı kullanılmıştır. Bunlardan ilki vikipedi verileri [14],
ikincisi Boğaziçi Üniversitesi’nden paylaşılan haber ve başka
örün sitelerinden toplanılmış arşivlerdir [15]. Vikipedi veritabanı -tablolar ve benzeri "temiz" metin olmayan öğeler
çıkarıldığında- yaklaşık 52 milyon kelime, Boğaziçi-haber
veritabanı 208 milyon ve diğer Boğaziçi veritabanı 270 milyon
kelimeden oluşmaktadırlar.
A. Ön-İşleme
(3)
Öncelikle
veritabanları
noktalama
işaretlerinden
ve metin olarak kabul edilemeyecek kısımlardan
temizlenmiştir. Türkçe’nin zengin morfolojik yapısından
ötürü kelimeleri köklerine ayırmak temsil vektörlerinin
kalitesini etkilemektedir. Bu nedenle veritabanında 1000’den
az sayıda görülmüş kelimeler Zemberek [16] araç takımıyla
kök ve eklerine ayrılmıştır, gerisi olduğu gibi bırakılmıştır.
Ayrıştırılamayan kelimeler yine Zemberek araç takımının
ASCII karakter dönüştürücüsüne verilerek Türkçe olmayan
klavyeden yazılmış kelimelerin dönüştürülmesi sağlanmıştır.
Dönüştürücüden çıkan kelimeler tekrar ayrıştırıcıya verilmiş ve
ayrıştırılamayanlar veritabanında olduğu haliyle bırakılmıştır.
Ayrıştırıcı birden fazla seçenek verdiği durumda en uzun olan
kök tercih edilmiştir ve kelimenin kökten sonraki parçası
tek bir ek olarak alınmıştır (geldiklerinde ⇒ gelmek +
_diklerinde).
Burada wi sözcük haznesinden rastgele seçilmiş bir kelimedir
ve σ(x) = 1/(1 + exp(−x)) sigmoid fonksiyonudur. Bu
Kelimeler bu şekilde dönüştürüldükten ve hepsi küçük
harfe çevrildikten sonra veritabanında 6’dan az sayıda görülen
kelimeler çıkarılmıştır. En son elde ettiğimiz eğitim verisinde
B. Eksi Örnekleme
Eksi-örnekleme [11], gürültü karşıtsal kestirim yönteminin
[12], [13] basitleştirilmiş halidir ve yumuşak maksimumdaki
koşullu olasılık değerini (log p(wo |wI )) aşağıdaki formülle
değiştirmektedir:
log σ(y Two v wI )
+
k
X
log σ(−y Twi v wI )
i=1
Tablo I: Anlambilimsel analoji soru kümeleri
Küme İsmi
Soru Sayısı
Örnek
Akrabalık
Başkentler
Eş-anlamlı
İlçeler
Para birimleri
Zıt anlamlı
132
2970
3422
6466
156
2756
(kız → oğul) ⇔ (gelin → damat)
(Tokyo → Japonya) ⇔ (Brüksel → Belçika)
(sözcük → kelime) ⇔ (ırmak → nehir)
(Konak → İzmir) ⇔ (Beyoğlu → İstanbul)
(ABD → dolar) ⇔ (Hindistan → rupi)
(barış → savaş) ⇔ (büyük → küçük)
Tablo III: Grup soru kümeleri
Ülkeler
Tablo II: Sözdizimsel analoji soru kümeleri
Küme İsmi
Soru Sayısı
Örnek
Çoğullar
Olumsuzlar
Geçmiş Zaman
Geniş Zaman
4830
756
3540
1560
(olay → olaylar) ⇔ (işlem → işlemler)
(sever → sevmez) ⇔ (döner → dönmez)
(bulmak → buldu) ⇔ (istemek → istedi)
(etkilemek → etkiler) ⇔ (yaşamak → yaşar)
yaklaşık 530 milyon kelime vardır ve kelime haznesindeki
kelime sayısı -25 bini ek olmak üzere- yaklaşık 380 bindir.
B. Nicel Doğruluk Oranları
Birimler
v D̂ vektörü bulunduktan sonra kelime haznesindeki, bu vektöre
-kosinüs uzaklığı dikkate alındığında- en yakın temsil vektörüne sahip sözcük (A, B ve C hariç) cevap olarak alınır:
v Tw v D̂
D̂ = arg max
w kv w k v D̂
(6)
Analojik çerçevede anlambilimsel ve sözdizimsel doğruluk
oranlarını ölçmek için çeşitli soru kümeleri hazırladık. Bu soru
kümelerinin tanımları ve çeşitli örnekler Tablo-I ve II’de verilmiştir. Bu şekilde toplamda 26588 farklı soru elde edilmiştir.
İkinci test kategorisi, verilen 6 elemanlı bir kelime
kümesinden kümeye ait olmayan kelimeyi bulmak üzerinedir.
Kümeye ait olmayan kelime bulunurken, tüm kelimelerin temsil vektörlerinin ortalaması alınır ve öklit uzayında ortalama
vektöre -kosinüs uzaklığı dikkate alındığında- en uzak olan
vektöre sahip kelime seçilir. Soruları zorlaştırmak için anlambilimsel olarak birbirine yakın kelimelerden kümeler oluşturulmuştur. Örneğin ülke isimleri kıtalara göre gruplanmıştır
ve verilen bir ülke setinde diğerleriyle aynı kıtada bulunmayan ülkenin bulunması istenmiştir (ör. İngiltere, Fransa,
Hollanda, İrlanda, İsviçre, Cezayir) Bu soru kümelerinin türleri Tablo-III’te verilmiştir. Bu şekilde toplamda 2172 soru elde
edilmiştir.
C. Sonuçlar
1) Yöntem Karşılaştırması: Öncelikle, oluşturulan soru
bankaları ile eksi-örnekleme ve hiyerarşik maksimum yöntemleri karşılaştırılmıştır. Eksi-örneklemede, her bir kelime için
Hayvanlar
İller
1029
476
31
198
438
Asya
Afrika
Doğu Avrupa
Kuzey Avrupa
Güney Avrupa
Batı Avrupa
Güney Amerika
Kuzey Amerika
ağırlık
uzunluk
sıcaklık
alan
basınç
hacim
zaman
bilg. hafızası
para
meyve ağ.
diğer ağ.
kuşlar
balıklar
sürüngenler
memeliler
Marmara
Ege
Akdeniz
Karadeniz
Doğu Anadolu
Güney Doğu Anadolu
İç Anadolu
Tablo IV: Doğruluk oranları - hiyerarşik maksimum ve eksiörnekleme
Grup
Anlambil.
Sözdiz.
Genel
58.83
Süre
Çıkarılan kelime temsillerinin kalitesini nicel olarak
ölçmek için farklı iki kategoride doğrusal test yapılmıştır.
Bunlardan ilki analojik ilişki kurmak üzerinedir ve atla-gram
modelinin tanıtıldığı çalışmada ingilizce dili için yapılmıştır
[10], [11]. Bu kategoride her bir test sorusu 4 kelimeden
oluşmaktadır ve "A ile B arasındaki ilişki C ile ne arasında
vardır?" şeklindedir. Bu şekildeki soruları cevaplandırmak için
temsil vektörleri arasındaki doğrusal ilişkiye bakılmıştır:
(5)
v D̂ = v B − v A + v C
Ağaçlar
Hiyerarşik-maks.
İlk-1
İlk-3
23.02
28.67
25.29
35.77
43.58
38.91
İlk-10
Grup
Eksi-örnekleme
İlk-1
İlk-3
İlk-10
49.33
58.75
53.11
57.50
29.69
42.25
34.74
56.48
72.78
63.03
642 dakika
43.18
58.97
49.52
459 dakika
Tablo V: Doğruluk oranları - ekli ve eksiz veritabanları
Anlambil.
Sözdiz.
Genel
Süre
Grup
Eksiz
İlk-1
İlk-3
İlk-10
Grup
İlk-1
İlk-3
İlk-10
61.00
35.40
43.17
38.52
60.80
74.68
66.38
57.50
29.69
42.25
34.74
43.18
58.97
49.52
56.48
72.78
63.03
48.42
60.21
53.16
453 dakika
Ekli
459 dakika
veritabanından 5 yanlış kelime rastgele seçilmiştir (Denklem(3)’te k = 5). Her iki yöntem için de eğitim bağlamının
büyüklüğü 5 seçilmiştir (Denklem-(1)’de c = 5). Vektör boyutları 200 alınmıştır. Bu şekilde yapılan deneylerin sonuçları
Tablo-IV’te verilmiştir. Eğer algoritmaya verilen herhangi bir
sorunun cevabı ilk n tercih içinde varsa (n ∈ {1, 3, 10}) "İlkn" kategorisinde doğru cevap olarak sayılmıştır.
Sonuçlara baktığımızda, eksi-örnekleme yönteminin
hiyerarşik-maksimum yöntemini hem hız olarak hem de
doğruluk oranı olarak geçtiğini görmekteyiz. Çıkarılacak
başka bir sonuç da anlambilimsel doğruluk oranlarının
sözdizimsel doğruluk oranlarından daha düşük olduğudur.
Bunun olası bir sebebi, sözdizimsel sorularda çoğunlukla
yüklem bulunması ve yüklem sayılarının veritabanında
genellikle fazla olmasıdır. Ancak "eş-anlamlı" ve "zıt-anlamlı"
gibi kelime sorularının -temsili vektörlerin doğrusal ilişkileri
açısından- zorluğu da yadsınmamalıdır. Sonraki deneylerin
hepsi eksi-örnekleme yöntemiyle yapılmıştır.
2) Eklerin Çıkarılması: Kelime temsillerinin kalitelerini
ölçerken kullanılan sorularda ek olan kelimeler bulunmadığı
için veritabanından eklerin çıkarılması daha temiz veritabanı oluşturacağından doğruluk oranını artırması beklenmektedir. Bu amaçla ekler veritabanından çıkarılarak karşılaştırma
yapılmıştır ve sonuçlar Tablo-V’te verilmiştir. Aşağıda gösterilen deneyler eklerin çıkarıldığı veritabanından yapılmıştır.
Sozdizimsel Dogruluk Oranlari
Anlambilimsel Dogruluk Oranlari
Toplam Dogruluk Oranlari
70
65
80
65
60
75
60
55
55
50
70
50
45
Dogruluk Orani
Dogruluk Orani
Dogruluk Orani
65
45
40
40
35
35
30
60
55
50
45
30
25
100
ilk−1
ilk−3
ilk−5
ilk−10
grup
25
200
300
400
500
600
40
ilk−1
ilk−3
ilk−5
ilk−10
20
100
700
35
200
300
400
500
600
700
30
100
(a) Toplam
200
300
400
500
600
700
Vektor Boyutu
Vektor Boyutu
Vektor Boyutu
ilk−1
ilk−3
ilk−5
ilk−10
(b) Anlambilimsel
(c) Sözdizimsel
Şekil 1: Doğruluk oranlarının vektör boyutuna göre değişimi.
Tablo VI: Vektörlerinin boyutlarının eğitim sürelerine etkisi
Boyut
100
200
300
400
500
600
700
Süre (dakika)
299
453
539
735
899
994
1171
[5]
[6]
[7]
3) Vektör Boyutlarının Etkisi: Bu bölümde temsil vektörlerinin boyutunun anlambilimsel ve sözdizimsel doğruluk
oranlarına etkisi incelenmiştir. Bu amaçla eksi-örnekleme yöntemiyle farklı vektör boyutlarında temsiller öğrenilmiştir. Diğer
parametreler önceki deneylerle aynı alınmıştır. Vektör boyutunun doğruluk oranlarına etkisi Şekil-1’de gösterilmiştir.
Bu sonuçlara bakıldığında, vektör boyutlarındaki değişimin
genel olarak doğruluk oranlarını etkilediği görülmüştür. Bu
etki anlambilimsel sorularla yapılan testte daha fazladır. Vektör
boyutlarının eğitim sürelerine etkisi Tablo-VI’da verilmiştir.
IV.
S ONUÇ VE G ELECEK Ç ALI ŞMALAR
Bu bildiride, büyük bir Türkçe veritabanı üzerinde kelime
temsil vektörleri öğrenilmiştir. Oluşturulan anlambilimsel ve
sözdizimsel kelime ilişkilerinden oluşan soru kümeleri ile
vektörlerin doğrusal başarısı ölçülmüştür. İngilizcede başarılı
bir şekilde kullanılan kelime temsilleri ve derin öğrenmenin
Türkçe üzerine çalışmaları teşvik etmek amacıyla bu bildiriyi
yayınladık. Herhangi bir DDİ problemini kelime temsillerini
kullanarak çözen bir sistemin temsillerinin ilklendirilmesi için
bu bildirideki yöntem kullanılabilir. Ayrıca Türkçe’nin zengin
morfolojik yapısını dikkate alan bir model [17] geliştirilmesi,
kelime temsillerinin başarımını önemli ölçüde artıracaktır.
[8]
[9]
[10]
[11]
[12]
[13]
[14]
[15]
K AYNAKÇA
[1]
Yoshua Bengio, Réjean Ducharme, Pascal Vincent, and Christian Janvin,
“A neural probabilistic language model,” J. Mach. Learn. Res., vol. 3,
pp. 1137–1155, Mar. 2003.
[2] Andriy Mnih and Geoffrey Hinton, “A Scalable Hierarchical Distributed
Language Model,” in Advances in Neural Information Processing
Systems, 2008, vol. 21.
[3] Frederic Morin and Yoshua Bengio, “Hierarchical probabilistic neural
network language model,” in AISTATS’05, 2005, pp. 246–252.
[4] Tomas Mikolov, Stefan Kombrink, Lukas Burget, Jan Cernocký, and
Sanjeev Khudanpur, “Extensions of recurrent neural network language
model.,” in ICASSP. 2011, pp. 5528–5531, IEEE.
[16]
[17]
Tomas Mikolov, Martin Karafiát, Lukas Burget, Jan Cernocký, and
Sanjeev Khudanpur, “Recurrent neural network based language model.,”
in INTERSPEECH, Takao Kobayashi, Keikichi Hirose, and Satoshi
Nakamura, Eds. 2010, pp. 1045–1048, ISCA.
Terry Koo, Xavier Carreras, and Michael Collins, “Simple semisupervised dependency parsing,” in In Proc. ACL/HLT, 2008.
Lev Ratinov and Dan Roth, “Design challenges and misconceptions
in named entity recognition,” in Proceedings of the Thirteenth Conference on Computational Natural Language Learning, Stroudsburg, PA,
USA, 2009, CoNLL ’09, pp. 147–155, Association for Computational
Linguistics.
Ronan Collobert and Jason Weston, “A unified architecture for natural
language processing: Deep neural networks with multitask learning,” in
Proceedings of the 25th International Conference on Machine Learning,
New York, NY, USA, 2008, ICML ’08, pp. 160–167, ACM.
Tomas Mikolov, Wen tau Yih, and Geoffrey Zweig, “Linguistic
regularities in continuous space word representations.,” in HLT-NAACL.
2013, pp. 746–751, The Association for Computational Linguistics.
Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean, “Efficient
estimation of word representations in vector space,” CoRR, vol.
abs/1301.3781, 2013.
Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S. Corrado, and
Jeffrey Dean, “Distributed representations of words and phrases and
their compositionality.,” in NIPS, Christopher J. C. Burges, Léon
Bottou, Zoubin Ghahramani, and Kilian Q. Weinberger, Eds., 2013,
pp. 3111–3119.
Michael Gutmann and Aapo Hyvärinen, “Noise-contrastive estimation
of unnormalized statistical models, with applications to natural image
statistics,” Journal of Machine Learning Research, vol. 13, pp. 307–361,
2012.
A. Mnih and Y. W. Teh, “A fast and simple algorithm for training neural
probabilistic language models,” in Proceedings of the International
Conference on Machine Learning, 2012.
“trwikimedia
dump
progress
on
20131221,”
http://dumps.wikimedia.org/trwikimedia/20131221/,
Accessed:
2013-12-25.
Haşim Sak, Tunga Güngör, and Murat Saraçlar, “Turkish language
resources: Morphological parser, morphological disambiguator and web
corpus,” in GoTAL 2008. 2008, vol. 5221 of LNCS, pp. 417–427,
Springer.
Ahmet Afsin Akin and Mehmet Dundar Akin , “Zemberek, an
open source nlp framework for turkic languages,” Yeni versiyon:
https://github.com/ahmetaa/zemberek-nlp, 2007.
Minh-Thang Luong, Richard Socher, and Christopher D. Manning,
“Better word representations with recursive neural networks for morphology,” in CoNLL, Sofia, Bulgaria, 2013.

Benzer belgeler